Table des matières
Chez NeoLegal, notre objectif est simple : faire gagner du temps aux avocats et experts-comptables en automatisant les tâches les plus répétitives et les plus sujettes à erreur, comme la préparation des documents liés aux assemblées générales ordinaires annuelles (AGOA).
Un point de friction récurrent ? La saisie des données issues des liasses fiscales, notamment les formulaires 2050, 2033 ou encore 2072. Ce travail est fastidieux, souvent manuel, et chaque erreur peut avoir des conséquences juridiques ou fiscales.
La technologie d'analyse des liasses fiscales de NeoLegal: performante, mais avec des limites
NeoLegal a donc conçu une technologie propriétaire d’extraction automatique des données issues des liasses fiscales. Une fois les chiffres extraits, ils sont automatiquement injectés dans les documents juridiques nécessaires : rapport de gestion, PV d’AG, déclaration de non-condamnation, etc.
Notre outil est robuste et supporte plusieurs formats de liasses (2050, 2033, 2072, 2139, 2144) en PDF contenant du texte. Vous pouvez voir ici une démo de sa capacité à générer toute la documentation nécessaire à la tenue de l’AGOA à partir de la seule liasse fiscale, en moins de 5 minutes.
Mais il présente une limite majeure : il ne peut pas traiter les liasses sous forme d’images ou de scans, qui sont de plus en plus fréquentes.
Pourquoi ? Peut être parce que certains éditeurs de logiciels comptables n’apprécient pas que des concurrents puissent exploiter ces données, et cherchent à en limiter l’exploitation automatique. Résultat : nos utilisateurs doivent parfois revenir à la saisie manuelle.
l’API OCR de DataLeon : une solution complémentaire prometteuse
Dans cette logique d’amélioration continue, nous avons décidé de tester une alternative externe : l’API OCR de DataLeon, spécialisée dans la lecture de liasses fiscales scannées.
Ce que fait DataLeon (et que notre solution ne fait pas encore)
L’approche de DataLeon repose sur une idée simple et efficace : considérer chaque liasse comme une image, même lorsqu’elle contient du texte. À partir de là, l’API effectue une reconnaissance optique de caractères (OCR) sur l’ensemble du document. La stratégie de DataLeon offre plusieurs avantages :
-
Meilleure robustesse face aux formats d’entrée variés : qu’il s’agisse de scans, d’exports PDF d’origine douteuse ou de fichiers partiellement corrompus, l’API parvient à extraire les données.
-
Tests de cohérence des données extraites : sur une liasse 2050, DataLeon réalise jusqu’à 74 vérifications de cohérence automatiques (présence de toutes les pages, cohérence des totaux, etc.) ; sur une 2033, elle en fait 36. Cela permet d’alerter l’utilisateur sur les incohérences potentielles, et de qualifier la fiabilité de l’extraction.
Des résultats convaincants sur le terrain
Lors de nos tests, nous avons soumis à l’API plusieurs liasses posant problème à notre solution actuelle. Dans la majorité des cas, DataLeon a réussi là où notre technologie échouait. Son approche OCR systématique permet de franchir l’obstacle des fichiers scannés, qui bloquent aujourd’hui nos utilisateurs.
Mais tout n’est pas parfait : les limites constatées
Comme tout outil, l’API DataLeon a ses points faibles :
-
- Un temps de traitement élevé
Comptez 2 minutes 30 en moyenne pour analyser une liasse. Contrairement à notre système en temps réel, cela imposerait un traitement en tâche de fond, et donc une adaptation de nos interfaces utilisateurs. - Des tests de cohérence très utiles, en dépit des faux-positifs
Aucun document testé n’a réussi 100 % des tests validations. En moyenne, 5 % des contrôles échouent, parfois à raison, parfois à tort, ce qui rend difficile la certification absolue des données extraites, mais permet d’attirer l’attention de l’utilisateur sur de potentielles anomalies. - Des formats encore limités
À ce jour, seules les liasses 2050 et 2033 sont prises en charge. Les 2072 ou autres types ne sont pas encore supportés, ce qui limite l’usage pour certains de nos clients. - Un coût à anticiper
L’abonnement mensuel démarre à 50 €, avec un coût unitaire de 0,75 € par liasse (jusqu’à 30 pages). Un coût raisonnable au regard du service rendu, mais qui reste à intégrer dans l’offre globale.
- Un temps de traitement élevé
Une complémentarité évidente pour les utilisateurs de NeoLegal
En dépit de ces limites, notre conclusion est claire : l’API DataLeon représente un excellent complément à notre technologie actuelle. Là où nos algorithmes atteignent leurs limites, DataLeon prend le relais.
Nous envisageons donc d’intégrer cette solution en option, pour traiter les cas complexes (liasses scannées, non exploitables en l’état). Ce sera une avancée majeure pour nos utilisateurs, qui n’auront plus à ressaisir manuellement les chiffres, même sur les fichiers les plus problématiques.
Conclusion : innover pour rester utile
Chez NeoLegal, nous croyons que l’innovation n’a de sens que si elle simplifie réellement la vie de nos utilisateurs. Tester, comparer, intégrer des solutions tierces si elles sont meilleures : c’est cette logique pragmatique et orientée terrain qui guide notre développement.
L’intégration de DataLeon serait une excellente manière de continuer à offrir à nos clients avocats et experts-comptables, l’assistant digital le plus intelligent et le plus fiable possible.