Extraction automatique de la liasse fiscale
du PDF aux données structurées.
Chaque liasse fiscale, c'est 15 à 25 pages de grilles denses. Les experts-comptables y passent 30 à 60 minutes par dossier, à ressaisir des chiffres déjà imprimés. Holofin extrait l'ensemble des formulaires CERFA 2033 et 2050 avec plus de 97 % de précision, et trace chaque valeur jusqu'à sa zone source dans le PDF.
Demander une démo
Qu'est-ce que la liasse fiscale ?
La liasse fiscale est l'ensemble des documents comptables et fiscaux qu'une entreprise française doit transmettre chaque année à l'administration fiscale, en annexe de sa déclaration de résultat. Elle constitue la photographie officielle de la santé financière de l'entreprise : bilan, compte de résultat, tableau des immobilisations, état des provisions, détermination du résultat fiscal.
Concrètement, il s'agit d'un jeu de formulaires CERFA normalisés par la Direction Générale des Finances Publiques (DGFiP). Deux régimes coexistent, chacun avec sa propre série de formulaires :
Régime Simplifié d'Imposition (RSI)
Pour les entreprises dont le chiffre d'affaires ne dépasse pas les seuils RSI (environ 840 000 euros pour les ventes, 254 000 euros pour les services).
- CERFA 2033-A : Bilan simplifié
- CERFA 2033-B : Compte de résultat simplifié
- CERFA 2033-C : Immobilisations, amortissements, plus-values
- CERFA 2033-D à 2033-G : Provisions, déficits, filiales
Régime Normal
Pour les entreprises dépassant les seuils RSI, ou celles qui optent volontairement pour le régime normal.
- CERFA 2050 : Bilan actif
- CERFA 2051 : Bilan passif
- CERFA 2052 / 2053 : Compte de résultat
- CERFA 2054 à 2059 : Immobilisations, provisions, filiales, affectation
Chaque formulaire CERFA existe en plusieurs millésimes : la version du formulaire change chaque année pour refléter les évolutions législatives. Le millésime 2025, par exemple, est utilisé pour déclarer l'exercice clos en 2024. La mise en page, l'ordre des champs et même les codes de ligne peuvent varier d'un millésime à l'autre. C'est l'un des défis majeurs de l'extraction automatique.
Chaque case du formulaire est identifiée par un code de champ. Dans le régime simplifié, les codes sont numériques (010, 012, 014...), tandis que dans le régime normal, ils sont alphabétiques (AA, AB, AC...). Ces codes sont la clé de voûte de toute extraction structurée : ils permettent d'identifier sans ambiguïté chaque donnée, quel que soit le millésime ou la mise en page.
La liasse est typiquement produite par le logiciel comptable de l'entreprise (Sage, Cegid, EBP, Quadratus) ou par l'expert-comptable via sa solution de production (ACD, Cegid Expert). Elle est transmise par voie électronique à la DGFiP via la procédure EDI-TDFC. Mais en amont de cette transmission, elle circule entre l'entreprise, l'expert-comptable, les banques et les investisseurs, souvent sous forme de PDF, et c'est là que le besoin d'extraction se manifeste.
Pourquoi l'extraction automatique
est devenue indispensable.
Quatre scénarios où la ressaisie manuelle ne tient plus. Un cabinet avec 200 clients, c'est 200 liasses minimum. Une fintech qui traite 1 500 dossiers de crédit par mois, c'est potentiellement 750 heures de saisie. Chaque mois.
Analyse crédit et scoring
Les fintechs et les banques analysent la liasse fiscale pour évaluer la solvabilité d'un emprunteur. Chiffre d'affaires, endettement net, capacité d'autofinancement : tout doit être extrait en quelques secondes, pas en quelques heures. L'extraction automatique permet de scorer un dossier de crédit en temps réel.
Consolidation comptable
Un expert-comptable qui gère 200 dossiers clients doit chaque année consolider, comparer et analyser les liasses. Recopier manuellement les chiffres du bilan et du compte de résultat dans un tableur, c'est 30 minutes par liasse, soit plus de 100 heures de travail à faible valeur ajoutée.
L'extraction en liasse fiscale Excel automatisée libère ce temps.
200 clients × 30 min = 100 heures/an de ressaisie. Ramenées à quelques minutes avec l'extraction automatique.
Audit et conformité
Les commissaires aux comptes et auditeurs doivent vérifier la cohérence de la liasse avec les écritures comptables. L'extraction automatique leur fournit des données structurées qu'ils peuvent immédiatement croiser avec le fichier des écritures comptables (FEC), sans passer par une phase de numérisation manuelle.
Les défis de l'extraction
de la liasse fiscale.
Extraire les données d'une liasse fiscale n'est pas un simple problème d'OCR. C'est un problème de compréhension de mise en page, de gestion de variantes et de validation croisée.
Variations entre millésimes
Chaque année, la DGFiP publie de nouveaux millésimes. Les colonnes se déplacent, des champs apparaissent ou disparaissent, les marges changent. Un extracteur entraîné sur le millésime 2023 peut échouer sur le millésime 2025 sans mise à jour.
Qualité de numérisation variable
Les liasses arrivent sous toutes les formes : PDF natifs générés par le logiciel comptable, scans à 150 dpi avec des pages de travers, photos prises au smartphone. Chaque niveau de qualité impose des traitements différents (deskew, denoising, binarisation) avant même l'OCR.
Grilles denses et champs minuscules
Un CERFA 2033-A contient plus de 60 cases réparties dans une grille serrée. Les montants sont imprimés en police 7 ou 8 points. Une erreur d'alignement de quelques pixels peut faire basculer une valeur dans la mauvaise ligne, et fausser tout le bilan.
Champs manuscrits et annotations
Certaines liasses sont partiellement remplies à la main : mentions complémentaires, corrections au stylo, paraphes dans les marges. L'extracteur doit distinguer les données imprimées des annotations manuscrites et ne pas confondre un paraphe avec un montant.
Le problème du PDF
Le PDF est un format de présentation, pas un format de données. Deux liasses visuellement identiques peuvent avoir des structures internes radicalement différentes selon le logiciel qui les a générées. L'extraction doit fonctionner indépendamment du producteur : Sage, Cegid, EBP, ACD, ou un simple scan.
Comment Holofin extrait
la liasse fiscale.
Quatre étapes, du PDF brut aux données structurées et validées. Chaque valeur est traçable jusqu'à sa zone source dans le document original.
Classification
Le module HoloRecall identifie chaque page grâce à des empreintes visuelles. Il distingue un CERFA 2033-A d'un 2033-B, et un millésime 2023 d'un 2025, en moins de 200 ms par page.
Segmentation
Une liasse de 15 à 25 pages est découpée automatiquement en formulaires individuels (2033-A, 2033-B, 2033-C, etc.). Chaque segment est traité indépendamment, en parallèle.
Extraction
Un modèle visuel reconnaît la structure de la grille CERFA et mappe chaque valeur à son code de champ. Le résultat est un JSON structuré avec valeur, libellé et coordonnées source.
Exemple de sortie JSON pour un CERFA 2033-A :
{
"form": "CERFA_2033_A",
"millesime": 2025,
"exercice": {"debut": "2024-01-01", "fin": "2024-12-31"},
"fields": {
"010": {"value": 50000, "label": "Capital social"},
"012": {"value": 125000, "label": "Immobilisations corporelles - Brut"},
"014": {"value": 45000, "label": "Amortissements"},
"016": {"value": 80000, "label": "Immobilisations corporelles - Net"},
"070": {"value": 312500, "label": "Total actif"},
"150": {"value": 312500, "label": "Total passif"}
}
}Validation
Les données extraites passent par le moteur de validation Hololang. Il vérifie :
- Équilibre du bilan: total actif = total passif, pour chaque formulaire.
- Cohérence du résultat: le résultat net du compte de résultat doit correspondre au résultat inscrit au passif du bilan.
- Totaux de colonnes: la somme des lignes doit correspondre au total affiché.
Équation d'équilibre du bilan :
Millésimes supportés
| Formulaire | Millésimes supportés |
|---|---|
| CERFA 2033-A, B, C, D, E, F, G | 2023, 2024, 2025 |
| CERFA 2050, 2051, 2052, 2053 | 2023, 2024, 2025 |
| CERFA 2054, 2055, 2056, 2057, 2058, 2059 | 2023, 2024, 2025 |
Les nouveaux millésimes sont ajoutés dans les semaines qui suivent leur publication par la DGFiP. Contactez-nous si vous avez besoin d'un millésime antérieur.
Questions fréquentes
sur l'extraction de la liasse fiscale.
Oui. Holofin combine un moteur OCR haute résolution avec des modèles de reconnaissance de mise en page entraînés spécifiquement sur les formulaires CERFA. Les liasses scannées à 200 dpi ou plus sont traitées avec une précision supérieure à 95 %. Pour les scans de meilleure qualité (300 dpi), la précision dépasse 97 %. Les images redressées, le bruit éliminé et le contraste ajusté sont des pré-traitements appliqués automatiquement.
Sur les liasses fiscales générées numériquement (PDF natifs issus de logiciels comptables comme Sage ou Cegid), la précision champ par champ dépasse 99 %. Sur les scans de bonne qualité, elle est supérieure à 97 %. Chaque valeur extraite est accompagnée d'un indice de confiance et d'une bounding box pointant vers la zone source dans le document. Les champs dont la confiance est inférieure au seuil configuré sont signalés pour revue manuelle.
Oui. Holofin extrait les deux régimes : le régime simplifié d'imposition (RSI) avec les formulaires CERFA 2033-A à 2033-G, et le régime normal avec les formulaires CERFA 2050 à 2059. Le système identifie automatiquement le type de formulaire et le millésime, puis applique le schéma d'extraction correspondant. Aucune configuration manuelle n'est requise.
Holofin est hébergé en Europe (infrastructure OVHcloud, France). Les documents sont traités en mémoire et ne sont pas conservés après extraction sauf demande explicite. Les données ne sont jamais utilisées pour entraîner des modèles tiers. Un DPA (Data Processing Agreement) est disponible sur demande. L'architecture est conforme aux exigences de la norme ISO 27001.
Oui. Le moteur de validation Hololang vérifie la cohérence arithmétique de chaque formulaire : totaux d'actif et de passif au bilan, résultat net au compte de résultat. Les écarts sont signalés avec le détail du calcul attendu et la déviation constatée, ce qui permet un contrôle humain ciblé.
Les données sont disponibles en JSON structuré (via API) ou en Excel/CSV (téléchargement ou envoi automatisé). Le format JSON inclut pour chaque champ : la valeur, le libellé, le code CERFA, la page source et les coordonnées de la bounding box. Le format Excel propose un onglet par formulaire avec les codes de champ en en-tête de colonne.
Si vous cherchez à convertir une liasse fiscale PDF en Excel, Holofin le fait automatiquement. Chaque formulaire CERFA est exporté dans un onglet séparé du fichier Excel, avec les codes de champ en en-tête de colonne et les libellés en deuxième ligne. C'est plus fiable qu'un copier-coller manuel et cela fonctionne même sur les liasses scannées. Vous pouvez aussi télécharger un fichier CSV plat si votre workflow l'exige.
Testez l'extraction sur
votre liasse fiscale.
Envoyez-nous vos documents les plus complexes. Voyez comment ils ressortent de l'autre côté.