Extraction automatique du CERFA 2033
bilan simplifié en données structurées
Vous recevez un PDF. Dedans, 60 cases minuscules réparties dans une grille serrée. Vous savez que les chiffres sont là (capital social, immobilisations, résultat net), mais les extraire proprement, c'est une autre histoire. Holofin lit les formulaires 2033-A, 2033-B et 2033-C en moins de 30 secondes, quel que soit le millésime.
Demander une démoFormulaire officiel : CERFA 2033-SD sur impots.gouv.fr
septies A du Code général des impôts)
– Provisions
Qu'est-ce que le CERFA 2033 ?
Si votre entreprise est au régime réel simplifié (RSI), le 2033 est votre liasse fiscale. C'est aussi le formulaire de tous les loueurs en meuble non professionnels (LMNP) qui déclarent au réel. Autrement dit : des millions de formulaires déposés chaque année en France.
Le 2033 se décompose en sept sous-formulaires. Chacun couvre un aspect des comptes annuels :
Actif et passif avec colonnes Brut, Amortissements/Provisions, Net. Codes 010 à 110
Produits et charges d'exploitation, résultat courant, résultat net. Codes 210 à 370
Détail des immobilisations, amortissements pratiqués, plus et moins-values de cession.
Provisions inscrites au bilan, mouvements de l'exercice.
Base de calcul de la contribution sur la valeur ajoutée des entreprises.
Identité des associés ou actionnaires, montant des participations.
Liste des filiales avec pourcentage de détention et valeur comptable.
Chaque case porte un code à trois chiffres (010, 012, 014...). L'actif du bilan se lit en trois colonnes : Brut, Amortissements, Net. Le passif tient sur une seule colonne.
Chaque année, la DGFiP publie un nouveau millésime. Celui de 2025 correspond au Cerfa n°15948. Des champs bougent, des codes changent, la mise en page évolue. Les outils à base de templates fixes cassent à chaque nouveau millésime.
Pourquoi l'OCR classique
échoue sur le CERFA 2033.
Vous avez testé un outil OCR générique sur un 2033. Ça n'a pas marché. Voici pourquoi.
Grille dense à champs minuscules
60 codes de champs sur une seule page. Des cellules de quelques millimètres de haut. Un OCR générique confond les lignes, mélange les colonnes, perd des valeurs entières. Sur un scan en basse résolution, c'est pire.
Changements entre millésimes
Première cause d'échec des outils à base de templates. Chaque année, la DGFiP déplace des champs, change des codes, ajoute ou supprime des lignes.
Votre template 2023 casse sur le millésime 2025. Silencieusement. Vous ne le voyez pas tout de suite.
Contrairement aux templates fixes, Holofin utilise des modèles de vision qui comprennent la structure du formulaire.
Colonnes Brut / Amortissements / Net
L'actif du bilan : trois colonnes alignées verticalement. Les outils OCR fusionnent les valeurs Brut et Amortissements, ou assignent le Net à la mauvaise ligne. Le résultat a l'air correct. Il ne l'est pas.
Valeurs négatives et conventions de signe
Un montant négatif entre parenthèses chez Sage. Un signe moins chez EBP. Du rouge chez Cegid. Certains logiciels inversent le sens débit/crédit. Un OCR naïf produit des signes erronés, et vos ratios partent en vrille.
Qualité variable des documents
Le cabinet reçoit un beau PDF natif depuis Cegid. Le propriétaire LMNP envoie une photo prise au smartphone, de travers, avec le doigt dans un coin. Même formulaire, qualité radicalement différente. Votre outil doit gérer les deux.
Comment Holofin extrait
le CERFA 2033.
Cinq étapes. Du PDF brut au JSON validé, avec traçabilité sur chaque valeur.
Classification
Le PDF arrive. Notre classifieur regarde la structure visuelle de chaque page, pas le texte, la mise en page. Il identifie qu'il s'agit d'un 2033-A, pas d'un 2033-B. Il détecte le millésime 2025 vs 2023.
Segmentation
Votre liasse fait 15 pages. Dedans : du 2033-A, du 2033-B, du 2033-C, un courrier d'accompagnement, une annexe libre. Le segmenteur découpe tout ça en blocs indépendants. Les pages non pertinentes sont écartées.
Extraction
Un modèle de vision lit la grille du formulaire, repère les en-têtes de colonnes et identifie les codes de champs. Les valeurs OCR sont rattachées aux codes identifiés. Le résultat : un JSON où chaque montant est lié à son code réglementaire.
Chaque extraction produit un JSON structuré :
{
"028": {"value": 60571, "label": "Immobilisations corporelles (Brut)"},
"030": {"value": 34551, "label": "Immobilisations corporelles (Amortissements)"},
"028_net_n": {"value": 26024, "label": "Immobilisations corporelles (Net N)"},
"028_net_n1": {"value": 36551, "label": "Immobilisations corporelles (Net N-1)"},
"044": {"value": 62425, "label": "Total I (Brut)"},
"048": {"value": 34551, "label": "Total I (Amortissements)"},
"044_net_n": {"value": 27874, "label": "Total I (Net N)"},
"110": {"value": 63663, "label": "Total général actif (Brut)"},
"110_net_n": {"value": 29112, "label": "Total général actif (Net N)"},
"120": {"value": 5000, "label": "Capital social (Net)"},
"136": {"value": -4930, "label": "Résultat de l'exercice (Net)"},
"142": {"value": -345, "label": "Total I capitaux propres (Net)"},
"156": {"value": 8015, "label": "Emprunts (Net)"},
"180": {"value": 29112, "label": "Total général passif (Net)"},
"company_name": "EURL ATOUS PORT FITNESS",
"company_siret": "87924425900013",
"fiscal_year_end_n": "31/12/2023",
"fiscal_year_end_n1": "31/12/2022"
}Validation
Les données passent par un jeu de validateurs. Si quelque chose ne colle pas, vous le savez immédiatement :
- Équilibre du bilan : le total de l'actif net doit être égal au total du passif, pour l'exercice N et N-1.
- Cohérence des colonnes : sur chaque ligne de l'actif, Net = Brut − Amortissements. Une incohérence signale une erreur d'extraction.
- Somme des postes : le total général de l'actif doit être la somme de tous les postes individuels (codes 010 à 092).
Formules de validation :
Millésimes supportés
Les trois derniers millésimes sont toujours disponibles. Le nouveau millésime est ajouté sous 48h après publication par la DGFiP.
| Formulaire | Millésimes | Référence Cerfa |
|---|---|---|
| CERFA 2033-A | 2023, 2024, 2025 | n°15948 |
| CERFA 2033-B | 2023, 2024, 2025 | n°15949 |
| CERFA 2033-C | 2023, 2024, 2025 | n°15950 |
Questions fréquentes
sur l'extraction du CERFA 2033.
Oui. PDF natif depuis Cegid, scan depuis un copieur, photo prise au smartphone. Holofin traite tout. Le pipeline combine OCR haute résolution et modèles de vision pour lire les données même sur des scans dégradés. Documents pliés, de travers, en basse résolution : la précision reste supérieure à 95 % même à 150 DPI.
Oui. Holofin identifie et extrait les trois formulaires principaux : 2033-A (bilan), 2033-B (compte de résultat) et 2033-C (immobilisations). Chacun est segmenté et ses champs mappés aux codes réglementaires. Les formulaires 2033-D à 2033-G sont aussi pris en charge.
C'est le même formulaire. Le CERFA 2033 LMNP est strictement identique au 2033 du régime simplifié standard. Holofin extrait tout ce qui compte pour la gestion locative : amortissements du bien et du mobilier (2033-C), revenus locatifs et charges déductibles (2033-B), résultat fiscal (2033-A, code 090).
Plus de 97 % sur les champs numériques, y compris les montants avec décimales, les valeurs négatives et les totaux. Chaque valeur est accompagnée de ses coordonnées sur le document (bounding box) pour vérification visuelle. Les validateurs croisent les totaux automatiquement : actif net = passif, net = brut − amortissements. Si quelque chose ne colle pas, vous le voyez tout de suite.
Oui. Un seul PDF ou des fichiers séparés, envoyez le lot. Holofin identifie le millésime de chaque formulaire, segmente les sous-formulaires, et produit un JSON structuré par exercice. Idéal pour du scoring pluriannuel, de l'audit ou une revue de portefeuille LMNP.
Oui. JSON structuré via API, Excel (XLSX) ou CSV depuis l'interface. Le JSON inclut les codes de champs réglementaires (010, 012, 014...), prêt à injecter dans votre compta, votre ERP ou vos outils d'analyse. Webhooks disponibles pour recevoir les résultats en push.
Pas de templates fixes à reconfigurer chaque année. Holofin utilise des modèles de vision-langage qui comprennent la structure du formulaire. Nouveau millésime, champs déplacés, codes changés. Les modèles s'adaptent. On valide chaque millésime en interne avant mise en production. En général, sous 48h.
Testez l'extraction sur
votre CERFA 2033
Envoyez-nous votre pire scan. Celui qui est de travers, en basse résolution, avec un millésime exotique. Voyez ce qui en sort.