Estrazione Estratto Conto
Da PDF a Dati Strutturati e Verificati

L'OCR legge il testo. Ma un estratto conto non è testo, è una tabella. L'OCR Le fornisce "1.250,00" ma non Le dice se è un addebito, un accredito o un saldo progressivo. Le fornisce "VIREMENT RECU / ÜBERWEISUNG" ma non a quale riga appartiene. Sbagliando una sola assegnazione, ogni saldo successivo sarà errato. Holofin ricostruisce la struttura della tabella, assegna ogni valore alla sua riga e colonna, e prova il risultato riconciliando il saldo.

Prenota una Demo
BANQUE LEFORT & CIE
24 avenue Marceau, 75008 Paris
Relevé de compte
Janvier 2025
Compte courantFR76 3000 4012 3400 0107 8425 162EUR
Dumont Consulting SARLPériode: 01/01 – 31/01/2025
Solde précédent:12 450,00
Nouveau solde:14 270,30
Date op.LibelléDébitCréditSolde
03/01VIR RECU SALAIRE JANV3 200,0015 650,00
05/01PRLV SEPA ASSURANCE MMA328,5015 321,50
10/01VIR SEPA LOYER BUREAU1 250,0014 071,50
15/01PRLV SEPA EDF ELECTRICITE187,4013 884,10
18/01CB MONOPRIX PARIS 0862,3013 821,80
22/01VIR RECU CLIENT FACTURE 2401568,5014 390,30
28/01VIR RECU REMB TROP PERCU120,0014 510,30
✓ Saldo riconciliato✓ 23 transazioni✓ EUR

Perché l'OCR generico
Continua a sbagliare

Un estratto conto sembra una semplice tabella. Non lo è. Ogni emittente formatta le cose diversamente e il formato PDF stesso rema contro. Ecco cosa si rompe davvero.

Il problema principale

Ogni banca lo fa diversamente

Non esiste uno standard per il layout degli estratti conto. BNP Paribas mette le date a sinistra e usa colonne separate per Addebito/Accredito. Deutsche Bank usa una singola colonna Importo con indicatori D/C. Revolut non include nemmeno i saldi progressivi. Un template addestrato su una banca produce risultati inutilizzabili su un'altra.

"1.250" è mille o 1,25?

Le banche francesi scrivono "1 250,00 €". Quelle tedesche scrivono "1.250,00 EUR". Quelle britanniche scrivono "£1,250.00".

Lo stesso punto significa "migliaia" a Francoforte e "decimali" a Londra. La stessa virgola significa l'opposto. Uno spazio è un separatore delle migliaia a Parigi e nulla a New York.

Basta interpretare male un separatore e un pagamento dell'affitto di €1.250 diventa €1,25. Il controllo del saldo non lo rileverà. I numeri tornano comunque, ma il totale è sbagliato.

Qual è la colonna degli addebiti?

Una colonna o due? Numeri negativi o un indicatore "D/C"? Un meno a sinistra, a destra o tra parentesi? Le banche tedesche usano "S" e "H". Alcune lasciano semplicemente vuota l'altra colonna. La tabella sembra ovvia per un umano. È un incubo da analizzare programmaticamente.

Tabelle interrotte tra le pagine

200 transazioni non stanno in una pagina sola. La tabella continua a pagina 2, a volte con le intestazioni ripetute, a volte no. Una transazione potrebbe iniziare su una pagina e finire sulla successiva. È necessario ricomporre la tabella prima di poter estrarre qualsiasi cosa.

Conti multipli in un unico PDF

Il cliente invia un singolo PDF di 47 pagine. Contiene tre conti (corrente, risparmio, carta di credito) per quattro trimestri. Sono 12 estratti conto separati in un unico file. Se lo si tratta come un'unica tabella continua, si ottengono dati senza senso.

Più estratti conto in un unico PDF

Non tutto ciò che sembra una transazione lo è

Le banche riempiono gli estratti conto con tabelle ausiliarie che sembrano esattamente transazioni: dettagli dei pagamenti con carta che elencano ogni tocco contactless, riepiloghi dei bonifici SEPA che ripetono ogni addebito diretto, prospetti delle spese, calcoli degli interessi. Se li si estrae, si conta due volte. Se si salta quello sbagliato, il saldo non torna.

Le transazioni reali si trovano nella tabella principale. Tutto il resto è rumore travestito da dati.

Come funziona

Ogni estratto conto attraversa quattro fasi. Nessun template, nessuna configurazione specifica per emittente. La stessa pipeline gestisce BNP Paribas e Chase.

Classificazione

Il nostro classificatore identifica oltre 100 emittenti bancari utilizzando indizi sia contenutistici che visivi: posizioni delle intestazioni, strutture delle colonne, loghi, pattern di testo. Nessun template da configurare per banca.

Segmentazione

I PDF multi-conto vengono divisi prima dell'estrazione. Rileviamo i confini dei conti tramite IBAN, numero di conto e marcatori di periodo. Quel PDF di 47 pagine diventa 12 segmenti, elaborati in parallelo.

Estrazione

Un modello visivo legge il layout della pagina ed estrae dati accurati delle transazioni: data, descrizione, addebito, accredito, saldo progressivo e metadati del conto. Nessuna regola basata su template. Il modello comprende la struttura della tabella.

Ogni estrazione produce un JSON come questo:

{
  "bank_name": "Qonto",
  "currency": "EUR",
  "account_type": "current",
  "usage_type": "business",
  "client_names": ["Starflight Dynamics GmbH"],
  "account_number": "DE15100101232339317943",
  "start_balance": 3071.69,
  "end_balance": 3030.39,
  "start_date": "2025-05-01",
  "end_date": "2025-05-31",
  "validation_status": "OK",
  "transactions": [
    {
      "transaction_date": "2025-05-02",
      "value_date": "2025-05-02",
      "amount": -963.9,
      "description": "Schmittlein Kloster Arbeitsrecht Partnerschaft",
      "credit": null,
      "debit": 963.9,
      "page": 1,
      "row": 1
    }
  ]
}

Convalida

Qui è dove la maggior parte degli strumenti si ferma, e dove noi iniziamo. Ogni segmento estratto viene controllato:

  • Riconciliazione del saldo: saldo iniziale + totale accrediti − totale addebiti = saldo finale, con una tolleranza di €2. Se l'equazione non quadra, l'estrazione viene segnalata.
  • Continuità del saldo progressivo: il saldo progressivo di ogni transazione deve essere uguale al saldo precedente più/meno l'importo della transazione. Le interruzioni indicano righe mancanti o estratte in modo errato.
  • Ordinamento delle date: le date delle transazioni devono essere in sequenza cronologica all'interno del periodo dell'estratto conto. Date fuori ordine suggeriscono errori di assegnazione delle righe.
  • Rilevamento duplicati: le transazioni identiche (stessa data, descrizione, importo) vengono segnalate per la revisione anziché essere incluse silenziosamente.

Equazione di riconciliazione del saldo:

Mostra l'origine dei dati

Ogni valore estratto porta con sé coordinate che rimandano alla sua esatta posizione nella pagina di origine. Non solo "questo viene da pagina 3", ma il riquadro di delimitazione a livello di pixel attorno al testo originale. È possibile verificare qualsiasi numero cliccandoci sopra.

I revisori lo adorano

Quando un revisore chiede "da dove arriva questo numero?", glielo si mostra. La posizione esatta sul PDF di origine, evidenziata. Niente "l'ha detto il sistema".

Correggi gli errori in pochi secondi

Il revisore individua un importo errato e clicca sul valore. L'area di origine viene evidenziata sul documento originale. Confronti, corregga e prosegua.

Tracciabilità completa dei dati

Tracci qualsiasi numero dalla decisione di credito fino all'estratto conto originale, alla pagina e alla riga. L'intera catena è documentata. Le autorità di regolamentazione non dovranno fidarsi solo sulla parola.

BNP Paribas - January 2025
Date
Description
Amount
Balance
03/01
VIR RECU SALAIRE
+3,200.00
15,650.00
15/01
VIR SEPA LOYER JANV
-1,250.00
14,400.00
18/01
PRLV SEPA EDF ELEC
-187.40
14,212.60
22/01
CB CARREFOUR MARKET
-62.30
14,150.30
28/01
VIR RECU REMB TROP
+120.00
14,270.30
Data / Descrizione
Accrediti
Addebiti
Balance

Scale and Coverage

Elaboriamo oltre 100.000 documenti al mese per i team di credito in tutta Europa. Ecco come si presenta l'infrastruttura.

Infrastructure

~40 secondi per estratto conto

Da upload a JSON validato. I documenti multi-segmento vengono elaborati in parallelo, quindi un PDF da 12 segmenti non richiede 12 volte il tempo.

REST API + webhook

Caricamento via API, ricezione di un webhook al termine. Supporto per caricamento batch.

Infrastruttura europea, conforme al GDPR

SLA di uptime del 99,9%. Retention configurabile. I dati non lasciano mai l'UE.

Banche coperte

Banche francesi

BNP Paribas, Société Générale, Crédit Agricole, Crédit Mutuel, La Banque Postale, Boursorama, CIC, LCL, Caisse d'Épargne

Banche tedesche

Deutsche Bank, Commerzbank, Sparkasse, Volksbank, N26, DKB, ING DiBa, HypoVereinsbank

Pan-europee & internazionali

ING, HSBC, Revolut, Wise, Barclays, Lloyds, NatWest, UniCredit, Rabobank, ABN AMRO, Santander

Banche UK & USA

Chase, Bank of America, Wells Fargo, Citi, HSBC UK, Barclays UK, Monzo, Starling

Non vede la Sua banca? Probabilmente funziona comunque.

Non utilizziamo template. Il motore di estrazione legge il layout direttamente dal documento. I nuovi emittenti funzionano senza configurazione.

FAQ

Le domande più frequenti dai team di credito e contabilità.

Holofin elabora estratti conto in PDF nativi da qualsiasi emittente a livello mondiale, incluse tutte le principali banche europee, britanniche e statunitensi. Gestisce sia estratti generati digitalmente che scansionati. Non sono necessari template o configurazioni specifiche per l'emittente. Il sistema apprende il layout dal documento stesso. Copriamo attivamente oltre 100 emittenti con accuratezza di estrazione validata, e i nuovi emittenti funzionano tipicamente senza alcuna configurazione.

Il motore di segmentazione di Holofin rileva i confini del conto (IBAN, numero di conto, marcatori di periodo) e divide i PDF combinati in segmenti di estratto conto individuali prima dell'estrazione. Un PDF di 47 pagine con 3 conti su 4 trimestri diventa 12 segmenti individuali, validati indipendentemente. Ogni segmento viene estratto e riconciliato nel saldo separatamente, poi aggregato in una risposta JSON unificata.

L'accuratezza a livello di campo supera il 97% sugli estratti conto in PDF nativi degli emittenti testati. Ma l'accuratezza grezza non è tutto. Ogni estrazione include la riconciliazione automatica del saldo (apertura + accrediti − addebiti = chiusura), fornendo una convalida matematica che intercetta errori di estrazione che una semplice metrica di accuratezza non rileverebbe. Quando la riconciliazione fallisce, l'estrazione viene segnalata per la revisione umana invece di passare inosservata.

Sì. Gli estratti conto scansionati vengono elaborati tramite OCR con decodifica dei font e riconoscimento del layout. L'accuratezza dipende dalla qualità della scansione (consigliati 300 DPI o superiore). La fase di riconciliazione del saldo intercetta la maggior parte degli errori OCR che influenzano i totali finanziari. Per scansioni degradate, il sistema segnala i valori a bassa confidenza affinché i revisori si concentrino sui campi che richiedono attenzione, non sull'intero documento.

Sì. Holofin fornisce una REST API per l'invio programmatico di documenti e il recupero dei risultati. Carichi un PDF, riceva un webhook al completamento dell'estrazione e recuperi il risultato JSON strutturato. È supportata l'elaborazione batch: invii centinaia di documenti in un'unica chiamata API e raccolga i risultati man mano che vengono completati. L'autenticazione utilizza chiavi API con scoping a livello di organizzazione.

Dopo l'estrazione, Holofin verifica l'equazione contabile: saldo iniziale + totale accrediti − totale addebiti = saldo finale, con una tolleranza di €0,01 nella valuta dell'estratto conto. Viene verificata anche la continuità del saldo progressivo: il saldo di ogni transazione deve essere uguale al saldo precedente più o meno l'importo della transazione. L'ordinamento delle date e il rilevamento dei duplicati completano la suite di convalida. Quando un controllo fallisce, l'estrazione viene segnalata con dettagli specifici dell'errore anziché con un fallimento generico.

Holofin gestisce automaticamente tutti i principali formati numerici: decimali con virgola europea (1.234,56), decimali con punto US/UK (1,234.56), migliaia separate da spazi (1 234.56), negativi tra parentesi e indicatori D/A. Il rilevamento del formato avviene per documento, non per emittente. Il sistema legge il formato effettivo utilizzato nell'estratto conto ed esegue il parsing di conseguenza. Nessuna configurazione o impostazione locale richiesta.

Sì. Holofin elabora tutti i dati su infrastruttura europea. La conservazione dei documenti è configurabile per organizzazione. I dati sono crittografati a riposo e in transito. Nessun contenuto dei documenti viene utilizzato per l'addestramento dei modelli. Holofin può eseguire richieste di cancellazione dati in conformità con l'Articolo 17 del GDPR (diritto alla cancellazione). Un Data Processing Agreement (DPA) è disponibile per i clienti enterprise.

Estrazione Estratto Conto

Data You Can
Bank On.

Ci invii gli estratti conto che hanno bloccato il Suo ultimo strumento. I PDF multi-conto da 47 pagine. Le scansioni di bassa qualità. L'oscuro formato tedesco Sparkasse. Le mostreremo cosa ne esce dall'altra parte.

97%+ di accuratezza
100K+ documents/month
Riconciliazione dei saldi su ogni estrazione
Holofin