What bank statement formats does Holofin support?

Holofin processes native PDF bank statements from any issuer worldwide, including all major European, UK, and US banks. It handles both digitally-generated and scanned statements. No templates or issuer-specific configuration needed — the system learns layout from the document itself.

How does Holofin handle multi-account PDFs?

Holofin's segmentation engine detects account boundaries (IBAN, account number, period markers) and splits combined PDFs into individual statement segments. A 47-page PDF with 3 accounts across 4 quarters becomes 12 individual, independently validated segments.

What's the extraction accuracy?

Field-level accuracy exceeds 97% on native PDF bank statements across tested issuers. Every extraction includes automatic balance reconciliation — opening balance plus credits minus debits must equal closing balance — providing mathematical validation beyond raw accuracy metrics.

Can Holofin process scanned bank statements?

Yes. Scanned bank statements are processed through OCR with font decoding and layout recognition. Accuracy depends on scan quality, but the balance reconciliation step catches most OCR errors that affect financial totals.

Yes. Holofin provides a REST API for programmatic document submission and result retrieval. Webhook notifications alert your system when extraction completes. Batch processing is supported for high-volume use cases.

How does balance reconciliation work?

After extraction, Holofin verifies the accounting equation: opening balance + total credits - total debits = closing balance, within a tolerance of 0.01 in the statement currency. Running balance continuity, date ordering, and duplicate detection are also checked. Failed reconciliation flags the extraction for human review.

What about European number formats?

Holofin handles all major number formats: European comma decimals (1.234,56), US/UK period decimals (1,234.56), space-separated thousands (1 234.56), parenthesized negatives, and D/C indicators. Format detection is automatic per-document, not configured per-issuer.

Is data processing GDPR-compliant?

Yes. Holofin processes all data on European infrastructure. Document retention is configurable per organization. Data is encrypted at rest and in transit. No document content is used for model training. Holofin can execute data deletion requests in compliance with GDPR Article 17.

Kontoauszugs-Extraktion
Vom PDF zu verifizierten, strukturierten Daten

Name: Holofin
Author: Holofin

OCR liest den Text. Aber ein Kontoauszug ist kein Text, sondern eine Tabelle. OCR liefert Ihnen "1.250,00", aber nicht, ob es sich um eine Soll- oder Haben-Buchung oder einen laufenden Saldo handelt. Sie liefert "VIREMENT RECU / ÜBERWEISUNG", aber nicht, zu welcher Zeile dies gehört. Eine falsche Zuordnung und jeder folgende Saldo stimmt nicht mehr. Holofin rekonstruiert die Tabellenstruktur, ordnet jeden Wert seiner Zeile und Spalte zu und verifiziert das Ergebnis durch Saldenabstimmung.

Demo vereinbaren

BANQUE LEFORT & CIE

24 avenue Marceau, 75008 Paris

Relevé de compte

Janvier 2025

Compte courant|FR76 3000 4012 3400 0107 8425 162|EUR

Dumont Consulting SARLPériode: 01/01 – 31/01/2025

Solde précédent:12 450,00

Nouveau solde:14 270,30

Date op.Val.LibelléDébitCréditSolde

03/0103/01VIR RECU SALAIRE JANV3 200,0015 650,00

05/0106/01PRLV SEPA ASSURANCE MMA328,5015 321,50

10/0110/01VIR SEPA LOYER BUREAU1 250,0014 071,50

15/0115/01PRLV SEPA EDF ELECTRICITE187,4013 884,10

18/0118/01CB MONOPRIX PARIS 0862,3013 821,80

22/0122/01VIR RECU CLIENT FACTURE 2401568,5014 390,30

28/0128/01VIR RECU REMB TROP PERCU120,0014 510,30

✓ Saldo abgestimmt✓ 23 Transaktionen✓ EUR

Warum generische OCR
ständig Fehler macht

Ein Kontoauszug sieht wie eine einfache Tabelle aus. Das ist er nicht. Jeder Aussteller formatiert anders, und das PDF-Format selbst arbeitet gegen Sie. Hier sehen Sie, was tatsächlich schiefgeht.

Das Kernproblem

Jede Bank macht es anders

Es gibt keinen Standard für das Layout von Kontoauszügen. BNP Paribas setzt das Datum nach links und nutzt getrennte Soll/Haben-Spalten. Die Deutsche Bank verwendet eine einzelne Betragsspalte mit S/H-Kennzeichen. Revolut gibt nicht einmal laufende Salden an. Ein Template, das auf eine Bank trainiert wurde, produziert bei einer anderen nur Datenmüll.

Ist "1.250" tausend oder 1,25?

Französische Banken schreiben "1 250,00 €". Deutsche schreiben "1.250,00 EUR". Britische schreiben "£1,250.00".

Derselbe Punkt bedeutet in Frankfurt "Tausender" und in London "Dezimaltrennzeichen". Dasselbe Komma bedeutet das Gegenteil. Ein Leerzeichen ist in Paris ein Tausendertrennzeichen und in New York nichts.

Ein falsch gelesenes Trennzeichen und eine Mietzahlung von €1.250 wird zu €1,25. Ihre Saldenprüfung wird das nicht bemerken. Die Zahlen gehen rechnerisch auf, ergeben aber die falsche Summe.

Welche Spalte ist das Soll?

Eine Spalte oder zwei? Negative Zahlen oder ein "S/H"-Kennzeichen? Ein Minus links, rechts oder Klammern? Deutsche Banken nutzen "S" und "H". Manche lassen die andere Spalte einfach leer. Für einen Menschen sieht die Tabelle offensichtlich aus. Für das programmatische Auslesen ist es ein Albtraum.

Tabellen über mehrere Seiten

200 Transaktionen passen nicht auf eine Seite. Die Tabelle geht auf Seite 2 weiter, manchmal mit wiederholten Kopfzeilen, manchmal ohne. Eine Transaktion kann auf einer Seite beginnen und auf der nächsten enden. Sie müssen die Tabelle wieder zusammenfügen, bevor Sie etwas extrahieren können.

Mehrere Konten in einem PDF

Ihr Mandant sendet ein einzelnes 47-seitiges PDF. Es enthält drei Konten (Girokonto, Sparkonto, Kreditkarte) über vier Quartale. Das sind 12 separate Auszüge in einer Datei. Behandeln Sie dies als eine durchgehende Tabelle, erhalten Sie Unsinn.

Nicht alles, was wie eine Transaktion aussieht, ist auch eine

Banken füllen Auszüge mit Hilfstabellen, die genau wie Transaktionen aussehen: Aufschlüsselungen von Kartenzahlungen, die jede kontaktlose Zahlung auflisten, SEPA-Überweisungszusammenfassungen, die jede Lastschrift wiederholen, Gebührenaufstellungen, Zinsberechnungen. Extrahieren Sie diese, zählen Sie doppelt. Überspringen Sie das Falsche, stimmt Ihr Saldo nicht.

Die echten Transaktionen befinden sich in der Haupttabelle. Alles andere ist Rauschen, getarnt als Daten.

So funktioniert es

Jeder Kontoauszug durchläuft vier Stufen. Keine Templates, keine ausstellerspezifische Konfiguration. Dieselbe Pipeline verarbeitet BNP Paribas und Chase.

Klassifizierung

Unser Klassifikator identifiziert 100+ Bankaussteller anhand von inhaltlichen und visuellen Hinweisen: Positionen der Kopfzeilen, Spaltenstrukturen, Logos, Textmuster. Keine Templates, die pro Bank konfiguriert werden müssen.

Segmentierung

PDFs mit mehreren Konten werden vor der Extraktion aufgeteilt. Wir erkennen Kontogrenzen anhand von IBAN, Kontonummer und Zeitraumangaben. Das 47-seitige PDF wird zu 12 Segmenten, die parallel verarbeitet werden.

Extraktion

Ein visuelles Modell liest das Seitenlayout und extrahiert präzise Transaktionsdaten: Datum, Verwendungszweck, Soll, Haben, laufender Saldo und Konto-Metadaten. Keine Template-Regeln. Das Modell versteht die Tabellenstruktur.

Jede Extraktion erzeugt ein JSON wie dieses:

{
  "bank_name": "Qonto",
  "currency": "EUR",
  "account_type": "current",
  "usage_type": "business",
  "client_names": ["Starflight Dynamics GmbH"],
  "account_number": "DE15100101232339317943",
  "start_balance": 3071.69,
  "end_balance": 3030.39,
  "start_date": "2025-05-01",
  "end_date": "2025-05-31",
  "validation_status": "OK",
  "transactions": [
    {
      "transaction_date": "2025-05-02",
      "value_date": "2025-05-02",
      "amount": -963.9,
      "description": "Schmittlein Kloster Arbeitsrecht Partnerschaft",
      "credit": null,
      "debit": 963.9,
      "page": 1,
      "row": 1
    }
  ]
}

Validierung

Hier hören die meisten Tools auf, und hier fangen wir an. Jedes extrahierte Segment wird geprüft:

Saldenabstimmung: Anfangssaldo + Summe Haben − Summe Soll = Endsaldo, innerhalb einer Toleranz von €2. Wenn die Gleichung nicht aufgeht, wird die Extraktion markiert.
Kontinuität des laufenden Saldos: Der laufende Saldo jeder Transaktion muss dem vorherigen Saldo plus/minus dem Transaktionsbetrag entsprechen. Unterbrechungen deuten auf fehlende oder falsch extrahierte Zeilen hin.
Datumsreihenfolge: Transaktionsdaten müssen innerhalb des Auszugszeitraums chronologisch aufeinanderfolgen. Nicht chronologische Daten deuten auf Fehler bei der Zeilenzuordnung hin.
Duplikaterkennung: Identische Transaktionen (gleiches Datum, gleicher Verwendungszweck, gleicher Betrag) werden zur Überprüfung markiert, anstatt stillschweigend übernommen zu werden.

Gleichung zur Saldenabstimmung:

Nachvollziehbarkeit

Jeder extrahierte Wert enthält Koordinaten, die auf seine exakte Position auf der Quellseite verweisen. Nicht nur "das kam von Seite 3", sondern der pixelgenaue Rahmen um den Originaltext. Sie können jede Zahl durch Anklicken verifizieren.

Wirtschaftsprüfer lieben das

Wenn ein Wirtschaftsprüfer fragt: "Woher kommt diese Zahl?", zeigen Sie es ihm. Die exakte Stelle im Quell-PDF, hervorgehoben. Kein "das System hat es so gesagt".

Fehler in Sekunden beheben

Ihr Prüfer entdeckt einen falschen Betrag. Er klickt auf den Wert. Der Quellbereich wird im Originaldokument hervorgehoben. Vergleichen, korrigieren, weitermachen.

Vollständige Datenherkunft

Verfolgen Sie jede Zahl von der Kreditentscheidung zurück zum ursprünglichen Kontoauszug, zur Seite und zur Zeile. Die gesamte Kette wird dokumentiert. Aufsichtsbehörden müssen sich nicht auf Ihr Wort verlassen.

BNP Paribas - January 2025

Date

Description

Amount

Balance

03/01

VIR RECU SALAIRE

+3,200.00

15,650.00

15/01

VIR SEPA LOYER JANV

-1,250.00

14,400.00

18/01

PRLV SEPA EDF ELEC

-187.40

14,212.60

22/01

CB CARREFOUR MARKET

-62.30

14,150.30

28/01

VIR RECU REMB TROP

+120.00

14,270.30

Datum / Verwendungszweck

Haben

Soll

Solde

Scale and Coverage

Wir verarbeiten monatlich über 100.000 Dokumente für Kreditteams in ganz Europa. So sieht die Infrastruktur aus.

Infrastructure

~40 Sekunden pro Auszug

Upload zu validiertem JSON. Dokumente mit mehreren Segmenten werden parallel verarbeitet, sodass ein PDF mit 12 Segmenten nicht 12-mal länger dauert.

REST API + Webhooks

Upload via API, Empfang eines Webhooks bei Fertigstellung. Batch-Upload wird unterstützt.

Europäische Infrastruktur, DSGVO-konform

99,9% Uptime-SLA. Konfigurierbare Aufbewahrungsfristen. Daten verlassen niemals die EU.

Abgedeckte Banken

Französische Banken

BNP Paribas, Société Générale, Crédit Agricole, Crédit Mutuel, La Banque Postale, Boursorama, CIC, LCL, Caisse d'Épargne

Deutsche Banken

Deutsche Bank, Commerzbank, Sparkasse, Volksbank, N26, DKB, ING DiBa, HypoVereinsbank

Paneuropäisch & international

ING, HSBC, Revolut, Wise, Barclays, Lloyds, NatWest, UniCredit, Rabobank, ABN AMRO, Santander

UK- & US-Banken

Chase, Bank of America, Wells Fargo, Citi, HSBC UK, Barclays UK, Monzo, Starling

Sie sehen Ihre Bank nicht? Es funktioniert wahrscheinlich trotzdem.

Wir verwenden keine Vorlagen. Die Extraktions-Engine liest das Layout direkt aus dem Dokument. Neue Aussteller funktionieren ohne Einrichtung.

Extraktion Segmentierung Klassifizierung Workflows Finanzdienstleistungen

FAQ

Die häufigsten Fragen von Kredit- und Buchhaltungsteams.

Holofin verarbeitet native PDF-Kontoauszüge von jedem Aussteller weltweit, einschließlich aller großen europäischen, britischen und US-amerikanischen Banken. Es werden sowohl digital erstellte als auch gescannte Auszüge unterstützt. Keine Vorlagen oder ausstellerspezifische Konfiguration erforderlich. Das System lernt das Layout direkt aus dem Dokument. Wir decken aktiv über 100 Aussteller mit validierter Extraktionsgenauigkeit ab, und neue Aussteller funktionieren in der Regel ohne jegliche Konfiguration.

Die Segmentierungs-Engine von Holofin erkennt Kontogrenzen (IBAN, Kontonummer, Periodenmarkierungen) und teilt kombinierte PDFs vor der Extraktion in einzelne Auszugssegmente auf. Ein 47-seitiges PDF mit 3 Konten über 4 Quartale wird zu 12 einzelnen, unabhängig validierten Segmenten. Jedes Segment wird separat extrahiert und saldenabgestimmt, bevor es in einer einheitlichen JSON-Antwort zusammengeführt wird.

Die Genauigkeit auf Feldebene übersteigt 97% bei nativen PDF-Kontoauszügen aller getesteten Aussteller. Aber die reine Genauigkeit ist nicht alles. Jede Extraktion beinhaltet eine automatische Saldenabstimmung (Anfangssaldo + Haben − Soll = Endsaldo), die eine mathematische Validierung bietet und Extraktionsfehler aufdeckt, die eine einfache Genauigkeitsmetrik übersehen würde. Wenn die Abstimmung fehlschlägt, wird die Extraktion zur menschlichen Überprüfung markiert, anstatt stillschweigend durchgewunken zu werden.

Ja. Gescannte Kontoauszüge werden mittels OCR mit Schriftart-Dekodierung und Layouterkennung verarbeitet. Die Genauigkeit hängt von der Scanqualität ab (300 DPI oder höher empfohlen). Der Schritt der Saldenabstimmung fängt die meisten OCR-Fehler ab, die finanzielle Summen betreffen. Bei Scans schlechter Qualität markiert das System Werte mit geringer Konfidenz, sodass sich die Prüfer auf die Felder konzentrieren können, die Aufmerksamkeit erfordern, und nicht auf das gesamte Dokument.

Ja. Holofin bietet eine REST API für die programmgesteuerte Dokumentenübermittlung und Ergebnisabrufung. Laden Sie ein PDF hoch, erhalten Sie einen Webhook, wenn die Extraktion abgeschlossen ist, und rufen Sie das strukturierte JSON-Ergebnis ab. Stapelverarbeitung wird unterstützt: Übermitteln Sie Hunderte von Dokumenten in einem einzigen API-Aufruf und sammeln Sie die Ergebnisse, sobald sie fertig sind. Die Authentifizierung erfolgt über API-Keys mit Geltungsbereich auf Organisationsebene.

Nach der Extraktion verifiziert Holofin die Buchhaltungsgleichung: Anfangssaldo + Summe Gutschriften − Summe Lastschriften = Endsaldo, mit einer Toleranz von €0,01 in der Auszugswährung. Die Kontinuität des laufenden Saldos wird ebenfalls geprüft: Der laufende Saldo jeder Transaktion muss dem vorherigen Saldo plus oder minus dem Transaktionsbetrag entsprechen. Datumsreihenfolge und Duplikaterkennung runden die Validierung ab. Wenn eine Prüfung fehlschlägt, wird die Extraktion mit spezifischen Fehlerdetails markiert statt mit einem allgemeinen Fehler.

Holofin verarbeitet alle gängigen Zahlenformate automatisch: Europäisches Komma (1.234,56), US/UK-Punkt (1,234.56), Leerzeichen als Tausendertrennzeichen (1 234.56), negative Werte in Klammern und Soll/Haben-Indikatoren. Die Formaterkennung erfolgt pro Dokument, nicht pro Aussteller. Das System liest das tatsächliche Format des Kontoauszugs und analysiert es entsprechend. Keine Konfiguration oder Ländereinstellungen erforderlich.

Ja. Holofin verarbeitet alle Daten auf europäischer Infrastruktur. Die Dokumentenaufbewahrung ist pro Organisation konfigurierbar. Daten werden bei der Speicherung und Übertragung verschlüsselt. Kein Dokumenteninhalt wird für das Modelltraining verwendet. Holofin kann Löschanfragen gemäß DSGVO Artikel 17 (Recht auf Löschung) ausführen. Ein Auftragsverarbeitungsvertrag (AVV) ist für Enterprise-Kunden verfügbar.

Kontoauszugs-Extraktion

Data You Can
Bank On.

Senden Sie uns die Kontoauszüge, an denen Ihr letztes Tool gescheitert ist. Die 47-seitigen PDFs mit mehreren Konten. Die schlechten Scans. Das komplizierte Sparkassen-Format. Wir zeigen Ihnen, was auf der anderen Seite herauskommt.