Kontoauszugs-Extraktion
Vom PDF zu verifizierten, strukturierten Daten
OCR liest den Text. Aber ein Kontoauszug ist kein Text, sondern eine Tabelle. OCR liefert Ihnen "1.250,00", aber nicht, ob es sich um eine Soll- oder Haben-Buchung oder einen laufenden Saldo handelt. Sie liefert "VIREMENT RECU / ÜBERWEISUNG", aber nicht, zu welcher Zeile dies gehört. Eine falsche Zuordnung und jeder folgende Saldo stimmt nicht mehr. Holofin rekonstruiert die Tabellenstruktur, ordnet jeden Wert seiner Zeile und Spalte zu und verifiziert das Ergebnis durch Saldenabstimmung.
Demo vereinbarenWarum generische OCR
ständig Fehler macht
Ein Kontoauszug sieht wie eine einfache Tabelle aus. Das ist er nicht. Jeder Aussteller formatiert anders, und das PDF-Format selbst arbeitet gegen Sie. Hier sehen Sie, was tatsächlich schiefgeht.
Jede Bank macht es anders
Es gibt keinen Standard für das Layout von Kontoauszügen. BNP Paribas setzt das Datum nach links und nutzt getrennte Soll/Haben-Spalten. Die Deutsche Bank verwendet eine einzelne Betragsspalte mit S/H-Kennzeichen. Revolut gibt nicht einmal laufende Salden an. Ein Template, das auf eine Bank trainiert wurde, produziert bei einer anderen nur Datenmüll.
Ist "1.250" tausend oder 1,25?
Französische Banken schreiben "1 250,00 €". Deutsche schreiben "1.250,00 EUR". Britische schreiben "£1,250.00".
Derselbe Punkt bedeutet in Frankfurt "Tausender" und in London "Dezimaltrennzeichen". Dasselbe Komma bedeutet das Gegenteil. Ein Leerzeichen ist in Paris ein Tausendertrennzeichen und in New York nichts.
Ein falsch gelesenes Trennzeichen und eine Mietzahlung von €1.250 wird zu €1,25. Ihre Saldenprüfung wird das nicht bemerken. Die Zahlen gehen rechnerisch auf, ergeben aber die falsche Summe.
Welche Spalte ist das Soll?
Eine Spalte oder zwei? Negative Zahlen oder ein "S/H"-Kennzeichen? Ein Minus links, rechts oder Klammern? Deutsche Banken nutzen "S" und "H". Manche lassen die andere Spalte einfach leer. Für einen Menschen sieht die Tabelle offensichtlich aus. Für das programmatische Auslesen ist es ein Albtraum.
Tabellen über mehrere Seiten
200 Transaktionen passen nicht auf eine Seite. Die Tabelle geht auf Seite 2 weiter, manchmal mit wiederholten Kopfzeilen, manchmal ohne. Eine Transaktion kann auf einer Seite beginnen und auf der nächsten enden. Sie müssen die Tabelle wieder zusammenfügen, bevor Sie etwas extrahieren können.
Mehrere Konten in einem PDF
Ihr Mandant sendet ein einzelnes 47-seitiges PDF. Es enthält drei Konten (Girokonto, Sparkonto, Kreditkarte) über vier Quartale. Das sind 12 separate Auszüge in einer Datei. Behandeln Sie dies als eine durchgehende Tabelle, erhalten Sie Unsinn.

Nicht alles, was wie eine Transaktion aussieht, ist auch eine
Banken füllen Auszüge mit Hilfstabellen, die genau wie Transaktionen aussehen: Aufschlüsselungen von Kartenzahlungen, die jede kontaktlose Zahlung auflisten, SEPA-Überweisungszusammenfassungen, die jede Lastschrift wiederholen, Gebührenaufstellungen, Zinsberechnungen. Extrahieren Sie diese, zählen Sie doppelt. Überspringen Sie das Falsche, stimmt Ihr Saldo nicht.
Die echten Transaktionen befinden sich in der Haupttabelle. Alles andere ist Rauschen, getarnt als Daten.
So funktioniert es
Jeder Kontoauszug durchläuft vier Stufen. Keine Templates, keine ausstellerspezifische Konfiguration. Dieselbe Pipeline verarbeitet BNP Paribas und Chase.
Klassifizierung
Unser Klassifikator identifiziert 100+ Bankaussteller anhand von inhaltlichen und visuellen Hinweisen: Positionen der Kopfzeilen, Spaltenstrukturen, Logos, Textmuster. Keine Templates, die pro Bank konfiguriert werden müssen.
Segmentierung
PDFs mit mehreren Konten werden vor der Extraktion aufgeteilt. Wir erkennen Kontogrenzen anhand von IBAN, Kontonummer und Zeitraumangaben. Das 47-seitige PDF wird zu 12 Segmenten, die parallel verarbeitet werden.
Extraktion
Ein visuelles Modell liest das Seitenlayout und extrahiert präzise Transaktionsdaten: Datum, Verwendungszweck, Soll, Haben, laufender Saldo und Konto-Metadaten. Keine Template-Regeln. Das Modell versteht die Tabellenstruktur.
Jede Extraktion erzeugt ein JSON wie dieses:
{
"bank_name": "Qonto",
"currency": "EUR",
"account_type": "current",
"usage_type": "business",
"client_names": ["Starflight Dynamics GmbH"],
"account_number": "DE15100101232339317943",
"start_balance": 3071.69,
"end_balance": 3030.39,
"start_date": "2025-05-01",
"end_date": "2025-05-31",
"validation_status": "OK",
"transactions": [
{
"transaction_date": "2025-05-02",
"value_date": "2025-05-02",
"amount": -963.9,
"description": "Schmittlein Kloster Arbeitsrecht Partnerschaft",
"credit": null,
"debit": 963.9,
"page": 1,
"row": 1
}
]
}Validierung
Hier hören die meisten Tools auf, und hier fangen wir an. Jedes extrahierte Segment wird geprüft:
- Saldenabstimmung: Anfangssaldo + Summe Haben − Summe Soll = Endsaldo, innerhalb einer Toleranz von €2. Wenn die Gleichung nicht aufgeht, wird die Extraktion markiert.
- Kontinuität des laufenden Saldos: Der laufende Saldo jeder Transaktion muss dem vorherigen Saldo plus/minus dem Transaktionsbetrag entsprechen. Unterbrechungen deuten auf fehlende oder falsch extrahierte Zeilen hin.
- Datumsreihenfolge: Transaktionsdaten müssen innerhalb des Auszugszeitraums chronologisch aufeinanderfolgen. Nicht chronologische Daten deuten auf Fehler bei der Zeilenzuordnung hin.
- Duplikaterkennung: Identische Transaktionen (gleiches Datum, gleicher Verwendungszweck, gleicher Betrag) werden zur Überprüfung markiert, anstatt stillschweigend übernommen zu werden.
Gleichung zur Saldenabstimmung:
Nachvollziehbarkeit
Jeder extrahierte Wert enthält Koordinaten, die auf seine exakte Position auf der Quellseite verweisen. Nicht nur "das kam von Seite 3", sondern der pixelgenaue Rahmen um den Originaltext. Sie können jede Zahl durch Anklicken verifizieren.
Wirtschaftsprüfer lieben das
Wenn ein Wirtschaftsprüfer fragt: "Woher kommt diese Zahl?", zeigen Sie es ihm. Die exakte Stelle im Quell-PDF, hervorgehoben. Kein "das System hat es so gesagt".
Fehler in Sekunden beheben
Ihr Prüfer entdeckt einen falschen Betrag. Er klickt auf den Wert. Der Quellbereich wird im Originaldokument hervorgehoben. Vergleichen, korrigieren, weitermachen.
Vollständige Datenherkunft
Verfolgen Sie jede Zahl von der Kreditentscheidung zurück zum ursprünglichen Kontoauszug, zur Seite und zur Zeile. Die gesamte Kette wird dokumentiert. Aufsichtsbehörden müssen sich nicht auf Ihr Wort verlassen.
Scale and Coverage
Wir verarbeiten monatlich über 100.000 Dokumente für Kreditteams in ganz Europa. So sieht die Infrastruktur aus.
Infrastructure
~40 Sekunden pro Auszug
Upload zu validiertem JSON. Dokumente mit mehreren Segmenten werden parallel verarbeitet, sodass ein PDF mit 12 Segmenten nicht 12-mal länger dauert.
REST API + Webhooks
Upload via API, Empfang eines Webhooks bei Fertigstellung. Batch-Upload wird unterstützt.
Europäische Infrastruktur, DSGVO-konform
99,9% Uptime-SLA. Konfigurierbare Aufbewahrungsfristen. Daten verlassen niemals die EU.
Abgedeckte Banken
Französische Banken
BNP Paribas, Société Générale, Crédit Agricole, Crédit Mutuel, La Banque Postale, Boursorama, CIC, LCL, Caisse d'Épargne
Deutsche Banken
Deutsche Bank, Commerzbank, Sparkasse, Volksbank, N26, DKB, ING DiBa, HypoVereinsbank
Paneuropäisch & international
ING, HSBC, Revolut, Wise, Barclays, Lloyds, NatWest, UniCredit, Rabobank, ABN AMRO, Santander
UK- & US-Banken
Chase, Bank of America, Wells Fargo, Citi, HSBC UK, Barclays UK, Monzo, Starling
Sie sehen Ihre Bank nicht? Es funktioniert wahrscheinlich trotzdem.
Wir verwenden keine Vorlagen. Die Extraktions-Engine liest das Layout direkt aus dem Dokument. Neue Aussteller funktionieren ohne Einrichtung.
FAQ
Die häufigsten Fragen von Kredit- und Buchhaltungsteams.
Holofin verarbeitet native PDF-Kontoauszüge von jedem Aussteller weltweit, einschließlich aller großen europäischen, britischen und US-amerikanischen Banken. Es werden sowohl digital erstellte als auch gescannte Auszüge unterstützt. Keine Vorlagen oder ausstellerspezifische Konfiguration erforderlich. Das System lernt das Layout direkt aus dem Dokument. Wir decken aktiv über 100 Aussteller mit validierter Extraktionsgenauigkeit ab, und neue Aussteller funktionieren in der Regel ohne jegliche Konfiguration.
Die Segmentierungs-Engine von Holofin erkennt Kontogrenzen (IBAN, Kontonummer, Periodenmarkierungen) und teilt kombinierte PDFs vor der Extraktion in einzelne Auszugssegmente auf. Ein 47-seitiges PDF mit 3 Konten über 4 Quartale wird zu 12 einzelnen, unabhängig validierten Segmenten. Jedes Segment wird separat extrahiert und saldenabgestimmt, bevor es in einer einheitlichen JSON-Antwort zusammengeführt wird.
Die Genauigkeit auf Feldebene übersteigt 97% bei nativen PDF-Kontoauszügen aller getesteten Aussteller. Aber die reine Genauigkeit ist nicht alles. Jede Extraktion beinhaltet eine automatische Saldenabstimmung (Anfangssaldo + Haben − Soll = Endsaldo), die eine mathematische Validierung bietet und Extraktionsfehler aufdeckt, die eine einfache Genauigkeitsmetrik übersehen würde. Wenn die Abstimmung fehlschlägt, wird die Extraktion zur menschlichen Überprüfung markiert, anstatt stillschweigend durchgewunken zu werden.
Ja. Gescannte Kontoauszüge werden mittels OCR mit Schriftart-Dekodierung und Layouterkennung verarbeitet. Die Genauigkeit hängt von der Scanqualität ab (300 DPI oder höher empfohlen). Der Schritt der Saldenabstimmung fängt die meisten OCR-Fehler ab, die finanzielle Summen betreffen. Bei Scans schlechter Qualität markiert das System Werte mit geringer Konfidenz, sodass sich die Prüfer auf die Felder konzentrieren können, die Aufmerksamkeit erfordern, und nicht auf das gesamte Dokument.
Ja. Holofin bietet eine REST API für die programmgesteuerte Dokumentenübermittlung und Ergebnisabrufung. Laden Sie ein PDF hoch, erhalten Sie einen Webhook, wenn die Extraktion abgeschlossen ist, und rufen Sie das strukturierte JSON-Ergebnis ab. Stapelverarbeitung wird unterstützt: Übermitteln Sie Hunderte von Dokumenten in einem einzigen API-Aufruf und sammeln Sie die Ergebnisse, sobald sie fertig sind. Die Authentifizierung erfolgt über API-Keys mit Geltungsbereich auf Organisationsebene.
Nach der Extraktion verifiziert Holofin die Buchhaltungsgleichung: Anfangssaldo + Summe Gutschriften − Summe Lastschriften = Endsaldo, mit einer Toleranz von €0,01 in der Auszugswährung. Die Kontinuität des laufenden Saldos wird ebenfalls geprüft: Der laufende Saldo jeder Transaktion muss dem vorherigen Saldo plus oder minus dem Transaktionsbetrag entsprechen. Datumsreihenfolge und Duplikaterkennung runden die Validierung ab. Wenn eine Prüfung fehlschlägt, wird die Extraktion mit spezifischen Fehlerdetails markiert statt mit einem allgemeinen Fehler.
Holofin verarbeitet alle gängigen Zahlenformate automatisch: Europäisches Komma (1.234,56), US/UK-Punkt (1,234.56), Leerzeichen als Tausendertrennzeichen (1 234.56), negative Werte in Klammern und Soll/Haben-Indikatoren. Die Formaterkennung erfolgt pro Dokument, nicht pro Aussteller. Das System liest das tatsächliche Format des Kontoauszugs und analysiert es entsprechend. Keine Konfiguration oder Ländereinstellungen erforderlich.
Ja. Holofin verarbeitet alle Daten auf europäischer Infrastruktur. Die Dokumentenaufbewahrung ist pro Organisation konfigurierbar. Daten werden bei der Speicherung und Übertragung verschlüsselt. Kein Dokumenteninhalt wird für das Modelltraining verwendet. Holofin kann Löschanfragen gemäß DSGVO Artikel 17 (Recht auf Löschung) ausführen. Ein Auftragsverarbeitungsvertrag (AVV) ist für Enterprise-Kunden verfügbar.
Data You Can
Bank On.
Senden Sie uns die Kontoauszüge, an denen Ihr letztes Tool gescheitert ist. Die 47-seitigen PDFs mit mehreren Konten. Die schlechten Scans. Das komplizierte Sparkassen-Format. Wir zeigen Ihnen, was auf der anderen Seite herauskommt.