Dokumentenbetrug erkennen: Was ein PDF nicht verbergen kann

Früher dachten wir, Dokumentenbetrug sei ein visuelles Problem. Falsche Schriftarten. Verschobene Spalten. Ein Logo, das nicht ganz stimmig wirkte. Wir bauten Prüfungen basierend auf dem, was Menschen sehen, denn das war alles, was wir hatten.

Dann kam ein Kontoauszug durch unsere Pipeline. Sauberes Layout. Korrekte Salden. Jede visuelle Prüfung wurde bestanden. Die Extraktion lief perfekt. Aber irgendetwas an der Datei fühlte sich schwer an. Zu viele Objekte für einen sechsseitigen Auszug, wie ein Koffer, der mehr wiegt, als sein Inhalt erlauben sollte. Wir öffneten ihn in einem Hex-Editor und fanden drei Cross-Reference-Sektionen, zwei Schriftarten, die nur auf Seite 4 erschienen, und einen /TouchUp_TextEdit MP Operator: Adobe Acrobats eigene Brotkrumenspur, die jedes Mal zurückbleibt, wenn jemand „Text & Bilder bearbeiten“ verwendet.

Der Auszug war eine Fälschung. Die Zahlen waren Fiktion. Und unsere Augen hatten nie eine Chance.

Der Betrug lag nicht darin, was wir sehen konnten. Er lag darin, wie die Datei gebaut war.

Illustration zur Erkennung von Dokumentenbetrug

Handwerkliche Fälschung ist tot

Dokumentenbetrug erforderte früher Können. Ein Fälscher brauchte Design-Tools, Wissen über Schriftarten, Geduld und ein vernünftiges Verständnis davon, wie ein Kontoauszug aussehen sollte.

Das war vor den Template-Farmen.

Heute gibt es über 160 Websites, die vorgefertigte Dokumentvorlagen verkaufen: Kontoauszüge, Gehaltsabrechnungen, Steuererklärungen, Versorgerrechnungen. Durchschnittspreis: 28 $. Einige bieten Abonnementpläne an. Der Käufer trägt seine eigenen Zahlen ein, exportiert ein PDF und reicht es für einen Kredit, ein Leasing oder eine Kontoeröffnung ein. Branchenberichte, die Hunderte von Millionen Dokumenten analysieren, zeichnen ein konsistentes Bild: Etwa 1 von 3 weist Probleme mit der strukturellen Integrität auf, und Serienbetrug (dieselbe Vorlage, die bei mehreren Anträgen wiederverwendet wird) hat sich im Jahresvergleich vervielfacht. Ein einziger Cluster enthielt über 23.000 koordinierte Dokumente aus einer einzigen Kampagne.

Das ist kein Handwerk mehr. Das ist eine Lieferkette.

Die pixelgenaue Lüge

Ein geschulter Analyst kann offensichtliche Fälschungen erkennen. Aber die Lücke zwischen „sieht falsch aus“ und „sieht richtig aus“ ist kollabiert. Moderne Bearbeitungstools liefern Ergebnisse, die visuell nicht vom Original zu unterscheiden sind.

Hier ist, was wir auf die harte Tour lernen mussten: Visuelle Qualität bedeutet nicht gleich strukturelle Integrität.

Ein PDF ist kein Bild. Es ist ein Programm. Wenn Sie unseren Artikel über PDF-Interna gelesen haben, wissen Sie, dass jede Seite eine Abfolge von Zeichenanweisungen ist: Glyphen, die an Koordinaten platziert, in Objekte verpackt, durch Cross-Reference-Tabellen verknüpft, mit Metadaten versehen und in Streams komprimiert sind. All diese Struktur existiert unterhalb der visuellen Oberfläche.

Wenn jemand ein PDF bearbeitet, ändert er das, was Sie sehen. Aber er ändert auch die Struktur. Neue Schriftarten werden eingebettet. Objektanzahlen verschieben sich. Content-Streams werden neu geschrieben. Metadaten-Zeitstempel werden aktualisiert (oder entfernt). Der interne Coding-Style der Datei (wie ihr Trailer organisiert ist, welche Keys in ihrer Cross-Reference-Tabelle erscheinen, ob sie LF- oder CRLF-Zeilenumbrüche verwendet) stimmt möglicherweise nicht mehr mit dem überein, was die Metadaten behaupten.

Ein PDF kann darüber lügen, was es zeigt. Es kann nicht so leicht darüber lügen, wie es gebaut wurde.

Der Datei zuhören

Wir mussten aufhören, auf die Seite zu schauen, und anfangen, in die Datei zu schauen. Hier ist die Spur aus Brotkrumen, der wir gelernt haben zu folgen, Schicht für Schicht.

Die leicht zu fälschenden Dinge

Jedes PDF trägt Erstellungs- und Änderungsdaten, eine Producer-Anwendung und oft ein Autorenfeld in sich. Passt der Producer zu dem, was Sie von dieser Bank erwarten würden? Gibt es eine verdächtige Lücke zwischen Erstellung und Änderung? Wurden die Metadatenfelder komplett entfernt?

Aber Metadaten sind das schwächste Signal. Jeder kompetente Editor kann sie fälschen. Einige legitime Banken liefern PDFs mit minimalen Metadaten aus. Und allein das Herunterladen eines PDFs aktualisiert das Änderungsdatum in einigen Viewern. Metadaten-Anomalien sind ein Ausgangspunkt, keine Schlussfolgerung.

Der Fingerabdruck, den Fälscher nicht verwischen können

Hier wird es interessant.

Im Jahr 2021 veröffentlichten die Forscher Adhatarao und Lauradoux ein Paper¹, das zeigte, dass der Coding-Style eines PDFs (die spezifische Kombination von Keys in seinem Trailer, das Format seiner Cross-Reference-Tabelle, Header-Magic-Bytes und Zeilenumbrüche) als Fingerabdruck für die Software fungiert, die es erstellt hat.

LibreOffice fügt immer einen /DocChecksum Key ein. Microsoft Word verwendet sowohl /Prev als auch /XRefStm in seinem Trailer. PDFLaTeX schreibt einen kleingeschriebenen /info Key, wo alle anderen ihn großschreiben. Chromes Skia-Engine lässt /ID im Trailer weg und verwendet LF-Zeilenumbrüche.

Diese Muster überleben das Entfernen von Metadaten. Sie können den String „Producer: LibreOffice“ aus den Metadaten löschen, aber Sie können den /DocChecksum aus dem Trailer nicht einfach entfernen, ohne die gesamte Datei neu zu codieren. Der strukturelle Fingerabdruck enthüllt den tatsächlichen Ersteller, selbst wenn die Metadaten lügen.

Wenn wir eine Diskrepanz feststellen, sagen wir, die Metadaten behaupten „BankingCorePlatform 4.2“, aber der strukturelle Fingerabdruck sagt LibreOffice, dann ist das ein Signal. Kein Beweis. Aber ein Signal, das es wert ist, bestätigt zu werden.

Adobes Verräter-Operator

PDF-Editoren hinterlassen Brotkrumen in den Content-Streams selbst.

Adobe Acrobat fügt jedes Mal, wenn jemand das Textbearbeitungswerkzeug verwendet, einen /TouchUp_TextEdit MP Operator ein. Es ist ein Marked-Point-Operator, Teil der PDF-Spezifikation zum Taggen von Inhalten, der von Adobe zweckentfremdet wurde, um eigene Bearbeitungen zu verfolgen. Jeder bearbeitete Bereich erhält einen. Bearbeiten Sie fünf Beträge auf einer Seite, erhalten Sie fünf Marker. (Adobe hat das nicht gebaut, um Betrüger zu fangen. Sie haben es für ihr eigenes Content-Management gebaut. Wir finden es nur zufällig nützlich.)

Content-Marker von PDF-Editoren

Iceni Infix, ein professioneller PDF-Editor, verwendet einen anderen Mechanismus: /IceniObject <<...>> DP Operatoren, die modifizierte Textblöcke umschließen. Das Dictionary enthält Metadaten über die Bearbeitung.

Diese sind nicht an obskuren Orten versteckt. Sie befinden sich im Content-Stream, direkt neben den Zeichenanweisungen. Die meisten PDF-Viewer ignorieren sie. Wir lesen sie so direkt, wie wir Schriftbefehle lesen.

Wenn Schriftarten dich verraten

Schriftarten sind überraschend gesprächig. Ein PDF, das von einer einzigen Anwendung in einem einzigen Durchlauf generiert wurde, weist konsistente Schrifteigenschaften auf: gleiche Einbettungsstrategie, gleiche Benennungskonvention für Subsets, kompatible Erstellungszeitstempel in den internen Tabellen der Schriftart.

Ein PDF, das bearbeitet wurde, erzählt eine andere Geschichte.

Eine Schriftart, die nur auf einer Seite erscheint, während jede andere Seite einen anderen Satz verwendet, deutet darauf hin, dass diese Seite modifiziert oder separat zusammengestellt wurde. Ein Font-Subset, das 3 Glyphen enthält, aber 15 KB wiegt. Oder ein „Subset“ mit 500+ Glyphen, im Grunde die volle Schriftart, in einem Dokument, in dem alles andere ordnungsgemäß als Subset vorliegt. Da riecht etwas faul.

Dann sind da noch die Zeitstempel. Die head Tabelle innerhalb einer TrueType-Schriftart enthält ein Erstellungsdatum. Wenn dieses Datum Jahre vom Erstellungsdatum des PDFs entfernt ist, wurde die Schriftart wahrscheinlich aus einer anderen Quelle eingebettet. Und die OS/2-Tabelle enthält eine Vendor-ID. Ein Dokument mit Schriftarten von drei verschiedenen Anbietern ist ungewöhnlich, wenn der behauptete Producer eine Bankanwendung ist, die ihren eigenen Schriftsatz mitliefert.

Das Beste daran? Font-Editoren hinterlassen ihren Namen in der name Tabelle der Schriftart. „FontForge“ oder „AFDKO“ Marker in einer Schriftart zu finden, die angeblich aus dem Kernsystem einer Bank stammt, ist... lehrreich.

Der Bearbeitungsverlauf, den PDFs nicht löschen können

PDFs unterstützen inkrementelles Speichern. Anstatt die gesamte Datei neu zu schreiben, hängt ein Editor neue Objekte und eine neue Cross-Reference-Tabelle am Ende an. Der ursprüngliche Inhalt bleibt weiter vorne in der Datei intakt.

PDF-Bearbeitungsverlauf und inkrementelles Speichern

Das bedeutet, dass ein PDF seinen eigenen Bearbeitungsverlauf enthalten kann. Die ursprünglichen Seitenobjekte, die modifizierten Seitenobjekte und die Spur, die sie verbindet. Wir können Revisionen zählen (mehr als eine ist für einen bankgenerierten Auszug ungewöhnlich), identifizieren, welche Objekte geändert wurden, Inhalte erkennen, die nach dem Anbringen einer digitalen Signatur modifiziert wurden, und Dateien entdecken, die von einem anderen Tool neu gespeichert wurden, ohne den Inhalt zu ändern (eine gängige Verschleierungstechnik).

Drei oder mehr Cross-Reference-Sektionen in einem Kontoauszug sind ein kritisches Signal. Banken generieren Auszüge in einem einzigen Durchlauf. Sie gehen nicht zurück und bearbeiten sie.

Eine Anomalie ist ein Zufall

Hier ist der Teil, den die meisten Artikel zur Betrugserkennung überspringen: Einzelne Signale sind unzuverlässig.

Eine Metadaten-Lücke? Der Server der Bank könnte einen Uhrzeitversatz haben. Isolierte Schriftarten auf einer Seite? Könnte eine legitime Layoutänderung zwischen Abschnitten sein. Eine hohe Objektanzahl? Einige PDF-Generatoren sind geschwätzig. Jedes Signal, das wir beschrieben haben, hat eine harmlose Erklärung.

Der Schlüssel ist nicht irgendein einzelnes Signal. Es ist die Konvergenz.

Wir organisieren forensische Beweise in sechs Domänen: Inhalt, Typografie, Metadaten, Struktur, Medien und Sicherheit. Jede Domäne erfasst eine andere Dimension der Integrität des Dokuments. Ein Befund in einer Domäne ist eine Notiz. Befunde in zwei Domänen sind besorgniserregend. Befunde in drei oder mehr Domänen sind ein Muster, das schwer wegzuerklären ist.

Ein Dokument mit entfernten Metadaten und sonst nichts? Viele legitime Dokumente haben minimale Metadaten. Niedriger Score.

Dasselbe Dokument mit entfernten Metadaten, plus Schriftarten, die nicht zum behaupteten Producer passen, plus einem Content-Stream, der Editor-Marker enthält, plus zwei inkrementellen Speicherungen? Jetzt haben Sie Beweise aus vier Domänen. Jeder Befund hat für sich genommen eine harmlose Erklärung. Zusammen sinkt die Wahrscheinlichkeit, dass alle vier zufällig sind, rapide.

Eine Lüge ist eine Anomalie. Vier Lügen sind ein Muster.

Das Scoring spiegelt dies wider. Ein Befund in einer einzelnen Domäne erhält keine Verstärkung. Zwei bestätigende Domänen: 1,25x. Drei oder mehr: 1,5x. Eine ausgefeilte Fälschung, die Spuren über mehrere forensische Ebenen hinterlässt, wird viel aggressiver markiert als ein Dokument, das lediglich ungewöhnliche Metadaten aufweist.

Die Frage umkehren

Forensische Signale erkennen Anomalien. Aber Anomalieerkennung hat ein Symmetrieproblem: Ein Dokument aus einer ungewöhnlichen, aber legitimen Quelle sieht genauso „anomal“ aus wie ein manipuliertes.

Templates kehren die Frage um. Anstatt zu fragen „Was stimmt mit diesem Dokument nicht?“, fragen Sie „Passt dieses Dokument zu einem bekannten, guten Beispiel?“

Für Dokumenttypen mit hohem Volumen (Kontoauszüge von großen Institutionen, Rechnungen von großen Versorgern) erstellen wir Template-Baselines aus verifizierten Stichproben. Ein Template erfasst strukturelle Fingerabdrücke (erwartete Schriftarten, Metadatenmuster, Layout-Eigenschaften) und die visuelle Identität. Wir bringen dem System bei, wie ein echter Société Générale Auszug aussieht: nicht nur das Logo, sondern das Layout, der Header-Bereich, die strukturellen Muster. Wenn also ein neues Dokument eintrifft, können wir sagen: „Das ist konsistent mit dem, was wir zuvor gesehen haben“ oder „Das passt zu nichts, dem wir vertrauen.“

Ein starker Template-Match ist ein Vertrauenssignal: ein positiver Beweis dafür, dass die visuelle Struktur des Dokuments mit verifizierten Beispielen übereinstimmt. Wenn forensische Signale trotz eines Template-Matches anschlagen, ist das besonders interessant: Es deutet darauf hin, dass jemand ein Dokument gebaut hat, um wie ein bekanntes Template auszusehen, aber die strukturellen Interna erzählen eine andere Geschichte.

Was wir (noch) nicht erwischen

Wir werden nicht so tun, als würde dies alles abfangen. Das tut es nicht.

Reine Bildeinsendungen hebeln die Strukturanalyse aus. Wenn jemand einen Bildschirm fotografiert, der einen gefälschten Auszug zeigt, ist das Ergebnis ein JPEG in einer PDF-Hülle. Es gibt keinen Content-Stream zu analysieren, keine Schriftarten zu inspizieren, keinen Revisionsverlauf. Die Analyse fällt auf Bildforensik zurück (Spektralanalyse, Rauschmuster, DCT-Block-Artefakte), was ein anderes und schwächeres Spiel ist.

Format-Hopping ist bewusste Umgehung. Etwa 1 von 4 Einsendungen mit hohem Risiko verwendet ein anderes Dateiformat als das Quelldokument. Jemand generiert ein PDF, macht einen Screenshot, reicht den Screenshot als JPEG ein und verpackt ihn dann wieder in ein PDF. Jede Konvertierung entfernt forensische Beweise. Es ist das Dokumenten-Äquivalent zum Waschen einer Seriennummer.

Perfekte Template-Reproduktion ist möglich. Wenn ein Betrüger genau die Software und Konfiguration erhält, die von einer Bank verwendet wird, kann er PDFs mit passenden strukturellen Fingerabdrücken erstellen. Keine Diskrepanz zu erkennen. Das Dokument sieht legitim aus, weil es von legitimen Tools produziert wurde. An diesem Punkt liegt der Betrug im Inhalt, nicht im Container.

Deshalb ist Betrugserkennung ein geschichtetes Problem. Strukturelle Forensik fängt die Klasse von Betrug ab, bei der der Container seinen visuellen Behauptungen widerspricht. Inhaltsvalidierung (stimmen die Zahlen? geht die Saldogleichung auf?) fängt eine andere ab. Netzwerkanalyse (haben wir genau dieses Template bei verschiedenen Antragstellern gesehen?) fängt eine dritte ab.

Keine einzelne Schicht ist ausreichend. Die Frage ist immer: Wie viele Schichten müsste ein Betrüger gleichzeitig überwinden?

Die Lektionen, die die Produktion überlebt haben

Als wir bei Holofin anfingen, dies zu bauen, dachten wir, wir könnten einfach Anomalien zählen. Alles mit mehr als fünf Signalen markieren. Ausliefern.

Wir haben schnell gemerkt, dass eine reine Signalzählung nutzlos ist. Zwanzig Signale mit niedrigem Schweregrad in einer Domäne (sagen wir, ein geschwätziger PDF-Generator, der ein Dutzend Strukturprüfungen auslöst) sind nicht so aussagekräftig wie drei Signale mit mittlerem Schweregrad über drei verschiedene Domänen hinweg. Die Signal-Anzahl war Rauschen. Die Signal-Konvergenz war die Erkenntnis.

Also haben wir um ein paar Prinzipien herum neu gebaut:

Signale sind billig, Erkenntnisse sind teuer. Dutzende von Prüfungen laufen zu lassen, geht schnell. Sie richtig zu interpretieren, ist der schwierige Teil. Reine Zahlen sind irreführend. Was zählt, ist, ob sich Signale über Domänen hinweg bestätigen.
Vertrauen erfordert Beweise, nicht nur die Abwesenheit von Risiko. Ein sauberer Scan verdient keinen „vertrauenswürdig“-Status. Das erfordert positive Template-Beweise, einen verifizierten Abgleich mit einer bekannten, guten Baseline. Die Abwesenheit von Betrugssignalen könnte bedeuten, dass das Dokument sauber ist. Es könnte auch bedeuten, dass es ein Format ist, das wir noch nicht gelernt haben zu analysieren. Wir sagen lieber „wir wissen es nicht“ als „sieht gut aus“.
Kein Münzwurf. Jedes Signal wird aus der binären Struktur der Datei berechnet. Gleicher Input, gleicher Output, jedes Mal. Keine Modellkonfidenz, keine Temperature-Einstellung, keine Variation zwischen den Läufen. Wenn ein forensisches Signal anschlägt, deutet es auf einen spezifischen strukturellen Fakt hin (ein Objekt, ein Font-Tabelleneintrag, ein Content-Stream-Operator), den Sie in einem Hex-Editor öffnen und selbst verifizieren können. Black-Box-Risikoscores sind in der Compliance nutzlos.
Alles erklären. Ein Analyst, der „hohes Risiko“ sieht, sollte in der Lage sein, die Bewertung auf spezifische Befunde, spezifische Signale, spezifische Bytes in der Datei zurückzuführen. Wenn wir den Score nicht erklären können, ist der Score wertlos.

Die unbequeme Wahrheit über Dokumentenbetrug ist, dass er asymmetrisch ist. Ein visuell überzeugendes PDF zu fälschen, kostet 28 $ und zwanzig Minuten. Diese Fälschung zu erkennen, erfordert die Untersuchung der Datei auf einer Ebene, die die meisten Menschen nie sehen: Font-Binaries, Content-Stream-Operatoren, Strukturen von Cross-Reference-Tabellen, Revisionsketten.

Aber die Asymmetrie schneidet in beide Richtungen. Ein Fälscher kann ein PDF wie alles Mögliche aussehen lassen. Es so zu machen, dass es gebaut ist wie das Original, ist ein viel schwierigeres Problem. Der strukturelle Fingerabdruck eines echten Kontoauszugs (seine Schriftarten, sein Producer-Coding-Style, seine Generierung in einem Durchlauf, seine konsistenten Metadaten) ist das akkumulierte Ergebnis eines spezifischen Software-Stacks, der echte Daten verarbeitet.

Das zu replizieren ist möglich. Es im großen Maßstab zu replizieren, über Dutzende von Dokumenttypen hinweg, während auch der Inhalt stimmt, die Salden korrekt sind und die Daten plausibel sind?

Das ist kein 28-Dollar-Problem mehr.