Detección de fraude documental: Lo que un PDF no puede ocultar

Solíamos pensar que el fraude documental era un problema visual. Fuentes incorrectas. Columnas desalineadas. Un logotipo que se sentía ligeramente incorrecto. Construimos controles en torno a lo que ven los humanos, porque lo que ven los humanos era todo lo que teníamos.

Entonces llegó un extracto bancario a nuestro flujo de trabajo. Diseño limpio. Saldos correctos. Todas las comprobaciones visuales pasaron. La extracción funcionó perfectamente. Pero algo en el archivo se sentía pesado. Demasiados objetos para un extracto de seis páginas, como una maleta que pesa más de lo que su contenido debería permitir. Lo abrimos en un editor hexadecimal y encontramos tres secciones de referencias cruzadas, dos fuentes que solo aparecían en la página 4 y un operador /TouchUp_TextEdit MP: el propio rastro de Adobe Acrobat, dejado cada vez que alguien usa "Editar texto e imágenes".

El extracto era falso. Los números eran ficción. Y nuestros ojos nunca tuvieron oportunidad.

El fraude no estaba en lo que podíamos ver. Estaba en cómo se construyó el archivo.

Ilustración de detección de fraude documental

La falsificación artesanal ha muerto

El fraude documental solía requerir habilidad. Un falsificador necesitaba herramientas de diseño, conocimiento de fuentes, paciencia y una comprensión razonable de cómo debería verse un extracto bancario.

Eso fue antes de las granjas de plantillas.

Hoy en día, hay más de 160 sitios web que venden plantillas de documentos preconstruidas: extractos bancarios, nóminas, declaraciones de impuestos, facturas de servicios públicos. Precio promedio: $28. Algunos ofrecen planes de suscripción. El comprador completa sus propios números, exporta un PDF y lo envía para un préstamo, un arrendamiento o una apertura de cuenta. Los informes de la industria que analizan cientos de millones de documentos pintan un cuadro consistente: aproximadamente 1 de cada 3 muestra problemas de integridad estructural, y el fraude en serie (la misma plantilla reutilizada en múltiples solicitudes) ha aumentado varias veces año tras año. Un solo clúster contenía más de 23,000 documentos coordinados de una sola campaña.

Esto ya no es artesanía. Es una cadena de suministro.

La mentira píxel-perfecta

Un analista capacitado puede detectar falsificaciones obvias. Pero la brecha entre "se ve mal" y "se ve bien" ha colapsado. Las herramientas de edición modernas producen resultados que son visualmente indistinguibles de los reales.

Esto es lo que tuvimos que aprender a la fuerza: la calidad visual no implica integridad estructural.

Un PDF no es una imagen. Es un programa. Si has leído nuestro artículo sobre los aspectos internos de los PDF, sabes que cada página es una secuencia de instrucciones de dibujo: glifos colocados en coordenadas, envueltos en objetos, vinculados por tablas de referencias cruzadas, anotados con metadatos, comprimidos en flujos (streams). Toda esta estructura existe debajo de la superficie visual.

Cuando alguien edita un PDF, cambia lo que ves. Pero también cambia la estructura. Se incrustan nuevas fuentes. Los recuentos de objetos cambian. Los flujos de contenido se reescriben. Las marcas de tiempo de los metadatos se actualizan (o se eliminan). El estilo de codificación interno del archivo (cómo está organizado su trailer, qué claves aparecen en su tabla de referencias cruzadas, si usa finales de línea LF o CRLF) puede que ya no coincida con lo que afirman los metadatos.

Un PDF puede mentir sobre lo que muestra. No puede mentir fácilmente sobre cómo fue construido.

Escuchando al archivo

Tuvimos que dejar de mirar a la página y empezar a mirar dentro del archivo. Aquí está el rastro de migajas que aprendimos a seguir, capa por capa.

Lo fácil de falsificar

Todo PDF lleva fechas de creación y modificación, una aplicación productora y, a menudo, un campo de autor. ¿Coincide el productor con lo que esperarías de este banco? ¿Hay una brecha sospechosa entre la creación y la modificación? ¿Se eliminaron por completo los campos de metadatos?

Pero los metadatos son la señal más débil. Cualquier editor competente puede falsificarlos. Algunos bancos legítimos envían archivos PDF con metadatos mínimos. Y simplemente descargar un PDF actualiza la fecha de modificación en algunos visores. Las anomalías en los metadatos son un punto de partida, no una conclusión.

La huella digital que los falsificadores no pueden borrar

Aquí es donde se pone interesante.

En 2021, los investigadores Adhatarao y Lauradoux publicaron un artículo¹ mostrando que el estilo de codificación de un PDF (la combinación específica de claves en su trailer, el formato de su tabla de referencias cruzadas, los bytes mágicos del encabezado y los finales de línea) actúa como una huella digital del software que lo creó.

LibreOffice siempre incluye una clave /DocChecksum. Microsoft Word usa tanto /Prev como /XRefStm en su trailer. PDFLaTeX escribe una clave /info en minúsculas donde todos los demás la escriben en mayúsculas. El motor Skia de Chrome omite /ID del trailer y usa finales de línea LF.

Estos patrones sobreviven a la eliminación de metadatos. Puedes eliminar la cadena "Producer: LibreOffice" de los metadatos, pero no puedes eliminar fácilmente el /DocChecksum del trailer sin volver a codificar todo el archivo. La huella estructural revela el productor real incluso cuando los metadatos mienten.

Cuando detectamos una discrepancia, digamos que los metadatos afirman "BankingCorePlatform 4.2" pero la huella estructural dice LibreOffice, eso es una señal. No es una prueba. Pero es una señal que vale la pena corroborar.

El operador delator de Adobe

Los editores de PDF dejan rastros en los propios flujos de contenido.

Adobe Acrobat inserta un operador /TouchUp_TextEdit MP cada vez que alguien usa la herramienta de edición de texto. Es un operador de punto marcado, parte de la especificación PDF para etiquetar contenido, reutilizado por Adobe para rastrear sus propias ediciones. Cada región editada obtiene uno. Edita cinco cantidades en una página, obtienes cinco marcadores. (Adobe no construyó esto para atrapar a los estafadores. Lo construyeron para su propia gestión de contenido. Simplemente resulta que nos es útil).

Marcadores de contenido de editor de PDF

Iceni Infix, un editor de PDF profesional, utiliza un mecanismo diferente: operadores /IceniObject <<...>> DP que envuelven bloques de texto modificados. El diccionario contiene metadatos sobre la edición.

Estos no están ocultos en ubicaciones oscuras. Están dentro del flujo de contenido, justo al lado de las instrucciones de dibujo. La mayoría de los visores de PDF los ignoran. Nosotros los leemos tan directamente como leemos los comandos de fuentes.

Cuando las fuentes te delatan

Las fuentes son sorprendentemente comunicativas. Un PDF generado por una sola aplicación, en una sola pasada, tendrá características de fuente consistentes: misma estrategia de incrustación, misma convención de nomenclatura de subconjuntos, marcas de tiempo de creación compatibles en las tablas internas de la fuente.

Un PDF que ha sido editado cuenta una historia diferente.

Una fuente que aparece en una sola página, mientras que todas las demás páginas usan un conjunto diferente, sugiere que esa página fue modificada o ensamblada por separado. Un subconjunto de fuentes que contiene 3 glifos pero pesa 15KB. O un "subconjunto" con más de 500 glifos, esencialmente la fuente completa, en un documento donde todo lo demás está correctamente subconjuntado. Algo huele mal.

Luego están las marcas de tiempo. La tabla head dentro de una fuente TrueType contiene una fecha de creación. Cuando esa fecha tiene años de diferencia con la fecha de creación del PDF, es probable que la fuente se haya incrustado desde una fuente diferente. Y la tabla OS/2 incluye una identificación de proveedor. Un documento con fuentes de tres proveedores diferentes es inusual si el productor reclamado es una aplicación bancaria que envía su propio conjunto de fuentes.

¿La mejor parte? Los editores de fuentes dejan su nombre en la tabla de nombres de la fuente. Encontrar marcadores de "FontForge" o "AFDKO" dentro de una fuente que se supone que proviene del sistema central de un banco es... educativo.

El historial de edición que los PDF no pueden eliminar

Los PDF admiten guardados incrementales. En lugar de reescribir todo el archivo, un editor agrega nuevos objetos y una nueva tabla de referencias cruzadas al final. El contenido original permanece intacto al principio del archivo.

Historial de edición de PDF y guardados incrementales

Esto significa que un PDF puede contener su propio historial de edición. Los objetos de página originales, los objetos de página modificados y el rastro que los conecta. Podemos contar revisiones (más de una es inusual para un extracto generado por un banco), identificar qué objetos cambiaron, detectar contenido modificado después de que se aplicó una firma digital y detectar archivos que fueron guardados nuevamente por una herramienta diferente sin cambiar el contenido (una técnica de ofuscación común).

Tres o más secciones de referencias cruzadas en un extracto bancario es una señal crítica. Los bancos generan extractos en una sola pasada. No vuelven atrás para editarlos.

Una anomalía es una coincidencia

Aquí está la parte que la mayoría de los artículos de detección de fraude omiten: las señales individuales no son fiables.

¿Una brecha de metadatos? El servidor del banco podría tener un desfase de reloj. ¿Aislamiento de fuente en una página? Podría ser un cambio de diseño legítimo entre secciones. ¿Un recuento alto de objetos? Algunos generadores de PDF son verbosos. Cada señal que hemos descrito tiene una explicación inocente.

La clave no es ninguna señal individual. Es la convergencia.

Organizamos la evidencia forense en seis dominios: contenido, tipografía, metadatos, estructura, medios y seguridad. Cada dominio captura una dimensión diferente de la integridad del documento. Un hallazgo en un dominio es una nota. Hallazgos en dos dominios son una preocupación. Hallazgos en tres o más dominios son un patrón difícil de explicar.

¿Un documento con metadatos eliminados y nada más? Muchos documentos legítimos tienen metadatos mínimos. Puntuación baja.

¿Ese mismo documento con metadatos eliminados, más fuentes que no coinciden con el productor reclamado, más un flujo de contenido que contiene marcadores de editor, más dos guardados incrementales? Ahora tienes evidencia de cuatro dominios. Cada hallazgo individualmente tiene una explicación inocente. Juntos, la probabilidad de que los cuatro sean coincidentes cae rápidamente.

Una mentira es una anomalía. Cuatro mentiras son un patrón.

La puntuación refleja esto. Un hallazgo de un solo dominio no obtiene amplificación. Dos dominios corroborantes: 1.25x. Tres o más: 1.5x. Una falsificación sofisticada que deja rastros a través de múltiples capas forenses se marca mucho más agresivamente que un documento que simplemente tiene metadatos inusuales.

Invirtiendo la pregunta

Las señales forenses detectan anomalías. Pero la detección de anomalías tiene un problema de simetría: un documento de una fuente inusual pero legítima parece tan "anómalo" como uno manipulado.

Las plantillas invierten la pregunta. En lugar de preguntar "¿qué tiene de malo este documento?", preguntas "¿coincide este documento con un ejemplo bueno conocido?"

Para tipos de documentos de alto volumen (extractos bancarios de instituciones importantes, facturas de servicios públicos de grandes proveedores) construimos líneas base de plantillas a partir de muestras verificadas. Una plantilla captura huellas estructurales (fuentes esperadas, patrones de metadatos, características de diseño) e identidad visual. Enseñamos al sistema cómo se ve un extracto real de Société Générale: no solo el logotipo, sino el diseño, la región del encabezado, los patrones estructurales. Así que cuando llega un nuevo documento, podemos decir "esto es consistente con lo que hemos visto antes" o "esto no coincide con nada en lo que confiamos".

Una coincidencia fuerte con la plantilla es una señal de confianza: evidencia positiva de que la estructura visual del documento coincide con ejemplos verificados. Cuando las señales forenses se activan a pesar de una coincidencia con la plantilla, eso es especialmente interesante: sugiere que alguien construyó un documento para que se pareciera a una plantilla conocida, pero los componentes internos estructurales cuentan una historia diferente.

Lo que no podemos atrapar (todavía)

No vamos a fingir que esto atrapa todo. No lo hace.

Los envíos de solo imagen derrotan el análisis estructural. Si alguien fotografía una pantalla que muestra un extracto falso, el resultado es un JPEG en un contenedor PDF. No hay flujo de contenido para analizar, ni fuentes para inspeccionar, ni historial de revisiones. El análisis recurre a la forense de imágenes (análisis espectral, patrones de ruido, artefactos de bloque DCT), que es un juego diferente y más débil.

El cambio de formato es una evasión deliberada. Aproximadamente 1 de cada 4 envíos de alto riesgo utiliza un formato de archivo diferente al documento fuente. Alguien genera un PDF, hace una captura de pantalla, envía la captura como JPEG y luego la vuelve a envolver en un PDF. Cada conversión elimina la evidencia forense. Es el equivalente documental de lavar un número de serie.

La reproducción perfecta de plantillas es posible. Si un estafador obtiene el software exacto y la configuración utilizada por un banco, puede producir archivos PDF con huellas estructurales coincidentes. No hay discrepancia que detectar. El documento parece legítimo porque fue producido por herramientas legítimas. En ese punto, el fraude está en el contenido, no en el contenedor.

Por esto la detección de fraude es un problema de capas. La forense estructural atrapa la clase de fraude donde el contenedor contradice sus afirmaciones visuales. La validación de contenido (¿suman los números? ¿se mantiene la ecuación de saldo?) atrapa otra. El análisis de red (¿hemos visto esta plantilla exacta en diferentes solicitantes?) atrapa una tercera.

Ninguna capa individual es suficiente. La pregunta es siempre: ¿cuántas capas necesitaría derrotar un estafador simultáneamente?

Las lecciones que sobrevivieron a producción

Cuando empezamos a construir esto en Holofin, pensamos que podíamos simplemente contar anomalías. Marcar cualquier cosa con más de cinco señales. Enviarlo.

Rápidamente nos dimos cuenta de que un recuento de señales bruto es inútil. Veinte señales de baja gravedad en un dominio (digamos, un generador de PDF verboso que activa una docena de comprobaciones estructurales) no son tan significativas como tres señales de gravedad media en tres dominios diferentes. El recuento de señales era ruido. La convergencia de señales era la revelación.

Así que reconstruimos en torno a unos pocos principios:

Las señales son baratas, los hallazgos son caros. Ejecutar docenas de comprobaciones es rápido. Interpretarlas correctamente es la parte difícil. Los recuentos brutos son engañosos. Lo que importa es si las señales se corroboran entre dominios.
La confianza requiere evidencia, no solo ausencia de riesgo. Un escaneo limpio no gana el estado de "confiable". Eso requiere evidencia positiva de plantilla, una coincidencia verificada contra una línea base buena conocida. La ausencia de señales de fraude podría significar que el documento está limpio. También podría significar que es un formato que aún no hemos aprendido a analizar. Preferimos decir "no sabemos" que "parece bien".
Sin lanzar monedas al aire. Cada señal se calcula a partir de la estructura binaria del archivo. Misma entrada, misma salida, cada vez. Sin confianza del modelo, sin configuración de temperatura, sin variación entre ejecuciones. Cuando una señal forense se activa, apunta a un hecho estructural específico (un objeto, una entrada de tabla de fuentes, un operador de flujo de contenido) que puedes abrir en un editor hexadecimal y verificar tú mismo. Las puntuaciones de riesgo de caja negra son inútiles en cumplimiento.
Explicar todo. Un analista que ve "alto riesgo" debería poder rastrear la evaluación hasta hallazgos específicos, señales específicas, bytes específicos en el archivo. Si no podemos explicar la puntuación, la puntuación no tiene valor.

La verdad incómoda sobre el fraude documental es que es asimétrico. Falsificar un PDF visualmente convincente toma $28 y veinte minutos. Detectar esa falsificación requiere examinar el archivo a un nivel que la mayoría de los humanos nunca ven: binarios de fuentes, operadores de flujo de contenido, estructuras de tablas de referencias cruzadas, cadenas de revisión.

Pero la asimetría funciona en ambos sentidos. Un falsificador puede hacer que un PDF se parezca a cualquier cosa. Hacer que esté construido como el real es un problema mucho más difícil. La huella estructural de un extracto bancario genuino (sus fuentes, su estilo de codificación del productor, su generación en una sola pasada, sus metadatos consistentes) es el resultado acumulado de una pila de software específica procesando datos reales.

Replicar eso es posible. ¿Replicarlo a escala, a través de docenas de tipos de documentos, mientras también se obtiene el contenido correcto, los saldos correctos y las fechas plausibles?

Ese ya no es un problema de $28.