Quand les documents contre-attaquent
Page 1 : Résumé du compte, deux colonnes. Page 15 : Même compte, trois colonnes, noms d'en-tête différents. Page 47 : Un scan avec une tache de café. Page 89 : La page des totaux, qui fait référence à des transactions que vous avez extraites il y a 70 pages.
Greg T

La piste d'audit invisible
Un auditeur ouvre votre fichier d'export, trouve un solde de clôture de 47 500 € et sort le PDF source. Page 3, coin inférieur droit : 47 000 €. Un chiffre différent. « D'où vient la différence ? Qui l'a modifié ? »
Greg T

HoloRecall : Montrer plutôt que raconter
Il y a un moment dans chaque projet de classification où vous voyez le modèle se tromper avec assurance. Pas un cas difficile. Pas un cas limite ambigu. Quelque chose qu'un humain résoudrait en une demi-seconde sans réfléchir.
Greg T

Votre LLM n'est pas un pipeline de documents
Il y a un moment dans chaque projet d'IA où la démo semble si parfaite que votre cerveau commence silencieusement à supprimer du code. Vous regardez un modèle « lire » un relevé bancaire et vous vous dites : ça y est. On peut sauter l'OCR. On peut sauter l'analyse de la mise en page. Peut-être qu'on peut sauter la moitié du pipeline. Dans la version cinéma, quelqu'un appuie sur Entrée et du JSON coule en cascade depuis le cloud.
Greg T

Les PDF sont pour les humains, pas pour les données
Nous adorons les PDF. Ils s'affichent de la même manière sur tous les appareils, s'impriment magnifiquement à n'importe quelle taille, et sont ce qui se rapproche le plus du papier numérique. Mais chaque fois que quelqu'un de notre équipe dit « extrayons simplement les données du PDF », nous sentons un ancien démon PostScript se réveiller et chuchoter : « Je suis né pour peindre des pixels, pas pour structurer vos lignes. »
Greg T