Test d’outils IA gen et OCR sur un texte manuscrit

février 26, 2024

Ma mère m’a prêté le mémoire que mon arrière-grand-père, instituteur en Vendée, a remis pour son certificat de fin d’études normales dans les années 1920s. Elle connaît mon intérêt pour les agricultures alternatives et m’a dit qu’il y parlait de l’arrivée des engrais chimiques en France (avec sa vision malheureuse de l’époque bien sûr). Malgré une superbe écriture comme on n’en voit plus, le recopier me prendrait pas mal de temps et j’ai donc souhaité tester des solutions gratuites de reconnaissance de texte, aussi appelée OCR pour Optical Caracter Recognition.

Préparation du test outils OCR

On ne peut pas dire que la calligraphie soit très moderne et les outils vont sans doute avoir du mal à reconnaître les caractères manuscrits donc, pour pouvoir comparer, j’ajoute un passage recopié avec mon écriture. C’est parti, je prends 2 photos de 2 pages que je recadre et qui serviront de test :

Et mon petit mot écrit comme j’écris d’habitude (ce genre d’outil pourrait me servir à transcrire mes notes après tout) et en capitales aussi pour tester :

Test de Smodin.io

L’un des mieux référencés et donc visibles quand on cherche sur les moteurs, Smodin est une suite complète d’outils IA (rédacteur, résumeur, etc.). On va passer assez vite car j’ai commencé par le plus facile et le résultat est navrant, il n’est clairement pas fait pour le Français bien que j’ai précisé la langue. En jetant un coup d’oeil à leur page « About us », ça a l’air bien opaque, bref, passons au suivant 😉

Dans la foulée, avec le même genre de résultat décevant, j’ai testé OnlineOCR.net sans résultat.

ChatGPT 4.0 pour reconnaître des caractères

Je me dis soudain que ChatGPT a une fonction OCR et qu’en plus, étant un LLM, il devrait pouvoir « combler les trous » pour faire des phrases correctes à partir de ce qu’il reconnaît. J’ai testé avec une page de texte manuscrit et avec mon petit mot en capitales pour comparer. Malheureusement, dans les 2 cas, chatGPT ouvre une commande python pour utiliser le modèle Tesseract (moteur OCR open source développé par Google si je ne m’abuse) et ne parvient pas à aboutir. Il m’explique que le Français n’est pas encore disponible pour cette fonction… dommage, on passe.

En réalité, on voit dans le code qu’aucune langue n’arrive à se charger : TesseractError: (1, ‘Error opening data file /usr/share/tesseract-ocr/4.00/tessdata/fra.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your « tessdata » directory. Failed loading language \’fra\’ Tesseract couldn\’t load any languages! Could not initialize tesseract.’)

Essai à partir d’un PDF

Juste pour être sûre que ce n’est pas la qualité de mes images qui est en cause, je rescanne une page avec mon appli habituelle CamScanner et utilise l’optimisateur pour créer un PDF plus clair / contrasté.

C’est encore pire avec Smodin mais j’ai une autre idée : essayer avec Acrobat Reader qui doit bien avoir une fonction OCR quelque part. Bingo :

On dirait que je joue de malchance car la reconnaissance de caractères ne semble pas fonctionner, le texte (même une fois enregistré en PDF) reste non-modifiable… idem avec le petit mot en capitales…

Test de Google Keep

Mon mari m’a soufflé l’idée d’essayer Google Keep (un outil un peu oublié de la suite Google) et étonnamment, c’est pour l’instant ce qui fonctionne le mieux avec le petit mot en capitales. Il suffit d’ajouter une note image (petit tableau à droite dans la barre Créer une note), et une fois chargée d’aller en bas de la note, de cliquer sur les 3 petits points verticaux et de choisir « Extraire le texte de l’image ». Reste à voir pour la page manuscrite (dont je dois réduire un peu la taille car le maximum est 10Mo) : et bien même si ce n’est pas exploitable au moins ça ressemble à des mots !

A noter qu’on a aussi testé avec Google Lens dans l’appli caméra de nos smartphones Android pour un résultat comparable à celui-ci.

Test de Perplexity sur l’OCR

Ohhhh, le premier test sur le petit mot en capitales est parfaitement concluant, espoir ???

Le résultat sur la page manuscrite est également le meilleur sur tous les tests précédents mais ce n’est pas encore parfait, loin de là. Je vais taper à gauche le VRAI texte à la main, pour comparer avec le texte de Perplexity.ai à droite :

Depuis la guerre, nous souffrons d’un grave malaise économique. A l’heure où notre agriculture a un si grand rôle à jouer, où de si larges débouchés lui sont ouverts, les rendements sont insuffisants et la France, loin de pouvoir exporter les produits de son sol, ne peut plus nourrir ses habitants. Le meilleur remède à cette situation pénible est d’intensifier la production de la terre, d’en tirer un maximum de rendement par des procédés rationnels de culture et en utilisant les découvertes de la science moderne.

Depuis la guerre, nous souffrons d’une grave maladie économique. Il semble que notre agriculture a un grand vide à combler, et malgré que des débouchés lui sont ouverts, le rendement est insuffisant, et la France, loin de pouvoir exporter les produits de son sol, ne peut plus même nourrir ses habitants. La meilleure remède à cette situation serait de stimuler la production de la terre d’une façon rationnelle et intensive, notamment par des procédés rationnels de culture et en utilisant les découvertes de la science moderne.

Il a fait ce que j’attendais d’un LLM en matière d’OCR, il a comblé les vides et reformulé les phrases. Et si mon objectif était de lui faire résumer le contenu de tout le document, cela pourrait m’intéresser mais je souhaite avoir le texte exact de mon arrière-grand-père, pas une approximation et encore moins une interprétation. J’ai essayé de peaufiner le prompt mais il me donne la même réponse. Toutefois, c’est le seul outil testé qui arrive à un résultat exploitable.

Dernière chance avec Claude.ai

Ce sera un NON pour Claude.ai d’Antropic concernant la reconnaissance de caractères :

L’upload du PDF a échoué et il n’accepte ni les .jpg ni les .png.

J’arrive à la fin de mon temps de test imparti sans avoir trouvé vraiment une solution satisfaisante et je crains de devoir tout taper à la main si je veux conserver ce document pour l’avenir, à moins bien sûr que quelqu’un lise cet article et m’indique de nouvelles pistes ??? A vos commentaires ! 🙂

ocr

Commentaires

septembre 16, 2024

Fernandez

Bonjour, je découvre votre travail un peu par hasard mais c’est fort intéressant !
J’ai personnellement fait un test avec la dernière mouture libre de Chat GPT il y a 1 semaine sur une page de brouillon contenant des calculs et du texte. Mon écriture est lisible pour les initiés seulement comme toute personne passée sur les bancs de l’université et c’était en outre un brouillon ! ^^
Chat GPT a fait un super travail de retranscription, j’étais épaté ! Donc, je pense que vous devriez retenter avec le mémoire de votre aïeul ;-).

Répondre