OCR en 2024

J’ai un besoin ponctuel d’OCR: un PDF de 80 pages de texte simple, avec peu de mise en page.

Je me dis qu’avec le boom actuel de l’IA on devrait pouvoir avoir des services ou apps qui font bien mieux le travail qu’avant.

Vous utiliseriez quoi ?

ChatGPT te le propose. Parcontre 80pages… aucune idée si c’est possible

Ah tiens, un critère que j’ai oublié de préciser: je voudrais que le texte ne soit pas utilisé au passage pour entraîner un service quelconque.

Tu peux cocher la case qui va bien (à condition qui tu fasse confiance au fournisseur).

1 « J'aime »

Aperçu sur macOS :smiley:

1 « J'aime »

Damn, j’ai encore oublié un critère : Windows ou service en ligne (fiable).

je voudrais que le texte ne soit pas utilisé au passage pour entraîner un service quelconque.

Je pense que tu peux d’office oublier les services en ligne.

1 « J'aime »

A voir si NAPS peut le faire (j’entends par là prendre un PDF et le passer à travers de sa moulinette OCR).
Beaucoup de soft de scanner font un PDF mais sans faire d’extraction de texte. Et sous Windows tu as le machin qui permet de prendre des screenshots, par moment il te dit que la résolution de l’image est trop faible pour faire de l’OCR dessus ! :man_facepalming:

1 « J'aime »

Acrobat Pro le fait, en export vers du word par exemple, mais sûrement aussi en texte pur.
Passe moi le fichier en PM et je te le fais…

2 « J'aime »

tu as tenter de l’ouvrir avec word tout simplement ? Il fait de la reconnaissance native.
Si c’est un vrai pdf, pas une image scanné :wink:

Merci beaucoup pour la propal. :slight_smile:
Mais ce sont des docs que je ne peux pas trop faire circuler.

Par contre Acrobat Pro peut être la solution, il y a une période d’essai gratuit de 7 jours, il faut que je tente ça.

Oui ce sont des images, d’où le besoin d’OCR. :slight_smile:

Il y a aussi Google lens pour récupérer le texte brut.
Bon 80 pages à scanner c’est pas forcément ce qu’il y a de plus pratique on est d’accord, mais en dernier recours ça peut dépanner.
(Mais reste le problème des données transmises)

Je sais qu’on est en train de faire des essais de notre côté avec Gemini, l’IA de google, pour extraire des donnés structurées de facture fournisseur. Ça marche plutôt bien. Par contre c’est des docs de une, deux pages max. Je sais pas si ça marchera avec 80 pages.

Bon j’ai regardé dans la doc de NAPS2 (qui fait du local pour l’OCR) :

Imported Documents
If you have OCR enabled, NAPS2 can add OCR to existing PDF files you import. NAPS2 follows a simple rule: if a page already has text, it leaves it alone; if it doesn’t, OCR will be used.

OCR - NAPS2.

NotebookLM. On peut importer un PDF et avoir le transcript ensuite en cliquant dessus.
Et ça répond à ton autre point:

NotebookLM n’utilise pas vos données à caractère personnel, y compris vos importations de sources, vos requêtes et les réponses du modèle pour l’entraînement.

Il faut que je teste alors, thx !

J’ai essayé vite fait: on voit bien qu’il lit le texte puisqu’il arrive à le résumer, par contre pas moyen d’avoir le transcript, il se contente de m’afficher le document (qui est une collection d’images dans un fichier PDF).

Même en cliquant sur le doc dans la sidebar de gauche?

Oui, il n’affiche que l’image (et un résumé).

Si tu n’as pas déjà trouvé, j’allais te propose Owl OCR, mais il ne fonctionne que sur mac, donc j’ai fait un tour pour toi sur alternative to, le site qui me permet (souvent) de trouver une alternative open source aux softs que j’aimerai utiliser :
https://alternativeto.net/software/owlocr/?platform=windows

Je te laisse faire le tour, mais les solutions basées sur tesseract semblent adaptées à ta demande.

Merci ! Je n’ai pas encore eu le temps de refaire des essai, je vais regarder ça aussi !