EquinoxeFR

Xsane et tesseract, l’OCR qui marche très bien sous Linux

by EquinoxeFR on juil.05, 2008, under Linux

Voici comment utiliser l’OCR (reconnaissance de caractères) avec Xsane sous .

Il faut tout d’abord installer Xsane, imagemagick (avec synaptic ou apt-get) et tesseract. Pour installer ce dernier, il faut utiliser le tutoriel situé ici. Faites bien attention à suivre le tutoriel “Par les deb de “b52″ (32 et 64 bits)”.

Afin d’interfacer Xsane et tesseract, il faut un script. J’en ai trouvé un nommé xsane2tess mais il ne fonctionne pas chez moi. J’en ai donc créé un autre que vous pouvez installer comme ceci:

cd /usr/bin

sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl

sudo chmod +x xsane2tess.pl

Ensuite lancez Xsane et allez dans Préférence / Configuration (ALT+s) pour entrer les options suivantes

Xsane

Après avoir validé les bonnes options, il faut mettre les paramètres Sane comme suit:

Xsane

  1. Mode enregistrer
  2. Nom de fichier sans extension
  3. Type de fichier TXT
  4. Mode de scan: GRIS
  5. Résolution: 300 dpi donne de bons résultats
  6. Sélectionnez la zone de texte
  7. La sélection
  8. Effectuez une rotation si nécessaire
  9. Lancez le scan

Voilà, vous avez maintenant un beau fichier TXT qu’il vous faudra vérifier avec et son correcteur d’orthographe par exemple.

Les résultat sont assez étonnants, j’avais essayé GOCR il y a quelques temps mais j’en étais très déçu. Là, il y a avec tesseract, une véritable alternative aux outils propriétaires.

Bonne OCR ;-)

:, , , , , , ,
5 comments for this entry:
  1. FredBezies

    J’utilisais auparavant gscan2pdf, mais cette solution semble plus légère.

    Merci pour l’info et le fichier perl ;)

  2. Jean Pierre C

    Bonjour,

    et mille fois merci pour ce tuto trés explicite qui fonctionne à merveille, sans difficultés.

  3. Sylvain F

    Bonjour,

    Je suis sur Debian sarge. Les paquets tesseract, imagemagick sont installés. Xsane fonctionne. J’ai suivi vos instructions à part le rep d’install /usr/local/bin.
    Mais aucun fichier txt ne sort. J’ai pourtant vérifié le rep de sortie. Existe-t-il un moyen de voir si il y a des erreurs à la reconnaissance? Avec gocr j’avais une sortie, mais inexploitable.
    Merci

  4. EquinoxeFR

    Bonjour @Sylvain F,

    Avez vous installé tesseract “debian” ou comme moi la version “b52″ ? Chez moi je n’ai pas de résultat avec la version Ubuntu, ça ne marche qu’en installant la version B52. Sinon le log par défaut est dans /tmp/tesseract.log

  5. Sylvain F

    Merci pour ces précisions.
    1. J’ai pu installer le deb b52 avec dpkg (j’aurais préféré utiliser synaptic car je ne suis pas un expert et donc pas à l’aise avec les pbs de dépendances).
    2. J’ai lancé xsane à partir de la ligne de commande. J’ai vu ça sur les forums pour visualiser les messages d’erreur :

    Unknown option: x
    tesseract: /usr/lib/libstdc++.so.6: version `GLIBCXX_3.4.9′ not found (required by tesseract)

    je n’arrive pas à trouver de sol sur les forums. Help!

Leave a Reply

Looking for something?

Use the form below to search the site:

Still not finding what you're looking for? Drop a comment on a post or contact us so we can take care of it!