juil 052008

Voici comment utiliser l’OCR (reconnaissance de caractères) avec Xsane sous Ubuntu hardy.

Il faut tout d’abord installer Xsane, imagemagick (avec synaptic ou apt-get) et tesseract. Pour installer ce dernier, il faut utiliser le tutoriel situé ici. Faites bien attention à suivre le tutoriel « Par les deb de « b52″ (32 et 64 bits) ».

Afin d’interfacer Xsane et tesseract, il faut un script. J’en ai trouvé un nommé xsane2tess mais il ne fonctionne pas chez moi. J’en ai donc créé un autre que vous pouvez installer comme ceci:

[code lang="bash"]

cd /usr/bin

sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl

sudo chmod +x xsane2tess.pl

[/code]

Ensuite lancez Xsane et allez dans Préférence / Configuration (ALT+s) pour entrer les options suivantes

Xsane

Après avoir validé les bonnes options, il faut mettre les paramètres Sane comme suit:

Xsane

  1. Mode enregistrer
  2. Nom de fichier sans extension
  3. Type de fichier TXT
  4. Mode de scan: GRIS
  5. Résolution: 300 dpi donne de bons résultats
  6. Sélectionnez la zone de texte
  7. La sélection
  8. Effectuez une rotation si nécessaire
  9. Lancez le scan

Voilà, vous avez maintenant un beau fichier TXT qu’il vous faudra vérifier avec openoffice et son correcteur d’orthographe par exemple.

Les résultat sont assez étonnants, j’avais essayé GOCR il y a quelques temps mais j’en étais très déçu. Là, il y a avec tesseract, une véritable alternative aux outils propriétaires.

Bonne OCR ;-)

Share and Enjoy:
  • Twitter
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Digg

15 Réponses to “Xsane et tesseract, l’OCR qui marche très bien sous Linux”

Commentaires (15)
  1. FredBezies dit :

    J’utilisais auparavant gscan2pdf, mais cette solution semble plus légère.

    Merci pour l’info et le fichier perl ;)

  2. Jean Pierre C dit :

    Bonjour,

    et mille fois merci pour ce tuto trés explicite qui fonctionne à merveille, sans difficultés.

  3. Sylvain F dit :

    Bonjour,

    Je suis sur Debian sarge. Les paquets tesseract, imagemagick sont installés. Xsane fonctionne. J’ai suivi vos instructions à part le rep d’install /usr/local/bin.
    Mais aucun fichier txt ne sort. J’ai pourtant vérifié le rep de sortie. Existe-t-il un moyen de voir si il y a des erreurs à la reconnaissance? Avec gocr j’avais une sortie, mais inexploitable.
    Merci

  4. EquinoxeFR dit :

    Bonjour @Sylvain F,

    Avez vous installé tesseract « debian » ou comme moi la version « b52″ ? Chez moi je n’ai pas de résultat avec la version Ubuntu, ça ne marche qu’en installant la version B52. Sinon le log par défaut est dans /tmp/tesseract.log

  5. Sylvain F dit :

    Merci pour ces précisions.
    1. J’ai pu installer le deb b52 avec dpkg (j’aurais préféré utiliser synaptic car je ne suis pas un expert et donc pas à l’aise avec les pbs de dépendances).
    2. J’ai lancé xsane à partir de la ligne de commande. J’ai vu ça sur les forums pour visualiser les messages d’erreur :

    Unknown option: x
    tesseract: /usr/lib/libstdc++.so.6: version `GLIBCXX_3.4.9′ not found (required by tesseract)

    je n’arrive pas à trouver de sol sur les forums. Help!

  6. nemea dit :

    bonjour j’essaie d’utiliser votre méthode mais je n’y arrive pas je suis débutante je précise, voila le message que j’obtiens :
    Erreur de processus enfant
    failed to execute ocr command:
    xsane 2tess pl-l fra-log/tmp/tesseract log:
    aucun fichier ou dossier de ce type

    pouvez vous m’aider
    merci d’avance

  7. EquinoxeFR dit :

    @nemea, a priori c’est peut être du à l’espace entre xsane et 2tess.

    Normalement la commande est:

    xsane2tess.pl -l fra -log /tmp/tesseract.log

  8. EquinoxeFR dit :

    Je précise, avec Ubuntu intrepid, il n’y a pas besoin des dépots b52. Un simple « apt-get install tesseract tesseract-fra » est suffisant.

  9. nemea dit :

    merci je viens d’essayer et voila la réponse en console
    E: Impossible d’ouvrir le fichier verrou /var/lib/dpkg/lock – open (13 Permission non accordée)
    E: Unable to lock the administration directory (/var/lib/dpkg/), are you root?
    je me bats avec cela depuis plusieurs jours c’est frustrant
    d’autant plus que je ne parle pas anglais
    je vais tout réinstaller mais j’aimerais savoir ce que veut dire le message ci dessus
    merci d’avance
    Némea

  10. EquinoxeFR dit :

    @nemea, tu n’as pas les droits d’installer tesseract. Pour le faire, il faut être super utilisateur. Essaye ça:

    « sudo apt-get install tesseract tesseract-fra »

  11. nemea dit :

    bonsoir
    merci encore je ne sais pas comment j’ai fait mais cela fonctionne sur un petit morceau de texte je crois que c’est un coup de chance car vraiment je cafouille , mais ton aide a été précieuse ceci dit l’ocr n’est pas mal je vais continuer mes essais,à suivre certainemen
    merci à toi
    néméa

  12. EquinoxeFR dit :

    @nemea, bon courage. Je trouve les résultats de l’ocr plutôt bon, excepté pour la mise en page.

  13. Salut
    Ça marche bien sous Debian Sid avec les paquets Debian. Et c’est vrai que comparé au charabia de gocr, cela devient utilisable.

  14. Sorbus dit :

    Salut EquinoxeFR,

    Ici Sorbus, du forum (et de la doc) Ubuntu. Merci pour ce tuto qui complète la diffusion de bonnes infos au sujet de l’OCR sous Linux.

    Ce petit message pour plusieurs choses :

    - nous avons remarqué, sur le forum Ubuntu, qu’une espace mal placée dans la configuration de xsane (avant le « -i », ou après le « -l fra » empêche le fonctionnement correct de xsane2tess.
    cf. ici : http://forum.ubuntu-fr.org/viewtopic.php?pid=2535312#p2535312

    - quel problème avais-tu rencontré avec le script xsane2tess de la doc Ubuntu ? (n’était-ce pas aussi ce problème d’espace ?)

    - quelles sont les modifs de ton fichier xsane2tess.pl par rapport au script xsane2tess de la doc Ubuntu ? (je vois que la commande OCR indiquée dans la configuration de xsane comporte en plus un « -log » et un chemin commençant par le répertoire tmp.)

    En OCR, sous Linux, il nous faudrait maintenant commencer à tester Ocropus… Que les premiers qui testeront tiennent au courant les autres ;)

    A bientôt !

  15. JF dit :

    Salut, merci mille fois pour le tuyau et le script :)

    Bonne continuation

Laisser une réponse

(requis)

(requis)