La reconnaissance optique de caractères sous Linux

De Wiki Linux62.

(Différences entre les versions)

Version actuelle en date du 25 octobre 2010 à 21:47

La Reconnaissance Optique de Caractères ( ou OCR ) bien entendu vous connaissez ? (pour la petite histoire, j'avais tenté l'OCR via un site, gratuit, annoncé comme rendant un résultat très "pro" et en définitive, le texte était indéchiffrable et c'était à se rouler par terre :-)

Mais cette OCR fonctionne-t'elle sous Linux ? Eh bien cela fonctionne même plutôt très bien. Il vous suffit de 2/3 petits programmes et d'un petit script pour finaliser le tout.

Tout d'abord, assurez-vous que les programmes xsane et imagemagick sont bien installés dans votre système. Si tel n'est pas le cas, alors installez les, par exemple pour un système basé Debian et en console:

sudo apt-get install xsane imagemagick

Il vous faut ensuite installer tesseract, qui existe dans votre gestionnaire de paquets, mais surtout, n'installez pas celui-là!!! ( j'avais essayé avec le paquet natif du système, mais au final, le fichier scanné est vide :-(

Récupérez le ici : http://doc.ubuntu-fr.org/tesseract-ocr.

Dans le paragraphe Par les deb de « b52 » (32 et 64 bits), récupérez la version 2.04 pour votre architecture de processeur ( tesseract 2.04 pour les architectures 64 bits. en ce qui me concerne ). Rendez-vous dans votre dossier où il a été téléchargé et installez le. Pour ce faire, ouvrez un terminal et tapez:

sudo dpkg -i tesseract........deb

Il vous faut maintenant récupérer et installer un petit script dans /usr/bin qui se nomme xsane2tess.pl, script qui se charge de l'interface entre tesseract et xsane.

Ouvrez un terminal et tapez :

 cd /usr/bin

( pour se rendre dans le dossier désiré )

/usr/bin$sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl

( pour récupérer et installer le script )

 sudo chmod +x xsane2tess.pl

( pour accorder le droit d'éxécuter à l'utilisateur )

Vous en avez terminé avec les "tortures" :-) et la reconnaissance optique de caractères est fonctionnelle.

La pratique:

Vous scannez une feuille écrite pour en récupérer le texte, texte qui s'ouvrira dans votre logiciel de bureautique favori ( Open Office par exemple ;-)

Lancez donc xsane. Choisissez Enregistrer, à Type choisissez TEXT puis donnez un titre à votre document. Mode de scan: Gris et mettez la résolution à 300 dpi, ce qui vous donnera déjà un très bon résultat. Cliquez ensuite sur "Préférences" >> "Configuration" >> "OCR" La première ligne Commande OCR doit être la suivante: xsane2tess.pl -l fra -log /tmp/tesseract.log

Créez d'abord l'aperçu et ensuite sélectionnez tout ou partie du texte, selon vos besoins. Faites la numérisation finale. Laissez enregistrer et c'est tout.

Rendez-vous dans votre Home et retrouvez votre scan. Un clic dessus et le texte sera ouvert par Open Office.

Méthode réalisée sous Ubuntu 10.10 version 64 bits. J'utilise cette méthode depuis déjà la version 9.10 ( que j'utilisais en 32 bits ). Notre amie Françoise a obtenu un très bon résultat également, sous Debian Squeeze ;-)

@lain

@@ Ligne 7 : / Ligne 7 : @@
 Tout d'abord, assurez-vous que les programmes '''xsane''' et '''imagemagick''' sont bien installés dans votre système.
-Si tel n'est pas le cas, alors installez les, par exemple pour un système basé Debian:
+Si tel n'est pas le cas, alors installez les, par exemple pour un système basé Debian et en console:
+ '''sudo apt-get install xsane imagemagick'''
- '''Alain@ubuntu:~$sudo apt-get install xsane imagemagick'''
 Il vous faut ensuite installer '''tesseract''', qui existe dans votre gestionnaire de paquets, mais surtout, '''n'installez pas celui-là!!!'''
 ( j'avais essayé avec le paquet natif du système, mais au final, le fichier scanné est vide :-(
@@ Ligne 18 : / Ligne 19 : @@
 Dans le paragraphe '''Par les deb de « b52 » (32 et 64 bits)''', récupérez la version '''2.04''' pour votre architecture de processeur
 ( '''tesseract 2.04 pour les architectures 64 bits.''' en ce qui me concerne ).
-Rendez-vous dans votre dossier où il a été téléchargé et installez le:
+Rendez-vous dans votre dossier où il a été téléchargé et installez le.
+Pour ce faire, ouvrez un terminal et tapez:
-  '''Alain@ubuntu:~$sudo dpkg -i tesseract........deb'''
+  '''sudo dpkg -i tesseract........deb'''
 Il vous faut maintenant récupérer et installer un petit script dans '''/usr/bin''' qui se nomme '''xsane2tess.pl''',
@@ Ligne 27 : / Ligne 29 : @@
 Ouvrez un terminal et tapez :
- '''cd /usr/bin'''
+  '''cd /usr/bin'''
 ( pour se rendre dans le dossier désiré )
@@ Ligne 33 : / Ligne 35 : @@
 ( pour récupérer et installer le script )
- '''sudo chmod +x xsane2tess.pl'''
+  '''sudo chmod +x xsane2tess.pl'''
 ( pour accorder le droit d'éxécuter à l'utilisateur )
@@ Ligne 44 : / Ligne 46 : @@
 Lancez donc '''xsane'''. Choisissez '''Enregistrer''', à '''Type''' choisissez '''TEXT''' puis donnez un titre à votre document.
 Mode de scan: '''Gris''' et mettez la résolution à '''300''' dpi, ce qui vous donnera déjà un très bon résultat.
+Cliquez ensuite sur "'''Préférences'''" >> "'''Configuration'''" >> "'''OCR'''"
+La première ligne '''Commande OCR''' doit être la suivante:  '''xsane2tess.pl -l fra -log /tmp/tesseract.log'''
 Créez d'abord l'aperçu et ensuite sélectionnez tout ou partie du texte, selon vos besoins.
 Faites la numérisation finale. Laissez enregistrer et c'est tout.
@@ Ligne 51 : / Ligne 56 : @@
 Méthode réalisée sous Ubuntu 10.10 version 64 bits. J'utilise cette méthode depuis déjà la version 9.10 ( que j'utilisais en 32 bits ).
+Notre amie Françoise a obtenu un très bon résultat également, sous Debian Squeeze  ;-)
 @lain

La reconnaissance optique de caractères sous Linux

De Wiki Linux62.

Version actuelle en date du 25 octobre 2010 à 21:47

Affichages

Outils personnels

Navigation

Équipes

Rechercher

Boîte à outils