La reconnaissance optique de caractères sous Linux

De Wiki Linux62.

(Différences entre les versions)
Ligne 25 : Ligne 25 :
 
  '''Alain@ubuntu:~$sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl'''
 
  '''Alain@ubuntu:~$sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl'''
  
  '''sudo chmod +x xsane2tess.pl'''
+
  '''Alain@ubuntu:~$sudo chmod +x xsane2tess.pl'''
  
 
Vous en avez terminé avec les "tortures"  :-) et la reconnaissance optique de caractères est fonctionnelle.
 
Vous en avez terminé avec les "tortures"  :-) et la reconnaissance optique de caractères est fonctionnelle.

Version du 23 octobre 2010 à 22:02

La Reconnaissance Optique de Caractères ( ou OCR ) bien entendu vous connaissez ?

Mais cette OCR fonctionne-t'elle sous Linux ? Eh bien cela fonctionne même plutôt très bien. Il vous suffit de 2/3 petits programmes et d'un petit script pour finaliser le tout.

Tout d'abord, assurez-vous que les programmes xsane et imagemagick sont bien installés dans votre système. Si tel n'est pas le cas, alors faites un :

Alain@ubuntu:~$sudo apt-get install xsane imagemagick par exemple  ;-)

Il vous faut ensuite installer tesseract, qui existe dans votre gestionnaire de paquets, mais surtout, N'installez pas celui-là.

Récupérez le ici : http://doc.ubuntu-fr.org/tesseract-ocr.


Dans le paragraphe Par les deb de « b52 » (32 et 64 bits), récupérez la version 2.04 pour votre architecture de processeur ( tesseract 2.04 pour les architectures 64 bits. en ce qui me concerne ). Rendez-vous dans votre dossier où il a été téléchargé et installez le:

Alain@ubuntu:~$sudo dpkg -i tesseract........deb toujours par exemple ;-)

Ouvrez ensuite un terminal et tapez le code suivant:

Alain@ubuntu:~$cd /usr/bin
Alain@ubuntu:~$sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl
Alain@ubuntu:~$sudo chmod +x xsane2tess.pl

Vous en avez terminé avec les "tortures"  :-) et la reconnaissance optique de caractères est fonctionnelle.

La pratique:

Vous scannez une feuille écrite pour en récupérer le texte, texte qui s'ouvrira dans votre logiciel de bureautique favori ( Open Office par exemple ;-)

Lancez donc xsane. Choisissez Enregistrer, à Type choisissez TEXT puis donnez un titre à votre document. Mode de scan:Gris et mettez la résolution à 300 dpi, ce qui vous donnera déjà un très bon résultat. Créez d'abord l'aperçu et ensuite sélectionnez tout ou partie du texte, selon vos besoins. Numérisez ensuite. Laissez enregistrer et c'est tout.

Rendez-vous dans votre Home et retrouvez votre scan. Un clic dessus et le texte sera ouvert par Open Office.


Méthode réalisée sous Ubuntu 10.10 version 64 bits. J'utilise cette méthode depuis déjà la version 9.10 ( que j'utilisais en 32 bits ).

@lain

Outils personnels
Équipes