La reconnaissance optique de caractères sous Linux

De Wiki Linux62.

(Différences entre les versions)
Ligne 19 : Ligne 19 :
 
  '''Alain@ubuntu:~$sudo dpkg -i tesseract........deb''' toujours par exemple ;-)
 
  '''Alain@ubuntu:~$sudo dpkg -i tesseract........deb''' toujours par exemple ;-)
  
Ouvrez ensuite un terminal et tapez le code suivant:
+
Ouvrez ensuite un terminal et tapez :
  
  '''Alain@ubuntu:~$cd /usr/bin'''
+
  cd /usr/bin'''
  
  '''Alain@ubuntu:~$sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl'''
+
  /usr/bin$sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl'''(récupération de xsane2tess)
  
  '''Alain@ubuntu:~$sudo chmod +x xsane2tess.pl'''
+
  sudo chmod +x xsane2tess.pl'''(droits sur fichiers)
  
 
Vous en avez terminé avec les "tortures"  :-) et la reconnaissance optique de caractères est fonctionnelle.
 
Vous en avez terminé avec les "tortures"  :-) et la reconnaissance optique de caractères est fonctionnelle.

Version du 23 octobre 2010 à 22:14

La Reconnaissance Optique de Caractères ( ou OCR ) bien entendu vous connaissez ?

Mais cette OCR fonctionne-t'elle sous Linux ? Eh bien cela fonctionne même plutôt très bien. Il vous suffit de 2/3 petits programmes et d'un petit script pour finaliser le tout.

Tout d'abord, assurez-vous que les programmes xsane et imagemagick sont bien installés dans votre système. Si tel n'est pas le cas, alors faites un :

Alain@ubuntu:~$sudo apt-get install xsane imagemagick par exemple  ;-)

Il vous faut ensuite installer tesseract, qui existe dans votre gestionnaire de paquets, mais surtout, N'installez pas celui-là.

Récupérez le ici : http://doc.ubuntu-fr.org/tesseract-ocr.


Dans le paragraphe Par les deb de « b52 » (32 et 64 bits), récupérez la version 2.04 pour votre architecture de processeur ( tesseract 2.04 pour les architectures 64 bits. en ce qui me concerne ). Rendez-vous dans votre dossier où il a été téléchargé et installez le:

Alain@ubuntu:~$sudo dpkg -i tesseract........deb toujours par exemple ;-)

Ouvrez ensuite un terminal et tapez :

cd /usr/bin
/usr/bin$sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl(récupération de xsane2tess)
sudo chmod +x xsane2tess.pl(droits sur fichiers)

Vous en avez terminé avec les "tortures"  :-) et la reconnaissance optique de caractères est fonctionnelle.

La pratique:

Vous scannez une feuille écrite pour en récupérer le texte, texte qui s'ouvrira dans votre logiciel de bureautique favori ( Open Office par exemple ;-)

Lancez donc xsane. Choisissez Enregistrer, à Type choisissez TEXT puis donnez un titre à votre document. Mode de scan:Gris et mettez la résolution à 300 dpi, ce qui vous donnera déjà un très bon résultat. Créez d'abord l'aperçu et ensuite sélectionnez tout ou partie du texte, selon vos besoins. Numérisez ensuite. Laissez enregistrer et c'est tout.

Rendez-vous dans votre Home et retrouvez votre scan. Un clic dessus et le texte sera ouvert par Open Office.


Méthode réalisée sous Ubuntu 10.10 version 64 bits. J'utilise cette méthode depuis déjà la version 9.10 ( que j'utilisais en 32 bits ).

@lain

Outils personnels
Équipes