La reconnaissance optique de caractères sous Linux

De Wiki Linux62.

(Différences entre les versions)
 
(29 révisions intermédiaires par 2 utilisateurs sont masquées)
Ligne 1 : Ligne 1 :
 
La Reconnaissance Optique de Caractères ( ou '''OCR''' ) bien entendu vous connaissez ?
 
La Reconnaissance Optique de Caractères ( ou '''OCR''' ) bien entendu vous connaissez ?
 +
(pour la petite histoire, j'avais tenté l'OCR via un site, gratuit, annoncé comme rendant un résultat très "pro"
 +
et en définitive, le texte était indéchiffrable et c'était à se rouler par terre :-)
  
 
Mais cette OCR fonctionne-t'elle sous Linux ?
 
Mais cette OCR fonctionne-t'elle sous Linux ?
Ligne 5 : Ligne 7 :
  
 
Tout d'abord, assurez-vous que les programmes '''xsane''' et '''imagemagick''' sont bien installés dans votre système.
 
Tout d'abord, assurez-vous que les programmes '''xsane''' et '''imagemagick''' sont bien installés dans votre système.
Si tel n'est pas le cas, alors '''sudo apt-get install xsane imagemagick''' par exemple ;-)
+
Si tel n'est pas le cas, alors installez les, par exemple pour un système basé Debian et en console:
Il vous faut ensuite installer '''tesseract''', qui existe dans votre gestionnaire de paquets, mais surtout, '''N'installez pas celui-là'''.
+
Récupérez le ici: '''http://doc.ubuntu-fr.org/tesseract-ocr'''.
+
  
Dans le paragraphe '''Par les deb de « b52 » (32 et 64 bits)''', récupérez la version 2.04 pour votre architecture de processeur
+
'''sudo apt-get install xsane imagemagick'''  
( '''tesseract 2.04 pour les architectures 64 bits.''' en ce qui me concerne ). Rendez-vous dans votre dossier où il a été téléchargé et installez le:
+
'''sudo dpkg -i tesseract........deb''' toujours par exemple ;-)
+
  
Ouvrez ensuite un terminal et tapez le code suivant:
+
Il vous faut ensuite installer '''tesseract''', qui existe dans votre gestionnaire de paquets, mais surtout, '''n'installez pas celui-là!!!'''
 +
( j'avais essayé avec le paquet natif du système, mais au final, le fichier scanné est vide :-(
  
'''cd /usr/bin'''
+
Récupérez le ici : '''http://doc.ubuntu-fr.org/tesseract-ocr'''.
  
'''sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl'''
 
  
'''sudo chmod +x xsane2tess.pl'''
+
Dans le paragraphe '''Par les deb de « b52 » (32 et 64 bits)''', récupérez la version '''2.04''' pour votre architecture de processeur
 +
( '''tesseract 2.04 pour les architectures 64 bits.''' en ce qui me concerne ).
 +
Rendez-vous dans votre dossier où il a été téléchargé et installez le.
 +
Pour ce faire, ouvrez un terminal et tapez:
 +
 
 +
'''sudo dpkg -i tesseract........deb'''
 +
 
 +
Il vous faut maintenant récupérer et installer un petit script dans '''/usr/bin''' qui se nomme '''xsane2tess.pl''',
 +
script qui se charge de l'interface entre tesseract et xsane.
 +
 
 +
Ouvrez un terminal et tapez :
 +
 
 +
  '''cd /usr/bin'''
 +
( pour se rendre dans le dossier désiré )
 +
 
 +
'''/usr/bin$sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl'''
 +
( pour récupérer et installer le script )
 +
 
 +
  '''sudo chmod +x xsane2tess.pl'''
 +
( pour accorder le droit d'éxécuter à l'utilisateur )
  
 
Vous en avez terminé avec les "tortures"  :-) et la reconnaissance optique de caractères est fonctionnelle.
 
Vous en avez terminé avec les "tortures"  :-) et la reconnaissance optique de caractères est fonctionnelle.
  
'''La pratique:'''
+
<u>'''La pratique:'''</u>
  
 
Vous scannez une feuille écrite pour en récupérer le texte, texte qui s'ouvrira dans votre logiciel de bureautique favori ( Open Office par exemple ;-)
 
Vous scannez une feuille écrite pour en récupérer le texte, texte qui s'ouvrira dans votre logiciel de bureautique favori ( Open Office par exemple ;-)
  
 
Lancez donc '''xsane'''. Choisissez '''Enregistrer''', à '''Type''' choisissez '''TEXT''' puis donnez un titre à votre document.
 
Lancez donc '''xsane'''. Choisissez '''Enregistrer''', à '''Type''' choisissez '''TEXT''' puis donnez un titre à votre document.
Mode de scan:'''Gris''' et mettez la résolution à '''300''' dpi, ce qui vous donnera déjà un très bon résultat.
+
Mode de scan: '''Gris''' et mettez la résolution à '''300''' dpi, ce qui vous donnera déjà un très bon résultat.
Créez d'abord l'aperçu et ensuite sélectionnez toute ou partie du texte, selon vos besoins.
+
Cliquez ensuite sur "'''Préférences'''" >> "'''Configuration'''" >> "'''OCR'''"
Numérisez ensuite. Laissez enregistrer et c'est tout.
+
La première ligne '''Commande OCR''' doit être la suivante:  '''xsane2tess.pl -l fra -log /tmp/tesseract.log'''
 +
 
 +
Créez d'abord l'aperçu et ensuite sélectionnez tout ou partie du texte, selon vos besoins.
 +
Faites la numérisation finale. Laissez enregistrer et c'est tout.
 
    
 
    
 
Rendez-vous dans votre '''Home''' et retrouvez votre scan. Un clic dessus et le texte sera ouvert par Open Office.
 
Rendez-vous dans votre '''Home''' et retrouvez votre scan. Un clic dessus et le texte sera ouvert par Open Office.
Ligne 36 : Ligne 56 :
  
 
Méthode réalisée sous Ubuntu 10.10 version 64 bits. J'utilise cette méthode depuis déjà la version 9.10 ( que j'utilisais en 32 bits ).
 
Méthode réalisée sous Ubuntu 10.10 version 64 bits. J'utilise cette méthode depuis déjà la version 9.10 ( que j'utilisais en 32 bits ).
 +
Notre amie Françoise a obtenu un très bon résultat également, sous Debian Squeeze  ;-)
  
 
@lain
 
@lain

Version actuelle en date du 25 octobre 2010 à 21:47

La Reconnaissance Optique de Caractères ( ou OCR ) bien entendu vous connaissez ? (pour la petite histoire, j'avais tenté l'OCR via un site, gratuit, annoncé comme rendant un résultat très "pro" et en définitive, le texte était indéchiffrable et c'était à se rouler par terre :-)

Mais cette OCR fonctionne-t'elle sous Linux ? Eh bien cela fonctionne même plutôt très bien. Il vous suffit de 2/3 petits programmes et d'un petit script pour finaliser le tout.

Tout d'abord, assurez-vous que les programmes xsane et imagemagick sont bien installés dans votre système. Si tel n'est pas le cas, alors installez les, par exemple pour un système basé Debian et en console:

sudo apt-get install xsane imagemagick 

Il vous faut ensuite installer tesseract, qui existe dans votre gestionnaire de paquets, mais surtout, n'installez pas celui-là!!! ( j'avais essayé avec le paquet natif du système, mais au final, le fichier scanné est vide :-(

Récupérez le ici : http://doc.ubuntu-fr.org/tesseract-ocr.


Dans le paragraphe Par les deb de « b52 » (32 et 64 bits), récupérez la version 2.04 pour votre architecture de processeur ( tesseract 2.04 pour les architectures 64 bits. en ce qui me concerne ). Rendez-vous dans votre dossier où il a été téléchargé et installez le. Pour ce faire, ouvrez un terminal et tapez:

sudo dpkg -i tesseract........deb 

Il vous faut maintenant récupérer et installer un petit script dans /usr/bin qui se nomme xsane2tess.pl, script qui se charge de l'interface entre tesseract et xsane.

Ouvrez un terminal et tapez :

 cd /usr/bin

( pour se rendre dans le dossier désiré )

/usr/bin$sudo wget http://www.equinoxefr.org/wp-content/uploads/2008/07/xsane2tess.pl

( pour récupérer et installer le script )

 sudo chmod +x xsane2tess.pl

( pour accorder le droit d'éxécuter à l'utilisateur )

Vous en avez terminé avec les "tortures"  :-) et la reconnaissance optique de caractères est fonctionnelle.

La pratique:

Vous scannez une feuille écrite pour en récupérer le texte, texte qui s'ouvrira dans votre logiciel de bureautique favori ( Open Office par exemple ;-)

Lancez donc xsane. Choisissez Enregistrer, à Type choisissez TEXT puis donnez un titre à votre document. Mode de scan: Gris et mettez la résolution à 300 dpi, ce qui vous donnera déjà un très bon résultat. Cliquez ensuite sur "Préférences" >> "Configuration" >> "OCR" La première ligne Commande OCR doit être la suivante: xsane2tess.pl -l fra -log /tmp/tesseract.log

Créez d'abord l'aperçu et ensuite sélectionnez tout ou partie du texte, selon vos besoins. Faites la numérisation finale. Laissez enregistrer et c'est tout.

Rendez-vous dans votre Home et retrouvez votre scan. Un clic dessus et le texte sera ouvert par Open Office.


Méthode réalisée sous Ubuntu 10.10 version 64 bits. J'utilise cette méthode depuis déjà la version 9.10 ( que j'utilisais en 32 bits ). Notre amie Françoise a obtenu un très bon résultat également, sous Debian Squeeze  ;-)

@lain

Outils personnels
Équipes