Roumazeilles.net

Combattez le SPAM et scannez des livres

Il est notoirement connu que le cerveau humain a des capacitĂ©s de reconnaissance des formes qui sont bien plus dĂ©veloppĂ©es que ce que sait faire un programme d’ordinateur. Cela explique pourquoi les taux d’Ă©chec des programmes d’OCR (Optical Character Recognition) sont aussi Ă©levĂ©s que 1% (ou parfois 2%) d’erreur, soit un niveau qui impose de fournir une relecture humaine derrière la plupart des scans de documents. Mais quand le document est ancien, de mauvaise qualitĂ© d’impression, dĂ©gradĂ©, les taux d’erreur peuvent ĂŞtre encore plus Ă©levĂ©s et posent des problèmes considĂ©rables quand il s’agit de scanner des milliers de documents comme le font certaines bibliothèques et institutions culturelles.

Par ailleurs, le problème du SPAM sur Internet est considĂ©rable : des programmes essayent Ă  tout prix de se faire passer pour des ĂŞtres humains afin d’insĂ©rer de la publicitĂ© partout oĂą un utilisateur peut Ă©crire (dans les messages d’un forum, dans les commentaires d’un blog, etc.) Depuis quelques temps, il est devenu courant qu’un ĂŞtre humain doivent s’identifier comme humain par sa capacitĂ© Ă  reconnaĂ®tre un mot plus ou moins bien Ă©crit/dessinĂ©. ThĂ©oriquement, c’est un test de Turing efficace qui permet de diffĂ©rencier un humain d’une machine. En pratique, les compĂ©tences d’un programme automatique sont tout de mĂŞme devenues telles que le SPAM rĂ©-apparaĂ®t doucement dans les environnements mĂŞme protĂ©gĂ©s par ce qu’on appelle les CAPTCHA (ces images qu’il s’agit de lire et de recopier pour pouvoir ĂŞtre autorisĂ© Ă  une action).

Le problème est ainsi posé : créer des CAPTCHA vraiment très difficiles à reconnaître par programme et, simultanment, utiliser des êtres humains pour scanner des documents très difficiles à lire par les programmes.

La solution : reCAPTCHA.

reCAPTCHA - example/exemple

Il s’agit de fournir un service de type CAPTCHA Ă  des milliers de blogueurs et de gestionnaires de forum (WordPress, phpBB, etc.) Les utilisateurs sont invitĂ©s Ă  reconnaĂ®tre deux mots particulièrement difficiles Ă  reconnaĂ®tre visuellement (les programmes d’OCR professionnel y ont Ă©chouĂ© lors de scan tentĂ©s par Carnegie Mellon University). L’utilisateur doit les reconnaĂ®tre tous les deux. L’un sert Ă  vĂ©rifier si c’est bien un utilisateur humain, l’autre Ă  donner la traduction OCR qui enrichira la base de CAPTCHA pour le futur et qui amĂ©liorera le scan d’un document en cours de traitement par Carnegie Mellon. C’est le double effet K… : lutte contre les spammeurs et mise Ă  disposition de millions d’ĂŞtre humains pour amĂ©liorer le scan de milliers de documents anciens (sans mĂŞme recourir Ă  l’esclavage de masse).

Example de scan difficile à reconnaître :

Exemple de scan difficile (reCAPTCHA)

Une particularitĂ© des logiciels professionnels d’OCR est qu’ils sont presque toujours capables de signaler quand leur reconnaissance est impossible ou de très mauvaise qualitĂ© (grande incertitude).

Autres articles similaires :

Comments Feed feed des réponses.

Laisser un commentaire ou une réponse Commentaires

Vous devez être connecté pour poster un commentaire.


http://www.roumazeilles.net/

Copyright (c) 1999-2008 - Yves Roumazeilles (tous droits réservés)

Dernière mise à jour : 23-aug-08

Google.com
Roumazeilles.net
Roumazeilles.net