{"id":1164,"date":"2007-05-28T15:00:45","date_gmt":"2007-05-28T13:00:45","guid":{"rendered":"http:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/2007\/05\/28\/combattez-le-spam-et-scannez-des-livres\/"},"modified":"2007-05-28T15:01:14","modified_gmt":"2007-05-28T13:01:14","slug":"combattez-le-spam-et-scannez-des-livres","status":"publish","type":"post","link":"https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/2007\/05\/28\/combattez-le-spam-et-scannez-des-livres\/","title":{"rendered":"Combattez le SPAM et scannez des livres"},"content":{"rendered":"<p>Il est notoirement connu que le cerveau humain a des capacit\u00e9s de reconnaissance des formes qui sont bien plus d\u00e9velopp\u00e9es que ce que sait faire un programme d&rsquo;ordinateur. Cela explique pourquoi les taux d&rsquo;\u00e9chec des programmes d&rsquo;OCR (Optical Character Recognition) sont aussi \u00e9lev\u00e9s que 1% (ou parfois 2%) d&rsquo;erreur, soit un niveau qui impose de fournir une relecture humaine derri\u00e8re la plupart des scans de documents. Mais quand le document est ancien, de mauvaise qualit\u00e9 d&rsquo;impression, d\u00e9grad\u00e9, les taux d&rsquo;erreur peuvent \u00eatre encore plus \u00e9lev\u00e9s et posent des probl\u00e8mes consid\u00e9rables quand il s&rsquo;agit de scanner des milliers de documents comme le font certaines biblioth\u00e8ques et institutions culturelles.<\/p>\n<p>Par ailleurs, le probl\u00e8me du SPAM sur Internet est consid\u00e9rable : des programmes essayent \u00e0 tout prix de se faire passer pour des \u00eatres humains afin d&rsquo;ins\u00e9rer de la publicit\u00e9 partout o\u00f9 un utilisateur peut \u00e9crire (dans les messages d&rsquo;un forum, dans les commentaires d&rsquo;un blog, etc.) Depuis quelques temps, il est devenu courant qu&rsquo;un \u00eatre humain doivent s&rsquo;identifier comme humain par sa capacit\u00e9 \u00e0 reconna\u00eetre un mot plus ou moins bien \u00e9crit\/dessin\u00e9. Th\u00e9oriquement, c&rsquo;est un test de Turing efficace qui permet de diff\u00e9rencier un humain d&rsquo;une machine. En pratique, les comp\u00e9tences d&rsquo;un programme automatique sont tout de m\u00eame devenues telles que le SPAM r\u00e9-appara\u00eet doucement dans les environnements m\u00eame prot\u00e9g\u00e9s par ce qu&rsquo;on appelle les CAPTCHA (ces images qu&rsquo;il s&rsquo;agit de lire et de recopier pour pouvoir \u00eatre autoris\u00e9 \u00e0 une action).<\/p>\n<p>Le probl\u00e8me est ainsi pos\u00e9 : cr\u00e9er des CAPTCHA vraiment tr\u00e8s difficiles \u00e0 reconna\u00eetre par programme et, simultanment, utiliser des \u00eatres humains pour scanner des documents tr\u00e8s difficiles \u00e0 lire par les programmes.<\/p>\n<p>La solution : <a href=\"http:\/\/recaptcha.net\/\">reCAPTCHA<\/a>.<\/p>\n<p><center><a href=\"http:\/\/recaptcha.net\/\"><img src='https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-content\/uploads\/recaptcha.jpg' alt='reCAPTCHA - example\/exemple' \/><\/a><\/center><\/p>\n<p>Il s&rsquo;agit de fournir un service de type CAPTCHA \u00e0 des milliers de blogueurs et de gestionnaires de forum (WordPress, phpBB, etc.) Les utilisateurs sont invit\u00e9s \u00e0 reconna\u00eetre deux mots particuli\u00e8rement difficiles \u00e0 reconna\u00eetre visuellement (les programmes d&rsquo;OCR professionnel y ont \u00e9chou\u00e9 lors de scan tent\u00e9s par Carnegie Mellon University). L&rsquo;utilisateur doit les reconna\u00eetre tous les deux. L&rsquo;un sert \u00e0 v\u00e9rifier si c&rsquo;est bien un utilisateur humain, l&rsquo;autre \u00e0 donner la traduction OCR qui enrichira la base de CAPTCHA pour le futur et qui am\u00e9liorera le scan d&rsquo;un document en cours de traitement par Carnegie Mellon. C&rsquo;est le double effet K&#8230; : lutte contre les spammeurs et mise \u00e0 disposition de millions d&rsquo;\u00eatre humains pour am\u00e9liorer le scan de milliers de documents anciens (sans m\u00eame recourir \u00e0 l&rsquo;esclavage de masse).<\/p>\n<p><u>Example de scan difficile \u00e0 reconna\u00eetre :<\/u><\/p>\n<p><center><img src='https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-content\/uploads\/recaptcha_scan.jpg' alt='Exemple de scan difficile (reCAPTCHA)' \/><\/center><\/p>\n<p>Une particularit\u00e9 des logiciels professionnels d&rsquo;OCR est qu&rsquo;ils sont presque toujours capables de signaler quand leur reconnaissance est impossible ou de tr\u00e8s mauvaise qualit\u00e9 (grande incertitude).<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Il est notoirement connu que le cerveau humain a des capacit\u00e9s de reconnaissance des formes qui sont bien plus d\u00e9velopp\u00e9es que ce que sait faire un programme d&rsquo;ordinateur. Cela explique pourquoi les taux d&rsquo;\u00e9chec des programmes d&rsquo;OCR (Optical Character Recognition) sont aussi \u00e9lev\u00e9s que 1% (ou parfois 2%) d&rsquo;erreur, soit un niveau qui impose de [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":7897,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21,58,44,36,51,24,37,55,32,77,45,2],"tags":[],"class_list":["post-1164","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-art","category-bbpress","category-blog","category-creer-un-site","category-html-et-css","category-livres","category-nouveau-site","category-php","category-sciences","category-securite","category-spam","category-wordpress"],"_links":{"self":[{"href":"https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-json\/wp\/v2\/posts\/1164","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-json\/wp\/v2\/comments?post=1164"}],"version-history":[{"count":0,"href":"https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-json\/wp\/v2\/posts\/1164\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-json\/wp\/v2\/media\/7897"}],"wp:attachment":[{"href":"https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-json\/wp\/v2\/media?parent=1164"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-json\/wp\/v2\/categories?post=1164"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.roumazeilles.net\/news\/fr\/wordpress\/wp-json\/wp\/v2\/tags?post=1164"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}