Známe to všichni - psaní komentářů, registrace, odesílání formulářů ? při tom všem často musíme číst rozmazaná písmenka a opakovaně je zadávat, dokud se nám nepodaří vygenerované klikyháky správně rozluštit, jen proto, abychom dotyčný skript přesvědčili, že opravdu nejsme žádní protivní spamboti.
Bojujte proti spamu a pomozte digitalizovat historii
Známe to všichni – psaní komentářů, registrace, odesílání formulářů – při tom všem často musíme číst rozmazaná písmenka a opakovaně je zadávat, dokud se nám nepodaří vygenerované klikyháky správně rozluštit, jen proto, abychom dotyčný skript přesvědčili, že opravdu nejsme žádní protivní spamboti.
Vše začalo u Luise von Ahna, který byl při práci na své disertaci požádán zástupci společnosti Yahoo! o pomoc v boji proti spammerům. Ti v té době dokázali zaregistrovat miliony e-mailových adres a denně jejich prostřednictvím odesílali stovky milionů nevyžádané pošty. Výsledkem spolupráce byl známý program CAPTCHA (Completely Automated Turing Test To Tell Computers and Humans Apart) fungující na principu Turingova testu, který nutí uživatele před odesláním příspěvku opsat deformovaný text. Okamžitě se dostavil kýžený výsledek – sofistikovaný program vyřadil běžné spamboty ze hry a zkomplikoval život jejich autorům.
Zprovoznění systému CAPTCHA však nebyl konec – vědci si z dlouhé chvíle dali práci s určením času, který uživatelé stráví při opisování textu, a došli k překvapujícím číslům – při 10 sekundách potřebných na přepsání znaků stráví 200 milionů uživatelů denně přibližně 500 000 hodin zcela neproduktivní a nudnou činností. Ale co s tím?
Von Ahn se pustil do hledání nějakého využití. Věděl, že v mnoha knihovnách probíhá digitalizace knih a novin vydaných v dávných dobách před nástupem digitálního věku. V průběhu tohoto procesu je text nejprve naskenován a poté zpracován metodou pro rozpoznávání znaků (OCR - Optical Character Recognition), která naskenované obrázky převede na odpovídající text. Problém je v tom, že i sebelepší systém OCR nedokáže stoprocentně rozeznat zdeformovaný, rozostřený či jinak porušený text. A zde si von Ahn uvědomil zřejmou spojitost mezi systémem OCR a CAPTCHA – nemožnost strojově zpracovat nestandardní text, skutečnost, na které stojí CAPTCHA a padá OCR.
Zdroj: Valecnik.cz