Google acquista reCaptcha

di |
logomacitynet696wide

Il geniale sistema per assicurarsi che lo spam venga tenuto sotto controllo e al tempo stesso che assicura il controllo di qualità  “umano” gratuitamente alle scannerizzazioni e OCR dei testi è stato sviluppato dalla Carnegie Mellon University. Adesso Google potrà  usarlo per la sua infinita biblioteca di libri digitalizzati (e pieni di refusi derivanti dall’operazione).

recaptcha

Con una scritta sghimbescio, ricavata da una immagine png, Google ha annunciato sul suo blog di aver acquistato reCaptcha, la start-up che nasce in ambiente accademico, tra le aule della Carnegie Mellon University.

La reCaptcha è una azienda piccola ma con una idea di business fulminante: utilizzare al meglio i captcha, le piccole scritte “strane” e un po’ difficili da leggere che vengono utilizzate ad esempio nelle procedure di registrazione di un nuovo indirizzo di posta elettronica per assicurarsi che a iscriversi sia davvero un essere umano (l’unico in grado di decodificare la scritta medesima) e non un sistema automatico per lo spam.

L’idea di “meglio” di reCaptcha è semplice: visto che la gente deve inserire quelle brevi scritte, due o tre parole al massimo, in chiaro usando la tastiera, e che questa operazione avviene decine di milioni di volte all’ora, perché non utilizzare frammenti di immagine di testo scannerizzato? in questo modo, non solo la gente si avrebbe la sicurezza che è davvero chi dice di essere senza bisogno di “costruire” in maniera costosa quei testi che vengono mostrati a destra e sinistra su interfnet, ma anche si potrebbe usare l’essere umano per fare da OCR. E come OCR, cioè come sistema per la lettura e il riconoscimento delle lettere, l’uomo non lo batte praticamente nessuno.

Ci sono molte possibili eccezioni, limiti e problemi che possono essere avanzati rispetto a questa idea. Molte le cose che possono non funzionare. Ma in realtà  i ricercatori della Carengie Mellon University sono riusciti a risolverle praticamente tutte e hanno messo il software a disposizione di parecchie aziende, fino ad aver attratto l’attenzione di Google che, con il suo programma dedicato ai libri, ha un serio problema relativo al trattamento delle decine di milioni di pagine di libri che scansiona.

Gli errori, i refusi, le sviste, sono i mali che tartassano i testi di Google. Procedere alla loro revisione complessiva è una impresa colossale: e oltretutto una fatica di Sisifo, se si immagina che, mentre per rivedere un libro passato attraverso un OCR ci vuole una persona che lo legge, si accumulano nella libreria digitale di Google altre decine di milioni di testi.

Ecco dunque che reCaptcha acquista all’improvviso tutto un altro senso per Google. Un investimento modesto, solo quale centinaio di migliaia di dollari, e adesso Google può aggiungere alla velocità  di digitalizzazione e “riconoscimento” dei testi anche un servizio di analisi e gestione della qualità . La mossa è ricca di potenziali per il futuro.