Da alcuni anni Sofie Quidenus si è messa in testa di rendere leggibili ai computer i testi scritti a mano, funzionalità che consentirebbe agli utenti di archiviare ed eseguire ricerche su milioni di testi digitalizzati.
Nativa dell’Austria, Quidenus ha cominciato a interessarsi a questa idea una decina di anni fa mentre studiava economia. Con sede a Vienna, nel 2005 ha fondato Qidenus Technologies (senza la “U” del suo cognome), lavorando per quattro anni a un sistema robotico per la scansione automatica dei libri, ora in grado di leggere 2500 pagine l’ora e sfruttato da oltre 70 biblioteche in tutto il mondo.
Ci sono stati vari progressi nelle tecnologie di scansione dei libri e del riconoscimento ottico dei caratteri ma i manoscritti sembrano impossibili da riconoscere automaticamente. Solo la lettera “S”, spiega, Quidenus su VentureBeat, è rappresentabile in un’infinita varietà di modi: corsiva o no, rappresentata diversamente da uomo o donna, con variazioni se è stata usata la mano destra o sinistra, altre che dipendono dall’età del manoscritto e così via…
Con i dispositivi creati da Quidenus sono stati scansionati grandi mole di documenti, alcuni dei quali scritti anche a mano, un tesoro prezioso utilizzabile per affrontare il problema del riconoscimento automatico della scrittura manuale. Per questo problema Quidenus ha lanciato una sussidiaria, SearchInk. Con sede a Berlino, l’azienda sta assumendo sviluppatori e ingegneri, e suo dire già ci vedono risultati incoraggianti. Lo scopo è creare un sistema HTR ( “Handwritten Text Recognition”) permettendo non solo di cercare testi tra i manoscritti ma “insegnare” a una macchina a comprendere significati e contenuti più ampi.
“Il nostro approccio” dice Quidenus, “è non solo leggere un documento e individuare i pattern ottici”; “l’approccio è leggere un documento come farebbe una persona comprendendo lo spirito predominante”.
SearchInk ha per prima cosa creato un algoritmo visivo avanzato che permette a una macchina di riconoscere il testo scritto a mano, analizzare la struttura di un documento, organizzare e analizzare le informazioni semantiche. L’azienda sta ora sviluppando un sistema di deep learning in grado di tenere conto delle informazioni ottenute e sfruttarle per capire come leggerle e come migliorare la sua capacità di apprendimento. Al momento il procedimento è supervisionato da un essere umano che indica correzioni, e miglioramenti permettendo di mettere a punto gli algoritmi. In futuro il sistema funzionerà senza supervisione, con il sistema di apprendimento automatico che correggerà se stesso migliorando gli algoritmi usati. Quest’ultimo passo sarà particolarmente importante e permetterà di creare un sistema utilizzabile da terze parti per la scansione automatica di testi scritti a mano.
Secondo Quidenus il sistema richiederà almeno altri due anni di ricerca e sviluppo. Gli sviluppatori non sanno ancora bene come creare un business da tutto questo, ma potrebbero ad esempio rendere la tecnologia disponibile mediante API e renderla sfruttabile in applicazioni quali Evernote e simili. A loro dire per il momento, tutto il sistema è una stuzzicante sfida intellettuale, ma è i possibili campi applicativi sono ovviamente moltissimi.