Come funziona Ehi Siri: una rete neurale dietro al sistema

Siri

Dietro un meccanismo apparentemente semplice come quello che consente di richiamare senza mani l’assistente vocale di Apple, funzioni che sfruttano l’intelligenza artificiale e l’apprendimento automatico.

Un nuovo post su Machine Learning Journal –  il blog preparato da Apple allo scopo di documentare le ricerche e le innovazioni dell’azienda nel campo dell’intelligenza artificiale e dell’apprendimento automatico – spiega come funziona Ehi Siri, il sistema che (con iPhone 6s o versioni successive o un iPad Pro) consente di invocare Siri a mani libere.

Apple spiega come dietro ad un meccanismo apparentemente semplice c’è un sistema di riconoscimento vocale integrato nel coprocessore di movimento dei dispositivi più recenti che rimane costantemente in funzione e ascolto. Quando l’utente pronuncia le parole in questione, Siri elabora ed esegue la richiesta a seguire. Il meccanismo che permette di capire quando l’utente pronuncia la frase sfrutta l’apprendimento profondo meglio noto come “deep learning”, campo di ricerca dell’apprendimento automatico e dell’intelligenza artificiale. È sfruttato un “processo di integrazione temporale” per calcolare un “punteggio” di “fiducia” permettendo di stabilire che la frase pronunciata sia effettivamente “Ehi Siri”. Se il punteggio è abbastanza elevato, Siri si “sveglia”, ascolta ed esegue il comando che segue. Se il punteggio è inferiore al livello minimo previsto da Apple ma non più elevato della soglia superiore, il dispositivo attiva per alcuni secondi una modalità di maggiore sensibilità al fine di predisporre Siri a prestare maggiore attenzione nel caso l’utente chiami effettivamente l’assistente.

Com funziona Ehi Siri: una rete neurale dietro al sistema

Questa sorta di seconda chance, spiega Apple, migliora in modo rilevante l’usabilità dell’assistente, senza incrementare troppo il possibile livello di falsi allarmi. Per ridurre le errate attivazioni da parte di estranei, Apple invita gli utenti a non saltare la breve sessione di addestramento introduttivo proposta quando si attiva la prima volta l’assistente (una sorta di “allenamento” iniziale prima di poter attivare la funzione).

“Confrontiamo le distanze con i pattern d riferimento creati nella fase di addestramento con altri valori per decidere se il suono che attiva il rilevatore è verosimilmente l’Ehi Siri pronunciato dall’utente che ha eseguito la procedura di aggiornamento”. “Questo procedimento” spiega ancora Apple, “non solo riduce la possibilità che altre persone usino il comando Ehi Siri, ma riduce anche la probabilità che altre frasi simili attivino Siri”.

Apple spiega che continua a migliorare costantemente questa funzione, con meccanismi di training e test in vari ambienti, in più lingue e in varie condizioni.