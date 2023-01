Ricercatori di Microsoft hanno annunciato un nuovo sistema in grado di riprodurre un testo scritto usando la voce di chiunque facendo ascoltare all’AI un campione vocale di chi si desidera “imitare” per 3 secondi.

VALL-E – questo il nome dell’intelligenza artificiale – è in grado di imitare la voce di chiunque, ascoltando per almeno 3 secondi una qualunque frase pronunciata, riuscendo a riprodurre timbro, tono ed emotività dello speaker (rabbia, noia, disgusto, ecc.). Secondo gli ideatori del sistema, VALL-E potrebbe essere usata per applicazioni text-to-speech di qualità, modificare il parlato in fase di editing senza bisogno dell’intervento del diretto interessato oltre che ovviamente integrato con altri modelli IA come GPT-3, modello che utilizza il deep learning per creare testi simili a quelli che verrebbero scritti da un essere umano.

Microsoft definisce VALL-E un “modello di codec neurale di linguaggio” e si basa su una tecnologia denominata EnCodec che Meta ha annunciato a ottobre dello scorso anno. Al contrario di altre tecnologie text-to-speech che consentono di ottenere il parlato manipolando forme d’onda (come quella ad esempio integrata di serie in macOS), VALL-E è in grado di generare in pochissimo la tempo la voce con la dizione che avrebbe un oratore, analizzando il parlato originale, le micropause, ecc., simulando anche eventuali interferenze sonore presenti nella voce di partenza (es. una voce che parla in un ambiente esterno, al telefono, in un ristorante, ecc.).

L’IA è stata addestrata usando oltre 60.000 ore di parlato in lingua inglese di migliaia di persone diverse (principalmente letture di audiolibri di dominio pubblico), ed è possibile ottenere risultati che il più delle volte sono indistinguibili da quello che si otterrebbe facendo pronunciare le stesse frasi alle persone imitate.

Tra i rischi di simili tecnologie, la possibilità di camuffare voci e fingersi altre persone. Per mitigare tali rischi, gli sviluppatori riferiscono la possibilità di creare modelli di rilevamento in grado di discernere audio veri e audio falsi. Il codice sorgente non è open source, forse per via dei potenziali rischi insiti in un sistema e a questo proposito Microsoft ha riferito che intende seguire i “principi Microsoft dell’intelligenza artificiale” in ogni ulteriore sviluppo”.

Nell’ottobre de 2022 il nostro Garante per la protezione dei dati personali aveva aperto un’istruttoria nei confronti della società che fornisce l’app Fakeyou che consente già ora di riprodurre file di testo mediante voci false, ma realistiche, di personaggi noti, anche italiani.

