L’intelligenza artificiale ti trasforma in un attore con la faccia di un altro

Una nuova tecnologia per il video consente di trasferire le espressioni del viso, i movimenti di occhi, bocca, testa e sopracciglia, da volto di una persona presente in un filmato, a un altra in un diverso video. Interessante nell'ambito cinematografico ma con implicazioni inquietanti.

espressione volto

Un team di ricercatori di Germania, Francia, Regno Unito e Stati Uniti, sono riusciti a sfruttare funzionalità di intelligenza artificiale (AI) che potrebbero essere utili e interessanti nell’ambito del video digitale. Usando l’AI è possibile “trasferire” posizione della testa, espressioni facciali, il movimento degli occhi e lo sbattere delle palpebre, da un viso presente in un filmato a un differente video con un’altra persona. A detta dei ricercatori è la prima volta che un metodo del genere è stato sfruttato e i risultati possibili sono incredibilmente realistici.

La rete neurale creata dai ricercatori (qui i dettagli in PDF) ha bisogno di analizzare per pochi minuti il video di destinazione, trasferendo, o meglio, riproducendo, i movimenti del volto, le espressioni facciali e movimenti degli occhi del filmato di partenza.

Se presenti, è anche possibile modificare alcune parti dello sfondo. Nel video qui allegato è possibile vedere all’opera il sistema usando i volti di Barack Obama, Vladimir Putin, Theresa May e, come si vede, i movimenti di bocca, testa e sopracciglia sono perfetti, al punto da non distinguere più originale e video modificato.

I ricercatori stanno lavorando anche a meccanismi simili per quanto riguarda l’audio. Un po’ di tempo addietro Adobe ha presentato Project VoCo, una rivoluzionaria funzionalità di audio editing. È possibile lavorare su un brano audio manipolando il parlato di una registrazione digitale in modo molto semplice, cambiando le parole pronunciate da una persona all’interno di un brano.

Le parole pronunciate non si cambiano modificando forme d’onda ma semplicemente digitando il testo che vogliamo far pronunciare. Partendo da un campione audio con almeno 20 minuti di parlato, l’applicazione è in grado di analizzare il linguaggio, individuare i fonemi, trascriverli e creare un modello vocale con il quale potremo far pronunciare al nostro obiettivo qualsiasi cosa.

I ricercatori che hanno lavorato sul progetto di trasferimento di espressioni facciali da un video all’altro evidenziano le potenzialità di questa tecnica nell’ambito della Realtà Virtuale, del doppiaggio, della post-produzione e del mondo dei film in generale.

Per quanto riguarda i possibili rischi da un uso nefasto, Justus Theis, uno dei ricercatori, ha dichiarato a The Register di essere consapevole delle implicazioni etiche, spiegando che anche per questo i risultati del progetto sono stati resi noti. “Ritengo importante che le persone conoscano le possibilità offerte dalle tecniche di manipolazione”.