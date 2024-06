Pubblicità

Il laboratorio di intelligenza artificiale DeepMind di Google – Alphabet sta sviluppando una nuova tecnologia in grado di generare colonne sonore, e persino dialoghi, da utilizzare nei video. Il laboratorio ha condiviso i progressi del progetto chiamato video-to-audio (V2A), che può essere integrato con Google Veo e altri strumenti di creazione video come Sora di OpenAI.

Nel suo post sul blog ufficiale, il team di DeepMind spiega che il sistema può interpretare i pixel e combinare queste informazioni con suggerimenti testuali per creare effetti sonori in base a ciò che accade sullo schermo. È importante notare che lo strumento può anche essere utilizzato per creare colonne sonore per filmati tradizionali, come i film muti e qualsiasi altro video senza audio.

I ricercatori di DeepMind hanno addestrato la tecnologia utilizzando video, audio e annotazioni generate dall’intelligenza artificiale che contengono descrizioni dettagliate dei suoni e trascrizioni dei dialoghi. In questo modo, la tecnologia ha imparato ad associare suoni specifici a scene visive.

Il team di DeepMind non è il primo a rilasciare uno strumento di intelligenza artificiale che può generare effetti sonori, come osserva TechCrunch. Ed infatti, recentemente anche ElevenLabs ne ha rilasciato uno, che sicuramente non sarà l’ultimo.

Sebbene ci sia la possibilità di integrare suggerimenti testuali come opzionali, questo sistema può essere utilizzato per modellare e affinare il prodotto finale in modo che sia il più accurato e realistico possibile.

È possibile inserire suggerimenti positivi per indirizzare l’output verso la creazione dei suoni desiderati, oppure suggerimenti negativi per allontanarlo dai suoni indesiderati. Ad esempio, nel video campione fornito, il team ha utilizzato il suggerimento: “Cinematografico, thriller, film horror, musica, tensione, atmosfera, passi sul cemento.”

I ricercatori ammettono di essere ancora al lavoro per affrontare le limitazioni attuali della tecnologia V2A, come la riduzione della qualità audio che può verificarsi se ci sono distorsioni nel video sorgente. Il team, inoltre, sta lavorando per migliorare la sincronizzazione labiale per i dialoghi generati dall’AI. Inoltre, promette di sottoporre la tecnologia a “rigorose valutazioni di sicurezza e test” prima di rilasciarla al pubblico, così da scongiurare eventuali limitazioni o malfunzionamenti.

