fbpx
Home Macity Internet Disney ha ideato il riconoscimento facciale e metadati per l'animazione

Disney ha ideato il riconoscimento facciale e metadati per l’animazione

I mondi immaginari degli studi di animazione di Disney sono caratterizzati da centinaia e centinaia di personaggi di fantasia frutto di quasi un secondo di produzioni cinematografiche. Un team di ricercatori della Direct-to-Consumer & International Organization (DTCI) – comparto e succursale di Disney – è riuscito a creare una piattaforma di machine learning che può essere di aiuto nell’automatizzare l’archiviazione digitale dei contenuti dei mondo Disney e offrire avanzate funzionalità di ricerca.

Denominata Content Genome (CG), la piattaforma permette di popolare i “grafici della conoscenza” (Knowledge Graph) che consentono di sfruttare la semantica associata alle parole cercate un oggetto e metetre in relazione gku oggetti in modo da avere una ricerca più veloce e accurata. Cosi come quando su Google cerchiamo “Steve Jobs” e appare il defunto CEO di Apple in vari contesti, spiega Engadget, così la ricerca semantica permette di associare informazioni e metadati in un formato adatto all’interrogazione e l’interpretazione (“Steve Jobs con un iPod in mano”, “Steve Steve con un MacBook in mano”, “Steve Jobs con il dolcevita”, ecc.).

Grazie ai grafici della conoscenza e alla ricerca semantica, le applicazioni di intelligenza artificiale possono sfruttare una serie di parametri per consentire di effettuare ricerche avanzate, rilevare dati, personalizzare in vari modi le ricerche e anche, come spiega Anthony Accardo, Direttore responsabile Ricerca e Sviluppo di DTCI, consentire di trovare riprese e sequenze specifiche dall’archivio Disney.

Disney ha ideato un avanzato sistema di riconoscimento facciale per l’animazione
Un fotograamma da Cars

“Se un animatore sta lavorando su una nuova stagione di Clone Wars e ha bisogno di individuare uno specifico tipo di esplosione avvenuto tre stagioni prima, un riferimento per qualcosa dell’attuale stagione, […] può semplicemente cercare la scena di cui ha bisogno usando i metadati”.

L’idea del progetto Content Genome è nata nel 2016; Accardo spiega che non è stato facile creare tutto da zero e che lo sviluppo di una funzionale e robusta tassonomia (classificazione delle frequenze e delle loro possibili combinazioni) è fondamentale, in particolare quando bisogna generare molti metadati diversi tenendo conto di molti attributi differenti. È necessario pensare a come gestire termini ed etichettare le cose, con il rischio di perdere il controllo sulla tassonomia.

Disney ha ideato un avanzato sistema di riconoscimento facciale per l’animazione
Immagine: Disney

Il team che ha lavorato sul progetto ha creato quello che descrive come la prima “pipiline di tagging automatico”, meccanismo che sfrutta l’apprendimento supervisionato, fondamentale per casi che richiedono specifici rilevamenti. Il particolare sistema di tagging consente di identificare vari elementi tenendo conto del contesto, dei personaggi di trame e motivazioni.

Riconoscere volti umani è tutto sommato semplice (due occhi, un naso e una bocca); molto più complesso è invece riconoscere volti di personaggi di cartoni come Monsters & Co. e altri ancora; è stato necessario addestrare il sistema di apprendimento automatico, adattandolo ai contenuti specifici del mondo Disney. Sono state usate varie tecnologie esistenti e vari algoritmi ad hoc per velocizzare i tempi di elaborazione e migliorare l’efficienza.

Il sistema di tagging non è del tutto automatico e serve ancora l’intervento umano ma la tecnologia sfruttata potrebbe permettere in futuro di effettuare ricerche di tutti i tipi anche agli utenti, individuando un personaggio minore in una serie, una particolare scena, le scene ambientate in un determinato contesto, una specifica scena di azione, ecc. Il team lavora anche sulla possibilità di riconoscere il ruolo di alcuni personaggi (es. identificando un logo su una maglietta di un personaggio o un ufficiale di polizia grazie al distintivo), permettendo di tenere conto di concetti non sempre specificatamente visibili o udibili. Tutto si basa sull’apprendimento automatico ma prima è necessario identificare perfettamente i contesti delle scene, i personaggi presenti e poi sfruttare la Multimodal PAML (Predictive Analytics and Machine Learning) che consene di analizzare ancora più a fondo i dati a supporto di molteplici paradigmi.


Per tutti gli articoli di macitynet che parlano di Intelligenza Artificiale fate riferimento a questo indirizzo.

Offerte Speciali

iPad Pro 11″ 256 GB scontato su Amazon: 949 €

iPad Pro 11″ 256 GB Cellular al minimo su Amazon: 1064 €

Su Amazon iPad Pro torna al prezzo minimo nella sua versione da 256 GB cellular con schermo da 11 pollici. Lo pagate solo 1064 euro, quasi il 10% in meno del prezzo di listino
Pubblicità
Pubblicità

Seguici e aggiungi un Like:

64,795FansMi piace
93,838FollowerSegui