Google ha annunciato un potenziamento delle sue IA con Gemini, indicato come il modello IA “più capace e generale” mai creato dall’azienda. Big G spiega che è il risultato di una collaborazione su larga scala che ha coinvolto molti team, compresi i colleghi di Google Research.

Gemini è costruito fin dalle sue fondamenta per essere multimodale, in altre parole può generalizzare, comprendere, operare e combinare senza discontinuità diversi tipi di informazioni, tra cui testo, immagini, audio, video e codice informatico.

Big G riferisce di tre diverse versioni di questa IA:

Gemini Ultra – il modello più grande e potente, per compiti altamente complessi

– il modello più grande e potente, per compiti altamente complessi Gemini Pro – modello pesnato per essere applicato su scala a un’ampia gamma di attività

– modello pesnato per essere applicato su scala a un’ampia gamma di attività Gemini Nano – modello più efficiente per attività da svolgere su un singolo dispositivo (on-device)

Google riferisce di avere testato rigorosamente i modelli di Gemini vlutando le loro prestazioni su una grande varietà di compiti. “Dalla comprensione naturale delle immagini, dell’audio e dei video, al ragionamento matematico, le prestazioni di Gemini Ultra superano i migliori modelli oggi disponibili in 30 dei 32 benchmark accademici di settore utilizzati più comunemente nella ricerca e sviluppo dei grandi modelli linguistici (LLM)”.

Con un punteggio del 90%, Gemini Ultra è il primo modello a ottenere risultati migliori delle prestazioni umane in ambito MMLU (massive multitask language understanding; comprensione linguistica multitasking su larga scala), che utilizza una combinazione di 57 materie tra cui matematica, fisica, storia, diritto, medicina ed etica, per valutare sia le conoscenze che le capacità di risoluzione dei problemi.

L’approccio MLU permette a Gemini di utilizzare le sue capacità di ragionamento per fare valitazioni in modo più attento prima di rispondere a domande difficili, con miglioramenti notevoli rispetto a una risposta più immediata.

Gemini Ultra ha ottenuto anche un punteggio all’avanguardia del 59,4% sul nuovo benchmark MMMU, che consiste in compiti multimodali che spaziano tra differenti ambiti che richiedono capacità di elaborazione complesse.

Nuova capacità

Fino ad ora, l’approccio standard alla creazione di modelli multimodali prevedeva l’addestramento separato di componenti dedicate a ciascuna modalità, e un loro successivo raccordo per imitare approssimativamente alcune forme di multimodalità. Gemini è indicato come progettato er essere nativamente multimodale, pre-addestrato fin dall’inizio su diverse modalità, permettendo di comprendere e ragionare su ogni tipo di input in modo strutturale e senza discontinuità, un sistema definoto di gran lunga migliore rispetto ai modelli multimodali esistenti, con capacità “all’avanguardia in quasi tutti gli ambiti”.

Gemini 1.0 è stato addestrato per riconoscere e comprendere testo, immagini, audio e altro contemporaneamente, e di conseguenza comprende meglio le sfumature tra le informazioni e può rispondere a domande relative ad argomenti complicati. Questo lo rende particolarmente utile per spiegare ragionamenti complessi, per esempio in matematica e fisica

Sul versante sicurezza, Google riferisc che per diagnosticare i problemi legati ai contenuti durante le fasi di preparazione di Gemini e garantire che i risultati aderiscano a norme di riferimento, si sfruyttano serie di benchmark, tra cui Real Toxicity Prompts, un insieme di 100.000 prompt con vari gradi di “tossicità” estratti dal web, sviluppati dagli esperti dell’Allen Institute of AI.

“Per limitare i potenziali danni”, spiega Google, “abbiamo creato classificatori di sicurezza dedicati per identificare, etichettare e ordinare contenuti che coinvolgono, ad esempio, violenza o stereotipi negativi. uesto approccio a più livelli, una volta combinato con dei filtri robusti, è progettato per rendere Gemini più sicuro e più inclusivo per tutti. Continuiamo anche ad affrontare problematiche note per i modelli linguistici, quali fattualità, fondatezza, attribuzione e validazione”.

Gemini 1.0 sarà sfruttato su una varietà di prodotti e piattaforme. A cominciare da oggi, Bard utilizzerà una versione dedicata di Gemini Pro per “ragionamenti avanzati, pianificazione, comprensione e altro. Google afferma che si tratta dell’aggiornamento più importante di Bard da quando è stato annunciato.

Gemini arrievrà anche su Pixel. Pixel 8 Pro sfrutterà Gemini Nano, potenziando unzionalità come Riassumi sull’app Registratore ed entrerà in Smart Reply su Gboard, a cominciare da WhatsApp – con altre app di messaggistica nell’arco del prossimo anno. Nei prossimi mesi, Gemini sarà disponibile su più prodotti e servizi Google come la RIcerca, Ads, Chrome e Duet AI.

Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet