In meno di un mese da quando Google ha presentato il suo concorrente di ChatGPT, chiamato Gemini, l’azienda ha ricevuto critiche per le interazioni con l’intelligenza artificiale AI. Ora, nuove ricerche rivelano che la versione più potente di Gemini attualmente disponibile per i consumatori, Gemini Pro, è superata dal modello di linguaggio (LLM) GPT-3.5 Turbo di OpenAI nella maggior parte dei compiti da eseguire.

Il nuovo LLM di Google, sviluppato da diversi mesi, ha prestazioni inferiori rispetto al modello più vecchio, meno avanzato e gratuito di OpenAI. Questa scoperta proviene da un articolo di ricerca intitolato “Un’analisi approfondita sulle abilità linguistiche di Gemini”, scritto da ricercatori della Carnegie Mellon University e un’impresa chiamata BerriAI.

Il documento, pubblicato su arXiv.org, afferma che il modello Pro di Gemini ha raggiunto un’accuratezza comparabile, ma leggermente inferiore rispetto a GPT-3.5 Turbo di OpenAI su tutti i compiti testati.

Per i ricercatori di Google che hanno dedicato innumerevoli ore allo sviluppo di Gemini, questa conclusione deve essere piuttosto deludente. Google ha risposto alla ricerca, sostenendo che i loro studi dimostrano che Gemini Pro si comporta meglio di GPT-3.5 e che una versione ancora più potente, Gemini Ultra, prevista per il rilascio all’inizio del 2024, ha ottenuto punteggi superiori a GPT-4 nella ricerca interna di Google.

I ricercatori hanno testato quattro diversi LLM: Google Gemini Pro, OpenAI GPT-3.5 Turbo, GPT-4 Turbo e Mistral 8x7B, un modello open source della startup francese Mistral.

Utilizzando un sito aggregatore di intelligenza artificiale chiamato LiteLLM, i ricercatori hanno eseguito questi modelli attraverso vari prompt, inclusi 57 quesiti a risposta multipla che coprono STEM, discipline umanistiche e scienze sociali, come parte di un test di domande e risposte basato sulla conoscenza.

In questo test, Gemini Pro ha ottenuto una minore precisione rispetto a GPT-3.5 Turbo e una precisione significativamente inferiore rispetto a GPT-4 Turbo. Interessante notare come Gemini aveva una tendenza a scegliere più frequentemente l’opzione “D”, indipendentemente dal fatto che fosse la risposta corretta.

Gemini ha anche ottenuto prestazioni inferiori rispetto a GPT-3.5 Turbo in specifiche categorie di domande, come la sessualità umana, la logica formale, la matematica elementare e la medicina professionale. Il rifiuto di Gemini di rispondere a alcune domande, citando restrizioni di sicurezza e contenuti, ha contribuito alle prestazioni inferiori in queste categorie.

Tuttavia, Gemini Pro ha superato GPT-3.5 Turbo in due categorie: sicurezza ed economia delle scuole superiori. Tuttavia, questi miglioramenti sono stati marginali, e GPT-4 è rimasto il modello più performante.

Gemini ha eccelso nei compiti di ordinamento delle parole e manipolazione di simboli, superando tutti i modelli GPT, inclusi GPT-4. Ha anche superato i modelli GPT nei compiti relativi alla traduzione di contenuti tra lingue. Tuttavia, la tendenza di Gemini a bloccare le risposte in determinate coppie di lingue ha indicato un sistema di moderazione dei contenuti/sicurezza eccessivamente cauto.

Nel complesso, questi risultati sono un colpo per le ambizioni di intelligenza artificiale di Google e suggeriscono che OpenAI rimane al momento il leader nell’AI generativa sia per le applicazioni consumer, che per quelle enterprise. Il modello open source Mistral Mixtral 8x7B ha anche ottenuto prestazioni inferiori rispetto a GPT-3.5 Turbo, evidenziando ulteriormente il dominio di OpenAI nel campo.

In conclusione, GPT-4 rimane la scelta preferita per la maggior parte delle applicazioni di intelligenza artificiale, almeno fino al lancio di Gemini Ultra previsto per l’anno prossimo.

