Il re è morto, Claude 3 supera GPT4 nei test alla cieca

29 Mar 2024

Dopo il ban a ChatGPT pronta la task force per controllarlo

Quella da poco trascorsa è stata una giornata storica per il mondo delle intelligenze artificiali: sembra infatti che martedì 26 marzo il Claude 3 Opus di Anthropic abbia superato per la prima volta Chat GPT-4 di OpenAI su Chatbot Arena, una popolare classifica di crowdsourcing usata dai ricercatori per valutare le capacità di queste tecnologie, note nel settore con l’acronimo LLM che sta per Large Language Model, traducibile in “modello linguistico di grandi dimensioni”.

«Il re è morto» ha scritto lo sviluppatore di software Nick Dobos in un post in cui metteva a confronto i risultati della sfida tra GPT-4 Turbo e Claude 3 Opus. «RIP GPT-4».

Riassunto di una breve storia

ChatGPT-4 dominava quella classifica dal 10 maggio 2023, ovvero da quando è stata lanciata, perciò la sconfitta appena incassata è un evento da fissare nella storia – relativamente breve, diciamolo pure – delle intelligenze artificiali, che di giorno in giorno moltiplicano le proprie capacità. Notevoli sono state anche le prestazioni in classifica di Haiku, un altra AI molto più piccola sviluppata sempre da Anthropic.

«Per la prima volta i migliori modelli linguistici di AI disponibili – Opus per compiti avanzati, Haiku dal punto di vista dei costi e dell’efficienza – non sono stati sviluppati da OpenAI» commenta il ricercatore indipendente Simon Willison, «e questo è rassicurante, perché in questo settore tutti traiamo vantaggio da una varietà di fornitori diversi. GPT-4 è in circolazione da più di un anno e questo è il tempo che ci è voluto perché qualcun altro riuscisse a sostenerne il passo».

Come funziona questa classifica

Chatbot Arena è gestita dalla Large Model Systems Organization, un’organizzazione appunto che si dedica alla ricerca dei modelli di AI con la collaborazione degli studenti di varie università tra cui quella della California, il Berkley, la UC di San Diego e la Carnegie Mellon University della Pennsylvania.

In breve, questa piattaforma mette a disposizione dell’utente una casella di input e due finestre che mostrano l’output di due LLM senza sapere di quali si tratta. Il compito dell’utente è valutare quale sia il risultato migliore in base a criteri che lui stesso ritiene più idonei in quel contesto. Attraverso migliaia di questi confronti soggettivi, Chatbot Arena stila una classifica dei migliori aggiornandola di tanto in tanto.

Questa piattaforma è molto utile soprattutto agli sviluppatori perché misurarne le prestazioni singolarmente, a causa dei risultati estremamente variabili, può essere molto difficile, e spesso i benchmark (dove Claude 3 Opus aveva già superato GPT-4 a inizio mese) in questo mercato sarebbero molto meno interessanti ai fini di una seria valutazione.

Anche Gemini Advanced di Google, che è un’AI piuttosto recente, sta rapidamente guadagnando punti in questa classifica quindi gli avversari rischiano di essere più di uno. Di certo i nuovi risultati saranno utili anche ad OpenAI, che ora dovrà darsi da fare per riprendersi il trono.

Per approfondire il mondo delle intelligenze artificiali potete sfogliare gli articoli che la nostra redazione raccoglie in questa sezione di Macitynet.

Top offerte Apple su Amazon

Tags
Intelligenza Artificiale

Articolo precedente

Ricoh presenta una versione speciale HDF della Ricoh GR III

Articolo successivo

Safari integrerà il supporto al codec AV1 via hardware

Il re è morto, Claude 3 supera GPT4 nei test alla cieca

Riassunto di una breve storia

Come funziona questa classifica

Offerte Apple e Tecnologia

Top offerte Apple su Amazon

Minimo iPhone 15 Pro da 256 GB, solo 1169

Ultimi articoli

P11 Pro è il drone giocattolo con GPS a bordo, solo 35 euro

Minimo storico sul mini compressore Ugreen, solo 29,99 euro

Le migliori bilance Smart per tenere sotto controllo peso e salute

In Cina iPhone da primo a quinto, per recuperare ci vuole Intelligenza

Apple ha davvero fretta sull’intelligenza artificiale, ora tratta anche con OpenAi

Apple rimuove app che spogliavano persone nelle foto con l’AI

Minimo iPhone 15 Pro da 256 GB, solo 1169

Hollywood Con Queen, nuova docuserie su Apple TV Plus

I migliori supporti magnetici da auto per i vostri smartphone

Agenzia Sicurezza Trasporti lavora con Apple all’identità digitale sugli aerei USA

Crescono gli italiani che ascoltano audiolibri

Galaxy S24 scontato a solo 699€ grazie ad un coupon Amazon

Il re è morto, Claude 3 supera GPT4 nei test alla cieca

Riassunto di una breve storia

Come funziona questa classifica

Offerte Apple e Tecnologia

Top offerte Apple su Amazon

Altri articoli

Ultimi articoli