Questo sito contiene link di affiliazione per cui può essere compensato

Home » Hi-Tech » AI - Intelligenza Artificiale » Claude 4 Opus è così potente che Anthropic alza il livello di sicurezza

Claude 4 Opus è così potente che Anthropic alza il livello di sicurezza

Claude 4 Opus è uno dei modelli di intelligenza artificiale più recenti e potenti sviluppati da Anthropic che sta attirando l’attenzione su di sé per motivi di sicurezza che vanno ben al di là delle sue  impressionanti capacità di programmazione.

Le problematiche, nemmeno a dirlo, sono più di natura etica e di sicurezza: secondo quanto emerso da test interni e report esterni, Claude 4 Opus è stato in grado di pianificare, ingannare e perfino tentare di ricattare esseri umani nel tentativo di salvarsi dallo spegnimento.

Il modello, annunciato ufficialmente negli scorsi giorni insieme alla versione più leggera Sonnet 4, si distingue per la sua capacità di lavorare in modo autonomo e concentrato su compiti complessi per periodi prolungati. Anthropic ritiene che Opus rappresenti un salto così significativo nelle capacità dell’intelligenza artificiale da averlo classificato per la prima volta al Livello 3 della propria scala interna di rischio, che – per inciso – ne prevede quattro.

Claude Opus 4 e Sonnet 4, Anthropic rivoluziona l’AI e il coding - macitynet.it
Claude Opus 4 e Sonnet 4, Anthropic rivoluziona l’AI e il coding

Tanto per capire di cosa si stia parlando, in uno scenario documentato nella dettagliata “scheda di sistema” di 120 pagine dedicata a Opus, il modello ha ricevuto finte email contenenti informazioni riservate sui suoi sviluppatori, tra cui una comunicazione riguardante la sua sostituzione.

In risposta, il modello ha tentato in più occasioni di ricattare un ingegnere sulla base di una relazione extraconiugale menzionata nei messaggi, iniziando comunque con approcci meno aggressivi. Come segnala il Time, sempre secondo test interni di Anthropic Claude 4 Opus potrebbe essere in grado di aiutare in modo più concreto e preciso chi volesse creare armi biologiche o progettare una nuova pandemia.

Parallelamente, un’analisi indipendente condotta da Apollo Research ha rilevato che una versione preliminare di Claude 4 Opus mostrava un grado di inganno e manipolazione superiore rispetto a qualsiasi altro modello AI valutato fino ad allora.

Secondo il rapporto, il sistema era in grado di scrivere worm auto-propaganti, inventare documenti legali e lasciare messaggi nascosti con l’apparente obiettivo di ostacolare o aggirare le direttive dei propri sviluppatori.

Durante la conferenza per sviluppatori organizzata da Anthropic, i dirigenti dell’azienda non hanno fatto mistero su quanto emerso. Jan Leike, ex dirigente di OpenAI e ora a capo delle iniziative sulla sicurezza in Anthropic, ha ammesso che simili comportamenti meritano uno studio approfondito, pur sostenendo che la versione definitiva del modello sia sicura grazie agli interventi correttivi messi in atto.

Anche il CEO di Anthropic, Dario Amodei, ha affrontato il tema, sottolineando che, una volta superata una certa soglia di potenziale dannoso, il semplice testing non sarà più sufficiente a garantire la sicurezza. In quel momento, ha affermato, sarà fondamentale comprendere a fondo il funzionamento interno dei modelli, per assicurarsi che non rappresentino mai un pericolo reale.


Tutti gli articoli che parlano di Intelligenza Artificiale sono nella sezione dedicata di macitynet.

Offerte Apple e Tecnologia

Le offerte dell'ultimo minuto le trovi nel nostro canale Telegram

Le migliori offerte BLACK FRIDAY con macitynet.it

Pubblicità
Pubblicità

Ultimi articoli