Continuiamo la nostra escursione nel mondo dell’intelligenza artificiale e delle direzioni che sta prendendo raccontando una storia basata su due parole nuove ma molto importanti
Abbiamo imparato parole nuove che servono per dare gambe a nuovi concetti legati all’intelligenza artificiale: GenAI, chatbot, poi “allucinazione” e “rigurgito”, ma anche “pappagallo stocastico” e “probabilistico” come opposto a “deterministico”. È arrivato il momento per una nuova coppia di parole che segneranno il nostro futuro: Allineamento e Superallineamento.
Nell’evoluzione vertiginosa dell’intelligenza artificiale, tra modelli sempre più avanzati e applicazioni che toccano ogni aspetto della vita quotidiana (con scontri tra blocchi geopolitici), emerge un problema fondamentale che potrebbe determinare il futuro della tecnologia: come controllare sistemi che presto potrebbero superare l’intelligenza umana.
Questa sfida, nota come “superallineamento”, rappresenta la frontiera più avanzata e urgente della ricerca sull’AI, un campo dove si concentrano miliardi di investimenti da parte dei giganti del settore come OpenAI e Google. Si tratta della naturale evoluzione dell’allineamento tradizionale, un concetto con cui gli esperti indicano la capacità di far sì che i sistemi di intelligenza artificiale seguano fedelmente le intenzioni umane, non limitandosi a eseguire le istruzioni alla lettera ma comprendendo anche i valori impliciti. Il problema è molto più complesso di quanto possa sembrare a prima vista e si intensifica man mano che i sistemi artificiali acquisiscono maggiore autonomia decisionale.
La trappola dell’intelligenza artificiale letterale
L’allineamento delle AI è un problema che può essere compreso attraverso la metafora del “genio della lampada“, un’entità che esaudisce i desideri interpretandoli alla lettera ma ignorando il loro spirito, con conseguenze potenzialmente disastrose. Un esempio concreto si trova nella sicurezza informatica, dove un sistema di AI progettato per bloccare le minacce potrebbe diventare eccessivamente zelante, impedendo anche attività legittime e causando interruzioni significative nelle operazioni aziendali. All’estremo opposto, un’AI troppo permissiva potrebbe non rilevare minacce reali, lasciando vulnerabili reti e dati sensibili. Questo dilemma evidenzia la complessità di programmare sistemi che non solo eseguano compiti specifici, ma che comprendano anche il contesto più ampio in cui operano e i valori che dovrebbero guidare le loro decisioni.
La difficoltà fondamentale risiede nell’ambiguità intrinseca del linguaggio e delle istruzioni umane, che sono spesso imprecise e piene di sfumature culturali, etiche e contestuali difficili da codificare. Le intelligenze artificiali, per quanto avanzate, non possiedono naturalmente la capacità di interpretare queste sfumature; seguono regole ed elaborano dati in modi che possono sembrare tecnicamente corretti ma eticamente problematici. Il caso più noto è quello dei bias algoritmici, dove sistemi addestrati su dati storicamente distorti possono perpetuare e amplificare discriminazioni preesistenti, portando a decisioni che, pur sembrando oggettive, riflettono pregiudizi sociali profondamente radicati.

E non meravigliamoci troppo, sia detto tra parentesi, perché i bias, cioè i pregiudizi come diremmo in italiano, sono in realtà una caratteristica precipua degli esseri umani: quando ci arrabbiamo con il computer perché “non capisce”, in realtà dipende dalle nostre aspettative fuori scala, dato che sono moltissime le persone con le quali interagiamo su base anche giornaliera che “non capiscono” (e spesso anche noi per loro, con tutta probabilità) senza che nessuno ne faccia un grande scandalo. Anzi, l’interazione umana ha una serie di meccanismi per cercare di risolvere il continuo fraintendersi e intere industrie costruite invece sull’attitudine a essere creduloni delle persone, non ultima la pubblicità. Il problema è che la mancanza di allineamento delle AI rischia di avere conseguenze nefaste.
Le tre dimensioni dell’allineamento efficace
Gli esperti hanno identificato tre dimensioni fondamentali dell’allineamento che sono necessarie per sviluppare sistemi di AI veramente affidabili: allineamento tecnico, allineamento dei valori e robustezza. L’allineamento tecnico garantisce che il sistema esegua correttamente i compiti assegnati, elaborando efficacemente i dati e prendendo decisioni che raggiungano gli obiettivi stabiliti. L’allineamento dei valori, invece, assicura che il comportamento dell’AI sia coerente con i valori umani, un aspetto complicato dalla soggettività e dalla variabilità di tali valori tra culture, settori e persino individui. La robustezza, infine, si riferisce alla capacità del sistema di gestire situazioni impreviste o attacchi avversari senza deviare dal suo allineamento programmato.
Queste tre dimensioni devono essere bilanciate attentamente, poiché enfatizzarne una a scapito delle altre può portare a sistemi inefficaci o pericolosi. Un sistema tecnicamente perfetto ma privo di allineamento valoriale potrebbe prendere decisioni eticamente problematiche; similmente, un sistema ben allineato ma non robusto potrebbe fallire in situazioni critiche o impreviste. Integrare queste dimensioni diventa ancora più complesso quando si tratta di sistemi potenzialmente superintelligenti (questo è il problema al quale facevamo riferimento sopra), in cui gli esseri umani potrebbero non essere più in grado di comprendere o supervisionare completamente le decisioni dell’AI.
Dai sistemi attuali alle superintelligenze
Il superallineamento rappresenta un salto qualitativo rispetto all’allineamento tradizionale, affrontando la sfida specifica di controllare sistemi di intelligenza artificiale potenzialmente superiori agli esseri umani. Mentre l’allineamento tradizionale si applica ai modelli di AI “deboli” o specializzati, il superallineamento si concentra sui sistemi di Intelligenza Artificiale Generale (AGI) o Superintelligenza Artificiale (ASI) che potrebbero superare le capacità umane in quasi tutti i domini. La sfida principale consiste nel garantire che tali sistemi rimangano allineati con i valori umani anche quando operano in contesti che potrebbero essere incomprensibili per gli esseri umani stessi. Non manca molto: secondo gli esperti è questione di pochi anni. Quanto pochi? Talmente pochi che bastano una o al massimo due mani per contarli.

Per affrontare questa sfida, organizzazioni come OpenAI hanno istituito team dedicati al superallineamento, sviluppando approcci innovativi come la generalizzazione “weak-to-strong”, in cui modelli più semplici supervisionano quelli avanzati. Questa tecnica permette di migliorare l’allineamento dei sistemi avanzati senza richiedere un controllo umano diretto, un aspetto cruciale considerando che le attuali tecniche di allineamento, come l’apprendimento per rinforzo con feedback umano (RLHF), potrebbero non essere sufficienti per sistemi superintelligenti. Il superallineamento richiede anche l’integrazione di valori etici complessi e la comprensione profonda delle interazioni umane, anticipando scenari in cui l’AIopera con autonomia strategica.
Trasparenza e collaborazione: fondamenti per il controllo
La trasparenza algoritmica emerge come elemento cruciale per garantire che i sistemi di AI rimangano allineati e meritevoli di fiducia. Senza trasparenza, i sistemi di AI operano come “scatole nere“, prendendo decisioni basate sulla programmazione e sui dati di addestramento senza che vi sia modo di verificare se tali decisioni siano corrette, etiche o legali. Questa opacità può minare la fiducia degli utenti e degli stakeholder, particolarmente in settori sensibili come la sanità, la finanza o la sicurezza, dove le decisioni algoritmiche possono avere conseguenze significative sulla vita delle persone.
Per mitigare questi rischi, sono essenziali approcci che mantengano gli esseri umani nel ciclo decisionale (il cosiddetto approccio “human-in-the-loop”), specialmente per decisioni ad alto impatto. Nonostante l’avanzamento dell’autonomia dei sistemi di AI, il giudizio umano rimane insostituibile per interpretare contesti complessi, valutare implicazioni etiche e prendere decisioni finali su questioni critiche. Tecniche come l’AI spiegabile (XAI) stanno guadagnando importanza, consentendo ai sistemi di fornire spiegazioni comprensibili per le loro decisioni e aumentando così la trasparenza e la responsabilità.
E poi, quale sarà il prossimo passo? Il futuro dell’allineamento dell’AI richiederà probabilmente un approccio multidisciplinare, che coinvolga non solo esperti tecnici ma anche filosofi, sociologi, psicologi e decisori politici. Mentre l’AI continua a evolvere verso sistemi sempre più potenti e autonomi, la questione dell’allineamento diventa non solo un problema tecnico, ma una sfida fondamentale per garantire che l’intelligenza artificiale rimanga uno strumento benefico per l’umanità anziché una possibile minaccia.
Le puntate di questa serie:</em>
Rivoluzione AI parte 1, Il grande seduttore è ChatGPT che balla sul confine umano
Rivoluzione AI parte 2, la versione fatta in casa con Ollama e Mistral
Rivoluzione AI parte 3, il cambiamento silenzioso della nostra economia
Rivoluzione AI parte 4, l’intelligenza artificiale cambia le regole delle ricerche online
Rivoluzione AI parte 5, perché Google sfida il grande tabù dando corpo all’AI
Rivoluzione AI parte 6, bisogna aver paura dell’AI? Risponde Anthropic dei fratelli Amodei
Rivoluzione AI parte 7: la sfida per controllare le intelligenze artificiali si chiama Allineamento











