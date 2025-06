Alla vigilia del keynote di inizio lavori della conferenza mondiale degli sviluppatori WWDC 2025 i ricercatori Apple del laboratorio Machine Learning Research rilasciano un report che farà molto parlare, perché mette in discussione la capacità di ragionamento dei modelli AI più avanzati.

Finora la valutazione delle capacità di questi modelli si è concentrata su test e benchmark di matematica e di programmazione. Ma secondo i ricercatori di Cupertino che firmano lo studio questo approccio osserva esclusivamente l’accuratezza della risposta finale, è soggetto a contaminazione dei dati e non offre approfondimenti sulle capacità di ragionamento.

Per indagare ulteriormente su ragionamento, capacità fondamentali e proprietà di scalabilità il team ha ideato puzzle controllabili per analizzare non solo le risposte finali ma anche le tracce di ragionamento dei modelli AI più avanzati.

I risultati sono sorprendenti perché, anche con compiti relativamente semplici o addirittura anche quando i ricercatori indicando la soluzione esatta, diversi dei modelli più noti e sofisticati vedono crollare completamente l’accuratezza del ragionamento oltre una data soglia di complessità. Nell’elenco sono inclusi o3-mini di OpenAI, DeepSeek R1 e Claude 3.7 Sonnet, tra gli altri.

Secondo i test effettuati dai ricercatori Apple i modelli AI standard LLM superano i modelli più avanzati dotati di ragionamento nei problemi a bassa complessità. Invece con test di complessità media hanno la meglio i modelli AI dotati di ragionamento, siglati LRMS. Infine, quando la soglia di difficoltà diventa elevata, entrambi i tipi di modelli falliscono completamente.

Ma emergono anche incongruenze lampanti, per esempio con modelli che hanno risolto correttamente problemi che richiedevano oltre 100 mosse, per poi fallire invece con problemi che richiedevano solamente 11 mosse.

Secondo i ricercatori Apple i risultati di questa ricerca dimostrano che il limite non è nella strategia di risoluzione dei problemi, ma nell’esecuzione di passaggi logici di base. Nella maggior parte dei casi i modelli AI ragionano troppo su problemi facili e pensano meno per quelli complessi, al contrario dunque degli umani.

Da qui l’illusione del ragionamento espressa nel titolo del report: anche i modelli AI di ultima generazione che magnificano le capacità di ragionamento sembrano invece funzionare su un meccanismo di pattern matching, vale a dire di riconoscimento – corrispondenza di modelli e schemi.

Nel corso della WWDC 2025 Apple presenterà alcune novità in campo AI dedicate agli sviluppatori ma il piatto forte di questa edizione sarà il cambio totale dei sistemi operativi a partire dalla grafica fino ad arrivare alla nomenclatura.

In questo articolo tutto quello che Apple potrebbe presentare alla WWDC 2025: