La domanda di assistenza sanitaria continua a crescere, ma con la sua ultima AI Microsoft dimostra che l’Intelligenza Artificiale ha il potenziale di rimodellare il settore con diagnosi corrette oltre quattro volte superiori rispetto a un medico in carne e ossa, il tutto riducendo sensibilmente anche le tempistiche e i costi per i pazienti.
In pochi anni i modelli AI hanno raggiunto punteggi quasi perfetti nell’esame United States Medical Licensing Examination USMLE che gli studenti devono superare per poter praticare medicina in USA. Ma si tratta di un esame con domande a risposta multipla che rischiano di sopravvalutare l’apparente competenza dei modelli AI.
Microsoft ha creato un nuovo benchmark per valutare AI in medicina
Così la divisone Microsoft AI dedicata alla sanità ha creato un nuovo benchmark per misurare l’efficacia della diagnosi sequenziale a partire dai complessi casi pubblicati ogni settimana dall’autorevole New England Journal of Medicine NEJM.

Diagnosi sequenziale
Nella diagnosi sequenziale un dottore o un modello AI inizia con la presentazione del paziente per poi selezionare domande e prescrivere test diagnostici, ripetendo il processo fino ad arrivare alla diagnosi definitiva. Il Sequential Diagnosis Benchmark SD Bench consiste in 304 casi recenti del NEJM con test che valutano sia l’accuratezza diagnostica che il costo affrontato dal paziente.
Un orchestratore di modelli AI per la diagnosi medica
Successivamente Microsoft ha sviluppato MAI-Dx Orchestrator che trasforma qualsiasi modello linguistico AI in un panel virtuale di medici. Pone domande al paziente, prescrive esami, fornisce una diagnosi infine un controllo dei costi e verifica il ragionamento prima di decidere se procedere.
Risultati sbalorditivi
Gli esperti di Redmond hanno impiegato MAI-Dx Orchestrator con tutti i principali modelli AI di frontiera inclusi GPT, Llama, Claude, Gemini, Grok e anche DeepSeek. Il risultato migliore è stato raggiunto con l’orchestratore di Microsoft in abbinamento al modello o3 di OpenAI con diagnosi corrette nell’85,5% dei casi.
La percentuale di successo nella diagnosi di un singolo medico umano è stata in media solamente del 20% negli stessi identici test, calcolata tra 21 medici di USA e UK con esperienza compresa tra 5 – 20 anni.
I modelli AI non hanno limiti di competenza
Microsoft spiega che i medici umani devono effettuare un compromesso tra ampiezza delle condizioni trattate e specializzazione, ma che nessun medico può coprire l’intera complessità della casistica NEJM. Invece l’intelligenza artificiale può combinare sia ampiezza che profondità di competenza, dimostrando capacità di ragionamento clinico che in molti aspetti superano quelle di qualsiasi singolo medico.
Troppo presto per sostituire i dottori in carne e ossa
È troppo presto per l’impiego nel mondo reale: Microsoft precisa che in nessun caso può sostituire i dottori. La multinazionale continua a lavorare per implementare la sua AI medica con partner di settore e forse un giorno renderà disponibile la diagnosi AI anche agli utenti dei suoi software e servizi.
Tutti gli articoli su Microsoft da qui, invece per le notizie sull’Intelligenza Artificiale rimandiamo alla sezione dedicata di macitynet.












