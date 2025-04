La visione artificiale sta smaterializzando i confini tra schermo e realtà: Microsoft e Google hanno infatti reso gratuite le loro soluzioni capaci di “vedere” ciò che accade sul display o attraverso la fotocamera, aprendo le porte a una nuova esperienza d’uso basata sull’interazione vocale e visiva.

Da una parte, Copilot Vision di Microsoft – integrato in Edge – trasforma il browser in un assistente intelligente che interpreta il contenuto delle pagine web che l’utente sta visualizzando a schermo. Questo vuol dire che è sufficiente consentirgli l’accesso allo schermo per fargli “leggere” ricette mentre si cucina.

Il funzionamento è presto detto: l’utente avvia la funzione nella barra laterale di Copilot, tocca l’icona del microfono e, dopo un breve segnale acustico, l’assistente inizia a evidenziare parti della pagina. Anche se alcune opzioni più estese – come l’aiuto in Photoshop o in un videogioco – restano riservate agli abbonati Copilot Pro, la versione base è ora gratuita per chiunque usi Edge, su PC Windows e Mac.

Dall’altra, Google ha deciso di arricchire l’app Gemini Live su Android con una funzione analoga: grazie alla condivisione di fotocamera e schermo, l’intelligenza artificiale riconosce oggetti reali davanti all’obiettivo o testo e comandi sul display, rispondendo in tempo reale.

Lanciata inizialmente sui modelli Pixel 9 e Galaxy S25 in versione a pagamento, la feature è stata da poco aperta a tutti gli utenti Android senza costi aggiuntivi. Nei prossimi giorni basterà aggiornare l’app Gemini per visualizzare le istruzioni sullo schermo e iniziare a mostrare all’AI ciò che si sta guardando.

In entrambi i casi, la privacy è assicurata, spiegano i due colossi: Microsoft garantisce di non memorizzare né le immagini né il testo delle pagine, mentre Google assicura che le sessioni restino private e non utilizzate per addestrare modelli futuri.

