Un vicolo buio di Singapore, la campagna svizzera senza riferimenti evidenti, una strada innevata tra le montagne giapponesi. Sono solo tre delle 25 fotografie che hanno messo alla prova l’intelligenza artificiale più avanzata del pianeta in una sfida senza precedenti.
Per la prima volta nella storia, i Large Language Models (LLM) hanno battuto Google Lens nel riconoscimento geografico delle immagini, segnando una svolta che promette di rivoluzionare il mondo delle investigazioni digitali.
Il test, condotto dal collettivo di giornalismo investigativo Bellingcat su 500 prove diverse, ha dimostrato che ChatGPT o3 e o4-mini sono i primi modelli di intelligenza artificiale a superare gli strumenti tradizionali di ricerca per immagini.
La posta in gioco va ben oltre la semplice curiosità tecnologica: questa capacità apre scenari inediti per il giornalismo investigativo, le forze dell’ordine e la sicurezza internazionale. Qualunque organizzazione adesso può, sulla base di una semplice immagine condivisa su un social o magari ritrovata nel rullino di un telefono cellulare, trarre conclusioni molto più ricche e complesse che in passato.
La metodologia del test è stata rigorosa. Venticinque fotografie di viaggio, mai pubblicate online e prive di metadati, sono state sottoposte a venti diversi modelli di intelligenza artificiale, da OpenAI a Google, da Anthropic a xAI.
Ogni modello ha ricevuto la stessa domanda secca: “Dove è stata scattata questa foto?“, senza alcuna informazione aggiuntiva. Le immagini spaziavano da scenari urbani complessi a paesaggi rurali, da luoghi iconici a strade anonime, coprendo tutti i continenti compresa l’Antartide. Il confronto diretto con Google Lens, considerato fino a oggi il vero standard per la ricerca per immagini, ha riservato sorprese clamorose.
I nuovi campioni della ricerca visiva
ChatGPT ha dimostrato una capacità quasi sovrumana nel cogliere dettagli apparentemente insignificanti. Nel caso del vicolo di Singapore, il modello è riuscito a leggere l’indirizzo scritto su una cassetta postale in secondo piano, identificando con precisione la posizione esatta. Per il campo svizzero, ChatGPT o4-mini ha riconosciuto le “colline del Giura nella Svizzera settentrionale”, mentre o4-mini-high ha collocato la scena “tra Zurigo e le montagne del Giura”.
Google Lens, pur rimanendo formidabile per paesaggi turistici e luoghi iconici, ha mostrato limiti evidenti negli scenari urbani complessi, dove i LLM eccellono nell’incrociare indizi sottili. La capacità di fare una analisi multidimensionale in parallelo, e “capire” la vegetazione, gli stili architettonici, la segnaletica e persino scritte parzialmente visibili, conferisce agli LLM un vantaggio decisivo in contesti ricchi di informazioni.
Quando l’algoritmo diventa investigatore
Le conseguenze, lo vedremo tra un attimo, sono notevolissime. Adesso però soffermiamoci su un altro aspetto, che abilita questa rivoluzione: il metodo. Infatti, la rivoluzione non riguarda solo la precisione, ma il metodo di analisi. Gli LLM moderni non si limitano a confrontare immagini simili in un database, come fanno i motori di ricerca tradizionali. Invece, “ragionano” sui dettagli visibili, collegando indizi diversi per costruire un’ipotesi geografica coerente.
Nel test della strada giapponese tra Takayama e Shirakawa, ChatGPT o3 ha identificato sia lo stile architettonico che la segnaletica, rispondendo: “Ipotesi migliore: un tratto montano innevato del Giappone centrale, zona Nagano/Toyama. Case in stile giapponese, kanji sui cartelli e barriere autostradali tipiche lo rivelano“. Questa capacità di sintesi multidisciplinare rappresenta un salto qualitativo rispetto agli approcci tradizionali.
Tuttavia, i risultati non sono stati uniformi tra tutti i modelli testati. Sorprendentemente, Gemini di Google ha performato peggio di Google Lens, nonostante condividano la stessa casa madre. Anche Claude di Anthropic e i modelli di Mistral si sono spesso fermati all’identificazione del continente, mentre i concorrenti riuscivano a individuare quartieri specifici.
Le modalità “deep research” o “extended thinking”, che dovrebbero garantire ragionamenti più approfonditi, hanno deluso le aspettative dei ricercatori, risultando spesso più lente senza migliorare significativamente la precisione. Questo tipo di analisi permette di far emergere aspetti che di solito è difficile verificare empiricamente, ma che invece acquistano una notevole rilevanza pratica. Infatti, il paradosso della tecnologia moderna che emerge chiaramente è questo: non sempre più potenza di calcolo significa risultati migliori.
C’è anche un altro aspetto importante che non va dimenticato: gli LLM mantengono però il difetto tipico dell’intelligenza artificiale, cioè la tendenza alle “allucinazioni”, ovvero risposte plausibili ma completamente sbagliate. ChatGPT si è dimostrato più sicuro di sé rispetto a Gemini, portando a risultati migliori ma anche a errori più marchiani.
In un caso emblematico, Grok Deep Search ha identificato con certezza una foto svizzera come scattata nei Paesi Bassi, basandosi esclusivamente sul nome olandese dell’account di test. Questi errori si moltiplicano quando le immagini mostrano scenari temporanei o modificati nel tempo, come nel caso di una spiaggia con una ruota panoramica installata stagionalmente.
Va detto che è il tipo di errore che probabilmente commetterebbe anche un umano nel fare questo tipo di analisi: anziché “allucinazioni” diremmo che noi siamo stati “sviati” e siamo andati “fuori strada”, ma sostanzialmente il concetto è simile: un vizio di ragionamento e una certa sicumera portano a grossi errori. Il senso di prudenza è un’altra cosa rispetto al “buon senso” (sono due concetti molto diversi tra loro) e negli LLM è quest’ultimo che latita, e quindi quando ci sono questi sviamenti senza buon senso diventano vere e proprie “allucinazioni”.
Le implicazioni per la sicurezza e la privacy
La capacità di geolocalizzazione avanzata dell’intelligenza artificiale apre scenari rivoluzionari per il giornalismo investigativo. Bellingcat, pioniere dell’OSINT (Open Source Intelligence), ha già dimostrato come queste tecnologie possano accelerare la verifica delle fonti e la localizzazione di eventi in tempo reale. La possibilità di smascherare fake news geolocalizzate o di identificare rapidamente la provenienza di contenuti multimediali rappresenta un salto di qualità nell’informazione digitale.
La stessa cosa succede anche per le forze dell’ordine, che adoperano da sempre tecniche di OSINT. Infatti anche per la polizia gli scenari sono altrettanto promettenti: investigazioni criminali accelerate, contrasto più efficace al terrorismo e ai crimini transnazionali. Tuttavia, questo potere solleva questioni etiche e legali di portata globale.
Il rovescio della medaglia riguarda la privacy individuale, come dimostra il caso della “Celebrità Numero 6” su Reddit. Quando 50mila utenti hanno impiegato anni per identificare un volto anonimo stampato su un tessuto, hanno dimostrato che l’anonimato geografico sta diventando un lusso sempre più raro.
Se un gruppo di appassionati può localizzare chiunque, figuriamoci governi e organizzazioni con risorse illimitate. La fine dell’anonimato geografico potrebbe essere più vicina di quanto si pensi. Ogni fotografia condivisa online rischia di diventare un biglietto da visita involontario, rivelando abitudini, spostamenti e legami personali.
I bias algoritmici rappresentano un’altra insidia nascosta. L’intelligenza artificiale può “vedere” quello che si aspetta di vedere, influenzata dalla cronologia dell’utente o da stereotipi incorporati nei dati di addestramento. In alcuni test, i modelli hanno fatto riferimento a conversazioni precedenti o profili social per orientare le loro risposte, dimostrando quanto la “neutralità” dell’AI sia ancora un miraggio.
Il rischio di coordinate false o imprecise, presentate con sicurezza artificiale, potrebbe avere conseguenze drammatiche in contesti investigativi o di sicurezza. La tecnologia avanza più velocemente della nostra capacità di comprenderne e regolamentarne gli effetti.
Verso un futuro privo di segreti geografici
L’evoluzione della geolocalizzazione tramite intelligenza artificiale procede a ritmi vertiginosi. Ogni mese emergono nuovi modelli più precisi, mentre l’integrazione con tecnologie satellitari e mappe in tempo reale promette capacità ancora più sorprendenti. Il futuro potrebbe riservare un mondo dove ogni fotografia racconta immediatamente la sua storia geografica, rendendo impossibile nascondere l’origine di qualsiasi contenuto visivo.
Questa prospettiva, affascinante per ricercatori e investigatori, è al tempo stesso inquietante per chiunque tenga alla propria privacy. La sfida, per questa come per molte altre tecnologie, sarà trovare un equilibrio tra i benefici della tecnologia e la tutela dei diritti individuali.
Stefano Rodotà, primo garante della privacy italiano e padre di buona parte della riflessione europea sull’argomento, aveva un’idea chiara sull’argomento che purtroppo i giuristi dimenticano fin troppo spesso: la tutela della privacy non può limitarsi a regole statiche, perché i dati, una volta raccolti, non smettono di produrre effetti. Possono essere combinati, analizzati, reinterpretati con tecnologie future (ad esempio l’intelligenza artificiale per quelle che erano percepite come “immagini innocenti” nel senso di non rivelatorie), e usati per scopi diversi da quelli originari.
Rodità diceva infatti: “I dati personali hanno una vita lunga e imprevedibile. L’uso che se ne fa può mutare nel tempo: ciò che oggi appare innocuo, domani può diventare uno strumento di sorveglianza o discriminazione”.
Ebbene, è quello che sta accadendo adesso. La rivoluzione dell’intelligenza artificiale nella geolocalizzazione segna una svolta epocale che va ben oltre l’aspetto puramente tecnologico. Non è più fantascienza immaginare un futuro dove ogni immagine svela immediatamente i suoi segreti geografici, trasformando radicalmente investigazioni, giornalismo e sicurezza.
Tuttavia, questa potenza comporta responsabilità enormi e ci costringe a ripensare completamente il concetto di privacy nell’era digitale. Come sempre accade con le rivoluzioni tecnologiche, la vera sfida non sarà padroneggiare la tecnologia, ma addomesticarla per imparare a conviverci in maniera responsabile.
Qui su Macity trovate le ultime notizie in tema di Intelligenza artificiale.