Porta chiusa ad Apple da parte dei grandi siti di informazione. Realtà come il New York Times e USA Today, ma anche Facebook ed Instagram, hanno bloccato il crawler che serve ad istruire Apple Intelligence.

A dare conto della freddezza nei confronti della tecnologia con la quale Apple vuole recuperare terreno in un campo cruciale rispetto alla concorrenza è Wired, che ha indagato sull’accoglienza del sistema di scandagliamento di Internet della Mela.

Come abbiamo già spiegato, Apple sta qualche tempo investendo milioni di dollari in negoziati con importanti agenzie di stampa e case editrici, chiedendo il permesso e pagando per utilizzare articoli vari al fine di addestrare un suo sistema di intelligenza artificiale generativa. A fronte di questa richiesta la porta è stata chiusa da chi offre elevata qualità e profondità di informazione ma anche da alcun social che hanno enormi quantità di informazioni.

Wired riferisce che tra quelli che hanno deciso di non siglare accordi con la Casa di Cupertino, ci sono: Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, il network di USA Today, e anche Condé Nast (casa editrice che pubblica alcune note riviste).

La fredda accoglienza al web scraping di Apple da parte di alcuni siti evidenzia cambiamenti significativi per quanto concerne la percezione e lo sfruttamento dei crawler (software che analizzano i contenuti di una rete in modo metodico e automatizzato) e dei bot in generale usati da anni per acquisire una copia testuale di tutti i documenti presenti in una o più pagine web creando un indice che ne permetta, successivamente, la ricerca, la visualizzazione o di nuovi contenuti.

Ora che i crawler possono essere usati anche per l’addestramento delle AI, sono diventati oggetto di contese su questioni di proprietà intellettuale e sul futuro del web.

I web master possono fare in modo che lo strumento usato internamente da Apple (“Applebot-Extended”) escluda automaticamente alcuni siti, impedendo l’addestramento di determinati contenuti per l’AI.

La Mela spiega che i dati raccolti mediante crawling da Applebot vengono utilizzati per alimentare varie funzionalità, come la tecnologia di ricerca integrata in molte esperienze utente nell’ecosistema di Apple, tra cui Spotlight, Siri e Safari. Dal punto di vista tecnico, se si abilita Applebot in robots.txt, il contenuto del sito web verrà visualizzato nei risultati di ricerca per gli utenti Apple di tutto il mondo in questi prodotti. Applebot accede a molti tipi di risorse dai server web, inclusi a titolo esemplificativo robots.txt, sitemap, feed RSS, HTML, risorse secondarie necessarie per il rendering di pagine come javascript, richieste Ajax, immagini e altro ancora.

Apple spiega espressamente che con Applebot-Extended, gli editori web possono scegliere di rinunciare ai contenuti del proprio sito web utilizzati per addestrare i modelli di base di Apple che alimentano funzionalità di intelligenza artificiale generativa attraverso i prodotti Apple, tra cui Apple Intelligence, Services e Developer Tools.

Una startup canadese ha analizzato un campione di 1000 siti web ad alto traffico e scoperto che il 7% – principalmente siti di news e organi di informazione – bloccano l’accesso a Applebot-Extended. Dati simili emergono da analisi di un sito denominato Dark Visitors, secondo il quale il 6% dei siti web blocca il crawler di Apple.

Anche Google sfrutta meccanismi simili per addestrare sue AI, e anche in questo caso una buona percentuale di siti blocca l’accesso a tecnologie di AI generativa. La maggior parte degli editor sembra voler bloccare questi crawler, in attesa di firmare contratti che consentano loro di guadagnare per quanto proposto. Il blocco offre agli editori maggiore controllo sull’accesso ai contenuti dei siti, proteggendoli allo steso tempo dall’utilizzo per l’addestramento dell’IA. Google ha in precedenza riferito di voler tenere conto delle richieste degli editori e allo scopo ha sviluppato Google-Extended, strumento che offre agli editori di siti la possibilità di non utilizzare i propri dati per addestrare i modelli di intelligenza artificiale dell’azienda, rimanendo ad ogni modo accessibili per le ricerche su Google.

