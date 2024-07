Pubblicità

Apple ha comprato alcuni dati usati per addestrare Apple Intelligence ma una azienda dalla quale ha comprato questi grandi set di informazioni è accusata di avere sottratto con metodi discutibili dati da video di YouTube (senza il consenso dei creator).

Tutte le AI generative funzionano accumulando enormi quantità di dataset (insieme di dati) per creare i Large Language Models (LLM), ovvero modelli linguistici di grandi dimensioni. Le fonti usate per addestrare le AI sono spesso controverse (ne sa qualcosa Adobe, accusata di avere addestrato sue AI su contenuti degli utenti) e Apple ha preferito fare affidamento a fonti etiche, pagando milioni di dollari case editrici per accedere in modo legale a libri e articoli vari, ma anche per ottenere in licenza immagini da aziende specializzate nella vendita di librerie fotografiche.

Stando a quanto riferisce Wired, una delle aziende dalle quali Apple ha comprato dati da usare per la sua AI non è stata scrupolosa come la Mela con le fonti. L’azienda che ha venduto dati a Apple si chiama EleutherAI; quest’ultima ha creato dataset che chiama Pile e che sarebbero usati da Apple per l’addestramento di suoi LLM.

Tra i dataset Pile vi sono anche sottotitoli di video di YouTube, ottenuti dopo il download dei filmati dalla piattaforma in questione, senza il permesso dei creator. Questo modo di agire comporterebbe a quanto pare anche una violazione dei Termini di Servizio di YouTube, pizttzforma che non consente di scaricare, vendere e concedere in licenza contenuti previa autorizzazione scritta (per quanto riguarda quest’ultimo aspetto non c’è, a onor del vero, molta chiarezza).

Oltre a Apple, tra le aziende che hanno usato i dataset Pile, c’è anche Anthropic (azienda nota per Claude, concorrente diretto di ChatGpt di OpenAI); un portavoce di quest’ultima ha sottolineato che c’è una differenza tra l’usare i video e i sottotitoli di YouTube. “Pile include un sottoinsieme molto limitato di sottotitoli YouTube”, spiega Jennifer Martinez. “I Termini di YouTube riguardano l’uso diretto della piattaforma, una distinzione rispetto ai dataset di Pile”, spiegando ancora che bisognerà chiarire la questione con gli autori di Pile.

Anche Salesforce ha confermato di avere usato dataset Pile per creare suoi modelli AI per “scopi accademici e di ricerca”, sottolineando che questi dati sono pubblicamente disponibili. Sviluppatori che lavorano per Salesforce riferiscono ancora che i dataset Pile includono turpiloqui, “pregiudizi contro la parità di genere e alcuni gruppi religiosi”.

Al momento solo Salesforce e Anthropic hanno commentato la questione dell’uso dei dataset Pile. Apple, Nvidia, Bloomberg e Databricks, tutte note per avere sfruttato questi dati per loro AI, non hanno, al momento, rilasciato commenti.

