Le IA istruite con copie di libri pirata, il futuro digitale con basi illegali

25 Lug 2023

Molte IA probabilmente addestrate con copie pirata di libri — Foto di Alexandra Fuller - Unsplash

Il New York Times parla delle cosiddette “shadow libraries”, in italiano “biblioteche ombra”: non sono vere e proprie biblioteche nel contesto digitale, in quanto non autorizzate. Di questi cataloghi ne esistono vari, come Library Genesis (LibGen) per gli e-book e Scientific Hub (Sci-Hub) per gli articoli di periodici accademici; altri nomi noti, sono: Z-Library o Bibliotik, “oscuri repository nei quali sono memorizzati milioni di titoli, in molti casi senza permesso – e spesso usati come dati di addestramento delle AI”.

Le aziende che, a vario titolo, si occupano di Intelligenza Artificiale, sono consapevoli di documenti di ricerca che fanno affidamento alle “biblioteche ombra”. Il sistema GPT-1 di OpenAI è stato addestrato usando BookCorpus, con oltre 7000 titoli inediti ottenuti da Smashwords, piattaforma per l’autopubblicazione di e-book. Per addestrare GPT-3, OpenAI afferma che circa il 16% dei dati di riferimento usati, arrivano da raccolti di libri su internet genericamente indicate come “Books1” e “Books2″. Non è chiaro quali siano esattamente le fonti in questione ma molti autori sostengono che non sono altro che siti web di “biblioteche ombra” come quelli prima citati.

La comica e attrice statunitense Sarah Silvermann è sicura che ChatGPT sia addestrata con libri protetti da copyright, ma anche atri autori affermano che biblioteche come Books2 siano “palesemente illegali”. Siti come quelli prima citati sono stati “sotto osservazione” per alcuni periodi, e uno degli autori dello studio evidenzia che nel periodo dal 2016 al 2017 i testi piratati hanno contribuito ad abbattere il mercato dei libri leciti per almeno il 14%.

A fine giugno alcuni autori hanno citato in giudizio ChatGPT affermando che la tecnologia di addestramento usata dalla AI in questione viola i diritti d’autore dei loro romanzi. Nella class action presentata presso la corte federale di San Francisco si sostiene che OpenAi “ha fatto affidamento sulla raccolta di quantità massicce” di opere protette da copyright”, “senza consenso, senza riconoscimento e senza compenso”.

Giacché i sistemi di intelligenza artificiale non possono per loro natura funzionare senza informazioni estratte da qualche parte, i large language model (Llm), che alimentano ChatGPT, si legge nella documentazione portata in tribunale “sono essi stessi opere derivate che violano il diritto d’autore, realizzate senza l’autorizzazione dei querelanti e in violazione dei loro diritti esclusivi ai sensi della legge sul copyright”.

Tutte le notizie che parlano di Intelligenza Artificiale sono disponibili a partire da questa pagina di macitynet

Top offerte Apple su Amazon

Articolo precedente

Con Little Snitch 5 nessuna app si collega ad Internet alle vostre spalle, oggi al 75% di sconto

Articolo successivo

Vecchie banconote diventano calce e mattoni, esperimento di Banca d’Italia

Le IA istruite con copie di libri pirata, il futuro digitale con basi illegali

Offerte Apple e Tecnologia

Top offerte Apple su Amazon

Minimo iPhone 15 Pro da 256 GB, solo 1169

Ultimi articoli

BMAX I10 Pro e BMAX I11 Pro, in offerta i due tablet Android a poco più di 100€

Apple ha scelto il miglior pannello OLED possibile per l’imminente iPad Pro

iPhone 16 tutti i modelli in sfilata a confronto in una foto

Bosch Easypump, il mini compressore perfetto costa solo 59€

DJI Mini 4K è il drone economico per chi inizia a volare

Da CATL la batteria Shenxing Plus per auto elettriche da record

Airpods Pro, quasi minimo storico, solo 224 €

La strategia Apple sull’Ai è certa, il suo futuro meno

Sconto del 40% sul tagliaerba Bosch ARM 32, solo 79,99€

Offerte Amazon 29 aprile fino al 69% su Apple, BTicino, CarlinKit, Bluetti, Ecovacs, Ugreen, LEGO – aggiornato

Per l’UE iPadOS è gatekeeper, Apple deve aprire iPad in Europa

Nissan e Acciona insieme per scooter e Nanocar elettriche Silence

Le IA istruite con copie di libri pirata, il futuro digitale con basi illegali

Offerte Apple e Tecnologia

Top offerte Apple su Amazon

Altri articoli

Ultimi articoli