I contenuti generati dal modello di intelligenza artificiale cinese DeepSeek somigliano moltissimo a quelli di ChatGPT, in particolare lo stile di scrittura corrisponde nel 74% dei casi. È il risultato di uno studio indipendente realizzato da Copyleaks specializzata nel rilevamento di plagio e identificazione di contenuti AI, riportato da Forbes.

Il sistema impiega tecnologie di screening e classificatori di algoritmi per determinare le impronte stilistiche del testo scritto da vari modelli. Oltre che su modelli di OpenAI e DeepSeek, il test ha preso in esame anche Google Gemini, Claude di Anthropic e Llama di Meta.

In tutti i casi Copyleaks è in grado di distinguere facilmente il testo scritto attribuendolo correttamente al modello AI che lo ha generato. Ma nella maggioranza dei casi gli output di DeepSeek vengono classificati dal sistema di riconoscimento come prodotti da ChatGPT.

La somiglianza è forte e sopratutto non è stata riscontrata con nessuno degli altri modelli presi in esame. Non si tratta di una prova definitiva, ma di un ulteriore indizio che DeepSeek ha con ogni probabilità addestrato il suo modello sfruttando i risultati di ChatGPT.

Si tratta della tecnica della distillazione, impiegata da tempo per migliorare i modelli AI ma finora per lo più effettuata all’interno della stessa società impiegando esclusivamente suoi modelli AI di partenza. Come già sollevato da OpenAI e anche da Microsoft, il sospetto è che OpenAI riesca a ridurre drasticamente i costi di addestramento distillando il lavoro altrui.

Copyleaks dichiara che sono necessari ulteriori approfondimenti per stabilire come sia stato creato il modello AI di DeepSeek, nel frattempo la società cinese non ha risposto alle richieste di chiarmenti. L’analisi potrebbe fare luce non solo sulla eventuale violazione di proprietà intellettuali di OpenAI e Microsoft da parte di DeepSeek, ma sollevare il problema sulle fonti dei dati impiegati per l’addestramento per l’intero settore AI.

Ricordiamo infatti che anche la stessa OpenAI, ma anche Meta e altri, sono stati più volte criticati per l’impiego smodato di dati disponibili su Internet. Per tutte queste ragioni Copyleaks suggerisce che la soluzione potrebbe essere una legge che obblighi la divulgazione dei set di dati impiegati.

Per capire come funziona DeepSeek e perché al debutto ha fatto crollare i maggiori titoli tecnologici USA rimandiamo a questo approfondimento.