L’avvento dei modelli di linguaggio generativi come GPT, Claude o Gemini ha portato benefici indiscutibili alla produttività e alla creatività digitale. Tuttavia, ha anche sollevato interrogativi profondi sul piano del diritto d’autore (copyright): quando un sistema di intelligenza artificiale impara da opere protette, può essere considerato responsabile se poi “restituisce” parti di quelle opere? E, soprattutto, come si applicano le norme esistenti in un contesto tecnologico così nuovo?
Una delle questioni più dibattute nell’ambito del copyright applicato ai sistemi di intelligenza artificiale riguarda quanto effettivamente i modelli di linguaggio memorizzino testi protetti da copyright presenti nei dati di addestramento e se questi testi possano essere estratti e riprodotti in output in forma rilevante ai fini della legge. A questa domanda risponde in modo rigoroso la ricerca “Extracting books from production language models” di Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo e Percy Liang del 2026, connessa anche a lavori precedenti pubblicati nel 2025, in cui gli stessi e altri co‑autori avevano analizzato la memorizzazione di libri protetti nei modelli “open‑weight” (open‑source) e ora nei modelli di produzione commerciali.
I ricercatori hanno posto al centro della loro indagine l’idea di memorizzazione nei modelli di linguaggio: non semplicemente la capacità di rispondere correttamente a domande generali, ma la possibilità che il modello abbia integrato specifici segmenti di opere testuali protette da copyright all’interno dei suoi parametri, in modo tale che si possano successivamente estrarre porzioni rilevanti e riconoscibili di quei testi.
Questo approccio parte dall’osservazione che, sebbene i modelli LLM apprendano statisticamente da enormi quantità di dati, non tutto ciò che apprendono è trasformazione astratta o generica: in alcuni casi, alcuni testi possono essere conservati meccanicamente nei pesi del modello e riprodotti quando un utente invia un prompt adeguato.
Per verificare questa possibilità, gli autori hanno ideato una procedura sperimentale in due fasi:
– Fase 1 (Probe / BoN jailbreak): attraverso un tentativo iniziale di completamento di un testo (anche usando tecniche di “Best‑of‑N” jailbreak per aggirare i sistemi di moderazione), si cerca di verificare se il modello possa seguire un prefisso dove la continuazione è tratta da un testo protetto.
– Fase 2 (Estrazione continua): se la prima fase ha successo, si procede a sollecitare il modello con richieste iterative di continuazione, confrontando l’output generato con il testo originale della stessa opera, per misurare quanta parte venga resa near‑verbatim (ossia in forma strettamente analoga).
La misurazione quantitativa dell’estrazione è ottenuta con score basati su una approssimazione di “longest common substring” (una misura di quanto un testo generato risulti vicino, carattere per carattere, all’originale), spesso abbreviato in nv‑recall.
I risultati empirici mostrano che:
È possibile estrarre porzioni di testi protetti da copyright anche da modelli di produzione (come Claude 3.7 Sonnet, GPT‑4.1, Gemini 2.5 Pro e Grok 3), nonostante meccanismi di sicurezza e filtraggio progettati per prevenire output non autorizzati.
In alcuni casi, parte del testo può essere estratto senza neanche dover ricorrere a jailbreak, soprattutto in modelli con protezioni relativamente più deboli su determinati contenuti (es. Gemini 2.5 Pro o Grok 3).
Alcuni testi come Harry Potter and the Sorcerer’s Stone sono stati estratti con valori di nv‑recall molto elevati in certi modelli, a volte oltre il 70 % o anche oltre il 90 % in configurazioni specifiche, indicando che il modello aveva incorporato quella porzione del testo in modo tale da essere in grado di rigenerarlo quasi per intero o near‑verbatim.
L’estrazione non è uniforme: alcuni modelli e alcune opere risultano più vulnerabili di altri, e non è vero che tutti i dati vengono memorizzati integralmente da ogni modello.
In confronto con studi precedenti sui modelli “open‑weight”, dove era stata dimostrata l’estrazione di segmenti sostanziali di opere protette nei pesi interni (in alcuni casi interi libri con richieste molto brevi), lo studio di Ahmed et al. estende la questione ai sistemi reali e commerciali in produzione.
A questo punto diventa importante capire cosa significa “memorizzazione” nel contesto tecnico‑giuridico e per farlo è importante distinguere tra diversi concetti che sono spesso confusi nel dibattito:
- Memorizzazione organizzata nei pesi del modello: non è la generazione occasionale di frasi simili, ma un segno che il modello ha effettivamente assimilato segmenti specifici del testo protetto.
- Estrazione: l’atto di far sì che il modello generi quel testo a seguito di input strategici, evidenziando che la memorizzazione non è solo teorica, ma può concretamente emergere.
- Regurgitazione vs. Ricostruzione: regurgitazione si verifica quando il modello ripete un testo simile; ricostruzione si verifica quando si può dimostrare che la generazione non è un caso ma un effetto della memorizzazione nei parametri. Queste distinzioni sono state esplorate anche in lavori associati come “The Files are in the Computer: On Copyright, Memorization, and Generative AI”, dove si definisce in modo rigoroso cosa significhi “memorization” rispetto a generazione contingente.
Dal punto di vista del diritto d’autore, questi risultati sono rilevanti perché:
- Mostrano che non si tratta solo di trasformazioni astratte, ma che il modello può contenere e riprodurre copie significative di testi protetti all’interno del suo output, anche se con tecniche di filtraggio.
- Questo rafforza l’argomento per cui, in certi casi, un modello di IA potrebbe essere considerato come avente “una copia sostanziale” del testo protetto nei suoi parametri, con potenziali implicazioni sulla liceità dell’addestramento e sull’uso di tali sistemi.
- In sede processuale, infatti, non è sufficiente argomentare che un modello “fa solo correlazioni statistiche”; l’evidenza di estrazione *suggerisce che ci sia una memorizzazione copiata in forma significativa”, con possibili conseguenze sia per la qualificazione del modello come possibile copia ai sensi del diritto d’autore sia per la responsabilità del fornitore del modello.
Quadro normativo comparato: Stati Uniti vs. Unione Europea/Italia
1. Stati Uniti – Digital Millennium Copyright Act (DMCA) e “Fair Use”
Negli Stati Uniti la disciplina principale è il Digital Millennium Copyright Act (DMCA), una legge federale che ha aggiornato il diritto d’autore per l’era digitale e che si può leggere integralmente qui:
Testo del DMCA (PDF, U.S. Copyright Office)
Il DMCA è una legge che include disposizioni volte a:
- proteggere gli intermediari (“safe harbors”) quando soddisfano condizioni specifiche;
- proibire l’elusione di misure tecniche di protezione;
- aggiornare il codice sul copyright per affrontare i contenuti online.
Parallelamente, negli USA il principio di fair use (“uso corretto”) è una difesa processuale riconosciuta dal Copyright Act che può giustificare l’uso di materiale protetto senza licenza quando l’utilizzo è trasformativo, non danneggia il mercato dell’opera e soddisfa altri criteri.
Importante: fair use si applica caso per caso; non è automatico per l’addestramento di modelli di IA e può non proteggere uscite di testo troppo simili alle opere originali, soprattutto se questa riproduzione non è trasformativa o lesiva del mercato della fonte.
2. Unione Europea – Direttiva sul diritto d’autore nel mercato unico digitale
Nell’Unione Europea esiste una disciplina armonizzata con la Direttiva (UE) 2019/790 sul diritto d’autore e sui diritti connessi nel mercato unico digitale, rivolta proprio ad aggiornare le norme europee per l’era digitale:
Direttiva (UE) 2019/790 – testo ufficiale (EUR‑Lex)
Questa direttiva si applica in tutti gli Stati membri e include eccezioni per l’estrazione di testi e dati (Text and Data Mining, TDM) per finalità di ricerca scientifica, purché certe condizioni siano rispettate.
In Italia, la normativa nazionale ha recepito la Direttiva (UE) 2019/790 con il Decreto Legislativo n. 177/2021, che ha aggiornato la disciplina interna del diritto d’autore in conformità europea (cfr. Gazzetta Ufficiale – D.Lgs. 177/2021).
La direttiva e il relativo recepimento mirano a garantire protezione delle opere in ambiente digitale e, allo stesso tempo, consentire la ricerca scientifica e la circolazione di contenuti in forma legittima, ma non prevedono un’esenzione automatica per tutti gli usi di IA generativa.
Giurisprudenza recente: come interpretano i tribunali le questioni di copyright legate all’IA
1. Germania: GEMA v. OpenAI
Nel 2025 il Tribunale Regionale di Monaco (Germania) ha ritenuto che OpenAI avesse violato il diritto d’autore utilizzando materiale protetto come testi musicali all’interno dei suoi modelli, nonostante l’eccezione per l’estrazione automatica di dati. È stata considerata riproduzione rilevante ai fini del copyright, con responsabilità del fornitore del modello per non aver ottenuto adeguate autorizzazioni. Questo caso ha rappresentato un precedente significativo nel contesto europeo per la responsabilità di provider di modelli generativi. (sentenze disponibili tramite pubblicazioni giuridiche europee)
2. Stati Uniti: orientamenti contrastanti
Negli USA esistono sentenze in cui i giudici hanno accolto posizioni di fair use per attività di training di modelli (nonostante l’uso di opere protette) quando non è dimostrata una riproduzione significativa nei risultati generati. Tuttavia, cause contro grandi provider come OpenAI, Meta o Google continuano a pendere con argomentazioni secondo cui l’uso sistematico di materiale protetto nei training potrebbe non rientrare nelle eccezioni e richiedere autorizzazioni, soprattutto se l’output è troppo simile alle opere originali.
Conclusioni: scenari e riflessioni
- Le tecnologie di IA generativa hanno sfidato le categorie tradizionali del diritto d’autore, mettendo in luce limiti normativi e interpretativi.
- Negli USA, il DMCA e la dottrina del fair use sono centrali ma non sempre offrono certezza di risultato nei casi di IA; la responsabilità può emergere se l’output genera riproduzioni troppo simili a opere protette senza licenza.
- In Europa e in Italia, la Direttiva 2019/790 e il relativo recepimento normativo forniscono un quadro armonizzato che tutela le opere, pur consentendo alcune eccezioni per l’estrazione di dati scientifica, ma non garantiscono immunità universale per usi di IA generativa.
- La giurisprudenza è in evoluzione, con tribunali europei che stanno assumendo posizioni rigorose sulla responsabilità del fornitore di modelli e tribunali americani che bilanciano fair use e tutela del mercato delle opere.
- Resta una domanda: come cambieranno (se cambieranno) questi orientamenti alla luce della ricerca di Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo e Percy Liang?
