Gli articoli accademici vengono venduti a prezzi elevati per addestrare modelli di grandi dimensioni, ma gli autori non ricevono alcun reddito

2024-08-16

·Un numero crescente di editori accademici vende articoli di ricerca ad aziende tecnologiche per addestrare modelli di intelligenza artificiale (AI), mentre gli autori non ricevono alcun reddito.

I modelli linguistici di grandi dimensioni (LLM) hanno ancora una volta causato controversie a causa di problemi relativi ai dati di addestramento. Recentemente, Elizabeth Gibney, direttrice della rivista di fama internazionale Nature, ha pubblicato un articolo intitolato "Il tuo articolo è stato utilizzato per addestrare un modello di intelligenza artificiale?" Articolo Quasi certo". L'autore dell'articolo afferma che sempre più editori accademici stanno attualmente concedendo in licenza documenti di ricerca ad aziende tecnologiche per l'addestramento di modelli di intelligenza artificiale (AI). Un editore accademico ne ha ricavato 23 milioni di dollari, mentre l’autore ha guadagnato zero. Queste transazioni, in molti casi senza consultare gli autori, hanno suscitato forte insoddisfazione tra alcuni ricercatori.

"Se il tuo articolo non è stato utilizzato come dato di formazione sull'intelligenza artificiale, è probabile che diventi presto parte della formazione." Elizabeth Jipney ha sottolineato nell'articolo che attualmente gli autori di articoli accademici non hanno quasi alcuna scelta quando devono affrontare gli editori che vendono le loro opere protette da copyright. interferenza. Per gli articoli pubblicati pubblicamente, non esiste alcun meccanismo per confermare se questi contenuti vengono utilizzati come dati di addestramento sull’intelligenza artificiale. Nell’uso di ampi modelli linguistici, come stabilire un meccanismo più equo per proteggere i diritti e gli interessi dei creatori merita un’ampia discussione nei circoli accademici e di diritto d’autore.

I modelli linguistici di grandi dimensioni (LLM) spesso si basano su grandi quantità di dati raccolti da Internet per la formazione. Questi dati includono miliardi di informazioni linguistiche (chiamate "token") e, analizzando i modelli tra questi token, il modello è in grado di generare testo fluente. A causa del loro ricco contenuto e dell’elevata densità di informazioni, i documenti accademici sono più preziosi di grandi quantità di dati ordinari e rappresentano un’importante fonte di dati nella formazione sull’intelligenza artificiale. L'analista di dati Stefan Baack dell'organizzazione no-profit globale Mozilla Foundation ha analizzato che gli articoli scientifici sono molto utili per la formazione di grandi modelli linguistici, soprattutto in termini di capacità di ragionamento su argomenti scientifici. È proprio a causa dell’elevato valore dei dati che le principali aziende tecnologiche hanno speso ingenti somme di denaro per acquistare set di dati.

L'articolo sottolinea che quest'anno il Financial Times ha raggiunto un accordo con OpenAI per concedere in licenza i suoi contenuti a quest'ultima. Reddit, noto come "American Post Bar", ha firmato un accordo simile anche con Google; Questi accordi riflettono i tentativi degli editori di evitare che i loro contenuti vengano scansionati gratuitamente da modelli di intelligenza artificiale attraverso l'autorizzazione legale.

L’articolo rivela che il mese scorso l’editore accademico britannico Taylor & Francis ha firmato un accordo da 10 milioni di dollari con Microsoft, consentendo a Microsoft di accedere ai suoi dati per migliorare i sistemi di intelligenza artificiale. Nel mese di giugno, l’editore americano Wiley ha guadagnato ben 23 milioni di dollari fornendo contenuti a un’azienda per la formazione sull’intelligenza artificiale. E questi enormi guadagni non hanno nulla a che fare con gli autori degli articoli.

Attualmente, i ricercatori stanno cercando di utilizzare mezzi tecnici per aiutare gli autori a identificare se i loro lavori sono stati utilizzati per l’addestramento dei modelli di intelligenza artificiale. Lucy Lu Wang, ricercatrice di intelligenza artificiale presso l'Università di Washington a Seattle, ha affermato che se un documento è stato utilizzato come dato di addestramento per un modello, non può essere rimosso una volta completato l'addestramento del modello.

Tuttavia, anche se si potesse dimostrare che il documento viene utilizzato per la formazione sull’intelligenza artificiale, è ancora controverso a livello legale. L'articolo sottolinea che l'editore ritiene che l'utilizzo di contenuti protetti da copyright non autorizzati per la formazione sia una violazione. Un'altra opinione legale è che il modello linguistico di grandi dimensioni non copia direttamente il contenuto, ma genera nuovo testo attraverso l'apprendimento.

Vale la pena notare che non tutti i ricercatori sono contrari all’utilizzo del proprio lavoro per la formazione sull’intelligenza artificiale. Stefan Back ha detto che sarebbe felice di vedere i risultati della sua ricerca utilizzati per migliorare la precisione dell'intelligenza artificiale, e non gli dispiacerebbe se l'intelligenza artificiale "imita" il suo stile di scrittura. Tuttavia, ha anche riconosciuto che non tutti saranno in grado di affrontare facilmente questo problema, soprattutto coloro che svolgono professioni che devono affrontare la pressione della concorrenza dell’intelligenza artificiale, come artisti e scrittori.

In effetti, i casi di contenzioso riguardanti l’uso di opere intellettuali protette da copyright per addestrare modelli di intelligenza artificiale hanno già attirato un’attenzione diffusa.

Il 14 agosto, il Washington Post ha riferito che un’azione legale collettiva intentata da diversi artisti visivi e illustratori negli Stati Uniti contro gli strumenti di generazione di immagini basati sull’intelligenza artificiale ha fatto un passo avanti. Hanno accusato startup come Midjourney e Stability AI di utilizzare lavori per addestrare modelli di intelligenza artificiale senza consenso. Il caso ha avuto sviluppi chiave questa settimana. Il giudice distrettuale degli Stati Uniti William Orrick ha consentito che le parti chiave del caso andassero avanti, il che significa che la corte ha deciso che ci sono prove legali sufficienti per portare avanti alcune accuse, il che potrebbe essere rivelato man mano che il processo legale procede man mano che si sviluppano le comunicazioni interne all'azienda Strumenti di intelligenza artificiale.

notizia

Gli articoli accademici vengono venduti a prezzi elevati per addestrare modelli di grandi dimensioni, ma gli autori non ricevono alcun reddito

Introduzione

Le mie informazioni di contatto