La natura rivela informazioni privilegiate scioccanti: i documenti venivano venduti a prezzi altissimi per alimentare l’intelligenza artificiale! Gli editori guadagnano centinaia di milioni, gli autori non guadagnano nulla
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nuovo rapporto sulla saggezza
Redattore: Dipartimento editoriale[Introduzione alla Nuova Saggezza]Un articolo su Nature ha rivelato: l'articolo che hai pubblicato potrebbe essere stato utilizzato per addestrare il modello! Alcuni editori hanno guadagnato 23 milioni di dollari vendendo dati. Tuttavia, gli autori che hanno lavorato duramente per codificare l'articolo non possono ottenere un centesimo. È ragionevole?
Il mondo è in una crisi di dati, cosa dovremmo fare?Recentemente, un articolo su Nature ci ha rivelato il fatto che anche i documenti di ricerca scientifica sono stati utilizzati per addestrare l'intelligenza artificiale...È stato riferito che molti editori accademici hanno autorizzato le aziende tecnologiche ad accedere ai propri documenti per addestrare modelli di intelligenza artificiale.Un articolo, dall'ideazione alla finalizzazione, implica il duro lavoro dell'autore giorno e notte. Ora, è molto probabile che diventino dati per l'addestramento dell'intelligenza artificiale senza saperlo.La cosa ancora più fastidiosa è che il suo giornale veniva utilizzato dall'editore per realizzare profitti.Secondo un rapporto di Nature, il mese scorso l’editore accademico britannico Taylor & Francis ha firmato un accordo da 10 milioni di dollari con Microsoft, consentendo a Microsoft di accedere ai suoi dati per migliorare i sistemi di intelligenza artificiale.Un aggiornamento degli investitori di giugno ha mostrato che l'editore americano Wiley ha realizzato un enorme profitto di 23 milioni di dollari dopo aver consentito a un'azienda di utilizzare il suo modello di formazione sui contenuti!Ma questi soldi non hanno nulla a che fare con gli autori della maggior parte degli articoli.Inoltre, Lucy Lu Wang, ricercatrice di intelligenza artificiale presso l'Università di Washington, ha affermato che anche se non si trova in un archivio ad accesso aperto, qualsiasi contenuto che può essere letto online è probabilmente stato inserito in LLM.Ciò che è ancora più spaventoso è che se un documento è stato utilizzato come dato di addestramento per il modello, non può essere eliminato una volta completato l'addestramento del modello.Se il tuo documento non è stato ancora utilizzato per addestrare l'intelligenza artificiale, non preoccuparti: dovrebbe esserlo presto!I set di dati sono come l’oro e le grandi aziende fanno offerte per acquistarli
Sappiamo tutti che LLM deve essere addestrato su enormi quantità di dati e questi dati vengono solitamente prelevati da Internet.È dai miliardi di token presenti in questi dati di training che LLM ricava modelli per generare testo, immagini e codice.Gli articoli accademici sono lunghi e hanno un'elevata densità di informazioni, quindi sono ovviamente uno dei dati più preziosi che possono essere forniti a LLM.Inoltre, formare i LLM su una grande quantità di informazioni scientifiche può anche migliorare notevolmente le loro capacità di ragionamento su argomenti scientifici.Wang ha co-creato S2ORC, un set di dati basato su 81,1 milioni di articoli accademici. Inizialmente, il set di dati S2ORC è stato sviluppato per il text mining, ma in seguito è stato utilizzato per addestrare LLM.Pile, creato dall'organizzazione no-profit Eleuther AI nel 2020, è uno dei set di dati open source su larga scala più utilizzati nella ricerca NLP, con un volume totale di 800 GB. Contiene un gran numero di testi provenienti da fonti accademiche, con una percentuale di documenti arXiv pari all'8,96%. Copre anche altri siti Web accademici come PubMed, FreeLaw e NIH.Qualche tempo fa, anche il data set di token 1T open source MINT ha scoperto il tesoro arXiv, estraendo un totale di 870.000 documenti e 9B token.Dal diagramma di flusso di elaborazione dei dati riportato di seguito, possiamo vedere quanto sia elevata la qualità dei dati cartacei: non sono quasi necessari molti filtri e deduplicazioni e il tasso di utilizzo è estremamente elevato.Ora, in risposta alle controversie sul copyright, le principali società di modellismo hanno iniziato a pagare soldi veri per acquistare set di dati di alta qualità.Quest'anno il Financial Times ha venduto i suoi contenuti a OpenAI per un prezzo considerevole. Anche Reddit ha raggiunto un accordo simile con Google;In futuro, tali transazioni diventeranno inevitabili.Dimostrare che il documento è stato utilizzato da LLM è estremamente difficile
Alcuni sviluppatori di intelligenza artificiale apriranno i propri set di dati, ma molte aziende che sviluppano modelli di intelligenza artificiale manterranno riservata la maggior parte dei dati di addestramento.Stefan Baack, analista di dati di formazione sull'intelligenza artificiale presso la Mozilla Foundation, ha affermato che nessuno sa quali dati di formazione abbiano queste aziende.Le fonti di dati più popolari tra gli addetti ai lavori del settore sono senza dubbio gli abstract del repository open source arXiv e del database accademico PubMed.Attualmente, arXiv ospita il testo completo di oltre 2,5 milioni di articoli e PubMed contiene un numero sorprendente di citazioni, superiore a 37 milioni.Sebbene il testo completo di alcuni articoli su siti Web come PubMed abbia un paywall, gli abstract degli articoli sono consultabili gratuitamente e questa parte potrebbe essere stata sottoposta a scansione da grandi aziende tecnologiche.Quindi, esiste un metodo tecnico per identificare se la propria carta è stata utilizzata?Per ora è ancora difficile.Yves-Alexandre de Montjoye, informatico dell'Imperial College di Londra, ha dichiarato: È molto difficile dimostrare che LLM abbia utilizzato un determinato documento.Un modo è utilizzare frasi molto rare nel testo cartaceo per sollecitare il modello e vedere se il suo output è la parola successiva nel testo originale.Alcuni studiosi una volta hanno suggerito GPT-3 con l'inizio del terzo capitolo di "Harry Potter e la pietra filosofale", e il modello ha sputato rapidamente e correttamente un'intera pagina del contenuto del libro.Se è così, allora non c’è più: il foglio è nel set di addestramento del modello.E se no? Questa non è necessariamente una prova valida che la carta non sia stata utilizzata.Perché gli sviluppatori possono codificare i LLM in modo da filtrare le risposte in modo che non corrispondano troppo strettamente ai dati di training.È possibile che, nonostante tutti i nostri sforzi, non riusciamo ancora a dimostrarlo inequivocabilmente.Un altro metodo è "attacco di inferenza dei membri".Il principio di questo metodo è che quando il modello vede qualcosa che ha visto prima, avrà più fiducia nell'output.A tal fine, il team di De Montjoye ha sviluppato una "trappola per il copyright".Per preparare la trappola, il team genererebbe frasi plausibili ma prive di significato e le nasconderebbe nel lavoro, come testo bianco su sfondo bianco o un campo a larghezza zero su una pagina web.Se il modello è più perplesso dalle frasi di controllo non utilizzate che dalle frasi di controllo nascoste nel testo, ciò può essere utilizzato come prova statistica che la trappola è stata vista.Controversia sul diritto d'autore
Tuttavia, anche se si può dimostrare che il LLM è stato formato su un determinato documento, cosa possiamo fare?Qui c'è una controversia di lunga data.Secondo l'editore, se uno sviluppatore utilizza testo protetto da copyright nella formazione senza ottenere il permesso, si tratta sicuramente di una violazione.Ma la controparte può confutarlo in questo modo: il grande modello non è plagiato, quindi come può esserci una denuncia di contraffazione?Infatti, LLM non copia nulla, prende semplicemente informazioni dai dati di addestramento, le smonta e le usa per imparare a generare nuovo testo.La questione più complicata è come tracciare una linea di demarcazione tra l’uso della ricerca commerciale e quella accademica.In base ai termini di utilizzo attuali del sito Web arXiv, l'acquisizione, l'archiviazione e l'utilizzo di tutti i documenti prestampati elettronici e i metadati del sito Web sono conformi e supportati per scopi personali o di ricerca.Tuttavia, l'uso commerciale di arXiv è severamente vietato.Quindi la domanda è: se una società commerciale utilizza un set di dati open source rilasciato da un’istituzione accademica per addestrare il proprio modello di business e la fonte di dati include arXiv o istituti di pubblicazione accademici simili, come viene conteggiato?Inoltre, gli editori spesso non specificano chiaramente nei termini di abbonamento degli utenti se i documenti possono essere utilizzati come dati di formazione per i modelli.