Se i dati dell’AI non bastano, possiamo usare la carta per “inventarcelo”?

Se i dati dell’AI non bastano, possiamo usare la carta per “inventarlo”?

2024-08-17

14 agosto

Il sito ufficiale di Nature ha pubblicato un articolo in cui lo afferma

Diversi editori accademici stanno investendo in società tecnologiche

Vendere i diritti di utilizzo dei documenti di ricerca

Utilizzato per addestrare i modelli IA

In molti casi queste transazioni

L'autore non è stato consultato

Ciò ha causato forte insoddisfazione tra alcuni ricercatori.

Documenti "traditi"

Scala della natura

Editori accademici britannici

Taylor Francesco

Già firmato un accordo con Microsoft

Accordo da 10 milioni di dollari

Consenti a Microsoft di accedere ai suoi dati

per migliorare i sistemi di intelligenza artificiale

A giugno c'era la notizia che

Editore americano Wiley

Consentire a un'azienda di utilizzare i propri contenuti per addestrare i modelli

guadagnando così $ 23 milioni

Scala della natura

Questi documenti coprono

Scienze naturali, scienze sociali e altri campi

È diventato un corpus importante per l'addestramento dei modelli di intelligenza artificiale.

Un robot dipinto ha dimostrato di dipingere al "Summit globale sull'intelligenza artificiale per l'umanità" del 2024 a Ginevra, in Svizzera.

Fonte: Agenzia di stampa Xinhua

L'articolo sulla natura pensa

Autori di articoli accademici attuali

Di fronte a editori che vendono le loro opere protette da copyright

quasi nessun diritto di interferire

Per gli articoli pubblicati

Non esiste alcun meccanismo esistente per confermare questi contenuti

Se vengono utilizzati come dati di addestramento dell'IA

Nell'uso di grandi modelli linguistici

Come istituire un meccanismo più equo

Proteggi i diritti dei creatori

Degno di ampia discussione negli ambienti accademici e sul diritto d'autore

Dati IA insufficienti

Carte da "truccare"

Tre elementi principali per lo sviluppo di grandi modelli di intelligenza artificiale

Sono dati, algoritmi e potenza di calcolo

Con il rapido sviluppo della tecnologia AI

Crescente domanda di dati di addestramento

Lo hanno detto alcuni media

fine del 2021

Formazione OpenAI GPT-4

riscontrato un problema difficile

La sua formazione è stata esaurita su Internet

Risorsa di testo inglese affidabile

Poi

Per affrontare questo problema

OpenAI utilizza video e audio dalla piattaforma Youtube

Trascrivi grandi quantità di testo colloquiale

Dopo la formazione

Il 2 luglio, il personale ha comunicato con le persone digitali nell’area dell’esperienza immersiva dell’economia digitale della Conferenza globale sull’economia digitale del 2024.

Foto del giornalista della Xinhua News Agency Ren Chao

Ora

I giganti della tecnologia spostano la loro attenzione su

editore accademico

documenti accademici come

La cristallizzazione della saggezza nel campo della ricerca scientifica

Diventa la "torta calda" che la gente si affretta a comprare.

Prendiamo come esempio l’elaborazione del linguaggio naturale

Attraverso la formazione in un gran numero di articoli

I modelli di intelligenza artificiale possono comprendere meglio

conoscenza del dominio accademico

migliorarne la precisione

Giganti della tecnologia come Google e Microsoft

Abbiamo investito molto nell’acquisto di società

Al fine di ottenere un vantaggio competitivo nel campo dell’intelligenza artificiale

Il Financial Times ha messo il proprio contenuto

ad un prezzo rispettabile

Venduto a OpenAI

Sito di notizie sociali Reddit

Anche raggiunto un accordo simile con Google

Queste transazioni riflettono

Gli editori tentano di autorizzare legalmente

Evita che i tuoi contenuti vengano scansionati gratuitamente dai modelli AI

Dilemma dei dati di addestramento

Come rompere il gioco

Collabora con gli editori

Sono solo le aziende tecnologiche a risolverlo

L'epitome del problema dei dati di formazione insufficienti

Recentemente

La rivista The Economist pubblica un articolo

"Le società di intelligenza artificiale utilizzeranno presto la maggior parte dei dati Internet"

Prevedere cosa è disponibile su Internet

I dati relativi ai testi umani saranno esauriti entro quattro anni

Il 23 aprile, alla Fiera industriale di Hannover in Germania, i visitatori hanno giocato al gioco "sasso, carta, forbici" con un robot intelligente.

Foto del giornalista della Xinhua News Agency Ren Pengfei

Di fronte a un problema del genere

Il fondatore e CEO di OpenAI Sam Altman

È stata proposta una soluzione alternativa:

Aziende come OpenAI

Alla fine ci sarà un passaggio all’utilizzo dei dati generati dall’intelligenza artificiale

(noti anche come dati sintetici) per addestrare l’intelligenza artificiale

Gli sviluppatori stanno creando tecnologie sempre più potenti

Ridurrebbe anche la dipendenza dai dati protetti da copyright

certamente

È fattibile questo percorso tecnico?

C'è ancora controversia

Lo sosteneva un articolo di copertina sulla rivista Nature

Se il modello grande lo consente

Allenati con i dati generati automaticamente

L’intelligenza artificiale potrebbe degradarsi

In poche generazioni, il contenuto originale

Iterato in una sciocchezza irredimibile

Oltre ai metodi di dati sintetici

Ulteriore condivisione aperta dei dati pubblici

è considerato anche un percorso efficace

Il rapporto sui titoli industriali lo ha sottolineato

Rafforzare lo sviluppo aperto dei dati pubblici

è la soluzione attuale alla dispersione dei dati

Misure importanti per migliorare la qualità dei dati di addestramento

Scritto da:Li Fei, Ma Jingyuan impaginazione:Li Wenjian Coordinatore:Li Zhengwei

Riferimento丨Natura, The Paper, Financial Associated Press, 21st Century Business Herald

Prodotto da Guangming.com

Fonte: Conferenza mondiale su Internet

Segnalazione/feedback

notizia

Se i dati dell’AI non bastano, possiamo usare la carta per “inventarlo”?

Introduzione

Le mie informazioni di contatto