Se i dati dell’AI non bastano, possiamo usare la carta per “inventarlo”?
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
14 agosto
Il sito ufficiale di Nature ha pubblicato un articolo in cui lo afferma
Diversi editori accademici stanno investendo in società tecnologiche
Vendere i diritti di utilizzo dei documenti di ricerca
Utilizzato per addestrare i modelli IA
In molti casi queste transazioni
L'autore non è stato consultato
Ciò ha causato forte insoddisfazione tra alcuni ricercatori.
Documenti "traditi"
Scala della natura
Editori accademici britannici
Taylor Francesco
Già firmato un accordo con Microsoft
Accordo da 10 milioni di dollari
Consenti a Microsoft di accedere ai suoi dati
per migliorare i sistemi di intelligenza artificiale
A giugno c'era la notizia che
Editore americano Wiley
Consentire a un'azienda di utilizzare i propri contenuti per addestrare i modelli
guadagnando così $ 23 milioni
Scala della natura
Questi documenti coprono
Scienze naturali, scienze sociali e altri campi
È diventato un corpus importante per l'addestramento dei modelli di intelligenza artificiale.
Un robot dipinto ha dimostrato di dipingere al "Summit globale sull'intelligenza artificiale per l'umanità" del 2024 a Ginevra, in Svizzera.
Fonte: Agenzia di stampa Xinhua
L'articolo sulla natura pensa
Autori di articoli accademici attuali
Di fronte a editori che vendono le loro opere protette da copyright
quasi nessun diritto di interferire
Per gli articoli pubblicati
Non esiste alcun meccanismo esistente per confermare questi contenuti
Se vengono utilizzati come dati di addestramento dell'IA
Nell'uso di grandi modelli linguistici
Come istituire un meccanismo più equo
Proteggi i diritti dei creatori
Degno di ampia discussione negli ambienti accademici e sul diritto d'autore
Dati IA insufficienti
Carte da "truccare"
Tre elementi principali per lo sviluppo di grandi modelli di intelligenza artificiale
Sono dati, algoritmi e potenza di calcolo
Con il rapido sviluppo della tecnologia AI
Crescente domanda di dati di addestramento
Lo hanno detto alcuni media
fine del 2021
Formazione OpenAI GPT-4
riscontrato un problema difficile
La sua formazione è stata esaurita su Internet
Risorsa di testo inglese affidabile
Poi
Per affrontare questo problema
OpenAI utilizza video e audio dalla piattaforma Youtube
Trascrivi grandi quantità di testo colloquiale
Dopo la formazione
Il 2 luglio, il personale ha comunicato con le persone digitali nell’area dell’esperienza immersiva dell’economia digitale della Conferenza globale sull’economia digitale del 2024.
Foto del giornalista della Xinhua News Agency Ren Chao
Ora
I giganti della tecnologia spostano la loro attenzione su
editore accademico
documenti accademici come
La cristallizzazione della saggezza nel campo della ricerca scientifica
Diventa la "torta calda" che la gente si affretta a comprare.
Prendiamo come esempio l’elaborazione del linguaggio naturale
Attraverso la formazione in un gran numero di articoli
I modelli di intelligenza artificiale possono comprendere meglio
conoscenza del dominio accademico
migliorarne la precisione
Giganti della tecnologia come Google e Microsoft
Abbiamo investito molto nell’acquisto di società
Al fine di ottenere un vantaggio competitivo nel campo dell’intelligenza artificiale
Il Financial Times ha messo il proprio contenuto
ad un prezzo rispettabile
Venduto a OpenAI
Sito di notizie sociali Reddit
Anche raggiunto un accordo simile con Google
Queste transazioni riflettono
Gli editori tentano di autorizzare legalmente
Evita che i tuoi contenuti vengano scansionati gratuitamente dai modelli AI
Dilemma dei dati di addestramento
Come rompere il gioco
Collabora con gli editori
Sono solo le aziende tecnologiche a risolverlo
L'epitome del problema dei dati di formazione insufficienti
Recentemente
La rivista The Economist pubblica un articolo
"Le società di intelligenza artificiale utilizzeranno presto la maggior parte dei dati Internet"
Prevedere cosa è disponibile su Internet
I dati relativi ai testi umani saranno esauriti entro quattro anni
Il 23 aprile, alla Fiera industriale di Hannover in Germania, i visitatori hanno giocato al gioco "sasso, carta, forbici" con un robot intelligente.
Foto del giornalista della Xinhua News Agency Ren Pengfei
Di fronte a un problema del genere
Il fondatore e CEO di OpenAI Sam Altman
È stata proposta una soluzione alternativa:
Aziende come OpenAI
Alla fine ci sarà un passaggio all’utilizzo dei dati generati dall’intelligenza artificiale
(noti anche come dati sintetici) per addestrare l’intelligenza artificiale
Gli sviluppatori stanno creando tecnologie sempre più potenti
Ridurrebbe anche la dipendenza dai dati protetti da copyright
certamente
È fattibile questo percorso tecnico?
C'è ancora controversia
Lo sosteneva un articolo di copertina sulla rivista Nature
Se il modello grande lo consente
Allenati con i dati generati automaticamente
L’intelligenza artificiale potrebbe degradarsi
In poche generazioni, il contenuto originale
Iterato in una sciocchezza irredimibile
Oltre ai metodi di dati sintetici
Ulteriore condivisione aperta dei dati pubblici
è considerato anche un percorso efficace
Il rapporto sui titoli industriali lo ha sottolineato
Rafforzare lo sviluppo aperto dei dati pubblici
è la soluzione attuale alla dispersione dei dati
Misure importanti per migliorare la qualità dei dati di addestramento
Scritto da:Li Fei, Ma Jingyuan impaginazione:Li Wenjian Coordinatore:Li Zhengwei
Riferimento丨Natura, The Paper, Financial Associated Press, 21st Century Business Herald
Prodotto da Guangming.com
Fonte: Conferenza mondiale su Internet