notizia

I dati dell'intelligenza artificiale fanno scoppiare la "crisi petrolifera", le società di contenuti possono semplicemente sedersi e fare soldi

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Se il grande modello di intelligenza artificiale viene paragonato a un’auto, i dati grezzi sono il petrolio greggio.

Autore |. Jiang Jiang

Redattore|Manmanzhou

L'emergere di ChatGPT e A metà viaggio L’adozione esplosiva dell’intelligenza artificiale ha consentito all’intelligenza artificiale di raggiungere la sua prima applicazione su larga scala, ovvero la divulgazione di modelli di grandi dimensioni.

Il cosiddetto modello di grandi dimensioni si riferisce a un modello di apprendimento automatico con un gran numero di parametri e una struttura complessa, in grado di elaborare enormi quantità di dati e completare vari compiti complessi.



01

Controversie sul copyright dei dati AI

Se gli attuali grandi modelli di intelligenza artificiale vengono confrontati con le automobili, i dati grezzi sono il petrolio greggio. In ogni caso, prima di tutto, il modello AI ha bisogno di abbastanza "petrolio greggio".

Le principali fonti di "petrolio greggio" per le società di intelligenza artificiale comprendono le seguenti categorie:


●Fonti di dati aperte e gratuite su Internet, come Wikipedia, blog, forum, notizie, ecc.;


●Vecchi mezzi di informazione e case editrici;


●Università e altri istituti di ricerca;


●Utenti lato C che utilizzano il modello.

 

I diritti di proprietà del petrolio nel mondo reale hanno già norme giuridiche mature. Tuttavia, nel campo ancora caotico dell’intelligenza artificiale, i diritti di sfruttamento del “petrolio greggio” non sono ancora chiari e le controversie che ne derivano sono numerose.

Proprio di recente, diverse importanti etichette musicali hanno fatto causa alle società di produzione musicale AISunoEAudio , accusandolo di violazione del copyright.La causa segue una causa di dicembre del New York TimesIA apertail contenzioso è simile.


Fonte: cartellone pubblicitario

Nel luglio 2023, alcuni scrittori hanno intentato una causa contro la società, sostenendoChatGPTUn riepilogo del lavoro dell'autore viene generato da contenuti protetti da copyright.


Nel dicembre dello stesso anno ne parlò anche il New York TimesMicrosoftEIA apertaUna causa simile per violazione del copyright è stata intentata accusando le due società di utilizzare i contenuti del giornale per addestrare chatbot di intelligenza artificiale.


Inoltre, in California è stata intentata un'azione legale collettiva, accusando OpenAI di ottenere informazioni private degli utenti da Internet per addestrare ChatGPT senza il consenso dell'utente.

 

OpenAI alla fine non ha pagato per l'accusa. Ha dichiarato di non essere d'accordo con l'accusa del New York Times e di non poter riprodurre i problemi menzionati dal New York Times, soprattutto la cosiddetta fonte dei dati fornita dal New York Times era Non importa a OpenAI.

 

Fonte: https://openai.com/index/openai-and-journalism/

Per OpenAI, forse la lezione più grande da questo incidente è gestire adeguatamente il rapporto con i fornitori di dati e chiarire i diritti e le responsabilità di entrambe le parti. Di conseguenza, abbiamo visto OpenAI raggiungere partnership con molti fornitori di dati nell'ultimo anno, inclusi ma non limitati a The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project e altro ancora.


In futuro, OpenAI utilizzerà legittimamente i dati di questi media e questi media integreranno anche la tecnologia di OpenAI nei loro prodotti.



02

L'intelligenza artificiale guida la monetizzazione della piattaforma di contenuti

Tuttavia, la ragione più fondamentale per cui OpenAI stringe partnership con fornitori di dati non è la paura di essere denunciati, ma l’imminente esaurimento dei dati che l’apprendimento automatico si trova ad affrontare. Ricercatori come il MIT hanno condotto uno studio secondo cui i set di dati relativi all’apprendimento automatico potrebbero esaurire tutti i “dati linguistici di alta qualità” entro il 2026.

I "dati di alta qualità" sono quindi diventati un prodotto di punta per produttori di modelli come OpenAI e Google. Le società di contenuti e i produttori di modelli di intelligenza artificiale hanno ripetutamente raggiunto una cooperazione per avviare un modello di profitto piatto.

 

La tradizionale piattaforma multimediale Shutterstock ha successivamente raggiunto una collaborazione con società di intelligenza artificiale come Meta, Alphabet, Amazon, Apple, OpenAI, Reka, ecc., e aumenterà le sue entrate annuali a 104 milioni di dollari concedendo in licenza i contenuti ai modelli di intelligenza artificiale nel 2023, ed è si prevede che genererà entrate per 250 milioni di dollari nel 2027 Reddit Le entrate derivanti dai diritti d'autore sui contenuti concessi in licenza a Google raggiungono i 60 milioni di dollari all'anno; anno. Le royalties ricevute dalle società di contenuti dalle società di intelligenza artificiale stanno aumentando a un tasso di crescita annuo del 450%.


Fonte immagine: CX Scoop

 

Negli ultimi anni è stato difficile monetizzare contenuti diversi dallo streaming multimediale, il che ha rappresentato uno dei principali punti dolenti nel settore dei contenuti. Rispetto all’era dell’imprenditorialità su Internet, l’emergere dell’intelligenza artificiale ha portato maggiore immaginazione e aspettative di entrate più forti nell’industria dei contenuti.

03

I dati di alta qualità rimangono scarsi


Naturalmente, non tutti i contenuti soddisfano le esigenze dell’intelligenza artificiale.

 

Per quanto riguarda il dibattito tra OpenAI e il New York Times menzionato sopra, un altro punto positivo è la qualità dei dati. Per raffinare il petrolio greggio, in primo luogo, il petrolio stesso deve essere di buona qualità e, in secondo luogo, la tecnologia di purificazione deve essere buona.

 

OpenAI sottolinea in particolare che i contenuti del New York Times non hanno dato alcun contributo significativo al modello di formazione di OpenAI rispetto a Shutterstock, che consente a OpenAI di spendere decine di milioni di dollari ogni anno, ai media di testo come il New York Times che si affidano. la tempestività non è il tesoro dell'era dell'intelligenza artificiale. L’intelligenza artificiale richiede dati profondi e unici.

 

Tuttavia, i dati di alta qualità sono troppo scarsi e anche le società di intelligenza artificiale hanno iniziato a lavorare duramente sulla “tecnologia di purificazione” e sull’“applicazione unica”.

 

Il 25 giugno, OpenAI ha acquisito Rockset, la società di database di analisi in tempo reale. Questa azienda fornisce principalmente funzioni di indicizzazione e query dei dati in tempo reale. OpenAI integrerà la tecnologia di Rockset nei suoi prodotti per migliorare il valore di utilizzo dei dati in tempo reale.


Fonte immagine: DePIN Scan


Acquisendo Rockset, OpenAI prevede di consentire all'intelligenza artificiale di utilizzare e accedere meglio ai dati in tempo reale. Ciò consente ai prodotti OpenAI di supportare applicazioni più complesse, come sistemi di consigli in tempo reale, robot di chat dinamici basati su dati, monitoraggio in tempo reale e sistemi di allarme, ecc.

 

Rocket è il "dipartimento petrolchimico" integrato di OpenAI che trasforma direttamente i dati ordinari in dati di alta qualità richiesti dalle applicazioni.



04

La conferma dei diritti sui dati dei creatori è una fantasia?


I dati provengono in gran parte dalle piattaforme multimediali Internet (Facebook, Reddit, ecc.).Contenuti generati dall'utente , ovvero i contenuti forniti dagli utenti. Sebbene molte piattaforme addebitino elevate tariffe per i dati alle società di intelligenza artificiale, aggiungono anche silenziosamente una clausola nei termini dell'utente secondo cui "la piattaforma ha il diritto di utilizzare i dati dell'utente per addestrare modelli di intelligenza artificiale".

Sebbene i termini utente indichino chiaramente i diritti per addestrare modelli di intelligenza artificiale, molti autori non sanno quali modelli utilizzano il contenuto che producono, né sanno se lo stanno pagando, né possono ottenere i diritti e gli interessi rilevanti che dovrebbero appartenere a loro.

Durante la riunione trimestrale di Meta a febbraio, Zuckerberg ha chiarito che avrebbe utilizzato le immagini di Facebook e Instagram per addestrare i suoi strumenti di generazione dell'intelligenza artificiale.

Secondo quanto riferito, Tumblr ha anche misteriosamente raggiunto accordi di licenza sui contenuti con OpenAi e Midjourney, ma il contenuto specifico degli accordi specifici non è stato reso noto.

Anche i creatori della piattaforma di gallerie fotografiche EyeEm hanno recentemente ricevuto una notifica secondo cui le foto che avevano pubblicato sarebbero state utilizzate per l'addestramento dei modelli AI. L'avviso menzionava che di conseguenza gli utenti potevano scegliere di non utilizzare il prodotto, ma non menzionava alcuna politica di compensazione. La società madre di EyeEm, Freepik, ha dichiarato a Reuters di aver firmato accordi con due grandi aziende tecnologiche per concedere in licenza la maggior parte delle sue 200 milioni di immagini per circa 3 centesimi a immagine. L'amministratore delegato Joaquin Cuenca Abela ha detto che altri cinque accordi simili sono in lavorazione, ma ha rifiutato di rivelare l'identità dell'acquirente.

 

Le piattaforme di contenuti guidate da UGC come Getty Images, Adobe, Photobucket, Flickr e Reddit affrontano tutte problemi simili Sotto l'enorme tentazione della monetizzazione dei dati, le piattaforme scelgono di ignorare la proprietà dei contenuti degli utenti e impacchettano i dati e li vendono al modello AI. aziende.

 

L'intero processo è stato portato avanti nell'oscurità e i creatori non hanno avuto alcuna possibilità di resistere. Anche molti creatori potrebbero dover addestrare contenuti simili ai propri lavori in un determinato modello un giorno in futuro prima di avere l'opportunità di sospettare che i loro lavori precedenti siano stati venduti da una determinata piattaforma a un'azienda di intelligenza artificiale per l'addestramento del modello.

 

Web3 potrebbe essere una buona scelta per risolvere il problema della difficoltà nel proteggere i diritti sui dati e il reddito dei creatori. Quando le società di intelligenza artificiale hanno raggiunto nuovi massimi nel mercato azionario statunitense, contemporaneamente anche la valuta del concetto di intelligenza artificiale di web3 è aumentata vertiginosamente. La Blockchain, con le sue caratteristiche decentralizzate e non manomissibili, gode di vantaggi unici nella tutela dei diritti dei creatori.

 

I contenuti multimediali come immagini e video hanno completato l'adozione su larga scala nella catena nel mercato rialzista del 2021, e anche i contenuti UGC sulle piattaforme social si stanno svolgendo silenziosamente nella catena. Allo stesso tempo, molte piattaforme di modelli AI web3 stanno già incentivando gli utenti ordinari che contribuiscono alla formazione dei modelli, siano essi proprietari di dati o formatori.

 

Lo sviluppo esponenziale dei modelli di intelligenza artificiale ha portato avanti maggiori richieste di verifica dei dati. Gli autori dovrebbero chiedersi: perché il mio lavoro è stato venduto a un'azienda di modelli di intelligenza artificiale per 5 centesimi al pezzo senza il mio consenso? Perché sono stato tenuto all'oscuro dell'intero processo e non sono stato in grado di ottenere alcun beneficio?

 

Gli sforzi delle piattaforme mediatiche per catturare il pesce grosso non possono alleviare l’ansia dei dati delle aziende modello di intelligenza artificiale. Il prerequisito per ottenere dati di alta qualità e risultati elevati è la conferma dei diritti sui dati, ovvero una distribuzione ragionevole degli interessi tra creatori, piattaforme e intelligenza artificiale. aziende modello.

 

Fonti di riferimento:

  • Shutterstock ha guadagnato 104 milioni di dollari di licenze per gli sviluppatori di intelligenza artificiale l'anno scorso (PetaPixel)

  • Tutte le aziende fotografiche che hanno stretto accordi di licenza con le aziende di intelligenza artificiale (PetaPixel)

  • Reddit ha un nuovo accordo di formazione AI per vendere contenuti degli utenti (TheEverge)

  • GPT-4 consuma tutti i dati nell'universo! OpenAI è stata coinvolta in cause legali una dopo l'altra a causa della mancanza di dati e un professore dell'UC Berkeley ha lanciato un avvertimento (Xinzhiyuan)

  • OpenAI acquisisce Rockset(OpenAI)