Les données de l'IA déclenchent la "crise pétrolière", les entreprises de contenu peuvent simplement s'asseoir et gagner de l'argent

2024-07-23

“

Si l’on compare le grand modèle d’IA à une voiture, les données brutes sont du pétrole brut.

”

Auteur | Jiang Jiang

Éditeur｜Manmanzhou

L'émergence de ChatGPT et À mi-parcours L’adoption explosive de l’IA a permis à l’IA de réaliser sa première application à grande échelle, c’est-à-dire la vulgarisation de grands modèles.

Le soi-disant grand modèle fait référence à un modèle d'apprentissage automatique avec un grand nombre de paramètres et une structure complexe, qui peut traiter des données massives et accomplir diverses tâches complexes.

Litiges relatifs aux droits d'auteur sur les données d'IA

Si l’on compare les grands modèles d’IA actuels aux voitures, les données brutes sont celles du pétrole brut. Dans tous les cas, tout d'abord, le modèle d'IA a besoin de suffisamment de « pétrole brut ».

Les principales sources de « pétrole brut » pour les entreprises d’IA comprennent les catégories suivantes :

●Sources de données ouvertes et gratuites sur Internet, telles que Wikipédia, blogs, forums, informations d'actualité, etc. ;

●Anciens médias d'information et maisons d'édition ;

●Universités et autres institutions de recherche ;

●Utilisateurs côté C qui utilisent le modèle.

Les droits de propriété sur le pétrole dans le monde réel ont déjà des réglementations juridiques matures. Cependant, dans le domaine encore chaotique de l’IA, les droits d’exploitation du « pétrole brut » ne sont pas encore clairs et les litiges qui en résultent sont nombreux.

Tout récemment, plusieurs grands labels de musique ont poursuivi en justice des sociétés de production musicale IA.SoleiletAudio , l'accusant de violation du droit d'auteur.Le procès fait suite à un procès intenté en décembre par le New York Times.OpenAIles litiges sont similaires.

Source : Panneau d'affichage

En juillet 2023, certains écrivains ont intenté une action en justice contre l'entreprise, alléguantChatGPTUn résumé du travail de l'auteur est généré à partir du contenu protégé par le droit d'auteur.

En décembre de la même année, le New York Times rapportait égalementMicrosoftetOpenAIUne action en justice similaire pour violation du droit d'auteur a été déposée, accusant les deux sociétés d'utiliser le contenu du journal pour former des chatbots à intelligence artificielle.

En outre, un recours collectif a été déposé en Californie, accusant OpenAI d'avoir obtenu les informations privées des utilisateurs sur Internet pour entraîner ChatGPT sans le consentement de l'utilisateur.

OpenAI n'a finalement pas payé pour l'accusation. Ils ont déclaré qu'ils n'étaient pas d'accord avec l'accusation du New York Times et qu'ils ne pouvaient pas reproduire les problèmes évoqués par le New York Times. Plus important encore, la soi-disant source de données fournie par le New York Times. Le York Times a déclaré que cela n'a pas d'importance pour OpenAI.

Source : https://openai.com/index/openai-and-journalism/

Pour OpenAI, la plus grande leçon de cet incident est peut-être de gérer correctement les relations avec les fournisseurs de données et de clarifier les droits et responsabilités des deux parties. En conséquence, nous avons vu OpenAI conclure des partenariats avec de nombreux fournisseurs de données au cours de l'année écoulée, notamment, mais sans s'y limiter, The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project. et plus.

À l'avenir, OpenAI utilisera légitimement les données de ces médias, et ces médias intégreront également la technologie OpenAI dans leurs produits.

L'IA stimule la monétisation des plateformes de contenu

Cependant, la raison la plus fondamentale pour laquelle OpenAI conclut des partenariats avec des fournisseurs de données n’est pas la peur d’être poursuivi en justice, mais l’épuisement imminent des données auquel est confronté l’apprentissage automatique. Des chercheurs tels que le MIT ont mené une étude estimant que les ensembles de données d'apprentissage automatique pourraient épuiser toutes les « données linguistiques de haute qualité » d'ici 2026.

Les « données de haute qualité » sont donc devenues un produit phare pour les modélistes comme OpenAI et Google. Les sociétés de contenu et les fabricants de modèles d’IA ont conclu à plusieurs reprises une coopération pour lancer un modèle à profit fixe.

La plate-forme médiatique traditionnelle Shutterstock a successivement conclu une coopération avec des sociétés d'IA telles que Meta, Alphabet, Amazon, Apple, OpenAI, Reka, etc., et augmentera son chiffre d'affaires annuel à 104 millions de dollars en accordant des licences de contenu aux modèles d'IA en 2023, et est devrait générer 250 millions de dollars de revenus en 2027 ; Reddit Les revenus provenant des droits d'auteur sur les contenus sous licence de Google s'élèvent à 60 millions de dollars par an ; Apple cherche également à coopérer avec les médias d'information grand public et à offrir des redevances d'au moins 50 millions de dollars par an ; année. Les redevances perçues par les sociétés de contenu auprès des sociétés d'IA augmentent à un taux de croissance annuel de 450 %.

Source de l'image : CX Scoop

Au cours des dernières années, il a été difficile de monétiser du contenu autre que le streaming multimédia, ce qui a constitué un problème majeur dans l'industrie du contenu. Par rapport à l’ère de l’entrepreneuriat sur Internet, l’émergence de l’IA a apporté une plus grande imagination et des attentes de revenus plus élevées à l’industrie du contenu.

Les données de haute qualité restent rares

Bien entendu, tous les contenus ne répondent pas aux besoins de l’IA.

Concernant le débat entre OpenAI et le New York Times mentionné ci-dessus, un autre point positif est la qualité des données. Pour raffiner le pétrole à partir du pétrole brut, premièrement, le pétrole lui-même doit être de bonne qualité, et deuxièmement, la technologie de purification doit être bonne.

OpenAI souligne spécifiquement que le contenu du New York Times n'a apporté aucune contribution significative à la formation du modèle d'OpenAI. Par rapport à Shutterstock, qui permet à OpenAI de dépenser des dizaines de millions de dollars chaque année, des médias texte comme le New York Times en dépendent. la rapidité n'est pas le chouchou de l'ère de l'IA. L’IA nécessite des données approfondies et uniques.

Cependant, les données de haute qualité sont trop rares et les sociétés d'IA ont également commencé à travailler dur sur la « technologie de purification » et les « applications à guichet unique ».

Le 25 juin, OpenAI a acquis la société de bases de données d'analyse en temps réel Rockset. Cette société fournit principalement des fonctions d'indexation et de requête de données en temps réel. OpenAI intégrera la technologie de Rockset dans ses produits pour améliorer la valeur d'usage des données en temps réel.

Source de l'image : Analyse DePIN

En acquérant Rockset, OpenAI prévoit de permettre à l’IA de mieux utiliser et accéder aux données en temps réel. Cela permet aux produits OpenAI de prendre en charge des applications plus complexes, telles que des systèmes de recommandation en temps réel, des robots de discussion dynamiques basés sur les données, des systèmes de surveillance et d'alarme en temps réel, etc.

Rocket est le « département pétrochimique » intégré d'OpenAI qui transforme directement les données ordinaires en données de haute qualité requises par les applications.

La confirmation des droits sur les données des créateurs est-elle un fantasme ?

Les données des plateformes médiatiques Internet (Facebook, Reddit, etc.) proviennent en grande partie deCGU , c'est-à-dire le contenu fourni par l'utilisateur. Alors que de nombreuses plateformes facturent des frais de données élevés aux entreprises d'IA, elles ajoutent également discrètement une clause dans les conditions d'utilisation selon laquelle « la plateforme a le droit d'utiliser les données des utilisateurs pour former des modèles d'IA ».

Bien que les conditions d'utilisation indiquent clairement les droits de formation des modèles d'IA, de nombreux auteurs ne savent pas quels modèles utilisent le contenu qu'ils produisent, ni s'ils paient pour cela, ni ne peuvent obtenir les droits et intérêts pertinents qui devraient appartenir à pour eux.

Lors de l'appel aux résultats trimestriels de Meta en février, Zuckerberg a clairement indiqué qu'il utiliserait des images de Facebook et d'Instagram pour entraîner ses outils de génération d'IA.

Selon certaines informations, Tumblr aurait également mystérieusement conclu des accords de licence de contenu avec OpenAi et Midjourney, mais le contenu spécifique de ces accords spécifiques n'a pas été divulgué.

Les créateurs de la plateforme de galerie de photos EyeEm ont également récemment reçu une notification indiquant que les photos qu'ils avaient publiées seraient utilisées pour la formation de modèles d'IA. L'avis mentionne que les utilisateurs peuvent ainsi choisir de ne pas utiliser le produit, mais il ne mentionne aucune politique de compensation. Freepik, la société mère d'EyeEm, a déclaré à Reuters qu'elle avait signé des accords avec deux grandes sociétés technologiques pour obtenir une licence sur la plupart de ses 200 millions d'images pour environ 3 cents par image. Le directeur général, Joaquín Cuenca Abela, a déclaré que cinq autres accords similaires étaient en cours, mais a refusé de révéler l'identité de l'acheteur.

Les plateformes de contenu dirigées par l'UGC telles que Getty Images, Adobe, Photobucket, Flickr et Reddit sont toutes confrontées à des problèmes similaires. Sous l'énorme tentation de la monétisation des données, les plateformes choisissent d'ignorer la propriété du contenu des utilisateurs, de regrouper les données et de les vendre au modèle d'IA. entreprises.

L'ensemble du processus s'est déroulé dans l'obscurité et les créateurs n'ont eu aucune chance de résister. Même de nombreux créateurs devront peut-être un jour former un contenu similaire à leurs propres œuvres dans un certain modèle avant d'avoir la possibilité de soupçonner que leurs œuvres précédentes ont été vendues par une certaine plate-forme à une société d'IA pour la formation de modèles.

Web3 peut être un bon choix pour résoudre le problème de la difficulté de protéger les droits sur les données et les revenus des créateurs. Lorsque les entreprises d'IA ont atteint de nouveaux sommets sur le marché boursier américain, la devise du concept d'IA de web3 a également grimpé en flèche en même temps. La blockchain, avec ses caractéristiques décentralisées et infalsifiables, bénéficie d’avantages uniques en matière de protection des droits des créateurs.

Le contenu médiatique tel que les images et les vidéos a été adopté à grande échelle sur la chaîne lors du marché haussier de 2021, et le contenu UGC sur les plateformes sociales se produit également discrètement sur la chaîne. Dans le même temps, de nombreuses plateformes de modèles d’IA web3 encouragent déjà les utilisateurs ordinaires qui contribuent à la formation des modèles, qu’ils soient propriétaires de données ou formateurs.

Le développement exponentiel des modèles d’IA a mis en avant des exigences accrues en matière de vérification des données. Les créateurs devraient réfléchir : pourquoi mon travail a-t-il été vendu à une entreprise de modèles d’IA pour 5 cents pièce sans mon consentement ? Pourquoi suis-je resté ignorant de l’ensemble du processus et incapable d’en tirer le moindre bénéfice ?

Les efforts des plateformes médiatiques pour attraper les gros poissons ne peuvent pas atténuer l'anxiété des entreprises modèles d'IA en matière de données. La condition préalable pour obtenir des données de haute qualité et un rendement élevé est la confirmation des droits sur les données, ce qui représente une répartition raisonnable des intérêts entre les créateurs, les plateformes et l'IA. entreprises modèles.

Sources de référence :

Shutterstock a gagné 104 millions de dollars en licenciant des actifs aux développeurs d'IA l'année dernière (PetaPixel)
Toutes les sociétés de photographie qui ont conclu des accords de licence avec des entreprises d'IA (PetaPixel)
Reddit a conclu un nouvel accord de formation d'IA pour vendre du contenu utilisateur (TheEverge)
GPT-4 consomme toutes les données de l'univers ! OpenAI a été impliqué dans des poursuites les unes après les autres en raison d'un manque de données, et un professeur de l'UC Berkeley a émis un avertissement (Xinzhiyuan)
OpenAI acquiert Rockset (OpenAI)

nouvelles

Les données de l'IA déclenchent la "crise pétrolière", les entreprises de contenu peuvent simplement s'asseoir et gagner de l'argent

Introduction

mes coordonnées