nouvelles

Impliquant 170 000 vidéos !NVIDIA et d'autres géants ont été dénoncés pour avoir utilisé illégalement des données YouTube pour former des modèles

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Des géants de la technologie ont été révélés comme utilisant du contenu YouTube non autorisé pour former des modèles d’IA (intelligence artificielle).

Le 16 juillet, heure locale, des médias étrangers ont rapporté que certaines grandes entreprises technologiques, dont Apple, Nvidia, Salesforce et Anthropic, avaient été exposées à l'utilisation de données non autorisées de YouTube, un site Web de vidéos appartenant à Google, lors de la formation de modèles d'IA. Les sociétés ont utilisé un ensemble de données fourni par un tiers contenant de nombreux sous-titres vidéo extraits de YouTube, violant ainsi les règles de YouTube interdisant de supprimer du contenu de la plate-forme sans autorisation.

Le rapport souligne que ces entreprises technologiques ont utilisé un ensemble de données appelé « Sous-titres YouTube » lors de la formation des modèles d'IA. Il mesure 5,7 Go et contient 489 millions de mots provenant de plus de 48 000 chaînes sur YouTube. Cet ensemble de données se compose du texte brut des sous-titres vidéo, y compris la partie téléchargée par les vloggers et le texte automatiquement transcrit par Youtube, en plus de l'anglais, il est généralement également accompagné de traductions dans des langues telles que le japonais, l'allemand et l'allemand. Arabe.

L'organisation à but non lucratif EleutherAI est la créatrice de l'ensemble de données controversé, et la société n'a pas encore répondu à cette histoire. Selon le site officiel, l’objectif d’EleutherAI est « d’abaisser le seuil de développement de l’IA et de fournir à chacun un accès à la technologie d’IA de pointe grâce à la formation et à la publication de modèles ». Auparavant, EleutherAI avait publié une compilation de données appelée « Pile », dont la plupart sont ouvertes au public, y compris les sous-titres YouTube.

Les données montrent que quelques semaines avant qu'Apple ne publie le petit modèle OpenELM en avril de cette année, la société a utilisé Pile pour la formation. Cependant, il convient de noter qu’Apple lui-même ne télécharge pas ces données. Donc, techniquement, c’est EleutherAI qui a violé les conditions d’utilisation de YouTube.

Un porte-parole de la startup d'IA Anthropic a confirmé que l'ensemble de données Pile avait été utilisé pour former Claude, l'assistant d'IA générative de l'entreprise, et que les conditions de YouTube couvraient uniquement « l'utilisation directe de sa plate-forme » et a recommandé de discuter de toute violation avec l'auteur original de Pile. . Apple, Nvidia, Salesforce et d'autres sociétés n'ont pas encore répondu à la question.

Les créateurs concernés par cet incident comprennent des blogueurs bien connus tels que Marques Brownlee, MrBeast et PewDiePie, ainsi que de grands éditeurs d'informations tels que le New York Times, la British Broadcasting Corporation (BBC) et ABC News aux États-Unis. En outre, certains éléments de l’ensemble de données promeuvent des théories du complot telles que « Terre plate » et contiennent même du contenu provenant de vidéos qui ont été supprimées. Désormais, Pile a été supprimé du site de téléchargement officiel, mais il est toujours accessible via les services de partage de fichiers.

À cet égard, le célèbre blogueur technologique Marques Brownlee a déclaré dans l'article Inclure ma vidéo. Techniquement, Apple n'a pas « fait d'erreur », ils n'ont pas récupéré les données de manière proactive, mais ce sera un problème de longue date.


Tweet de Marques Brownlee.Source : plateforme X

Bien qu'Apple et d'autres sociétés aient pu utiliser des ensembles de données publiques et qu'il n'y ait eu aucune violation, cet incident a une fois de plus attiré l'attention sur les problèmes de données derrière la formation à l'IA. Au début de cette année, la société mère de YouTube, Google, avait été exposée à l'utilisation des vidéos de la plateforme pour former ses modèles. Google avait alors répondu que ce comportement ne violait pas l'accord de la plateforme avec les créateurs.

En mars de cette année, Mira Murati, directrice de la technologie d'OpenAI, était vague sur la source des données de formation pour le modèle vidéo Vincent Sora dans une interview. En avril, le PDG de YouTube, Neal Mohan, a déclaré dans une interview qu'il n'avait aucune preuve directe prouvant qu'OpenAI avait utilisé des vidéos YouTube pour améliorer son outil d'IA vidéo Vincent, Sora. S'il était réellement utilisé, cela constituerait une « violation flagrante » de la loi. Conditions d'utilisation de la plateforme YouTube.