Nvidia a été exposé au vol de données, explorant chaque jour plus de 80 ans de données vidéo, et l'ensemble de données académiques de l'Université de Pékin a également été affecté

Nvidia a été exposé au vol de données, explorant chaque jour plus de 80 ans de données vidéo, et l'ensemble de données académiques de l'Université de Pékin a également été affecté.

2024-08-06

NVIDIA semble être entré récemment dans une période trouble.

Après qu'il a été révélé que la production de masse de sa puce d'IA la plus puissante avait été retardée et que sa valeur marchande s'était évaporée de plus de 300 milliards de dollars, Nvidia a été dénoncée par 404 Media pour avoir récupéré du contenu vidéo sur des plateformes telles que YouTube et Netflix sans autorisation pour le former. . Modèle vidéo d'IA qui n'a pas encore été rendu public.

Les e-mails internes et les discussions Slack montrent que bien que les employés de Nvidia aient soulevé des questions sur la légalité et l'éthique de l'utilisation de ces ensembles de données, la direction de l'entreprise a déclaré que ces actions avaient été approuvées par la haute direction et a fait valoir que leurs actions étaient conformes à la loi sur le droit d'auteur.

Il convient de mentionner que lors de discussions internes fin février, NVIDIA a mentionné plusieurs ensembles de données qu'il utilisait, notamment le HD-VG-130M.

Ce dernier est un ensemble de données de 130 millions de vidéos YouTube créées par des chercheurs de l'Université de Pékin, et sa licence d'utilisation indique explicitement qu'il est limité à la recherche universitaire.

L’approche de Nvidia ressemble davantage à un microcosme de la plupart des entreprises d’IA d’aujourd’hui.

Lorsque les utilisateurs sont considérés comme des « distributeurs automatiques de données », à moins que les initiés ne le révèlent, il est vraiment difficile pour le monde extérieur de savoir si votre travail et le mien sont devenus un aliment pour la formation en IA.

Bref, les humains restent des consommateurs au sommet de la chaîne alimentaire, mais nous deviendrons inévitablement membre de la chaîne d’approvisionnement du développement de l’IA.

Ce qui suit est le texte original de l'actualité des médias étrangers 404 Media, rédigé par GPT-4o Traduction, profitez-en ~

Nourrissez le modèle avec des vidéos YouTube et téléchargez chaque jour l'équivalent de 80 ans de vidéos

Les discussions internes de Slack, les e-mails et les documents obtenus par 404 Media montrent que Nvidia récupère des vidéos de YouTube et de plusieurs autres sources pour compiler des données de formation pour ses produits d'IA. Interrogé sur les problèmes juridiques et éthiques liés à l'utilisation de contenus protégés par le droit d'auteur pour entraîner des modèles d'IA, Nvidia a fait valoir que son approche "est pleinement conforme à la lettre et à l'esprit de la loi sur le droit d'auteur".

Des conversations internes chez Nvidia examinées par 404 Media montrent que lorsque les employés ont soulevé des questions sur les implications juridiques possibles de l'utilisation d'ensembles de données et de vidéos YouTube compilées par des universitaires à des fins de recherche, les responsables leur ont répondu que les supérieurs hiérarchiques de l'entreprise avaient approuvé leur utilisation.

Un ancien employé de Nvidia (à qui 404 Media a accordé l'anonymat pour discuter des processus internes de Nvidia) a déclaré que les employés avaient été invités à récupérer des vidéos de Netflix, YouTube et d'autres sources pour former le générateur de monde 3D Omniverse de Nvidia.Pilote automatiqueSystèmes automobiles et "homme numérique"Modèle IA du produit.

Le projet, connu en interne sous le nom de Cosmos (mais distinct du produit d'apprentissage en profondeur Cosmos existant de l'entreprise), n'a pas encore été rendu public.

Un e-mail du chef du projet a révélé que Cosmos vise à créer un modèle d'infrastructure vidéo de pointe qui « rassemble des simulations de transport léger, de physique et d'intelligence en un seul endroit pour développer une variété d'applications en aval essentielles à Nvidia ».

Un e-mail obtenu par 404 Media montre un diagramme montrant comment le modèle Cosmos s'applique aux différents produits Nvidia.

Les messages Slack sur la chaîne créée par l'entreprise pour le projet montrent que les employés utilisent un téléchargeur de vidéos YouTube open source appelé yt-dlp, combiné à une machine virtuelle pour actualiser l'adresse IP afin d'éviter d'être bloqué par YouTube.

Selon la source, ils ont essayé de télécharger des vidéos complètes à partir de plusieurs sources, dont Netflix, mais se sont principalement concentrés sur les vidéos YouTube.

Des e-mails examinés par 404 Media montrent des chefs de projet discutant de l'utilisation de 20 à 30 machines virtuelles Amazon Web Services pour télécharger 80 ans de vidéo par jour.

"Nous finalisons le pipeline de données v1 et sécurisons suffisamment de ressources informatiques pour construire une usine de données vidéo capable de générer l'équivalent de 100 % des données vidéo chaque jour", a déclaré Mingyu Liu, vice-président de la recherche de Nvidia et responsable du projet Cosmos. dans un e-mail en mai. La quantité de données dans l’expérience visuelle d’une vie humaine.

Des conversations et des instructions au sein de Nvidia montrent des employés discutant des considérations juridiques et éthiques de l'entreprise dans la conception des puces et des API qui ont alimenté l'essor de l'IA générative et en ont fait l'une des entreprises publiques les plus précieuses au monde.

Il met également en lumière les plus grandes entreprises du secteur, telles que Runway et OpenAI, il existe une demande insatisfaite de contenu sous forme de données pour la formation des modèles d'IA.

Un porte-parole de Nvidia a déclaré dans un e-mail adressé à 404 Media :

Nous respectons les droits de tous les créateurs de contenu et croyons fermement que nos modèles et nos travaux de recherche sont pleinement conformes à la lettre et à l'esprit de la loi sur le droit d'auteur. La loi sur le droit d'auteur protège certaines expressions mais pas les faits, opinions, données ou informations. N’importe qui peut apprendre des faits, des idées, des données ou des informations provenant d’autres sources et les utiliser pour créer sa propre expression. L'utilisation équitable protège également le droit d'utiliser l'œuvre à des fins de transformation, telles que la formation de modèles.

Interrogé sur l'utilisation par Nvidia des vidéos YouTube comme données de formation pour ses modèles, un porte-parole de Google a déclaré à 404 Media que les « commentaires précédents de la société s'appliquent toujours ».

Parmi eux, le PDG de YouTube, Neal Mohan, a déclaré que si OpenAI utilisait des vidéos YouTube pour optimiser son générateur de vidéos AI Sora, cela violerait clairement les conditions d'utilisation de YouTube.

Un porte-parole de Netflix a déclaré à 404 Media que Netflix n'avait pas d'accord avec Nvidia pour l'acquisition de contenu et que les conditions de service de la plateforme n'autorisaient pas le grattage de données.

Les questions sur les problèmes juridiques soulevées par les employés impliqués dans le projet ont été généralement rejetées par les chefs de projet, qui ont déclaré que la décision de supprimer la vidéo sans autorisation était une « décision de haut niveau » et que les employés n'avaient pas à s'inquiéter de ce qui constituait une violation des droits. le contenu protégé par le droit d'auteur et le sujet de l'utilisation juste et éthique des ensembles de données à des fins académiques et non commerciales sont considérés comme une « question juridique non résolue » qu'ils résoudront à l'avenir.

Notre enquête met en évidence l’attitude « ne rien demander » de ces entreprises technologiques qui récupèrent de grandes quantités de contenus protégés par le droit d’auteur dans des ensembles de données utilisés pour former certains des modèles d’IA les plus précieux au monde.

Les dirigeants de Nvidia ont suggéré que les données académiques de l’Université de Pékin avaient également été utilisées à mauvais escient.

En février 2024, Francesco Ferroni, scientifique en chef chez Nvidia, a écrit sur la chaîne Nvidia Slack intitulée #cosmos-dataset-creation :

"Bonjour à tous, @Sanja Fidler m'a mentionné une initiative visant à regrouper un grand nombre d'ensembles de données vidéo organisés pour la modélisation générative. Nous avons pensé que commencer par agréger tous les ensembles de données vidéo disponibles en interne (téléchargés publiquement ou en interne) pour éviter la duplication du travail était très significatif. »

(Remarque : Sanja Fidler est vice-présidente de la recherche sur l'IA chez Nvidia.)

Ferroni a ensuite établi un lien vers une feuille de calcul contenant des liens vers des ensembles de données, notamment MovieNet, une base de données de 60 000 bandes-annonces de films, et WebVid, un ensemble de données vidéo compilé à partir d'images de stock sur Github qui a ensuite été abandonné par Shutterstock, supprimé par son créateur après avoir reçu un avis), InternVid. -10M (un ensemble de données de 10 millions d'identifiants de vidéos YouTube sur Github) et plusieurs ensembles de données de séquences de jeux vidéo capturées en interne. 404 Media a supprimé les noms des employés juniors des captures d'écran des conversations Slack.

Nous avons inclus les noms de plusieurs ingénieurs et cadres supérieurs impliqués dans le projet en raison de leur visibilité publique en tant que leaders de l'industrie de l'IA.

La feuille de calcul liée par Ferroni montre les ensembles de données utilisés dans le projet

Lors d'une discussion de suivi en février, les ingénieurs ont parlé des ensembles de données qu'ils ont acquis, notamment le HD-VG-130M, un ensemble de 130 millions de vidéos YouTube. L'ensemble de données a été créé par des chercheurs de l'Université de Pékin en Chine et sa licence d'utilisation stipule qu'il ne peut être utilisé qu'à des fins académiques.

"En téléchargeant ou en utilisant les données, vous comprenez, reconnaissez et acceptez tous les termes de l'accord suivant", lit-on sur la page Github de l'ensemble de données.

La page met l'accent sur "Pour usage académique uniquement. Tout contenu de l'ensemble de données HD-VG-130M est destiné uniquement à la recherche universitaire. Vous acceptez de ne pas copier, échanger ou utiliser à des fins commerciales. La distribution est interdite. Respectez la confidentialité du informations personnelles de la source originale." . Toute diffusion, modification ou tout autre comportement similaire du contenu de l'ensemble de données n'est pas autorisé sans l'autorisation du titulaire des droits d'auteur.

Tout au long du projet, les ensembles de données compilés et rendus publics par les chercheurs et les universitaires ont été considérés comme librement disponibles pour être utilisés dans les modèles NVIDIA. Les chercheurs en IA sont de plus en plus préoccupés par l’utilisation appropriée des ensembles de données qu’ils rendent publics, y compris les utilisations éthiques et juridiques.

Robert Mahari, de la MIT Data Provenance Initiative, a déclaré à 404 Media avoir constaté une augmentation significative de l'utilisation de licences d'utilisation non commerciale pour les ensembles de données de recherche au cours de l'année écoulée, suggérant que les universitaires tentent de limiter l'utilisation commerciale de leurs travaux. Les ensembles de données compilés à des fins de recherche diffèrent considérablement, dans leur objectif, des ensembles de données compilés à des fins commerciales.

"Lorsque les universitaires publient des ensembles de données, en particulier des ensembles de données spécifiques à des tâches, nous ne pouvons pas examiner spécifiquement les données pour des problèmes tels que certains types de biais ou le centrisme occidental. Si ceux-ci ne sont pas au centre de la recherche, il n'y aura pas d'inspections." » dit Mahari. « Ainsi, si un universitaire indique dans la licence « Usage académique uniquement » ou « Veuillez ne pas utiliser ces données de manière involontaire », il y a une bonne raison de se conformer à ces réglementations. Étant donné que les données peuvent ne pas être de qualité commerciale, elles peuvent fonctionnent également mal dans d'autres types d'environnements.

Comme beaucoup d’autres géants de la technologie, Nvidia emploie des personnes qui mènent et publient des recherches universitaires. Cependant, des conversations internes chez Nvidia examinées par 404 Media indiquent que Cosmos vise à soutenir les efforts de l'entreprise pour renforcer ses offres commerciales dans le secteur hautement compétitif de l'IA.

Les ensembles de données de recherche rendus publics sont souvent distribués sous forme d'URL ou d'identifiants YouTube pour deux raisons : premièrement, pour des raisons pratiques - le partage de millions de fichiers vidéo ou d'images complets est trop fastidieux, deuxièmement, pour des raisons juridiques et éthiques ; Par exemple, si quelqu'un supprime sa vidéo ou son tweet YouTube, une copie ne continuera pas à exister dans l'ensemble de données à l'insu ou sans l'autorisation du propriétaire.

"C'est un peu comme contourner les contraintes juridiques en ne distribuant pas l'ensemble de données à des tiers", a déclaré à 404 Media Emily Bender, professeur et directrice du laboratoire de linguistique informatique de l'Université de Washington. "D'autres peuvent créer l'ensemble de données et l'utiliser à leurs propres fins."

Détails de la discussion exposés, comment NVIDIA vole-t-il des données en marge de la loi ?

En mars, un chercheur scientifique a lancé une discussion sur Slack sur la possibilité pour le générateur vidéo Sora d'OpenAI d'utiliser des films hollywoodiens tels que "Avatar" et "Le Seigneur des Anneaux" comme données d'entraînement.

"Les films sont en fait une bonne source de données pour une continuité 3D de type jeu et du contenu fictif, mais avec une qualité supérieure. Les personnages sont entièrement en CGI, et de nombreuses scènes d'action réelle sont désormais également en CGI", ont-ils déclaré. Quelqu'un a répondu que l'équipe devrait s'entraîner sur l'ensemble de données cinématographiques de Discovery Channel.

Liu Mingyu a déclaré : « Nous avons besoin d'un volontaire pour télécharger tous les films.

Le chercheur scientifique qui a initialement proposé le film a ajouté : "Même si ce qu'ils font est très clair, nous devons faire très attention à ce qu'Hollywood ne devienne hypersensible à l'IA, comme cela est arrivé à la communauté des artistes après la sortie de SD [Stable Diffusion". ] et ça se passe maintenant à Hollywood."

Ils ont ensuite publié deux liens dans le chat : un article du Hollywood Reporter sur Tyler Perry suspendant l'expansion de son studio de 800 millions de dollars après avoir vu Sora d'OpenAI, et un article de Vanity Fair sur la grève SAG-AFTRA de 2023 mène à des articles incluant le langage de l'IA dans les contrats de studio.

Liu Mingyu a souligné : « Ce que nous faisons ici ne publiera aucun résultat de recherche. Nous utiliserons toutes les données téléchargeables pour mener des expériences. Puisque nous ne publierons rien, il n'y aura pas d'émotions négatives. » Qui a parlé aux anciens employés de 404 Media a expliqué. ce « publier » fait référence aux publications de recherche.

La personne qui a soulevé une « haute sensibilité » a répondu : « Si nous réalisons un tel projet au sein de l'entreprise, il devrait être largement diffusé, car montrer des exemples similaires peut provoquer des réactions négatives. Liu Mingyu a répondu : « Oui ».

En mars, Ferroni a écrit sur une autre chaîne Slack liée au projet : « Certains fichiers hautement prioritaires ont été trouvés et devaient être téléchargés. Il s'est avéré qu'il manquait 2,3 millions de vidéos brutes dans l'ensemble de données HDVILA [Langage vidéo haute résolution] dont nous disposions. . !" Ils faisaient référence au HD-VILA-100M de Microsoft, un ensemble de données de langage vidéo à grande échelle, haute résolution et diversifié. Ils ont envoyé un lien vers un document Google Drive et ont dit : « Voici le lien YouTube manquant », puis : « Mettons cela dans le processus de téléchargement ! »

La déclaration de licence pour HD-VILA-100M se lit comme suit :

"Vous acceptez d'utiliser les données uniquement à des fins informatiques pour des recherches non commerciales. Cette restriction signifie que vous pouvez vous engager dans des activités de recherche non commerciales (y compris des recherches non commerciales menées ou financées par une entité commerciale), mais vous ne pouvez pas les utiliser. les données ou tout résultat pour tout produit commercial, y compris dans le cadre d'un produit ou d'un service que vous utilisez ou fournissez à d'autres (ou pour améliorer tout produit ou service).

"Créons une base de données d'URL téléchargées", a répondu un autre ingénieur. "Les vidéos YouTube ont des identifiants uniques. Pouvons-nous utiliser ces identifiants comme références (les identifiants après "?v=") ? Nous comparerons et fusionnerons les URL plusieurs fois à l'avenir. Ferroni a répondu : "Oui, nous l'utilisons maintenant Hive." infrastructure de configuration", ce qui signifie qu'ils l'ajoutent à l'outil de gestion de projet Hive.

Le membre de l'équipe Omniverse qu'ils ont identifié a répondu : "Nous sommes sur AWS et le redémarrage d'une instance [de machine virtuelle] nous donne une nouvelle adresse IP publique, donc ce n'est pas un problème pour le moment."

Lors d'une discussion Slack sur la chaîne #cosmos-dataset-creation sur la façon de trouver les meilleures vidéos, les employés ont parfois évoqué les problèmes juridiques et éthiques de leur travail. En février, après que quelqu'un ait mentionné l'utilisation de YouTube-8M, un ensemble de données de recherche d'identifiants YouTube compilé par Google, Ferroni a demandé : « Peut-être ne pouvons-nous pas utiliser [YT8M] à des fins autres que de recherche ?

L'article et la page du projet de YouTube-8M ne mentionnent pas les problèmes de droits d'auteur, mais l'article indique que l'ensemble de données a été créé pour faire progresser la recherche sur l'apprentissage automatique : « Nous espérons que cet ensemble de données fournira des règles du jeu équitables aux chercheurs universitaires, comblant ainsi l'écart avec les grands chercheurs. "

En réponse à la question de Ferroni sur son utilisation pour le projet Cosmos, un employé de NVIDIA qui a précédemment co-créé l'ACAV100M a répondu :

"Oui, le téléchargement de données depuis Google coûte très cher. Cependant, planifier 10 000 cœurs depuis NVIDIA a été un défi.

De plus, les limitations de bande passante de NVIDIA dans le cloud ajoutent une variabilité considérable qui peut causer des problèmes. Le téléchargement sur Google Cloud signifie que chaque tâche bénéficie d'une connexion stable à bande passante élevée à YouTube. "

"Plus important encore, le téléchargement de vidéos YouTube est interdit par les conditions d'utilisation de YouTube. Ainsi, lors du téléchargement de YouTube 8m, nous avons communiqué avec Google et YouTube à l'avance et utilisé Google Cloud pour le téléchargement comme incitation.Après tout, généralement pour 8 millions de vidéos, ils obtiennent de nombreuses impressions d'annonces qui sont téléchargées lorsqu'elles sont utilisées à des fins de formation et entraînent une perte de revenus. Ils devraient donc en tirer des revenus. Payer 0,00625 $ par téléchargement de vidéo reste une bonne affaire. "

"D'accord, ces données devraient donc être utilisées uniquement à des fins de recherche ? Pour autant que je sache, l'API YouTube de Google peut interroger les termes de la licence de chaque vidéo", a répondu Ferroni. « Pouvez-vous également commenter les conditions de licence d'ACAV100M et YouTube8M ? »

"Pour autant que je sache, les conditions d'utilisation de YouTube interdisent le téléchargement quelle que soit la licence ; la restriction concerne la perte de revenus publicitaires, pas la licence", a répondu un autre employé. Ils continuèrent :

"Je ne sais pas quels termes de licence Google a filtrés lors de la création de l'ensemble de données ; nous venons de télécharger ce qu'ils ont répertorié comme étant inclus dans l'ensemble de données (ils ont publié les fonctionnalités, ainsi que des liens vers les vidéos originales). J'ai téléchargé les données YouTube 8m. L'ensemble est livré avec des métadonnées complètes, vous pouvez donc y vérifier chaque vidéo. Je dois encore consulter l'ensemble de données ACAV100M. De manière générale, CC ou le domaine public serait préférable, cependant, si le matériel protégé par le droit d'auteur est disponible pour la formation. problème juridique ; la plupart des entreprises semblent considérer qu'il s'agit d'un usage équitable. Je pense que notre équipe juridique a approuvé cette pratique pour la formation de grands modèles linguistiques et approuvera probablement également la formation vidéo. »

"Je pense qu'il y a un énorme fossé entre commercialiser quelque chose sans le consentement de quelqu'un et rechercher les capacités de l'IA générative basée sur du contenu rendu public", a déclaré Shayne Longpre, doctorante au MIT Media Lab, à 404 Media. Les questions sur les conditions d'utilisation de YouTube sur la chaîne Cosmos Slack n'étaient pas la dernière fois que des problèmes juridiques ont été soulevés.

Plus tard, un autre employé a dit : « Hé, l'équipe. Utilisons-nous https://research.google.com/youtube8m/download.html pour télécharger des vidéos ? Si oui, avons-nous l'approbation légale ? Dans un projet, le service juridique a refusé son utiliser car la licence pour les vidéos individuelles est meilleure que la licence partagée sur yt8m "Il s'agit d'une décision administrative. Nous avons une licence principale qui couvre toutes les données", a répondu Liu Mingyu. "D'accord, merci !", a répondu la personne qui a posé la question.

Bender a déclaré à 404 Media que la société profitait de la zone grise juridique actuelle entourant le contenu protégé par le droit d'auteur utilisé pour les données de formation. "Il me semble qu'il existe définitivement une culture du "si nous pouvons l'obtenir, nous pouvons l'utiliser"", a-t-elle déclaré. "Cela repose en grande partie sur la volonté des gens que cela se produise, plutôt que sur une étude minutieuse de sa légalité ou une réflexion approfondie sur son impact sur les gens."

L'utilisation de contenus protégés par le droit d'auteur pour la formation en IA n'est « certainement pas une loi établie », a déclaré Mahari. Le système juridique n’a pas encore déterminé si l’obtention de données d’entraînement pour développer des modèles d’IA est suffisamment transformatrice, d’autant plus qu’il a été démontré que les modèles sont capables de mémoriser ou de rappeler des données d’entraînement en sortie. « Ce que je veux dire (en partie résumé dans cet article de Science) est que l’entraînement d’un modèle d’IA peut effectivement constituer une utilisation équitable, mais cela ne signifie pas que générer un résultat similaire à des éléments spécifiques dans les données d’entraînement ne constitue pas une infraction.

Dans ce cas, il n'est pas clair si le fournisseur du modèle sous-jacent ou l'utilisateur spécifique générant le résultat serait en infraction (cela peut dépendre du contexte). "

En mai, un chercheur scientifique a supprimé des liens vers certaines chaînes YouTube sur la chaîne Cosmos Slack et a déclaré : « Si vous êtes toujours ouverts aux suggestions de chaînes YouTube que vous pouvez télécharger, en voici quelques-unes qui pourraient valoir la peine d'être prises en compte. . Comprend les chaînes officielles d'Expedia et Architectural Digest, ainsi que des créateurs de contenu individuels tels que The Critical Drinker et Marques Brownlee (MKBHD). Un chef de projet les a remerciés pour leurs suggestions et leur a dit qu'ils les transmettraient à l'équipe, ce à quoi Fidler a répondu : « Avez-vous également inclus une vidéo didactique ? Astronomie ? Médecine ?

La « question juridique en suspens » de l’utilisation d’œuvres protégées par le droit d’auteur pour la formation de modèles de base commerciale ne restera peut-être pas longtemps sans solution.

Les poursuites pour violation de droits d'auteur intentées par les titulaires de droits d'auteur contre les sociétés d'IA générative s'accumulent, notamment le procès de Getty Images contre le créateur de Stable Diffusion, Stability AI, le procès du New York Times contre OpenAI, et celui des artistes et créateurs contre Stability,À mi-parcours , DeviantArt et Runway ont déposé un recours collectif. L’équipe de données de formation Cosmos a également discuté de l’utilisation de Netflix pour former le générateur.

"Lors de la réunion d'aujourd'hui, nous avons obtenu l'autorisation de télécharger toutes sortes de données. Devrions-nous télécharger l'intégralité de Netflix ? Comment pouvons-nous opérationnaliser cela ?", a déclaré Liu sur la chaîne Slack. "Nous devrions télécharger l'intégralité de Discovery Channel !"

quelqu'un a répondu. "Nous avons besoin d'un coordinateur d'information sur le projet. Qui veut faire une capture d'écran tout en regardant tous les films ?", a déclaré Liu. "Nous devrions en tirer beaucoup de vidéos de visages de haute qualité", a poursuivi Liu. Un membre de l'équipe d'infrastructure d'Omniverse a été tagué dans le fil de discussion et a indiqué qu'il était prêt à aider à « opérationnaliser cela » parce qu'il avait « de l'expérience avec d'autres grandes entreprises créant de grands ensembles de données ».

L’équipe a également réfléchi à la meilleure façon d’ajouter des séquences de jeux vidéo aux données d’entraînement. Jim Fan, chercheur scientifique principal chez Nvidia, a mentionné qu'il existe des obstacles « techniques et réglementaires » à la capture de vidéos de jeu en direct.

"Mise à jour : j'ai rencontré les gens de GeForce Now (GFN) et je travaillerai avec eux sur un plan de données. Nous travaillerons en étroite collaboration avec GFN et les équipes d'ingénierie associées pour créer une capture de données de jeu en temps réel, faire évoluer le pipeline et traiter ces données pour l'entraînement. Des vidéos de gameplay de haute qualité seront un ajout très utile à notre projet Sora", a écrit Fan. « Nous ne disposons pas encore de statistiques ou de fichiers vidéo car l'infrastructure n'a pas été configurée pour capturer les grandes quantités de vidéos et d'actions de jeux en direct. Cependant, une fois les données GFN nettoyées et traitées, nous devons surmonter les obstacles techniques et réglementaires. arrive, nous Il sera ajouté à team-vfm dès que possible."

En mars, le projet a franchi un cap : 100 000 vidéos ont été téléchargées en deux semaines. Un employé a mentionné dans un fil de discussion discutant de l'étape importante que Ferroni utilisait un téléchargeur, et Ferroni a confirmé qu'il téléchargeait de l'audio et de la vidéo. "Des progrès incroyables. La question est maintenant de savoir comment obtenir un grand nombre d'URL de haute qualité", a répondu Liu.

Fin mai, un e-mail de stratégie de données pour les données vidéo a été envoyé aux membres de l'équipe du projet, annonçant qu'ils avaient compilé 38,5 millions d'URL de vidéos. "Sur la base de notre distribution cible, l'accent pour la semaine à venir reste concentré sur les films, les images de drones, les vidéos à la première personne et certaines vidéos de voyage et de nature", indique l'e-mail. L'e-mail comprenait également un graphique montrant le pourcentage de types de contenu téléchargés.

Dans cet e-mail, un chef de produit a suggéré d’ajouter quatre ensembles de données supplémentaires aux données d’entraînement du modèle. Ils ont écrit:

1. Ego-Exo4D : un ensemble de données vidéo multimodales et multi-vues à grande échelle et une référence collectées par 740 porteurs de caméras dans 13 villes à travers le monde, capturant 1 286,3 heures de vidéo d'activités humaines qualifiées.

2. Ego4D : un ensemble de données de perspective à la première personne et une suite de référence à grande échelle avec plus de 3 670 heures de vidéos d'activités de la vie quotidienne collectées dans 74 sites et 9 pays à travers le monde.

3. HOI4D : un ensemble de données de première vue en quatre dimensions à grande échelle avec de riches annotations pour faciliter l'étude des interactions homme-objet au niveau des catégories.

4. GeForce Now : Données de jeu.

HOI4D a été créé par des chercheurs de l'Université Tsinghua, de l'Université de Pékin et de l'Institut de recherche Qizhi de Shanghai. Il est sous licence CC BY-NC 4.0 et aucune utilisation commerciale n'est autorisée.

"À mon avis, si une entreprise prend un ensemble de données uniquement à des fins de recherche et l'utilise à des fins de recherche, elle respecte toujours la licence relative à cet ensemble de données", a déclaré Bender.

"Mais pour garantir cela, ils doivent faire très attention à construire des pare-feu entre la recherche qu'ils effectuent et le travail qu'ils effectuent en matière de développement de produits."

Dans un autre e-mail de mise à jour en mai, Liu a déclaré : « L'équipe de recherche forme actuellement un modèle avec 1 milliard de paramètres en utilisant de nombreuses configurations différentes, chacune avec 16 nœuds. Il s'agit d'un débogage important avant de poursuivre l'expansion. quelques semaines, puis passer à un modèle de 10 milliards de paramètres.

Le PDG de Nvidia, Jensen Huang, a répondu dans cet e-mail : "Excellente mise à jour. De nombreuses entreprises doivent créer des modèles basés sur la vidéo. Nous pouvons fournir un pipeline entièrement accéléré."

En juin, les employés ont discuté des types de contenu dans les modèles qui seraient les plus utiles pour que les produits Nvidia restent compétitifs dans le secteur de l'IA.

« NVIDIA propose des robots, des voitures autonomes, Omniverse et Avatar que la plupart des sociétés de contenu n'ont pas. Pour avoir le plus grand impact sur l'entreprise, les données que nous conservons doivent être bien applicables à ces applications tueuses », a déclaré Liu.

"Je comprends les données qui ont un impact sur les robots et les voitures autonomes. Quelqu'un peut-il partager les détails des données qui ont un impact sur les cas d'utilisation d'Omniverse et d'Avatar", a répondu un chef de produit. "Ce sera une vidéo sur la façon dont les humains interagissent avec les objets. Comme installer des meubles, couper des fruits, plier le linge", a répondu Liu.

L’évolution des modèles d’IA repose-t-elle sur vos et mes créations ?

Bien que Nvidia contribue à la recherche universitaire, les conversations et les courriels obtenus par 404 Media montrent que le modèle sur lequel travaille l'équipe Cosmos est destiné à un usage commercial sur plusieurs de ses produits.

Jusqu'à ce qu'un précédent juridique soit établi sur la manière dont les données de formation sont compilées, ou jusqu'à ce que les entreprises soient tenues d'être transparentes sur ces données, les entreprises continueront d'exploiter la zone grise juridique de la suppression des données de formation protégées par le droit d'auteur. Les fuites de conversations internes comme celle-ci sont le seul moyen pour les gens de savoir si leur travail est utilisé pour former des modèles qui rapportent des milliards de dollars à des entreprises comme Nvidia, Runway ou OpenAI.

L’industrie de l’IA fait pression depuis des années pour plus de transparence, que ce soit par le biais de réglementations gouvernementales ou de normes industrielles.

Plus tôt cette année, Jack Hardinges, Elena Simperl et Nigel Shadbolt du MIT ont écrit : « Il est essentiel de comprendre ce que contiennent les ensembles de données utilisés pour former les modèles et comment ils ont été compilés. la partialité ou la suppression du contenu préjudiciable des données seront entravées.

Les informations sur les données de formation seront également cruciales pour permettre aux législateurs d'évaluer si les modèles sous-jacents ont ingéré des données personnelles ou du matériel protégé par le droit d'auteur. En aval, les opérateurs prévus des systèmes d’IA et ceux concernés par leur utilisation sont plus susceptibles de faire confiance à ces systèmes s’ils comprennent comment ils ont été développés. "

Les législateurs ont présenté plusieurs projets de loi l'année dernière pour résoudre le problème, notamment l'AI Underlying Model Transparency Act en décembre, qui obligerait les entreprises qui créent des modèles d'IA sous-jacents à travailler avec des agences fédérales comme la FTC et le Copyright Office pour développer des normes de transparence, notamment en exigeant leur demander de divulguer certaines informations aux consommateurs.

La Generative AI Copyright Disclosure Act, proposée en avril de cette année, obligerait les producteurs d'ensembles de données à soumettre « un résumé suffisamment détaillé de toute œuvre protégée par le droit d'auteur » au registraire sous peine d'amendes.

"Techniquement, il est vraiment difficile de déterminer si votre travail a été utilisé pour la formation", a déclaré Mahari. "En interne, la meilleure politique est de ne pas dire aux gens quelle formation vous utilisez, car il est très difficile pour un tiers de procéder à un audit et de le découvrir. Donc, tant que vous n'en parlez à personne, c'est très difficile à prouver."

Ci-joint l'adresse originale du rapport :

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

nouvelles

Nvidia a été exposé au vol de données, explorant chaque jour plus de 80 ans de données vidéo, et l'ensemble de données académiques de l'Université de Pékin a également été affecté.

Introduction

mes coordonnées