nouvelles

Le mystérieux modèle de base vidéo « Cosmos » de Nvidia est exposé et toutes les données sont volées

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Rapport sur le cœur de la machine

Département éditorial de Machine Heart

Pour ce modèle vidéo, NVIDIA explore frénétiquement chaque jour l’équivalent de 80 ans de données vidéo.

Aujourd’hui, une nouvelle concernant la décision de Nvidia d’arrêter de réaliser des modèles vidéo a explosé sur Reddit.

La source de l'information provient du média étranger 404 Media. Selon le chat Slack (la plateforme de chat interne de Nvidia), les e-mails et les documents obtenus, Nvidia récupère des vidéos de Youtube et de plusieurs autres sources pour collecter des données de formation pour ses produits d'IA.



Des conversations internes chez Nvidia examinées par 404 Media montrent que lorsque les employés impliqués dans le projet ont fait part de leurs inquiétudes concernant d'éventuels problèmes juridiques découlant de l'utilisation de « ensembles de données de recherche commercialement interdits » et de « vidéos YouTube », les responsables leur ont dit qu'ils avaient l'approbation des plus hauts niveaux de l'entreprise, qui peut être utilisée.

Un ancien employé anonyme de Nvidia a déclaré que les employés avaient été invités à récupérer des vidéos de Netflix, YouTube et d'autres sources pour former des modèles d'IA pour le générateur de monde 3D Omniverse, les systèmes de voiture autonome et les produits « humains numériques ».

Le projet, nommé Cosmos en interne (mais distinct du produit d'apprentissage en profondeur Cosmos existant de l'entreprise), n'a pas encore été rendu public. Selon un e-mail envoyé aux employés par la direction du projet, l'objectif de Cosmos est de construire un modèle d'infrastructure vidéo de pointe qui « encapsule le transport léger, la physique et la simulation intelligente en un seul endroit pour débloquer les différents aspects en aval essentiels au Nvidia. »

Pour collecter des vidéos de formation, les employés de NVIDIA ont utilisé un téléchargeur de vidéos YouTube open source appelé « yt-dlp ». Ils essaient de télécharger des vidéos complètes à partir de diverses sources comme Netflix, mais se concentrent principalement sur les vidéos YouTube. Les e-mails examinés par 404 Media montrent que le chef de projet a choisi d'utiliser 20 à 30 machines virtuelles dans Amazon Web Services pour télécharger chaque jour 80 ans de vidéo.

"Nous terminons le pipeline de données v1 et sécurisons les ressources informatiques nécessaires pour construire une usine de données vidéo capable de générer des données d'entraînement quotidiennes équivalentes à toute une vie d'expérience visuelle humaine."

Interrogé sur l'utilisation par Nvidia des vidéos YouTube comme données de formation pour ses modèles, un porte-parole de Google a déclaré à 404 Media que « la position précédente de l'entreprise reste valable ». Auparavant, le PDG de YouTube, Neal Mohan, avait déclaré que si OpenAI utilisait des vidéos YouTube pour améliorer son générateur de vidéo AI Sora, cela constituerait une « violation flagrante » des conditions d'utilisation de YouTube.

De même, un porte-parole de Netflix a déclaré à 404 Media que la société n'avait pas d'accord avec Nvidia pour l'acquisition de contenu et que les conditions de service de la plateforme n'autorisaient pas le scraping de contenu.

Cependant, Nvidia ne semble pas s'en soucier. Les préoccupations juridiques soulevées par les employés impliqués dans le projet ont souvent été rejetées par les chefs de projet qui ont déclaré que la décision de supprimer la vidéo sans autorisation était une « décision exécutive » dont ils n'avaient pas besoin de s'inquiéter et qui constituait une utilisation juste et éthique des droits d'auteur. le contenu et la question de l'utilisation académique et non commerciale de l'ensemble de données sont considérés comme des « questions juridiques en suspens » qu'ils résoudront à l'avenir.

Le début et la fin du projet de modèle vidéo NVIDIA

Semblable à d'autres géants de la technologie, Nvidia embauche des chercheurs universitaires pour publier les résultats académiques, mais d'après les e-mails internes obtenus par 404 Media, il ressort que Cosmos sera évidemment utilisé à des fins commerciales.

En mars de cette année, un chercheur de NVIDIA a posté sur Slack et suggéré qu'utiliser des films hollywoodiens tels que « Avatar » ou « Le Seigneur des Anneaux » pour entraîner OpenAI Sora pourrait être plus efficace.

Par la suite, sa proposition a été reconnue au sein de l’entreprise, mais il a également ajouté qu’Hollywood est particulièrement sensible à la possibilité que l’IA viole les droits d’auteur. En juillet 2023, la SAG-AFTRA, l'un des trois principaux syndicats d'Hollywood avec 160 000 membres, a annoncé une grève ciblant les produits d'IA générative tels que ChatGPT et Stable Diffusion. Avant cela, la Writers Guild of America était en grève. plus de 70 jours. Il y a une situation dans Stable Diffusion. Même si vous n'entrez pas le mot d'invite correspondant et entrez une description vague telle que "Plombier de style Anime", Stable Diffusion générera directement l'image classique de Mario.

Sous ce poste, un employé nommé « Liu » (à savoir Ming-Yu Liu (Liu Mingyu), vice-président de la recherche chez NVIDIA) a répondu : « Si l'article n'est pas publié publiquement, il ne provoquera pas les problèmes négatifs ci-dessus. utilisez d'abord les vidéos téléchargeables à des fins d'expérimentation.



Par la suite, un autre chercheur de NVIDIA a publié un article sur l'intranet. Il a trouvé une liste de fichiers qui devaient être téléchargés en premier pour les modèles vidéo de formation. Cependant, l'ensemble de données HD-VILA-100M utilisé par NVIDIA manquait d'environ 2,3 millions de fichiers vidéo originaux. Cette liste en constante expansion comprend également des vidéos originales de certains YouTubers bien connus, tels que Marques Brownlee (MKBHD), un blogueur de critiques numériques dont la réputation en Amérique du Nord est du type "Bonjour à tous, je suis son camarade de classe".

En raison de la protection des droits d'auteur, les ensembles de données vidéo générales incluent souvent des liens URL ou des identifiants YouTube. Une fois que l'auteur supprime la vidéo originale, ces contenus ne seront plus inclus dans l'ensemble de données, à moins que l'auteur de la vidéo n'accepte explicitement la conservation et l'utilisation du contenu. .

Bien que Microsoft interdise explicitement toute utilisation commerciale dans sa déclaration d'utilisation de l'ensemble de données HD-VILA-100M, l'employé de Nvidia qui a posté le message n'a pas semblé s'en soucier. Il a rapidement posté le lien YouTube correspondant à la liste et l'a partagé avec ses collègues. . Nous avons discuté d'une solution permettant d'utiliser les machines virtuelles AWS pour modifier les adresses IP afin de contourner le mécanisme anti-crawler de YouTube.

En outre, les employés de NVIDIA ont également consulté YouTube-8M, un ensemble de données de compréhension vidéo à grande échelle publié par Google. Au lieu de compléter l'ensemble des données de Microsoft, ils ont conclu un « accord » avec YouTube et Google, la société mère actuelle de YouTube, Nvidia, a acheté 800 vidéos au prix de 0,00625 $ US (environ 4 cents) par vidéo et les téléchargera. via Google Cloud. Indépendamment de la question de la vente des droits d'auteur, Google peut penser avoir récupéré les frais de publicité de ces vidéos, mais Nvidia a déjà certaines limitations en termes de bande passante cloud. Le téléchargement sur Google Cloud permet d'obtenir une connexion plus stable et prévisible. Par conséquent, peu importe comment vous le regardez, cet « accord » semble être bénéfique pour Nvidia.

Ce qui est encore plus surprenant, c'est lorsqu'un employé de Nvidia a demandé sur l'intranet : « Est-il raisonnable pour nous de télécharger des vidéos YouTube comme celle-ci ?

"Il s'agit d'une décision de haut niveau. Nous avons l'entière approbation pour utiliser toutes les données." C'est la réponse qu'il a reçue.

Les données autorisées pour cette décision incluent également les productions vidéo sur Netflix. Les données de Netflix contiennent de nombreuses données faciales de haute qualité. Après leur approbation, quelqu'un a demandé de l'aide à des collègues de l'intranet de l'entreprise qui avaient de l'expérience dans la « création de grands ensembles de données » dans d'autres grandes entreprises.

Dans le même temps, l'équipe Cosmos a également réfléchi à la manière d'ajouter efficacement des séquences de jeu aux données d'entraînement. Jim Fan, chercheur principal chez NVIDIA, a également rencontré des obstacles « réglementaires » lors de la capture de séquences de jeu en temps réel.

Jim Fan a posté :

Mise à jour : j'ai rencontré les gens de GeForce Now (GFN) et j'ai travaillé sur des plans avec eux. Nous travaillerons en étroite collaboration avec GFN et les équipes d'ingénierie associées pour développer des méthodes permettant de capturer des données de jeu en temps réel, d'étendre l'échelle du pipeline et de traiter les données pour la formation. Des vidéos de gameplay de haute qualité seront un ajout très utile à "notre Sora"... Étant donné que l'équipement pour capturer des vidéos et des actions de gameplay en direct n'est pas encore disponible, les statistiques n'ont pas encore été établies, mais nous allons nettoyer et Le GFN traité les données sont ajoutées à team-vfm.

En mars de cette année, la collecte de données vidéo du projet Cosmo a franchi une étape importante : Nvidia a réalisé 100 000 téléchargements vidéo en deux semaines.

"Les progrès sont incroyables. La question est maintenant de savoir comment obtenir un grand nombre d'URL de haute qualité", a répondu Liu dans ce message.

Fin mai, les membres de l'équipe du projet ont reçu un e-mail concernant la stratégie de données vidéo, annonçant qu'ils avaient compilé 38,5 millions d'URL de vidéos. "Selon le plan, la collection de vidéos de la semaine prochaine sera toujours axée sur les films, les images de drones, les images en perspective à la première personne et les paysages naturels", indique l'e-mail. L'e-mail comprend également un tableau montrant les types de contenu téléchargés. pourcentage.

L'e-mail a révélé des informations techniques clés, notamment quatre ensembles de données provenant des données de formation du modèle :

  • Ego-Exo4D: Un ensemble de données vidéo et de référence diversifiées, à grande échelle, multimodales et multi-vues, collectées par 740 porteurs de caméras dans 13 villes à travers le monde, capturant 1 286,3 heures de vidéo d'activités humaines qualifiées.
  • Ego4D: Il s'agit d'un ensemble de données et d'une suite de référence à grande échelle et égocentrique qui collecte plus de 3 670 heures de vidéo sur les activités de la vie quotidienne sur 74 sites dans 9 pays à travers le monde.
  • HOI4D : Ensemble de données égocentriques 4D à grande échelle avec de riches annotations pour faciliter la recherche sur les interactions homme-objet au niveau des catégories. HOI4D a été créé par des chercheurs de l'Université Tsinghua, de l'Université de Pékin et de l'Institut de recherche Qizhi de Shanghai. Il est sous licence CC BY-NC 4.0 et son utilisation commerciale est interdite.
  • GeForce Now: Données de jeu.

Dans un autre e-mail, les membres du projet Cosmos ont déclaré : « L'équipe de recherche forme actuellement un modèle d'un milliard de paramètres avec plusieurs configurations, chacune avec 16 nœuds. Il s'agit d'une étape de débogage importante avant une mise à l'échelle ultérieure. quelques semaines, puis passez à un modèle de 10 milliards de paramètres.

"Cette mise à jour est géniale !", a répondu à l'e-mail le PDG de Nvidia, Jen-Hsun Huang : "De nombreuses entreprises se sont fixées pour objectif de créer un modèle vidéo de base, et nous pouvons certainement créer un pipeline accéléré."

En juin, les membres de l’équipe du projet ont discuté des types de contenu du modèle qui seraient les plus utiles pour les produits Nvidia dans le contexte du maintien de la compétitivité dans le secteur de l’IA.

"NVIDIA propose la robotique, la conduite autonome, Omniverse et Avatar que la plupart des sociétés de contenu n'ont pas. Pour maximiser la croissance de l'entreprise, les données que nous organisons doivent être bien applicables à ces applications 'tueuses'", a déclaré le membre du Cosmos Project.

Il ne fait aucun doute que le modèle développé par l’équipe Cosmos est destiné à un usage commercial dans ses nombreux produits.

Jusqu'à ce qu'une législation obligeant ces entreprises à divulguer entièrement leurs données de formation soit promulguée, elles continueront à exploiter les zones grises juridiques pour récupérer les données protégées par le droit d'auteur. Sans fuites d’e-mails internes ou de conversations intranet, personne ne saurait ce qui se passe dans les coulisses, et un tel modèle pourrait rapporter des milliards de dollars à des géants de la technologie comme Nvidia, Runway ou OpenAI.

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/