nouvelles

La version NVIDIA de Sora a été exposée à la capture illégale d'une grande quantité de données, et le responsable a exprimé son mécontentement

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao vient du temple Aofei
Qubits | Compte public QbitAI

Version NVIDIA de Sora exposée——

Nom de code Cosmos, le vice-président de la recherche Liu Mingyu en est le responsable.

Cependant, avec la fuite de plusieurs documents internes, ils ont également été exposés à une saisie illégale de données.



(En effet, ce n'est pas qu'une ou deux fois...)

Les employés sont tacitement autorisés à explorer quotidiennement toutes les données non autorisées et non consensuelles sur Internet, telles que YouTube, Netflix et d’autres plateformes.

Prises ensemble, les données visuelles capturées chaque jour représentent presque autant de données qu’une personne peut percevoir en 80 ans.

En conséquence, Nvidia a répondu : Ce que nous faisons,Totalement légal !



Version Nvidia de Sora exposée : nom de code Cosmos

Selon des documents divulgués obtenus par 404Media, NVIDIA capture chaque jour des données illégales pour former de nouveaux modèles.

L'objectif de Cosmos est de créer un modèle de base vidéo de pointe. Selon des courriels divulgués, le modèle intègre des simulations de transmission de la lumière, de physique et d'intelligence pour débloquer diverses applications en aval.

Par exemple, il est utilisé dans le générateur de monde Omniverse 3D, le système de voiture autonome et les produits humains numériques.

Ming-Yu Liu, vice-président de la recherche chez NVIDIA, est le chef du projet Cosmos.



Il est également membre de l'IEEE. Il a dirigé l'équipe de recherche NVIDIA Deep Imagination et lancé des produits tels que NVIDIA Picasso [Edify], NVIDIA Canvas [GauGAN] et NVIDIA Maxine [LivePortrait].

Un précédent e-mail de mai indiquait :

Nous finalisons le pipeline de données v1 et sécurisons les ressources informatiques nécessaires pour construire une usine de données vidéo capable de générer l'équivalent quotidien d'une vie d'expérience visuelle humaine de données d'entraînement.

Cette image montre Francesco Ferroni, scientifique en chef de NVIDIA, donnant un lien vers un tableau qui rassemble divers ensembles de données vidéo, notamment MovieNet (une base de données de 60 000 bandes-annonces de films), WebVid, InternVid-10M et plusieurs ensembles de données de séquences de jeux vidéo capturées en interne.

Désormais, selon un ancien employé, il sera demandé aux employés de récupérer des données provenant de sources telles que YouTube et Netflix.

Ils utiliseront un téléchargeur de vidéos YouTube open source appelé yt-dlp, qui utilise une machine virtuelle pour actualiser les adresses IP afin d'éviter d'être bloqué par YouTube.

À cette fin, Nvidia a répondu à 404 Media :

Nous respectons les droits de tous les créateurs de contenu et pensons que nos modèles et travaux de recherche sont pleinement conformes à la lettre et à l'esprit de la loi sur le droit d'auteur.
La loi sur le droit d'auteur protège certaines expressions mais pas les faits, les idées, les données ou les informations. Chacun est libre d’obtenir des faits, des idées, des données ou des informations auprès d’autres sources et de les utiliser pour exprimer ses propres opinions. L'utilisation équitable protège également la capacité d'utiliser l'œuvre à des fins de transformation, telles que la formation de modèles. "

Google a lancé un lien vers 404 Media En avril de cette année, le PDG de YouTube a déclaré que si OpenAI utilisait des vidéos YouTube pour former Sora.violation flagranteConditions d'utilisation de YouTube.

Netflix a déclaré qu'il n'avait pas d'accord d'extraction de contenu avec Nvidia et que les conditions d'utilisation de la plateforme n'autorisaient pas le scraping de contenu.

Il est intéressant de noter que le même jour, les blogueurs YouTube intentent un recours collectif contre OpenAI, accusant l'entreprise d'utiliser des millions d'enregistrements vidéo YouTube pour entraîner ses modèles d'IA générative sans en informer ni indemniser les propriétaires des vidéos.

Il n’est pas rare que ces grandes entreprises soient déjà exposées à la saisie illégale de données.

Mais il faut dire que ce genre de données brutes est vraiment utile...

Auparavant, NVIDIA utilisait également des vidéos de jeux pour améliorer la qualité des données d'entraînement.

L'étude récemment parue en couverture de Nature montre que ce grand modèle formé avec des données Internet originales a un avantage de premier arrivé, a la meilleure qualité de données et les performances du modèle correspondant sont également les meilleures.

Plus tard, à mesure que les données de l’IA devenaient de plus en plus abondantes, il était facile pour les grands modèles de s’effondrer.

Déchets entrants, déchets sortants

Que pensez-vous de cette affaire ?

Liens de référence :
[1]https://techcrunch.com/2024/08/05/youtuber-files-class-action-suit-over-openais-scrape-of-creators-transcripts/
[2]https://www.gamedeveloper.com/business/report-nvidia-a-utilisé-des-images-de-jeux-vidéo-grattées-pour-former-des-produits-d'intelligence artificielle

[3]https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/
[4]https://pivot-to-ai.com/2024/08/05/nvidia-caught-ingesting-as-much-of-youtube-as-possible/