Nachricht

Nvidias mysteriöses Videobasismodell „Cosmos“ wird entlarvt und alle Daten werden gestohlen

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Maschinenherzbericht

Redaktion von Machine Heart

Für dieses Videomodell durchsucht NVIDIA jeden Tag hektisch das Äquivalent von 80 Jahren Videodaten.

Heute explodierte auf Reddit eine Nachricht über Nvidias Entscheidung, die Produktion von Videomodellen einzustellen.

Die Quelle der Nachrichten stammt von den ausländischen Medien 404 Media sowie den erhaltenen E-Mails und Dokumenten. Nvidia greift auf Videos von YouTube und mehreren anderen Quellen zurück, um Trainingsdaten für seine KI-Produkte zu sammeln.



Interne Gespräche bei Nvidia, die von 404 Media überprüft wurden, zeigen, dass Manager ihnen mitteilten, dass sie die Zustimmung von höchster Stelle hätten, wenn an dem Projekt beteiligte Mitarbeiter Bedenken hinsichtlich möglicher rechtlicher Probleme äußerten, die sich aus der Verwendung von „kommerziell verbotenen Forschungsdatensätzen“ und „YouTube-Videos“ ergeben das Unternehmen, das genutzt werden kann.

Ein anonymer ehemaliger Nvidia-Mitarbeiter sagte, die Mitarbeiter seien gebeten worden, Videos von Netflix, YouTube und anderen Quellen zu extrahieren, um KI-Modelle für den Omniverse 3D-Weltgenerator, selbstfahrende Autosysteme und „Digital Human“-Produkte zu trainieren.

Das Projekt, das intern den Namen Cosmos trägt (sich jedoch vom bestehenden Deep-Learning-Produkt Cosmos des Unternehmens unterscheidet), wurde noch nicht der Öffentlichkeit zugänglich gemacht. Laut einer E-Mail, die von der Projektleitung an die Mitarbeiter gesendet wurde, besteht das Ziel von Cosmos darin, ein hochmodernes Videoinfrastrukturmodell aufzubauen, das „Lichttransport, Physik und intelligente Simulation an einem Ort vereint, um die verschiedenen nachgelagerten Aspekte zu erschließen, die für entscheidend sind.“ Nvidia.“-Anwendung.“

Um Schulungsvideos zu sammeln, verwendeten NVIDIA-Mitarbeiter einen Open-Source-YouTube-Video-Downloader namens „yt-dlp“. Sie versuchen, vollständige Videos von verschiedenen Quellen wie Netflix herunterzuladen, konzentrieren sich jedoch hauptsächlich auf YouTube-Videos. Von 404 Media überprüfte E-Mails zeigen, dass der Projektmanager sich dafür entschieden hat, 20 bis 30 virtuelle Maschinen in Amazon Web Services zu verwenden, um täglich Videos aus 80 Jahren herunterzuladen.

„Wir vervollständigen die v1-Datenpipeline und sichern die notwendigen Rechenressourcen, um eine Videodatenfabrik aufzubauen, die tägliche Trainingsdaten generieren kann, die einem lebenslangen menschlichen visuellen Erlebnis entsprechen.“

Auf die Frage nach Nvidias Verwendung von YouTube-Videos als Trainingsdaten für seine Modelle antwortete ein Google-Sprecher gegenüber 404 Media, dass die „bisherige Position des Unternehmens weiterhin gültig“ sei. Zuvor hatte YouTube-CEO Neal Mohan gesagt, dass es einen „klaren Verstoß“ gegen die Nutzungsbedingungen von YouTube darstellen würde, wenn OpenAI YouTube-Videos zur Verbesserung seines KI-Videogenerators Sora verwenden würde.

Ebenso sagte ein Netflix-Sprecher gegenüber 404 Media, dass das Unternehmen keine Vereinbarung mit Nvidia über den Erwerb von Inhalten habe und dass die Nutzungsbedingungen der Plattform das Scraping von Inhalten nicht erlauben.

Nvidia scheint das jedoch egal zu sein. Rechtliche Bedenken der am Projekt beteiligten Mitarbeiter wurden von den Projektmanagern oft zurückgewiesen, indem sie sagten, die Entscheidung, das Video ohne Erlaubnis zu entfernen, sei eine „Entscheidung der Geschäftsleitung“, über die sie sich keine Sorgen machen müssten und die eine faire und ethische Nutzung von Urheberrechten darstelle Inhalt und die Frage der akademischen, nichtkommerziellen Nutzung des Datensatzes gelten als „offene rechtliche Fragen“, die sie in Zukunft klären werden.

Der Anfang und das Ende des NVIDIA-Videomodellprojekts

Ähnlich wie andere Technologieriesen stellt Nvidia akademische Forschungstalente ein, um akademische Ergebnisse zu veröffentlichen. Aus internen E-Mails von 404 Media geht jedoch hervor, dass Cosmos offensichtlich für kommerzielle Zwecke genutzt wird.

Im März dieses Jahres postete ein NVIDIA-Forscher auf Slack und schlug vor, dass die Verwendung von Hollywood-Filmen wie „Avatar“ oder „Herr der Ringe“ zum Trainieren von OpenAI Sora möglicherweise effektiver sei.

Anschließend wurde sein Vorschlag innerhalb des Unternehmens anerkannt, er fügte jedoch auch hinzu, dass Hollywood besonders sensibel auf die Möglichkeit reagiert, dass KI Urheberrechte verletzt. Im Juli 2023 kündigte SAG-AFTRA, eine der drei größten Gewerkschaften in Hollywood mit 160.000 Mitgliedern, einen Streik gegen generative KI-Produkte wie ChatGPT und Stable Diffusion an. Zuvor hatte die Writers Guild of America gestreikt mehr als 70 Tage. Es gibt eine Situation in Stable Diffusion. Auch wenn Sie nicht das entsprechende Eingabeaufforderungswort und eine vage Beschreibung wie „Klempner im Animationsstil“ eingeben, generiert Stable Diffusion direkt das klassische Bild von Mario.

Unter diesem Beitrag antwortete ein Mitarbeiter namens „Liu“ (nämlich Ming-Yu Liu (Liu Mingyu), Vizepräsident für Forschung bei NVIDIA): „Wenn das Papier nicht öffentlich veröffentlicht wird, wird es die oben genannten negativen Probleme nicht verursachen. Das sollten wir tun.“ Verwenden Sie zunächst herunterladbare Videos zum Experimentieren.



Anschließend veröffentlichte ein anderer NVIDIA-Forscher einen Beitrag im Intranet. Er fand eine Liste von Dateien, die zuerst zum Trainieren von Videomodellen heruntergeladen werden sollten. Dem von NVIDIA verwendeten HD-VILA-100M-Datensatz fehlten jedoch etwa 2,3 Millionen Originaldateien. Diese ständig wachsende Liste enthält auch Originalvideos einiger bekannter YouTuber, wie zum Beispiel Marques Brownlee (MKBHD), ein Blogger für digitale Rezensionen, der in Nordamerika einen Ruf wie „Hallo zusammen, ich bin Classmate He“ hat.

Aufgrund des Urheberrechtsschutzes enthalten allgemeine Videodatensätze häufig URL-Links oder YouTube-IDs. Sobald der Autor das Originalvideo löscht, werden diese Inhalte nicht mehr in den Datensatz aufgenommen, es sei denn, der Videoautor stimmt der Aufbewahrung und Verwendung der Inhalte ausdrücklich zu . .

Obwohl Microsoft in seiner Nutzungserklärung des HD-VILA-100M-Datensatzes ausdrücklich jede kommerzielle Nutzung verbietet, schien es dem Nvidia-Mitarbeiter, der die Nachricht gepostet hat, egal zu sein. Er postete schnell den entsprechenden YouTube-Link und teilte ihn mit seinen Kollegen Wir haben eine Lösung besprochen, um mithilfe virtueller AWS-Maschinen IPs zu ändern und so den Anti-Crawler-Mechanismus von YouTube zu umgehen.

Darüber hinaus nutzten NVIDIA-Mitarbeiter auch YouTube-8M, einen von Google veröffentlichten umfangreichen Datensatz zum Videoverständnis. Anstatt den Datensatz von Microsoft selbst zu ergänzen, haben sie einen „Deal“ mit YouTube und Google geschlossen. YouTubes derzeitiger Mutterkonzern Nvidia kaufte 800 Videos zum Preis von 0,00625 US-Dollar (ca. 4 Cent) pro Video und wird heruntergeladen über Google Cloud. Unabhängig von der Frage des Urheberrechtsverkaufs mag Google denken, dass es die Werbegebühren für diese Videos zurückerhalten hat, aber Nvidia hat bereits einige Einschränkungen bei der Cloud-Bandbreite. Durch das Herunterladen auf Google Cloud kann eine stabilere und vorhersehbarere Verbindung erzielt werden. Daher scheint dieser „Deal“ für Nvidia von Vorteil zu sein, egal wie man es betrachtet.

Noch überraschender ist die Frage eines Nvidia-Mitarbeiters im Intranet: „Ist es für uns sinnvoll, solche YouTube-Videos herunterzuladen?“

„Dies ist eine Entscheidung auf hoher Ebene. Wir haben die volle Zustimmung, alle Daten zu verwenden.“ Dies war die Antwort, die er erhielt.

Zu den für diese Entscheidung zulässigen Daten zählen auch Videoproduktionen auf Netflix. Die Daten von Netflix enthalten viele hochwertige Gesichtsdaten. Nach der Genehmigung bat jemand Kollegen im Firmenintranet, die Erfahrung im „Aufbau großer Datensätze“ in anderen großen Unternehmen hatten, um Hilfe.

Gleichzeitig beschäftigte sich das Cosmos-Team auch mit der Frage, wie Spielmaterial effektiv zu den Trainingsdaten hinzugefügt werden kann. Jim Fan, leitender Forschungswissenschaftler bei NVIDIA, stieß bei der Aufnahme von Spielmaterial in Echtzeit auch auf „regulatorische“ Hindernisse.

Jim Fan hat gepostet:

Update: Ich habe mich mit den Leuten von GeForce Now (GFN) getroffen und mit ihnen an Plänen gearbeitet. Wir werden eng mit GFN und verwandten Ingenieurteams zusammenarbeiten, um Methoden zur Erfassung von Echtzeit-Spieldaten zu entwickeln, den Umfang der Pipeline zu erweitern und die Daten für das Training zu verarbeiten. Hochwertige Gameplay-Videos werden eine sehr nützliche Ergänzung zu „unserem Sora“ sein... Da die Ausrüstung zur Aufnahme von Live-Gameplay-Videos und -Aktionen noch nicht verfügbar ist, wurden noch keine Statistiken erstellt, aber wir werden die GFN bereinigen und verarbeiten Daten werden zu team-vfm hinzugefügt.

Im März dieses Jahres erreichte die Videodatenerfassung von Project Cosmo einen Meilenstein: Nvidia schloss in zwei Wochen 100.000 Video-Downloads ab.

„Der Fortschritt ist erstaunlich. Die Frage ist nun, wie wir eine große Anzahl hochwertiger URLs erhalten können.“ antwortete Liu in diesem Beitrag.

Ende Mai erhielten die Mitglieder des Projektteams eine E-Mail bezüglich der Videodatenstrategie und gaben bekannt, dass sie 38,5 Millionen Video-URLs zusammengestellt hatten. „Dem Plan zufolge wird der Schwerpunkt der Videosammlung nächste Woche weiterhin auf Filmen, Drohnenaufnahmen, Aufnahmen aus der Ich-Perspektive und Naturlandschaften liegen“, heißt es in der E-Mail. Die E-Mail enthielt auch eine Tabelle mit den heruntergeladenen Inhaltstypen. Prozentsatz.

Die E-Mail enthüllte einige wichtige technische Informationen, darunter vier Datensätze aus den Modelltrainingsdaten:

  • Ego-Exo4D: Ein vielfältiger, umfangreicher, multimodaler, mehransichtiger Videodatensatz und Benchmark, der von 740 Kameraträgern in 13 Städten auf der ganzen Welt gesammelt wurde und 1286,3 Stunden Video von qualifizierten menschlichen Aktivitäten erfasst.
  • Ego4D: Hierbei handelt es sich um eine groß angelegte, egozentrische Datensatz- und Benchmark-Suite, die über 3.670 Stunden Videos über Alltagsaktivitäten an 74 Standorten in 9 Ländern auf der ganzen Welt sammelt.
  • HOI4D : Umfangreicher egozentrischer 4D-Datensatz mit umfangreichen Anmerkungen zur Erleichterung der Mensch-Objekt-Interaktionsforschung auf Kategorieebene. HOI4D wurde von Forschern der Tsinghua-Universität, der Peking-Universität und des Shanghai Qizhi Research Institute erstellt. Es ist unter CC BY-NC 4.0 lizenziert und die kommerzielle Nutzung ist verboten.
  • GeForce Now: Spieldaten.

In einer anderen E-Mail sagten Mitglieder des Cosmos-Projekts: „Das Forschungsteam trainiert derzeit ein 1-Milliarde-Parameter-Modell mit mehreren Konfigurationen mit jeweils 16 Knoten. Dies ist ein wichtiger Debugging-Schritt vor der weiteren Skalierung. . Wir planen, innerhalb von a Schlussfolgerungen zu ziehen.“ einige Wochen und skalieren dann auf ein 10-Milliarden-Parametermodell.

„Dieses Update ist großartig!“ Nvidia-CEO Jen-Hsun Huang antwortete auf die E-Mail. Er sagte: „Viele Unternehmen haben sich zum Ziel gesetzt, ein grundlegendes Videomodell zu entwickeln, und wir können definitiv eine beschleunigte Pipeline aufbauen.“

Im Juni diskutierten die Mitglieder des Projektteams, welche Arten von Inhalten im Modell für Nvidias Produkte im Hinblick auf die Aufrechterhaltung der Wettbewerbsfähigkeit in der KI-Branche am nützlichsten wären.

„NVIDIA verfügt über Robotik, autonomes Fahren, Omniverse und Avatar, über die die meisten Content-Unternehmen nicht verfügen. Um das Wachstum des Unternehmens zu maximieren, müssen die von uns organisierten Daten gut auf diese ‚Killer‘-Anwendungen anwendbar sein“, sagte das Mitglied des Cosmos Project.

Es besteht kein Zweifel, dass das Modell, das das Cosmos-Team entwickelt, für den kommerziellen Einsatz in seinen zahlreichen Produkten gedacht ist.

Bis ein Gesetz erlassen wird, das diese Unternehmen zur vollständigen Offenlegung ihrer Trainingsdaten verpflichtet, werden sie weiterhin rechtliche Grauzonen ausnutzen, um urheberrechtlich geschützte Daten abzugreifen. Ohne das Durchsickern interner E-Mails oder Intranet-Gespräche wüsste niemand, was sich hinter den Kulissen abspielt, und ein solches Modell könnte Technologiegiganten wie Nvidia, Runway oder OpenAI Milliarden von Dollar einbringen.

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/