Nachricht

Die NVIDIA-Version von Sora war der illegalen Erfassung großer Datenmengen ausgesetzt, und der Beamte äußerte seine Unzufriedenheit

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

NVIDIA-Version von Sora enthüllt——

Der Vizepräsident für Forschung Liu Mingyu mit dem Codenamen Cosmos fungiert als Verantwortlicher.

Durch das Durchsickern mehrerer interner Dokumente waren sie jedoch auch der illegalen Datenbeschaffung ausgesetzt.



(In der Tat passiert das nicht nur ein- oder zweimal...)

Den Mitarbeitern ist es stillschweigend gestattet, jeden Tag alle nicht autorisierten und nicht einvernehmlichen Daten im Internet zu crawlen, beispielsweise auf YouTube, Netflix und anderen Plattformen.

Zusammengenommen sind die täglich erfassten visuellen Daten fast so groß, wie ein Mensch in 80 Jahren wahrnehmen kann.

Daraufhin antwortete Nvidia: Was wir tun,Völlig legal!



Nvidia-Version von Sora enthüllt: Codename Cosmos

Laut durchgesickerten Dokumenten von 404Media erfasst NVIDIA täglich illegale Daten, um neue Modelle zu trainieren.

Das Ziel von Cosmos ist der Aufbau eines hochmodernen Video-Basismodells. Durchgesickerten E-Mails zufolge integriert das Modell Simulationen der Lichtübertragung, der Physik und der Intelligenz, um verschiedene nachgelagerte Anwendungen freizuschalten.

Es wird beispielsweise im Omniverse 3D-Weltgenerator, im selbstfahrenden Autosystem und in digitalen menschlichen Produkten verwendet.

Ming-Yu Liu, Vizepräsident für Forschung bei NVIDIA, fungiert als Projektleiter von Cosmos.



Er ist außerdem IEEE Fellow. Er leitete das NVIDIA Deep Imagination-Forschungsteam und brachte Produkte wie NVIDIA Picasso [Edify], NVIDIA Canvas [GauGAN] und NVIDIA Maxine [LivePortrait] auf den Markt.

In einer früheren E-Mail von May hieß es:

Wir stellen die v1-Datenpipeline fertig und sichern die notwendigen Rechenressourcen, um eine Videodatenfabrik aufzubauen, die täglich das Äquivalent der menschlichen visuellen Erfahrung von Trainingsdaten im Laufe eines Lebens generieren kann.

Dieses Bild zeigt NVIDIA-Chefwissenschaftler Francesco Ferroni, der einen Link zu einer Tabelle gibt, die verschiedene Videodatensätze zusammenfasst, darunter MovieNet (eine Datenbank mit 60.000 Filmtrailern), WebVid, InternVid-10M und mehrere intern erfasste Spielfilmmaterialdatensätze.

Laut einem ehemaligen Mitarbeiter werden die Mitarbeiter nun aufgefordert, Daten aus Quellen wie YouTube und Netflix zu extrahieren.

Sie werden einen Open-Source-YouTube-Video-Downloader namens yt-dlp verwenden, der eine virtuelle Maschine verwendet, um IP-Adressen zu aktualisieren, um eine Blockierung durch YouTube zu vermeiden.

Zu diesem Zweck antwortete Nvidia auf 404 Media:

Wir respektieren die Rechte aller Inhaltsersteller und glauben, dass unsere Modelle und Forschungsarbeiten vollständig dem Wortlaut und Geist des Urheberrechts entsprechen.
Das Urheberrecht schützt bestimmte Ausdrucksformen, nicht jedoch Fakten, Ideen, Daten oder Informationen. Es steht jedem frei, Fakten, Ideen, Daten oder Informationen aus anderen Quellen zu beziehen und diese zur Äußerung seiner eigenen Meinung zu nutzen. Fair Use schützt auch die Fähigkeit, die Arbeit für transformative Zwecke zu nutzen, beispielsweise für die Modellschulung. "

Google hat im April dieses Jahres einen Link zu 404 Media veröffentlicht, wenn OpenAI YouTube-Videos verwendet, um Sora zu trainierenklarer VerstoßYouTube-Nutzungsbedingungen.

Netflix gab an, dass es keine Vereinbarung zur Inhaltsextraktion mit Nvidia gebe und dass die Nutzungsbedingungen der Plattform das Scraping von Inhalten nicht zuließen.

Interessanterweise beantragen YouTube-Blogger am selben Tag eine Sammelklage gegen OpenAI und werfen dem Unternehmen vor, Millionen von YouTube-Videoaufzeichnungen zum Trainieren seiner generativen KI-Modelle zu verwenden, ohne die Eigentümer der Videos zu benachrichtigen oder zu entschädigen.

Es ist nicht ungewöhnlich, dass diese großen Unternehmen bereits zuvor dem illegalen Zugriff auf Daten ausgesetzt waren.

Aber es muss gesagt werden, dass diese Art von Rohdaten wirklich nützlich ist ...

Zuvor nutzte NVIDIA auch Spielevideos, um die Qualität der Trainingsdaten zu verbessern.

Die kürzlich auf dem Cover von Nature erschienene Studie zeigt, dass dieses mit Original-Internetdaten trainierte große Modell einen First-Mover-Vorteil hat, die beste Datenqualität aufweist und auch die entsprechende Modellleistung am besten ist.

Später, als die KI-Daten immer umfangreicher wurden, konnten große Modelle leicht zusammenbrechen.

Müll rein, Müll raus

Was denken Sie über diese Angelegenheit?

Referenzlinks:
[1]https://techcrunch.com/2024/08/05/youtuber-files-class-action-suit-over-openais-scrape-of-creators-transcripts/
[2]https://www.gamedeveloper.com/business/report-nvidia-used-scraped-video-game-footage-to-train-ai-products

[3]https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/
[4]https://pivot-to-ai.com/2024/08/05/nvidia-caught-ingesting-as-much-of-youtube-as-possible/