Nachricht

Nvidia war Opfer von Datendiebstahl und durchsuchte täglich mehr als 80 Jahre Videodaten, und auch der akademische Datensatz der Peking-Universität war betroffen

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

NVIDIA scheint in letzter Zeit in eine schwierige Phase eingetreten zu sein.
Nachdem bekannt wurde, dass sich die Massenproduktion seines leistungsstärksten KI-Chips verzögerte und sein Marktwert um mehr als 300 Milliarden US-Dollar schrumpfte, wurde Nvidia von 404 Media entlarvt, weil das Unternehmen ohne Genehmigung Videoinhalte von Plattformen wie YouTube und Netflix abgegriffen hatte, um es zu trainieren . KI-Videomodell, das noch nicht der Öffentlichkeit zugänglich gemacht wurde.
Interne E-Mails und Slack-Chats zeigen, dass Nvidia-Mitarbeiter zwar Fragen zur Rechtmäßigkeit und Ethik der Nutzung dieser Datensätze gestellt haben, die Unternehmensleitung jedoch sagte, diese Maßnahmen seien von der Geschäftsleitung genehmigt worden und argumentierte, dass ihre Maßnahmen mit dem Urheberrecht im Einklang stünden.
Erwähnenswert ist, dass NVIDIA in internen Diskussionen Ende Februar mehrere verwendete Datensätze erwähnte, darunter HD-VG-130M.
Bei Letzterem handelt es sich um einen Datensatz von 130 Millionen YouTube-Videos, der von Forschern der Peking-Universität erstellt wurde, und in der Nutzungslizenz heißt es ausdrücklich, dass er auf akademische Forschung beschränkt ist.
Der Ansatz von Nvidia ähnelt eher einem Mikrokosmos der meisten KI-Unternehmen von heute.
Wenn Benutzer als „Datengeldautomaten“ betrachtet werden, ist es für die Außenwelt wirklich schwierig zu erkennen, ob Ihre und meine Arbeit zur Nahrung für die KI-Ausbildung geworden ist, es sei denn, Insider enthüllen dies.
Kurz gesagt, der Mensch ist immer noch der Verbraucher an der Spitze der Nahrungskette, aber wir werden unweigerlich Mitglied der Lieferkette der KI-Entwicklung.
Das Folgende ist der Originaltext der Nachrichten der ausländischen Medien 404 Media, verfasst von GPT-4o Übersetzung, viel Spaß damit~
Füttern Sie das Modell mit YouTube-Videos und laden Sie jeden Tag das Äquivalent von Videos aus 80 Jahren herunter
Das zeigen interne Slack-Chats, E-Mails und Dokumente, die 404 Media erhalten hat Nvidia sammelt Videos von YouTube und mehreren anderen Quellen, um Trainingsdaten für seine KI-Produkte zusammenzustellen. Auf die Frage nach den rechtlichen und ethischen Fragen der Verwendung urheberrechtlich geschützter Inhalte zum Trainieren von KI-Modellen antwortete Nvidia, dass sein Ansatz „voll und ganz dem Buchstaben und Geist des Urheberrechts entspricht“.
Interne Gespräche bei Nvidia, die von 404 Media überprüft wurden, zeigen, dass Manager ihnen, wenn sie Fragen zu möglichen rechtlichen Auswirkungen der Verwendung von Datensätzen und YouTube-Videos, die von Akademikern für Forschungszwecke zusammengestellt wurden, stellten, mitteilten, dass Vorgesetzte des Unternehmens ihrer Verwendung zugestimmt hätten.
Ein ehemaliger Nvidia-Mitarbeiter (dem von 404 Media Anonymität gewährt wurde, um interne Nvidia-Prozesse zu besprechen) sagte, die Mitarbeiter seien gebeten worden, Videos von Netflix, YouTube und anderen Quellen zu extrahieren, um Nvidias Omniverse 3D-Weltgenerator zu trainieren.AutopilotAutomobilsysteme und "digitaler Mann„KI-Modell des Produkts.
Das intern als Cosmos bekannte Projekt (das sich jedoch vom bestehenden Deep-Learning-Produkt Cosmos des Unternehmens unterscheidet) wurde noch nicht öffentlich veröffentlicht.
Aus einer E-Mail des Projektleiters geht hervor, dass Cosmos ein hochmodernes Videoinfrastrukturmodell aufbauen will, das „Simulationen des Lichttransports, der Physik und der Intelligenz an einem Ort zusammenführt, um eine Vielzahl von nachgelagerten Anwendungen zu entwickeln, die für Nvidia von entscheidender Bedeutung sind.“
Eine von 404 Media erhaltene E-Mail zeigt ein Diagramm, das zeigt, wie das Cosmos-Modell auf verschiedene Nvidia-Produkte anwendbar ist.
Slack-Nachrichten in dem vom Unternehmen für das Projekt eingerichteten Kanal zeigen, dass Mitarbeiter einen Open-Source-YouTube-Video-Downloader namens yt-dlp in Kombination mit einer virtuellen Maschine verwenden, um die IP-Adresse zu aktualisieren, um eine Blockierung durch YouTube zu vermeiden.
Laut der Quelle versuchten sie, komplette Videos von mehreren Quellen herunterzuladen, darunter Netflix, konzentrierten sich jedoch hauptsächlich auf YouTube-Videos.
Von 404 Media überprüfte E-Mails zeigen, dass Projektmanager über die Verwendung von 20 bis 30 virtuellen Amazon Web Services-Maschinen diskutieren, um Videos im Wert von 80 Jahren pro Tag herunterzuladen.
„Wir stellen die v1-Datenpipeline fertig und sichern ausreichend Rechenressourcen, um eine Videodatenfabrik aufzubauen, die jeden Tag das Äquivalent von 100 % der Videodaten generieren kann“, sagte Mingyu Liu, Nvidias Vizepräsident für Forschung und Leiter des Cosmos-Projekts in einer E-Mail im Mai.
In Gesprächen und Anweisungen innerhalb von Nvidia diskutieren Mitarbeiter über die rechtlichen und ethischen Überlegungen des Unternehmens bei der Entwicklung der Chips und APIs, die den Aufstieg der generativen KI vorangetrieben und das Unternehmen zu einem der wertvollsten börsennotierten Unternehmen der Welt gemacht haben.
Außerdem werden die größten Unternehmen der Branche wie Runway und hervorgehoben OpenAIEs besteht ein unbefriedigter Bedarf an Inhalten als Daten für das Training von KI-Modellen.
Ein Sprecher von Nvidia sagte in einer E-Mail an 404 Media:
Wir respektieren die Rechte aller Inhaltsersteller und sind der festen Überzeugung, dass unsere Modelle und Forschungsarbeiten vollständig dem Wortlaut und Geist des Urheberrechts entsprechen. Das Urheberrecht schützt bestimmte Äußerungen, nicht jedoch Fakten, Meinungen, Daten oder Informationen. Jeder kann Fakten, Ideen, Daten oder Informationen aus anderen Quellen lernen und diese nutzen, um seinen eigenen Ausdruck zu schaffen. Fair Use schützt auch das Recht, das Werk für transformative Zwecke zu nutzen, beispielsweise für die Modellschulung.
Auf die Frage nach Nvidias Verwendung von YouTube-Videos als Trainingsdaten für seine Modelle antwortete ein Google-Sprecher gegenüber 404 Media, dass die „früheren Kommentare des Unternehmens weiterhin gelten“.
Unter anderem sagte YouTube-CEO Neal Mohan, dass die Verwendung von YouTube-Videos zur Optimierung seines KI-Videogenerators Sora durch OpenAI eindeutig gegen die Nutzungsbedingungen von YouTube verstößt.
Ein Sprecher von Netflix sagte gegenüber 404 Media, dass Netflix keine Vereinbarung mit Nvidia über den Erwerb von Inhalten habe und dass die Nutzungsbedingungen der Plattform kein Scraping von Daten erlauben.
Fragen zu den rechtlichen Fragen, die von am Projekt beteiligten Mitarbeitern aufgeworfen wurden, wurden von den Projektmanagern im Allgemeinen zurückgewiesen. Sie sagten, die Entscheidung, das Video ohne Erlaubnis zu entfernen, sei eine „Entscheidung auf hoher Ebene“ gewesen und die Mitarbeiter hätten sich keine Sorgen darüber machen müssen, was einen Verstoß darstelle Urheberrechtlich geschützte Inhalte und das Thema der fairen und ethischen Nutzung von Datensätzen für akademische, nichtkommerzielle Zwecke gelten als „ungelöste rechtliche Frage“, die sie in Zukunft lösen werden.
Unsere Untersuchung verdeutlicht die „Nicht fragen“-Haltung dieser Technologieunternehmen, wenn es darum geht, große Mengen urheberrechtlich geschützter Inhalte in Datensätze zu schlürfen, die zum Trainieren einiger der wertvollsten KI-Modelle der Welt verwendet werden.
Führungskräfte von Nvidia vermuteten, dass auch der akademische Datensatz der Peking-Universität missbraucht wurde
Im Februar 2024 schrieb Francesco Ferroni, Chefwissenschaftler bei Nvidia, im Nvidia-Slack-Kanal #cosmos-dataset-creation:
„Hallo zusammen, @Sanja Fidler erwähnte mir gegenüber eine Initiative zur Aggregation einer großen Anzahl kuratierter Videodatensätze für die generative Modellierung. Wir dachten, dass es sehr sinnvoll ist, mit der Aggregation aller intern verfügbaren (öffentlichen oder intern heruntergeladenen) Videodatensätze zu beginnen, um Duplikate zu vermeiden. ”
(Anmerkung: Sanja Fidler ist Nvidias Vizepräsidentin für KI-Forschung.)
Ferroni verlinkte dann eine Tabelle mit Links zu Datensätzen, darunter MovieNet, eine Datenbank mit 60.000 Filmtrailern, und WebVid, ein aus Archivbildern auf Github zusammengestellter Videodatensatz, der später von Shutterstock nach Erhalt einer Benachrichtigung gelöscht wurde, InternVid -10M (ein Datensatz mit 10 Millionen YouTube-Video-IDs auf Github) und mehrere Datensätze mit intern erfasstem Videospielmaterial. 404 Media hat die Namen von Nachwuchskräften aus Screenshots von Slack-Gesprächen entfernt.
Wir haben die Namen mehrerer an dem Projekt beteiligter leitender Ingenieure und Führungskräfte aufgenommen, da sie in der Öffentlichkeit als Führungskräfte der KI-Branche bekannt sind.
Die von Ferroni verlinkte Tabelle zeigt die im Projekt verwendeten Datensätze
In einer Folgediskussion im Februar sprachen die Ingenieure über die von ihnen erfassten Datensätze, darunter HD-VG-130M, einen Satz von 130 Millionen YouTube-Videos. Der Datensatz wurde von Forschern der Peking-Universität in China erstellt und laut Nutzungslizenz darf er nur für akademische Zwecke verwendet werden.
„Durch das Herunterladen oder Verwenden der Daten verstehen Sie alle Bedingungen der folgenden Vereinbarung, erkennen sie an und stimmen ihnen zu“, heißt es auf der Github-Seite für den Datensatz.
Auf der Seite wird betont: „Nur für akademische Zwecke. Alle Inhalte im HD-VG-130M-Datensatz sind nur für akademische Forschungszwecke bestimmt. Sie erklären sich damit einverstanden, nicht zu kopieren, zu handeln oder für kommerzielle Zwecke zu verwenden. Die Verbreitung ist untersagt. Respektieren Sie die Privatsphäre der.“ Persönliche Informationen der ursprünglichen Quelle.“ . Jegliche Verbreitung, Änderung oder sonstiges ähnliches Verhalten des Inhalts des Datensatzes ist ohne die Erlaubnis des Urheberrechtsinhabers nicht gestattet.
Während des gesamten Projekts galten von Forschern und Akademikern zusammengestellte und öffentlich zugänglich gemachte Datensätze als frei verfügbar für die Verwendung in NVIDIA-Modellen. KI-Forscher sind zunehmend besorgt über die angemessene Verwendung der von ihnen veröffentlichten Datensätze, einschließlich ethischer und rechtlicher Verwendungszwecke.
Robert Mahari von der MIT Data Provenance Initiative sagte gegenüber 404 Media, dass sie im vergangenen Jahr einen deutlichen Anstieg der Nutzung nichtkommerzieller Nutzungslizenzen für Forschungsdatensätze verzeichnet hätten, was darauf hindeutet, dass Akademiker versuchen, die kommerzielle Nutzung ihrer Arbeit einzuschränken. Datensätze, die für Forschungszwecke zusammengestellt werden, unterscheiden sich hinsichtlich ihres Zwecks erheblich von Datensätzen, die für kommerzielle Zwecke zusammengestellt werden.
„Wenn Wissenschaftler öffentliche Datensätze veröffentlichen, insbesondere aufgabenspezifische Datensätze, untersuchen wir die Daten möglicherweise nicht speziell auf Probleme wie bestimmte Arten von Voreingenommenheit oder westlichen Zentrismus. Wenn diese nicht im Mittelpunkt der Forschung stehen, wird es keine Inspektionen geben.“ sagte Mahari. „Wenn also ein Wissenschaftler in der Lizenz angibt ‚Nur für akademische Zwecke‘ oder ‚Bitte verwenden Sie diese Daten nicht auf unbeabsichtigte Weise‘, gibt es einen guten Grund, diese Vorschriften einzuhalten. Denn die Daten sind möglicherweise nicht von kommerzieller Qualität funktionieren auch in anderen Umgebungen schlecht.“
Wie viele andere Technologiegiganten beschäftigt Nvidia Mitarbeiter, die akademische Forschung betreiben und veröffentlichen. Interne Gespräche bei Nvidia, die von 404 Media überprüft wurden, deuten jedoch darauf hin, dass Cosmos darauf abzielt, die Bemühungen des Unternehmens zu unterstützen, seine kommerziellen Angebote in der hart umkämpften KI-Branche zu stärken.
Öffentlich veröffentlichte Forschungsdatensätze werden aus zwei Gründen häufig als URLs oder YouTube-IDs verbreitet: Erstens aus praktischen Gründen – das Teilen von Millionen vollständiger Video- oder Bilddateien ist zweitens aus rechtlichen und ethischen Gründen zu umständlich. Wenn beispielsweise jemand sein YouTube-Video oder seinen Tweet löscht, bleibt ohne das Wissen oder die Erlaubnis des Eigentümers keine Kopie mehr im Datensatz bestehen.
„Es ist so, als würde man rechtliche Beschränkungen umgehen, indem man den Datensatz nicht an Außenstehende weitergibt“, sagte Emily Bender, Professorin und Direktorin des Computational Linguistics Laboratory an der University of Washington, gegenüber 404 Media. „Andere können den Datensatz erstellen und ihn für ihre eigenen Zwecke verwenden.“
Diskussionsdetails offengelegt, wie stiehlt NVIDIA Daten am Rande des Gesetzes?
Im März startete ein Forscher auf Slack eine Diskussion über die Möglichkeit, dass der Sora-Videogenerator von OpenAI Hollywood-Filme wie „Avatar“ und „Herr der Ringe“ als Trainingsdaten verwenden könnte.
„Filme sind tatsächlich eine gute Datenquelle für spielähnliche 3D-Kontinuität und fiktionale Inhalte, allerdings in höherer Qualität. Die Charaktere sind vollständig CGI, und viele der Live-Action-Szenen sind jetzt auch CGI“, sagten sie. Jemand antwortete, dass das Team anhand des Filmdatensatzes des Discovery Channel trainieren sollte.
Liu Mingyu sagte: „Wir brauchen einen Freiwilligen, der alle Filme herunterlädt.“
Der Forscher, der den Film ursprünglich vorgeschlagen hatte, fügte hinzu: „Obwohl sehr klar ist, was sie tun, müssen wir sehr vorsichtig sein, dass Hollywood nicht überempfindlich gegenüber KI wird, wie es der Künstlergemeinschaft nach der Veröffentlichung von SD [Stable Diffusion] passiert ist.“ ] und jetzt in Hollywood passiert.“
Anschließend veröffentlichten sie zwei Links im Chat: einen Hollywood Reporter-Artikel darüber, dass Tyler Perry die 800-Millionen-Dollar-Studioexpansion pausierte, nachdem er Sora von OpenAI gesehen hatte, und ein Vanity Fair-Artikel über den SAG-AFTRA-Streik 2023, der zu Artikeln führt, die KI-Sprache in Studioverträgen enthalten.
Liu Mingyu betonte: „Was wir hier tun, wird keine Forschungsergebnisse veröffentlichen. Wir werden alle herunterladbaren Daten verwenden, um Experimente durchzuführen. Da wir nichts veröffentlichen, wird es keine negativen Emotionen geben, erklärten ehemalige Mitarbeiter von 404 Media.“ dass sich „veröffentlichen“ auf Forschungspublikationen bezieht.
Die Person, die „hohe Sensibilität“ geäußert hat, antwortete: „Wenn wir ein solches Projekt innerhalb des Unternehmens durchführen, sollte es umfassend kommuniziert werden, da das Zeigen ähnlicher Beispiele zu Gegenreaktionen führen kann.“
Im März schrieb Ferroni in einem anderen projektbezogenen Slack-Kanal: „Es wurden einige Dateien mit hoher Priorität gefunden, die heruntergeladen werden mussten. Es stellte sich heraus, dass 2,3 Millionen Rohvideos in unserem HDVILA-Datensatz (High-Resolution Video Language) fehlten.“ .!“ Sie bezogen sich auf Microsofts HD-VILA-100M, einen großen, hochauflösenden und vielfältigen Videosprachendatensatz. Sie schickten einen Link zu einem Google Drive-Dokument und sagten: „Hier ist der fehlende YouTube-Link“ und sagten dann: „Lass uns das in den Download-Prozess stellen!“
Die Lizenzerklärung für HD-VILA-100M lautet:
„Sie erklären sich damit einverstanden, die Daten nur zu Rechenzwecken für nicht-kommerzielle Forschung zu verwenden. Diese Einschränkung bedeutet, dass Sie sich an nicht-kommerziellen Forschungsaktivitäten beteiligen dürfen (einschließlich nicht-kommerzieller Forschung, die von einer kommerziellen Einrichtung durchgeführt oder finanziert wird), diese jedoch nicht verwenden dürfen die Daten oder Ergebnisse für jedes kommerzielle Produkt, einschließlich als Teil eines Produkts oder einer Dienstleistung, die Sie nutzen oder anderen zur Verfügung stellen (oder um ein Produkt oder eine Dienstleistung zu verbessern).
„Lassen Sie uns eine Datenbank mit heruntergeladenen URLs erstellen“, antwortete ein anderer Ingenieur. „YouTube-Videos haben eindeutige IDs. Können wir diese IDs als Referenzen verwenden (die IDs nach „?v=")? Wir werden URLs in Zukunft viele Male vergleichen und zusammenführen.“ Ferroni antwortete: „Ja, wir verwenden es jetzt Hive.“ Setup-Infrastruktur", das heißt, sie fügen es dem Projektmanagement-Tool Hive hinzu.
Das markierte Omniverse-Teammitglied antwortete: „Wir sind auf AWS und durch den Neustart einer Instanz einer [virtuellen Maschine] erhalten wir eine neue öffentliche IP, daher ist das im Moment kein Problem.“
In einer Slack-Diskussion im Kanal #cosmos-dataset-creation darüber, wie man die besten Videos findet, erwähnten Mitarbeiter gelegentlich die rechtlichen und ethischen Probleme ihrer Arbeit. Nachdem jemand im Februar die Verwendung von YouTube-8M, einem von Google zusammengestellten Forschungsdatensatz von YouTube-IDs, erwähnt hatte, fragte Ferroni: „Vielleicht können wir [YT8M] nicht für Nicht-Forschungszwecke verwenden?“
Im Artikel und auf der Projektseite von YouTube-8M werden Urheberrechtsprobleme nicht erwähnt, in dem Artikel heißt es jedoch, dass der Datensatz erstellt wurde, um die Forschung im Bereich maschinelles Lernen voranzutreiben: „Wir gehen davon aus, dass dieser Datensatz gleiche Wettbewerbsbedingungen für Forscher im akademischen Bereich bietet und die Lücke schließt.“ Wir hoffen, dass dieser Datensatz als Testumgebung für die Entwicklung neuartiger Lernalgorithmen für die Videodarstellung dienen wird, insbesondere für Methoden, die mit verrauschten oder unvollständigen Beschriftungen effektiv umgehen.“
Auf Ferronis Frage zur Verwendung für das Cosmos-Projekt antwortete ein NVIDIA-Mitarbeiter, der zuvor den ACAV100M mitentwickelt hatte:
„Ja, das Herunterladen von Daten von Google ist sehr teuer. Die Planung von 10.000 Kernen in NVIDIA war jedoch eine Herausforderung.“
Darüber hinaus führen die Bandbreitenbeschränkungen von NVIDIA in der Cloud zu erheblichen Schwankungen, die zu Problemen führen können. Durch das Herunterladen in Google Cloud erhält jede Aufgabe eine stabile Verbindung mit hoher Bandbreite zu YouTube. "
„Noch wichtiger ist, dass das Herunterladen von YouTube-Videos durch die Nutzungsbedingungen von YouTube verboten ist. Beim Herunterladen von YouTube 8m haben wir daher im Voraus mit Google und YouTube kommuniziert und Google Cloud als Anreiz zum Herunterladen genutzt.“Immerhin typischerweise für 8 Millionen Videos, erhalten sie viele Anzeigenimpressionen, die heruntergeladen werden, wenn sie für Schulungen verwendet werden, und führen zu Umsatzeinbußen, daher sollten sie daraus einen gewissen Umsatz erzielen. Die Zahlung von 0,00625 US-Dollar pro Video-Download ist immer noch ein gutes Geschäft. "
„Okay, diese Daten werden voraussichtlich nur zu Forschungszwecken verwendet? Soweit ich weiß, kann die YouTube-API von Google die Lizenzbedingungen jedes Videos abfragen“, antwortete Ferroni. „Können Sie auch etwas zu den Lizenzbedingungen von ACAV100M und YouTube8M sagen?“
„Soweit ich weiß, verbieten die Nutzungsbedingungen von YouTube das Herunterladen unabhängig von der Lizenz; die Einschränkung betrifft die verlorenen Werbeeinnahmen, nicht die Lizenz“, antwortete ein anderer Mitarbeiter. Sie fuhren fort:
„Ich weiß nicht, welche Lizenzbedingungen Google bei der Erstellung des Datensatzes gefiltert hat. Wir haben einfach heruntergeladen, was sie als im Datensatz enthalten aufgeführt haben (sie haben die Funktionen zusammen mit Links zu den Originalvideos gepostet). Ich habe die YouTube-8-M-Daten heruntergeladen Da das Set vollständige Metadaten enthält, muss ich mir noch den ACAV100M-Datensatz ansehen. Allerdings wäre die Nutzung als urheberrechtlich geschütztes Material derzeit offen rechtliches Problem; die meisten Unternehmen scheinen dies als faire Verwendung zu betrachten, und ich glaube, dass unser Rechtsteam diese Praxis für das Training großer Sprachmodelle genehmigt hat und wahrscheinlich auch Videoschulungen genehmigen wird.“
„Ich denke, es gibt eine große Lücke zwischen der Kommerzialisierung von etwas ohne die Zustimmung einer Person und der Erforschung der Fähigkeiten generativer KI auf der Grundlage öffentlich veröffentlichter Inhalte“, sagte Shayne Longpre, Doktorandin am MIT Media Lab, gegenüber 404 Media. Fragen zu den Nutzungsbedingungen von YouTube im Cosmos Slack-Kanal waren nicht das letzte Mal, dass rechtliche Probleme auftauchten.
Später sagte ein anderer Mitarbeiter: „Hey Team. Verwenden wir https://research.google.com/youtube8m/download.html, um Videos herunterzuladen? Wenn ja, haben wir eine rechtliche Genehmigung? Bei einem Projekt hat die Rechtsabteilung dies verweigert.“ verwenden, da die Lizenz für einzelne Videos besser ist als die auf yt8m geteilte Lizenz. „Dies ist eine Verwaltungsentscheidung. Wir haben eine Masterlizenz, die alle Daten abdeckt“, antwortete Liu Mingyu. „Okay, danke!“ antwortete die Person, die die Frage gestellt hatte.
Bender sagte gegenüber 404 Media, dass das Unternehmen die derzeitige rechtliche Grauzone rund um urheberrechtlich geschützte Inhalte, die für Trainingsdaten verwendet werden, ausnutzt. „Mir scheint, dass es definitiv eine Kultur gibt: ‚Wenn wir es bekommen, können wir es auch nutzen‘“, sagte sie. „Es basiert weitgehend auf dem Wunsch der Menschen, dass es geschieht, und nicht auf einer sorgfältigen Untersuchung seiner Rechtmäßigkeit oder einem tiefen Nachdenken über seine Auswirkungen auf die Menschen.“
Die Verwendung urheberrechtlich geschützter Inhalte für KI-Schulungen sei „definitiv kein geltendes Gesetz“, sagte Mahari. Das Rechtssystem muss noch feststellen, ob die Beschaffung von Trainingsdaten zur Entwicklung von KI-Modellen transformativ genug ist, insbesondere da Modelle nachweislich in der Lage sind, sich Trainingsdaten als Ausgabe zu merken oder abzurufen. „Mein Punkt (teilweise in diesem Science-Artikel zusammengefasst) ist, dass das Training eines KI-Modells zwar eine faire Nutzung darstellen kann, aber das bedeutet nicht, dass die Generierung von Ausgaben, die bestimmten Elementen in den Trainingsdaten ähneln, keinen Verstoß darstellt.
In diesem Fall ist unklar, ob der Anbieter des zugrunde liegenden Modells oder der spezifische Benutzer, der die Ausgabe generiert, einen Verstoß begehen würde (dies kann vom Kontext abhängen). "
Im Mai veröffentlichte ein Forscher Links zu einigen YouTube-Kanälen im Cosmos Slack-Kanal und sagte: „Wenn ihr immer noch offen für Vorschläge für YouTube-Kanäle seid, die ihr herunterladen könnt, sind hier einige, die eine Überlegung wert sein könnten.“ Beinhaltet die offiziellen Kanäle von Expedia und Architectural Digest sowie einzelne Content-Ersteller wie The Critical Drinker und Marques Brownlee (MKBHD). Ein Projektmanager dankte ihnen für ihre Vorschläge und sagte, sie würden sie an das Team weiterleiten, worauf Fidler antwortete: „Haben Sie auch ein Tutorial-Video beigefügt? Astronomie? Medizin?“
Die „offene Rechtsfrage“ der Nutzung urheberrechtlich geschützter Werke für die Ausbildung kommerzieller Basismodelle dürfte nicht lange ungelöst bleiben.
Von Urheberrechtsinhabern gegen generative KI-Unternehmen eingereichte Klagen wegen Urheberrechtsverletzung häufen sich, darunter die Klage von Getty Images gegen den Stable Diffusion-Erfinder Stability AI, die Klage der New York Times gegen OpenAI und die Klage von Künstlern und Schöpfern gegen Stability.Mitten auf der Reise , DeviantArt und Runway reichten eine Sammelklage ein. Das Cosmos-Trainingsdatenteam diskutierte auch über die Verwendung von Netflix zum Trainieren des Generators.
„In der heutigen Besprechung haben wir die Erlaubnis erhalten, alle Arten von Daten herunterzuladen. Sollen wir das gesamte Netflix herunterladen? Wie setzen wir das um?“ sagte Liu im Slack-Kanal. „Wir sollten den gesamten Discovery Channel herunterladen!“
jemand antwortete. „Wir brauchen einen Projektinformationskoordinator. Wer möchte Screenshots machen, während er sich alle Filme ansieht?“ „Wir sollten daraus viele qualitativ hochwertige Gesichtsvideos bekommen“, fuhr Liu fort. Jemand aus dem Omniverse-Infrastrukturteam wurde in dem Thread markiert und bemerkte, dass er bereit sei, bei der „Operationalisierung“ zu helfen, weil er „Erfahrung mit anderen großen Unternehmen beim Aufbau großer Datensätze“ habe.
Das Team überlegte auch, wie man Videospielaufnahmen am besten zu den Trainingsdaten hinzufügen kann. Jim Fan, ein leitender Forschungswissenschaftler bei Nvidia, erwähnte, dass es „technische und regulatorische“ Hindernisse bei der Aufnahme von Live-Gameplay-Videos gebe.
„Update: Ich habe mich mit den Leuten von GeForce Now (GFN) getroffen und werde mit ihnen an einem Datenplan arbeiten. Wir werden eng mit GFN und den zugehörigen Ingenieurteams zusammenarbeiten, um eine Echtzeit-Spieldatenerfassung aufzubauen, die Pipeline zu skalieren usw „Diese Daten für das Training zu verarbeiten, wird eine sehr nützliche Ergänzung zu unserem Sora-Projekt sein“, schrieb Fan. „Wir verfügen noch nicht über Statistiken oder Videodateien, da die Infrastruktur nicht für die Erfassung der riesigen Mengen an Live-Spielvideos und -Aktionen eingerichtet ist. Sobald die GFN-Daten jedoch bereinigt und verarbeitet sind, müssen wir technische und regulatorische Hürden überwinden kommt, wir Es wird so schnell wie möglich zu team-vfm hinzugefügt.
Im März erreichte das Projekt einen Meilenstein: Innerhalb von zwei Wochen wurden 100.000 Videos heruntergeladen. Ein Mitarbeiter erwähnte in einem Thread über den Meilenstein, dass Ferroni einen Downloader verwendet, und Ferroni bestätigte, dass sie Audio- und Videodateien heruntergeladen haben. „Erstaunliche Fortschritte. Die Frage ist nun, wie wir eine große Anzahl qualitativ hochwertiger URLs erhalten“, antwortete Liu.
Ende Mai wurde eine Datenstrategie-E-Mail für Videodaten an die Mitglieder des Projektteams gesendet, in der bekannt gegeben wurde, dass sie 38,5 Millionen Video-URLs zusammengestellt hatten. „Basierend auf unserer Zielverteilung liegt der Fokus für die kommende Woche weiterhin auf Filmen, Drohnenaufnahmen, First-Person-Videos und einigen Reise- und Naturvideos“, heißt es in der E-Mail. Die E-Mail enthielt auch ein Diagramm, das den Prozentsatz der heruntergeladenen Inhaltstypen zeigte.
In dieser E-Mail schlug ein Produktmanager vor, den Trainingsdaten des Modells vier zusätzliche Datensätze hinzuzufügen. Sie schrieben:

1. Ego-Exo4D: Ein vielfältiger, groß angelegter, multimodaler, mehransichtiger Videodatensatz und Benchmark, der von 740 Kameraträgern in 13 Städten auf der ganzen Welt gesammelt wurde und 1286,3 Stunden Video von qualifizierten menschlichen Aktivitäten erfasst.

2. Ego4D: Ein umfangreicher First-Person-Perspektivdatensatz und eine Benchmark-Suite mit über 3670 Stunden Videos zu Alltagsaktivitäten, gesammelt an 74 Standorten und 9 Ländern auf der ganzen Welt.

3. HOI4D: Ein umfangreicher vierdimensionaler First-View-Datensatz mit umfangreichen Anmerkungen, um die Untersuchung von Mensch-Objekt-Interaktionen auf Kategorieebene zu erleichtern.

4. GeForce Now: Spieldaten.
HOI4D wurde von Forschern der Tsinghua-Universität, der Peking-Universität und des Shanghai Qizhi Research Institute erstellt. Es ist unter CC BY-NC 4.0 lizenziert und eine kommerzielle Nutzung ist nicht gestattet.
„Wenn ein Unternehmen einen Datensatz, der nur für Forschungszwecke bestimmt ist, für Forschungszwecke verwendet, hält es meiner Meinung nach immer noch die Lizenz für diesen Datensatz ein“, sagte Bender.
„Aber um dies zu gewährleisten, müssen sie sehr darauf achten, Firewalls zwischen ihrer Forschung und der Arbeit in der Produktentwicklung zu errichten.“
In einer weiteren Update-E-Mail im Mai sagte Liu: „Das Forschungsteam trainiert derzeit ein Modell mit 1 Milliarde Parametern unter Verwendung vieler verschiedener Konfigurationen mit jeweils 16 Knoten. Dies ist ein wichtiges Debugging vor weiteren Erweiterungsschritten. Wir planen, innerhalb von a Schlussfolgerungen zu ziehen.“ Einige Wochen lang arbeiten und dann auf ein Modell mit 10 Milliarden Parametern skalieren.“
Jensen Huang, CEO von Nvidia, antwortete in dieser E-Mail: „Tolles Update. Viele Unternehmen müssen videobasierte Modelle entwickeln. Wir können eine vollständig beschleunigte Pipeline bereitstellen.“
Im Juni diskutierten Mitarbeiter darüber, welche Arten von Inhalten in Modellen für Nvidias Produkte am nützlichsten wären, um in der KI-Branche wettbewerbsfähig zu bleiben.
„NVIDIA verfügt über Roboter, selbstfahrende Autos, Omniverse und Avatar, die die meisten Content-Unternehmen nicht haben. Um den größten Einfluss auf das Unternehmen zu haben, müssen die von uns kuratierten Daten gut auf diese Killeranwendungen anwendbar sein“, sagte Liu.
„Ich verstehe die Daten, die sich auf Roboter und selbstfahrende Autos auswirken. Kann jemand die Details der Daten mitteilen, die sich auf die Anwendungsfälle von Omniverse und Avatar auswirken?“ antwortete ein Produktmanager. „Es wird ein Video darüber sein, wie Menschen mit Objekten interagieren. Zum Beispiel Möbel aufstellen, Obst schneiden, Wäsche falten“, antwortete Liu.
Basiert der Fortschritt von KI-Modellen auf Ihren und meinen Kreationen?
Während Nvidia zur akademischen Forschung beiträgt, zeigen Gespräche und E-Mails von 404 Media, dass das Modell, an dem das Cosmos-Team arbeitet, für den kommerziellen Einsatz in mehreren seiner Produkte gedacht ist.
Bis ein gesetzlicher Präzedenzfall für die Zusammenstellung von Trainingsdaten geschaffen wird oder bis Unternehmen zu Transparenz über diese Daten verpflichtet werden, werden Unternehmen weiterhin die rechtliche Grauzone der Ausbeutung urheberrechtlich geschützter Trainingsdaten ausnutzen. Das Durchsickern interner Gespräche wie dieser ist die einzige Möglichkeit für Menschen, herauszufinden, ob ihre Arbeit zum Trainieren von Modellen verwendet wird, die Unternehmen wie Nvidia, Runway oder OpenAI Milliarden von Dollar einbringen.
Die KI-Branche drängt seit Jahren auf mehr Transparenz, sei es durch staatliche Regulierung oder Industriestandards.
Anfang des Jahres schrieben Jack Hardinges, Elena Simperl und Nigel Shadbolt vom MIT: „Es ist wichtig zu verstehen, was in den Datensätzen enthalten ist, die zum Trainieren von Modellen verwendet werden, und wie sie zusammengestellt wurden. Ohne diese Informationen müssen Entwickler, Forscher und Ethiker ihre Bemühungen angehen.“ Eine Voreingenommenheit oder Entfernung schädlicher Inhalte aus Daten wird behindert.
Informationen über die Trainingsdaten werden auch für den Gesetzgeber von entscheidender Bedeutung sein, um zu beurteilen, ob die zugrunde liegenden Modelle personenbezogene Daten oder urheberrechtlich geschütztes Material aufgenommen haben. Nachgelagert werden die vorgesehenen Betreiber von KI-Systemen und diejenigen, die von ihrer Nutzung betroffen sind, diesen Systemen eher vertrauen, wenn sie verstehen, wie sie entwickelt wurden. "
Der Gesetzgeber hat letztes Jahr mehrere Gesetzesentwürfe vorgelegt, um das Problem anzugehen, darunter im Dezember den AI Underlying Model Transparency Act, der Unternehmen, die zugrunde liegende KI-Modelle erstellen, dazu verpflichten würde, mit Bundesbehörden wie der FTC und dem Copyright Office zusammenzuarbeiten, um Transparenzstandards zu entwickeln, einschließlich der Anforderung sie dazu verpflichtet, den Verbrauchern bestimmte Informationen offenzulegen.
Das im April dieses Jahres vorgeschlagene Generative AI Copyright Disclosure Act würde von Datensatzproduzenten verlangen, dem Registrar „eine ausreichend detaillierte Zusammenfassung aller urheberrechtlich geschützten Werke“ vorzulegen, andernfalls drohen Geldstrafen.
„Technisch gesehen ist es wirklich schwer festzustellen, ob Ihre Arbeit für Schulungen verwendet wurde“, sagte Mahari. „Intern besteht die beste Richtlinie darin, den Leuten nicht zu sagen, welche Ausbildung man absolviert, da es für Dritte sehr schwierig ist, dies tatsächlich zu überprüfen und herauszufinden. Solange man es also niemandem erzählt, ist es sehr schwierig, es zu beweisen.“
Im Anhang finden Sie die Originaladresse des Berichts:

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/