Nachricht

Mit 170.000 Videos!NVIDIA und andere Giganten wurden wegen der illegalen Nutzung von YouTube-Daten zum Trainieren von Modellen entlarvt

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Es wurde entlarvt, dass Technologiegiganten nicht autorisierte YouTube-Inhalte zum Trainieren von KI-Modellen (künstliche Intelligenz) nutzten.

Am 16. Juli Ortszeit berichteten ausländische Medien, dass einige große Technologieunternehmen, darunter Apple, Nvidia, Salesforce und Anthropic, beim Training von KI-Modellen unbefugte Daten von YouTube, einer Video-Website von Google, verwendet hätten. Die Unternehmen nutzten einen von einem Dritten bereitgestellten Datensatz, der große Mengen von Video-Untertiteltexten enthielt, die von YouTube stammen, und verstießen damit gegen die Regeln von YouTube, Inhalte ohne Erlaubnis von der Plattform zu entfernen.

Der Bericht wies darauf hin, dass diese Technologieunternehmen beim Training von KI-Modellen einen Datensatz namens „YouTube-Untertitel“ verwendeten. Er ist 5,7 GB groß und enthält 489 Millionen Wörter aus mehr als 48.000 Kanälen auf YouTube. Dieser Datensatz besteht aus dem Klartext der Videountertitel, einschließlich des von Vloggern hochgeladenen Teils und des von YouTube automatisch transkribierten Textes. Neben Englisch enthält er normalerweise auch Übersetzungen in Sprachen wie Japanisch, Deutsch und Arabisch.

Die gemeinnützige Organisation EleutherAI ist der Ersteller des umstrittenen Datensatzes, und das Unternehmen hat noch nicht auf diese Geschichte reagiert. Laut der offiziellen Website besteht das Ziel von EleutherAI darin, „die Schwelle für die KI-Entwicklung zu senken und jedem durch Schulung und Veröffentlichung von Modellen Zugang zu modernster KI-Technologie zu ermöglichen“. Zuvor veröffentlichte EleutherAI eine Datensammlung namens „Pile“, von der die meisten für die Öffentlichkeit zugänglich sind, einschließlich YouTube-Untertiteln.

Daten zeigen, dass das Unternehmen Pile einige Wochen vor der Veröffentlichung des OpenELM-Modells für End-Side-Small-Modelle im April dieses Jahres für Schulungen verwendete. Es ist jedoch zu beachten, dass Apple selbst diese Daten nicht herunterlädt. Technisch gesehen war es also EleutherAI, das gegen die Nutzungsbedingungen von YouTube verstoßen hat.

Ein Sprecher des KI-Startups Anthropic bestätigte, dass der Pile-Datensatz zum Trainieren des generativen KI-Assistenten des Unternehmens, Claude, verwendet wurde und dass die Bedingungen von YouTube nur die „direkte Nutzung seiner Plattform“ abdeckten, und empfahl, etwaige Verstöße mit den ursprünglichen YouTube-Nutzungsbedingungen von Pile zu besprechen Benehmen. Apple, Nvidia, Salesforce und andere Unternehmen haben bisher nicht auf die Angelegenheit reagiert.

Zu den von diesem Vorfall betroffenen YouTubern gehören bekannte Blogger wie Marques Brownlee, MrBeast und PewDiePie sowie große Nachrichtenverlage wie die New York Times, die British Broadcasting Corporation (BBC) und ABC News in den Vereinigten Staaten. Darüber hinaus fördert ein Teil des Materials im Datensatz Verschwörungstheorien wie „Flat Earth“ und enthält sogar Inhalte aus gelöschten Videos. Jetzt wurde Pile von der offiziellen Download-Site entfernt, aber es ist weiterhin über File-Sharing-Dienste zugänglich.

Diesbezüglich sagte der bekannte Technologie-Blogger Marques Brownlee in meinem Video: „Technisch gesehen hat Apple keinen Fehler gemacht, sie haben die Daten nicht proaktiv ausgewertet, aber das wird ein seit langem bestehendes Problem sein.“


Tweet von Marques Brownlee.Quelle: X-Plattform

Obwohl Apple und andere Unternehmen möglicherweise öffentliche Datensätze verwendet haben und es keine Verstöße gab, hat dieser Vorfall erneut die Aufmerksamkeit auf die Datenprobleme hinter dem KI-Training gelenkt. Zu Beginn dieses Jahres wurde der YouTube-Mutterkonzern Google damit konfrontiert, die Videos der Plattform zum Trainieren seiner Modelle zu nutzen. Google antwortete damals, dass dieses Verhalten nicht gegen die Vereinbarung der Plattform mit den Erstellern verstoße.

Im März dieses Jahres machte Mira Murati, Chief Technology Officer von OpenAI, in einem Interview vage Angaben zur Quelle der Trainingsdaten für das Vincent-Videomodell Sora. Im April sagte YouTube-CEO Neal Mohan in einem Interview, dass er keine direkten Beweise dafür habe, dass OpenAI YouTube-Videos verwendet habe, um sein Vincent-Video-KI-Tool Sora zu verbessern. Wenn es wirklich verwendet würde, wäre das ein „klarer Verstoß“ gegen Nutzungsbedingungen der YouTube-Plattform.