noticias

¡Involucra 170.000 vídeos!NVIDIA y otros gigantes quedaron expuestos por utilizar ilegalmente datos de YouTube para entrenar modelos

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Se descubrió que los gigantes tecnológicos utilizan contenido no autorizado de YouTube para entrenar modelos de IA (inteligencia artificial).

El 16 de julio, hora local, medios extranjeros informaron que algunas grandes empresas de tecnología, incluidas Apple, Nvidia, Salesforce y Anthrophic, estuvieron expuestas al uso de datos no autorizados de YouTube, un sitio web de videos propiedad de Google, al entrenar modelos de IA. Las empresas utilizaron un conjunto de datos proporcionado por un tercero que contenía grandes cantidades de texto de subtítulos de vídeo extraídos de YouTube, violando las reglas de YouTube contra la extracción de contenido de la plataforma sin permiso.

El informe señaló que estas empresas de tecnología utilizaron un conjunto de datos llamado "Subtítulos de YouTube" al entrenar modelos de IA. Tiene un tamaño de 5,7 GB y contiene 489 millones de palabras de más de 48.000 canales en Youtube. Este conjunto de datos consta del texto sin formato de los subtítulos de los vídeos, incluida la parte subida por los vloggers y el texto transcrito automáticamente por Youtube. Además del inglés, normalmente también viene con traducciones a idiomas como el japonés, el alemán y el inglés. Arábica.

La organización sin fines de lucro EleutherAI es la creadora del controvertido conjunto de datos y la compañía aún no ha respondido a esta historia. Según el sitio web oficial, el objetivo de EleutherAI es "reducir el umbral para el desarrollo de la IA y brindar a todos acceso a la tecnología de IA de vanguardia mediante la capacitación y el lanzamiento de modelos". Anteriormente, EleutherAI publicó una recopilación de datos llamada "Pile", la mayoría de los cuales están abiertos al público, incluidos los subtítulos de YouTube.

Los datos muestran que unas semanas antes de que Apple lanzara el modelo pequeño OpenELM en abril de este año, la compañía utilizó Pile para capacitación. Sin embargo, cabe señalar que la propia Apple no descarga estos datos. Entonces, técnicamente, fue EleutherAI quien violó los términos de uso de YouTube.

Un portavoz de la startup de IA Anthropic confirmó que el conjunto de datos de Pile se había utilizado para capacitar al asistente de IA generativa de la compañía, Claude, y que los términos de YouTube solo cubrían el "uso directo de su plataforma" y recomendó discutir cualquier violación con el autor original de los Términos de servicio de YouTube de Pile. Conducta. Apple, Nvidia, Salesforce y otras empresas aún no han respondido al asunto.

Los creadores afectados por este incidente incluyen blogueros conocidos como Marques Brownlee, MrBeast y PewDiePie, así como grandes editores de noticias como The New York Times, la British Broadcasting Corporation (BBC) y ABC News en los Estados Unidos. Además, parte del material del conjunto de datos promueve teorías de conspiración como la "Tierra plana" e incluso contiene contenido de vídeos que han sido eliminados. Ahora, Pile ha sido eliminado del sitio de descarga oficial, pero aún se puede acceder a él a través de servicios para compartir archivos.

En este sentido, el conocido blogger de tecnología Marques Brownlee dijo en Incluir mi vídeo. Técnicamente Apple no "cometió un error", no extrajeron los datos de forma proactiva, pero este será un problema de larga data".


Tweet de Marques Brownlee.Fuente: plataforma X

Aunque Apple y otras empresas pueden haber utilizado conjuntos de datos públicos y no hubo violaciones, este incidente una vez más llamó la atención sobre los problemas de datos detrás del entrenamiento de IA. A principios de este año, la empresa matriz de YouTube, Google, fue expuesta al uso de videos de la plataforma para entrenar sus modelos. Google respondió en ese momento que este comportamiento no violaba el acuerdo de la plataforma con los creadores.

En marzo de este año, la directora de tecnología de OpenAI, Mira Murati, fue vaga sobre la fuente de datos de entrenamiento para el modelo de video Vincent Sora en una entrevista. En abril, el director ejecutivo de YouTube, Neal Mohan, dijo en una entrevista que no tenía evidencia directa que demostrara que OpenAI usó videos de YouTube para mejorar su herramienta Vincent AI de video, Sora. Si realmente se usara, eso sería una "clara violación" de la ley. Condiciones de uso de la plataforma YouTube.