El misterioso modelo base de video de Nvidia, “Cosmos”, queda expuesto y todos los datos son robados

El misterioso modelo base de video de Nvidia, "Cosmos", queda expuesto y todos los datos son robados

2024-08-06

Informe del corazón de la máquina

Departamento editorial de Machine Heart

Para este modelo de vídeo, NVIDIA rastrea frenéticamente el equivalente a 80 años de datos de vídeo cada día.

Hoy, una noticia sobre la decisión de Nvidia de dejar de fabricar modelos de vídeo explotó en Reddit.

La fuente de la noticia proviene del medio extranjero 404 Media. Según el chat Slack (la plataforma de chat interna de Nvidia), los correos electrónicos y los documentos que obtuvo, Nvidia está tomando videos de Youtube y varias otras fuentes para recopilar datos de entrenamiento para sus productos de inteligencia artificial.

Las conversaciones internas en Nvidia revisadas por 404 Media muestran que cuando los empleados involucrados en el proyecto expresaron su preocupación sobre posibles problemas legales derivados del uso de "conjuntos de datos de investigación comercialmente prohibidos" y "vídeos de YouTube", los gerentes les dijeron que contaban con la aprobación de los niveles más altos de la empresa, que se puede utilizar.

Un ex empleado anónimo de Nvidia dijo que a los empleados se les pidió que extraeran videos de Netflix, YouTube y otras fuentes para entrenar modelos de inteligencia artificial para el generador mundial Omniverse 3D, sistemas de automóviles autónomos y productos "humanos digitales".

El proyecto, llamado internamente Cosmos (pero distinto del producto de aprendizaje profundo Cosmos existente de la compañía), aún no se ha hecho público. Según un correo electrónico enviado a los empleados por el liderazgo del proyecto, el objetivo de Cosmos es construir un modelo de infraestructura de video de última generación que "encapsule el transporte ligero, la física y la simulación inteligente en un solo lugar para desbloquear los diversos aspectos posteriores críticos para Nvidia."

Para recopilar vídeos de formación, los empleados de NVIDIA utilizaron un descargador de vídeos de YouTube de código abierto llamado "yt-dlp". Intentan descargar vídeos completos de varias fuentes como Netflix, pero se centran principalmente en vídeos de YouTube. Los correos electrónicos revisados por 404 Media muestran que el director del proyecto optó por utilizar de 20 a 30 máquinas virtuales en Amazon Web Services para descargar 80 años de vídeo cada día.

"Estamos completando la canalización de datos v1 y asegurando los recursos informáticos necesarios para construir una fábrica de datos de vídeo que pueda generar datos de entrenamiento diarios equivalentes a toda una vida de experiencia visual humana".

Cuando se le preguntó sobre el uso de videos de YouTube por parte de Nvidia como datos de entrenamiento para sus modelos, un portavoz de Google dijo a 404 Media que la "posición anterior de la compañía sigue siendo válida". Anteriormente, el director ejecutivo de YouTube, Neal Mohan, dijo que si OpenAI usara videos de YouTube para mejorar su generador de videos de IA Sora, sería una "clara violación" de los términos de uso de YouTube.

Asimismo, un portavoz de Netflix le dijo a 404 Media que la compañía no tiene un acuerdo con Nvidia para la adquisición de contenido y que los términos de servicio de la plataforma no permiten el scraping de contenido.

Sin embargo, a Nvidia no parece importarle. Las preocupaciones legales planteadas por los empleados involucrados en el proyecto a menudo fueron descartadas por los gerentes del proyecto, quienes dijeron que la decisión de eliminar el video sin permiso era una "decisión ejecutiva" de la que no tenían que preocuparse y que constituía un uso justo y ético de los derechos de autor. El contenido y la cuestión del uso académico y no comercial del conjunto de datos se consideran "cuestiones legales pendientes" que resolverán en el futuro.

El principio y el final del proyecto del modelo de vídeo de NVIDIA

Al igual que otros gigantes tecnológicos, Nvidia contrata talentos de investigación académica para publicar resultados académicos, pero a partir de correos electrónicos internos obtenidos por 404 Media, se puede ver que Cosmos obviamente se utilizará con fines comerciales.

En marzo de este año, un investigador de NVIDIA publicó en Slack y sugirió que usar películas de Hollywood como "Avatar" o "El Señor de los Anillos" para entrenar OpenAI Sora podría ser más efectivo.

Posteriormente, su propuesta fue reconocida dentro de la empresa, pero también añadió que Hollywood es especialmente sensible a la posibilidad de que la IA infrinja los derechos de autor. En julio de 2023, SAG-AFTRA, uno de los tres principales sindicatos de Hollywood con 160.000 miembros, anunció una huelga dirigida a productos de inteligencia artificial generativa como ChatGPT y Stable Diffusion. Antes de esto, el Writers Guild of America había estado en huelga. más de 70 días. Hay una situación en Stable Diffusion Incluso si no ingresa la palabra correspondiente e ingresa una descripción vaga como "plomero de estilo de animación", Stable Diffusion generará directamente la imagen clásica de Mario.

En esta publicación, un empleado llamado "Liu" (a saber, Ming-Yu Liu (Liu Mingyu), vicepresidente de investigación de NVIDIA) respondió: "Si el artículo no se publica públicamente, no causará los problemas negativos anteriores. Deberíamos Primero use videos descargables para experimentar".

Posteriormente, otro investigador de NVIDIA publicó una publicación en la intranet. Encontró una lista de archivos que deberían descargarse primero para los modelos de video de entrenamiento. Sin embargo, al conjunto de datos HD-VILA-100M utilizado por NVIDIA le faltaban alrededor de 2,3 millones de archivos de video originales. Esta lista en constante expansión también incluye videos originales de algunos YouTubers conocidos, como Marques Brownlee (MKBHD), un bloguero de reseñas digitales con una reputación en Norteamérica como "Hola a todos, soy Classmate He".

Debido a la protección de derechos de autor, los conjuntos de datos de video generales a menudo incluyen enlaces URL o ID de YouTube. Una vez que el autor elimina el video original, estos contenidos ya no se incluirán en el conjunto de datos a menos que el autor del video acepte explícitamente la retención y el uso del contenido. .

Aunque Microsoft prohíbe explícitamente todos los usos comerciales en su declaración de uso del conjunto de datos HD-VILA-100M, al empleado de Nvidia que publicó el mensaje no pareció importarle. Rápidamente publicó el enlace de YouTube correspondiente a la lista y lo compartió con sus colegas. Discutimos una solución para usar máquinas virtuales de AWS para cambiar las IP y eludir el mecanismo anti-rastreador de YouTube.

Además, los empleados de NVIDIA también recurrieron a YouTube-8M, un conjunto de datos de comprensión de vídeos a gran escala publicado por Google. En lugar de complementar el conjunto de datos de Microsoft por sí solo, llegaron a un "acuerdo" con YouTube y Google, la actual empresa matriz de YouTube, Nvidia, compró 800 vídeos a un precio de 0,00625 dólares (unos 4 centavos) por vídeo y se descargarán 10.000 vídeos. a través de Google Cloud. Independientemente del problema de la venta de derechos de autor, Google puede pensar que ha recuperado las tarifas de publicidad de estos videos, pero Nvidia ya tiene algunas limitaciones en el ancho de banda de la nube. La descarga en Google Cloud puede obtener una conexión más estable y predecible. Por lo tanto, no importa cómo se mire, este "acuerdo" parece beneficioso para Nvidia.

Lo que es aún más sorprendente es cuando un empleado de Nvidia preguntó en la intranet: "¿Es razonable que descarguemos vídeos de YouTube como este?"

"Esta es una decisión de alto nivel. Tenemos plena aprobación para utilizar todos los datos". Esta fue la respuesta que obtuvo.

Los datos permitidos para esta decisión también incluyen las producciones de vídeo en Netflix. Los datos de Netflix contienen una gran cantidad de datos faciales de alta calidad. Después de su aprobación, alguien pidió ayuda a colegas en la intranet de la empresa que tenían experiencia en "crear grandes conjuntos de datos" en otras grandes empresas.

Al mismo tiempo, el equipo de Cosmos también consideró la cuestión de cómo agregar de manera efectiva imágenes del juego a los datos de entrenamiento. El científico investigador senior de NVIDIA, Jim Fan, también encontró obstáculos "regulatorios" al capturar imágenes de juegos en tiempo real.

Jim Fan publicó:

Actualización: Me he estado reuniendo con la gente de GeForce Now (GFN) y trabajando en planes con ellos. Trabajaremos en estrecha colaboración con GFN y equipos de ingeniería relacionados para desarrollar métodos para capturar datos del juego en tiempo real, ampliar la escala del proceso y procesar los datos para el entrenamiento. Los videos de juego de alta calidad serán una adición muy útil a "nuestro Sora"... Dado que el equipo para capturar videos y acciones de juego en vivo aún no está disponible, aún no se han realizado estadísticas, pero limpiaremos y procesaremos el GFN. Los datos se agregan a team-vfm.

En marzo de este año, la recopilación de datos de vídeo del Proyecto Cosmo alcanzó un hito: Nvidia completó 100.000 descargas de vídeo en dos semanas.

"El progreso es sorprendente. La pregunta ahora es cómo podemos obtener una gran cantidad de URL de alta calidad", respondió Liu en esta publicación.

A finales de mayo, los miembros del equipo del proyecto recibieron un correo electrónico sobre la estrategia de datos de vídeo, anunciando que habían compilado 38,5 millones de URL de vídeo. "Según el plan, el enfoque de la colección de videos de la próxima semana seguirá siendo películas, imágenes de drones, imágenes en perspectiva en primera persona y paisajes naturales", decía el correo electrónico también incluía un gráfico que mostraba los tipos de contenido que descargaron. porcentaje.

El correo electrónico reveló información técnica clave, incluidos cuatro conjuntos de datos de los datos de entrenamiento del modelo:

Ego-Exo4D: Un conjunto de datos de video diverso, a gran escala, multimodal y de múltiples vistas y un punto de referencia recopilado por 740 usuarios de cámaras en 13 ciudades de todo el mundo, capturando 1286,3 horas de video de actividades humanas calificadas.
Ego4D: Se trata de un conjunto de datos y un conjunto de referencias egocéntricos a gran escala que recopila más de 3670 horas de vídeos de actividades de la vida diaria en 74 ubicaciones en 9 países de todo el mundo.
HOI4D : Conjunto de datos egocéntricos 4D a gran escala con ricas anotaciones para facilitar la investigación de la interacción humano-objeto a nivel de categoría. HOI4D fue creado por investigadores de la Universidad de Tsinghua, la Universidad de Pekín y el Instituto de Investigación Qizhi de Shanghai. Tiene licencia CC BY-NC 4.0 y su uso comercial está prohibido.
GeForce ahora: Datos del juego.

En otro correo electrónico, los miembros del proyecto Cosmos dijeron: "El equipo de investigación ahora está entrenando un modelo de mil millones de parámetros con múltiples configuraciones, cada una con 16 nodos. Este es un paso de depuración importante antes de seguir escalando. Planeamos tener conclusiones dentro de un unas pocas semanas y luego ampliarlo a un modelo de 10 mil millones de parámetros".

"¡Esta actualización es excelente!", Respondió el director ejecutivo de Nvidia, Jen-Hsun Huang, al correo electrónico. Dijo: "Muchas empresas se han fijado el objetivo de crear un modelo de video básico y definitivamente podemos construir un canal acelerado".

En junio, los miembros del equipo del proyecto discutieron qué tipos de contenido del modelo serían más útiles para los productos de Nvidia en el contexto de mantener la competitividad en la industria de la IA.

"NVIDIA tiene robótica, conducción autónoma, Omniverse y Avatar que la mayoría de las empresas de contenidos no tienen. Para maximizar el crecimiento de la empresa, los datos que organizamos deben ser bien aplicables a estas aplicaciones 'asesinas'", dijo el miembro del Proyecto Cosmos.

No hay duda de que el modelo que el equipo de Cosmos está desarrollando está destinado a uso comercial en sus numerosos productos.

Hasta que se promulgue una legislación que requiera que estas empresas divulguen completamente sus datos de capacitación, seguirán explotando las áreas legales grises para extraer datos protegidos por derechos de autor. Sin filtraciones de correos electrónicos internos o conversaciones de intranet, nadie sabría lo que sucede detrás de escena, y un modelo así podría generar miles de millones de dólares para gigantes tecnológicos como Nvidia, Runway u OpenAI.

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/

noticias

El misterioso modelo base de video de Nvidia, "Cosmos", queda expuesto y todos los datos son robados

Introducción

Mi informacion de contacto