noticias

Nvidia estuvo expuesta al robo de datos, rastreando más de 80 años de datos de video cada día, y el conjunto de datos académicos de la Universidad de Pekín también se vio afectado.

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

NVIDIA parece haber entrado en un período problemático recientemente.
Después de que se reveló que la producción en masa de su chip de inteligencia artificial más potente se retrasó y su valor de mercado se evaporó en más de 300 mil millones de dólares, 404 Media expuso a Nvidia por capturar contenido de video de plataformas como YouTube y Netflix sin autorización para entrenarlo. Modelo de vídeo de IA que aún no se ha lanzado al público.
Los correos electrónicos internos y los chats de Slack muestran que, aunque los empleados de Nvidia han planteado dudas sobre la legalidad y la ética del uso de estos conjuntos de datos, la dirección de la empresa dijo que estas acciones habían sido aprobadas por la alta dirección y argumentaron que cumplían con la ley de derechos de autor.
Vale la pena mencionar que en discusiones internas a finales de febrero, NVIDIA mencionó múltiples conjuntos de datos que estaba utilizando, incluido HD-VG-130M.
Este último es un conjunto de datos de 130 millones de vídeos de YouTube creados por investigadores de la Universidad de Pekín, y su licencia de uso establece explícitamente que se limita a la investigación académica.
El enfoque de Nvidia se parece más a un microcosmos de la mayoría de las empresas de inteligencia artificial actuales.
Cuando los usuarios han sido considerados "máquinas de efectivo de datos", a menos que los expertos lo expongan, es realmente difícil para el mundo exterior saber si su trabajo y el mío se han convertido en alimento para el entrenamiento de IA.
En resumen, los humanos siguen siendo consumidores en la cima de la cadena alimentaria, pero inevitablemente nos convertiremos en miembros de la cadena de suministro del desarrollo de la IA.
El siguiente es el texto original de la noticia del medio extranjero 404 Media, escrita por GPT-4o Traducción, disfrútala ~
Alimenta al modelo con vídeos de YouTube y descarga el equivalente a 80 años de vídeos cada día.
Los chats, correos electrónicos y documentos internos de Slack obtenidos por 404 Media muestran que Nvidia extrae videos de YouTube y muchas otras fuentes para recopilar datos de entrenamiento para sus productos de inteligencia artificial. Cuando se le preguntó sobre las cuestiones legales y éticas del uso de contenido protegido por derechos de autor para entrenar modelos de IA, Nvidia argumentó que su enfoque "cumple plenamente con la letra y el espíritu de la ley de derechos de autor".
Las conversaciones internas en Nvidia revisadas por 404 Media muestran que cuando los empleados plantearon preguntas sobre las posibles implicaciones legales del uso de conjuntos de datos y videos de YouTube compilados por académicos con fines de investigación, los gerentes les dijeron que los superiores de la empresa habían aprobado su uso.
Un ex empleado de Nvidia (a quien 404 Media le concedió el anonimato para discutir los procesos internos de Nvidia) dijo que a los empleados se les pidió que extraeran videos de Netflix, YouTube y otras fuentes para entrenar el generador mundial Omniverse 3D de Nvidia.Piloto automáticoSistemas automotrices y "hombre digital"Modelo AI del producto.
El proyecto, conocido internamente como Cosmos (pero distinto del producto de aprendizaje profundo Cosmos existente de la compañía), aún no se ha hecho público.
Un correo electrónico del líder del proyecto reveló que Cosmos tiene como objetivo construir un modelo de infraestructura de video de última generación que "reúna simulaciones de transporte ligero, física e inteligencia en un solo lugar para desarrollar una variedad de aplicaciones posteriores críticas para Nvidia".
Un correo electrónico obtenido por 404 Media muestra un diagrama que muestra cómo se aplica el modelo Cosmos a diferentes productos Nvidia.
Los mensajes de Slack en el canal creado por la empresa para el proyecto muestran que los empleados utilizan un descargador de vídeos de YouTube de código abierto llamado yt-dlp, combinado con una máquina virtual para actualizar la dirección IP y evitar ser bloqueados por YouTube.
Según la fuente, intentaron descargar vídeos completos de múltiples fuentes, incluido Netflix, pero se centraron principalmente en vídeos de YouTube.
Los correos electrónicos revisados ​​por 404 Media muestran a gerentes de proyectos discutiendo el uso de 20 a 30 máquinas virtuales de Amazon Web Services para descargar 80 años de video por día.
"Estamos finalizando la canalización de datos v1 y asegurando suficientes recursos informáticos para construir una fábrica de datos de vídeo que pueda generar el equivalente al 100% de los datos de vídeo cada día", dijo Mingyu Liu, vicepresidente de investigación de Nvidia y líder del proyecto Cosmos. en un correo electrónico en mayo. La cantidad de datos en la experiencia visual de la vida de un ser humano”.
Las conversaciones e instrucciones dentro de Nvidia muestran a los empleados discutiendo las consideraciones legales y éticas de la compañía al diseñar los chips y API que han impulsado el surgimiento de la IA generativa y la han convertido en una de las empresas públicas más valiosas del mundo.
También destaca las empresas más grandes del sector, como Runway y IA abierta, existe una demanda insatisfecha de contenidos como datos para entrenar modelos de IA.
Un portavoz de Nvidia dijo en un correo electrónico a 404 Media:
Respetamos los derechos de todos los creadores de contenido y creemos firmemente que nuestros modelos y trabajos de investigación cumplen plenamente con la letra y el espíritu de la ley de derechos de autor. La ley de derechos de autor protege ciertas expresiones pero no los hechos, opiniones, datos o información. Cualquiera puede aprender hechos, ideas, datos o información de otras fuentes y utilizarlos para crear su propia expresión. El uso legítimo también protege el derecho a utilizar la obra con fines transformadores, como la formación de modelos.
Cuando se le preguntó sobre el uso de videos de YouTube por parte de Nvidia como datos de entrenamiento para sus modelos, un portavoz de Google dijo a 404 Media que los "comentarios anteriores de la compañía aún se aplican".
Entre ellos, el director ejecutivo de YouTube, Neal Mohan, dijo que si OpenAI usa videos de YouTube para optimizar su generador de videos de IA Sora, esto violará claramente los términos de uso de YouTube.
Un portavoz de Netflix le dijo a 404 Media que Netflix no tiene un acuerdo con Nvidia para la adquisición de contenido y que los términos de servicio de la plataforma no permiten la extracción de datos.
Las preguntas sobre las cuestiones legales planteadas por los empleados involucrados en el proyecto fueron generalmente descartadas por los gerentes del proyecto, quienes dijeron que la decisión de eliminar el video sin permiso era una "decisión de alto nivel" y que los empleados no tenían nada de qué preocuparse sobre lo que constituía una infracción de contenido protegido por derechos de autor y el tema del uso justo y ético de conjuntos de datos para uso académico y no comercial se considera una "cuestión legal no resuelta" que resolverán en el futuro.
Nuestra investigación destaca la actitud de "no preguntar" de estas empresas de tecnología al incorporar grandes cantidades de contenido protegido por derechos de autor en conjuntos de datos que se utilizan para entrenar algunos de los modelos de IA más valiosos del mundo.
Los ejecutivos de Nvidia sugirieron que también se abusó del conjunto de datos académicos de la Universidad de Pekín.
En febrero de 2024, Francesco Ferroni, científico jefe de Nvidia, escribió en el canal Nvidia Slack llamado #cosmos-dataset-creation:
“Hola a todos, @Sanja Fidler me mencionó una iniciativa para agregar una gran cantidad de conjuntos de datos de video seleccionados para el modelado generativo. Pensamos que comenzar agregando todos los conjuntos de datos de video disponibles internamente (descargados públicamente o internamente) para evitar la duplicación es muy significativo. "
(Nota: Sanja Fidler es la vicepresidenta de investigación de IA de Nvidia).
Ferroni luego vinculó a una hoja de cálculo con enlaces a conjuntos de datos que incluyen MovieNet, una base de datos de 60.000 avances de películas, y WebVid, un conjunto de datos de video compilado a partir de imágenes de archivo en Github que luego fue descontinuado por Shutterstock y eliminado por su creador después de recibir un aviso), InternVid. -10M (un conjunto de datos de 10 millones de ID de videos de YouTube en Github) y varios conjuntos de datos de imágenes de videojuegos capturadas internamente. 404 Media eliminó los nombres de los empleados junior de las capturas de pantalla de las conversaciones de Slack.
Incluimos los nombres de varios ingenieros y ejecutivos senior involucrados en el proyecto debido a su visibilidad pública como líderes en la industria de la IA.
La hoja de cálculo vinculada por Ferroni muestra los conjuntos de datos utilizados en el proyecto.
En una discusión de seguimiento en febrero, los ingenieros hablaron sobre los conjuntos de datos que adquirieron, incluido HD-VG-130M, un conjunto de 130 millones de videos de YouTube. El conjunto de datos fue creado por investigadores de la Universidad de Pekín en China y su licencia de uso establece que sólo puede utilizarse con fines académicos.
"Al descargar o utilizar los datos, usted comprende, reconoce y acepta todos los términos del siguiente acuerdo", se lee en la página de Github para el conjunto de datos.
La página enfatiza "Solo para uso académico. Cualquier contenido del conjunto de datos HD-VG-130M es solo para uso de investigación académica. Usted acepta no copiar, comercializar ni utilizar con fines comerciales. La distribución está prohibida. Respete la privacidad del información personal de la fuente original." . Cualquier transmisión, modificación o cualquier otro comportamiento similar del contenido del conjunto de datos no está permitido sin el permiso del propietario de los derechos de autor.
A lo largo del proyecto, los conjuntos de datos compilados y puestos a disposición del público por investigadores y académicos se consideraron disponibles gratuitamente para su uso en los modelos NVIDIA. Los investigadores de IA están cada vez más preocupados por el uso adecuado de los conjuntos de datos que hacen públicos, incluidos los usos éticos y legales.
Robert Mahari, de MIT Data Provenance Initiative, dijo a 404 Media que han visto un aumento significativo en el uso de licencias de uso no comercial para conjuntos de datos de investigación durante el año pasado, lo que sugiere que los académicos están tratando de limitar el uso comercial de su trabajo. Los conjuntos de datos compilados para uso en investigación difieren significativamente en su propósito de los conjuntos de datos compilados para uso comercial.
"Cuando los académicos publican conjuntos de datos públicos, especialmente conjuntos de datos de tareas específicas, es posible que no examinemos específicamente los datos en busca de problemas como ciertos tipos de sesgo o centrismo occidental. Si esos no son el foco de la investigación, entonces no habrá inspecciones". Dijo Mahari. "Por lo tanto, si un académico indica en la licencia 'Solo uso académico' o 'Por favor, no utilice estos datos de manera no deseada', hay una buena razón para cumplir con estas regulaciones. Debido a que los datos pueden no ser de calidad comercial, pueden También funcionan mal en otros tipos de entornos".
Como muchos otros gigantes tecnológicos, Nvidia emplea personas que realizan y publican investigaciones académicas. Sin embargo, las conversaciones internas de Nvidia revisadas por 404 Media indican que Cosmos tiene como objetivo apoyar los esfuerzos de la compañía para fortalecer sus ofertas comerciales en la altamente competitiva industria de la IA.
Los conjuntos de datos de investigación publicados a menudo se distribuyen como URL o ID de YouTube por dos razones: en primer lugar, por razones prácticas: compartir millones de archivos de vídeo o imágenes completos es demasiado engorroso, en segundo lugar, por razones legales y éticas. Por ejemplo, si alguien elimina su vídeo o tweet de YouTube, no seguirá existiendo una copia en el conjunto de datos sin el conocimiento o permiso del propietario.
"Es como eludir las restricciones legales al no distribuir el conjunto de datos a personas externas", dijo a 404 Media Emily Bender, profesora y directora del Laboratorio de Lingüística Computacional de la Universidad de Washington. "Otros pueden crear el conjunto de datos y utilizarlo para sus propios fines".
Detalles de la discusión expuestos, ¿cómo roba NVIDIA datos al margen de la ley?
En marzo, un científico investigador inició una discusión en Slack sobre la posibilidad de que el generador de video Sora de OpenAI usara películas de Hollywood como "Avatar" y "El Señor de los Anillos" como datos de entrenamiento.
"Las películas son en realidad una buena fuente de datos para la continuidad de juegos en 3D y contenido ficticio, pero de mayor calidad. Los personajes son completamente CGI, y muchas de las escenas de acción en vivo ahora también son CGI", dijeron. Alguien respondió que el equipo debería entrenar con el conjunto de datos de películas de Discovery Channel.
Liu Mingyu dijo: "Necesitamos un voluntario para descargar todas las películas".
El científico investigador que propuso originalmente la película agregó: "Si bien está muy claro lo que están haciendo, debemos tener mucho cuidado con Hollywood para no volverse hipersensible a la IA, como le ocurrió a la comunidad de artistas después del lanzamiento de SD [Stable Diffusion". ] y ahora está sucediendo en Hollywood".
Luego publicaron dos enlaces en el chat: un artículo de Hollywood Reporter sobre Tyler Perry deteniendo la expansión del estudio de $800 millones después de ver Sora de OpenAI, y un artículo de Vanity Fair sobre la huelga SAG-AFTRA de 2023 conduce a artículos que incluyen el lenguaje de IA en los contratos de los estudios.
Liu Mingyu enfatizó: "Lo que estamos haciendo aquí no publicará ningún resultado de investigación. Utilizaremos todos los datos descargables para realizar experimentos. Como no publicaremos nada, no habrá emociones negativas", explicó el ex empleado de 404 Media. que "publicar" se refiere a publicaciones de investigación.
La persona que planteó "alta sensibilidad" respondió: "Si llevamos a cabo un proyecto de este tipo dentro de la empresa, debe comunicarse ampliamente, porque mostrar ejemplos similares puede causar reacciones negativas".
En marzo, Ferroni escribió en otro canal de Slack relacionado con el proyecto: "Se encontraron algunos archivos de alta prioridad que debían descargarse. Resultó que faltaban 2,3 millones de vídeos sin procesar en el conjunto de datos HDVILA [lenguaje de vídeo de alta resolución] que teníamos. !" Se referían al HD-VILA-100M de Microsoft, un conjunto de datos de lenguajes de vídeo diversos, de alta resolución y a gran escala. Enviaron un enlace a un documento de Google Drive y dijeron: "Aquí está el enlace que falta de YouTube", y luego dijeron: "¡Pongamos esto en el proceso de descarga!".
La declaración de licencia para HD-VILA-100M dice:
"Usted acepta utilizar los datos únicamente con fines computacionales para investigaciones no comerciales. Esta restricción significa que puede participar en actividades de investigación no comerciales (incluidas investigaciones no comerciales realizadas o financiadas por una entidad comercial), pero no puede usar los datos o cualquier resultado de cualquier producto comercial, incluso como parte de un producto o servicio que usted utiliza o proporciona a otros (o para mejorar cualquier producto o servicio).
"Creemos una base de datos de URL descargadas", respondió otro ingeniero. "Los videos de YouTube tienen ID únicos. ¿Podemos usar estos ID como referencias (los ID después de "?v=")? Compararemos y fusionaremos URL muchas veces en el futuro". Ferroni respondió: "Sí, ahora estamos usando Hive". configuración de infraestructura", lo que significa que la están agregando a la herramienta de gestión de proyectos Hive.
El miembro del equipo Omniverse al que etiquetaron respondió: "Estamos en AWS y reiniciar una instancia [de máquina virtual] nos proporciona una nueva IP pública, por lo que eso no es un problema en este momento".
En una discusión de Slack en el canal #cosmos-dataset-creation sobre cómo encontrar los mejores videos, los empleados mencionaron ocasionalmente las cuestiones legales y éticas de su trabajo. En febrero, después de que alguien mencionara el uso de YouTube-8M, un conjunto de datos de investigación de ID de YouTube compilado por Google, Ferroni preguntó: "¿Quizás no podamos usar [YT8M] para fines no relacionados con la investigación?".
El documento y la página del proyecto de YouTube-8M no mencionan cuestiones de derechos de autor, pero sí afirman que el conjunto de datos se creó para avanzar en la investigación del aprendizaje automático: “Esperamos que este conjunto de datos proporcione igualdad de condiciones para los investigadores del mundo académico y cierre la brecha con los grandes. conjuntos de datos de vídeo anotados a gran escala y acelerar significativamente la investigación en la comprensión del vídeo. Esperamos que este conjunto de datos sirva como banco de pruebas para desarrollar algoritmos novedosos de aprendizaje de representación de vídeo, especialmente métodos que aborden eficazmente etiquetas ruidosas o incompletas".
En respuesta a la pregunta de Ferroni sobre su uso para el proyecto Cosmos, un empleado de NVIDIA que anteriormente co-creó el ACAV100M respondió:
"Sí, descargar datos de Google es muy caro. Sin embargo, programar 10.000 núcleos desde NVIDIA ha sido un desafío.
Además, las limitaciones de ancho de banda de NVIDIA en la nube añaden una variabilidad considerable que puede causar problemas. La descarga en Google Cloud significa que cada tarea obtiene una conexión estable y de gran ancho de banda a YouTube. "
"Más importante aún, la descarga de videos de YouTube está prohibida por los términos de servicio de YouTube. Por eso, al descargar YouTube 8m, nos comunicamos con Google y YouTube con anticipación y utilizamos Google Cloud para la descarga como incentivo.Después de todo, normalmente para 8 millones de vídeos., obtienen muchas impresiones de anuncios que se descargan cuando se utilizan para capacitación y generan una pérdida de ingresos, por lo que deberían obtener algunos ingresos de eso. Pagar $0.00625 por descarga de video sigue siendo una buena oferta. "
"Bien, ¿entonces se espera que estos datos se utilicen sólo con fines de investigación? Hasta donde yo sé, la API de YouTube de Google puede consultar los términos de licencia de cada video", respondió Ferroni. "¿Puedes comentar también sobre los términos de licencia de ACAV100M y YouTube8M?"
"Hasta donde yo sé, los términos de servicio de YouTube prohíben la descarga independientemente de la licencia; la restricción se refiere a la pérdida de ingresos publicitarios, no a la licencia", respondió otro empleado. Continuaron:
"No sé qué términos de licencia filtró Google al crear el conjunto de datos; simplemente descargamos lo que enumeraron como incluido en el conjunto de datos (publicaron las funciones, junto con enlaces a los videos originales). Descargué los datos de YouTube 8m. El conjunto viene con metadatos completos, por lo que puede consultar cada video allí. Aún necesito verificar el conjunto de datos ACAV100M. Sin embargo, en términos generales, CC o dominio público sería mejor si hay material con derechos de autor disponible. cuestión legal; la mayoría de las empresas parecen considerar que esto es un uso legítimo. Creo que nuestro equipo legal ha aprobado esta práctica para entrenar modelos de lenguaje grandes y probablemente también aprobará la capacitación en video”.
"Creo que existe una enorme brecha entre comercializar algo sin el consentimiento de alguien e investigar las capacidades de la IA generativa basada en contenido publicado públicamente", dijo a 404 Media Shayne Longpre, estudiante de doctorado en el MIT Media Lab. Las preguntas sobre los términos de servicio de YouTube en el canal Cosmos Slack no fueron la última vez que surgieron problemas legales.
Más tarde, otro empleado dijo: "Hola equipo. ¿Estamos usando https://research.google.com/youtube8m/download.html para descargar videos? Si es así, ¿tenemos aprobación legal? En un proyecto, el departamento legal negó su Úselo porque la licencia para videos individuales es mejor que la licencia compartida en yt8m. "Esta es una decisión administrativa. Tenemos una licencia maestra que cubre todos los datos", respondió Liu Mingyu. "¡Está bien, gracias!", Respondió la persona que hizo la pregunta.
Bender dijo a 404 Media que la compañía está aprovechando la actual zona legal gris que rodea el contenido protegido por derechos de autor utilizado para los datos de capacitación. "Me parece que definitivamente existe una cultura de 'si podemos conseguirlo, podemos usarlo'", dijo. "Se basa en gran medida en que la gente quiera que esto suceda, más que en un estudio cuidadoso de su legalidad o una reflexión profunda sobre su impacto en la gente".
El uso de contenido protegido por derechos de autor para el entrenamiento de IA "definitivamente no es una ley establecida", dijo Mahari. El sistema legal aún tiene que determinar si la obtención de datos de entrenamiento para desarrollar modelos de IA es lo suficientemente transformadora, especialmente porque se ha demostrado que los modelos pueden recordar o recuperar datos de entrenamiento como resultado. “Mi punto (resumido parcialmente en este artículo de Science) es que entrenar un modelo de IA puede constituir un uso legítimo, pero eso no significa que generar resultados similares a elementos específicos en los datos de entrenamiento no sea una infracción.
En este caso, no está claro si el proveedor del modelo subyacente o el usuario específico que genera el resultado estaría infringiendo (esto puede depender del contexto). "
En mayo, un científico investigador colocó enlaces a algunos canales de YouTube en el canal Cosmos Slack y dijo: "Si todavía están abiertos a sugerencias de canales de YouTube que puedan descargar, aquí hay algunos que podrían valer la pena considerar". Incluye los canales oficiales de Expedia y Architectural Digest, así como creadores de contenido individuales como The Critical Drinker y Marques Brownlee (MKBHD). Un director de proyecto les agradeció sus sugerencias y les dijo que las pasarían al equipo, a lo que Fidler respondió: "¿Incluiste también un vídeo tutorial? ¿Astronomía? ¿Medicina?".
Es posible que la "cuestión legal pendiente" del uso de obras protegidas por derechos de autor para la capacitación de modelos básicos comerciales no quede sin resolver por mucho tiempo.
Se están acumulando las demandas por infracción de derechos de autor presentadas por titulares de derechos de autor contra empresas de IA generativa, incluida la demanda de Getty Images contra el creador de Stable Diffusion, Stability AI, la demanda del New York Times contra OpenAI y la demanda de artistas y creadores contra Stability.A mitad de camino , DeviantArt y Runway presentaron una demanda colectiva. El equipo de datos de entrenamiento de Cosmos también discutió el uso de Netflix para entrenar el generador.
"En la reunión de hoy, obtuvimos permiso para descargar todo tipo de datos. ¿Deberíamos descargar Netflix completo? ¿Cómo hacemos operativo esto?", dijo Liu en el canal Slack. "¡Deberíamos descargar todo el Discovery Channel!"
alguien respondió. "Necesitamos un coordinador de información del proyecto. ¿Quién quiere hacer capturas de pantalla mientras ve todas las películas?", dijo Liu. "Deberíamos obtener muchos vídeos de caras de alta calidad", continuó Liu. Alguien del equipo de infraestructura de Omniverse fue etiquetado en el hilo y señaló que estaba dispuesto a ayudar a "hacer operativo esto" porque tenía "experiencia con otras grandes empresas que construyen grandes conjuntos de datos".
El equipo también consideró la mejor manera de agregar imágenes de videojuegos a los datos de entrenamiento. Jim Fan, científico investigador senior de Nvidia, mencionó que existen obstáculos "regulatorios y de ingeniería" para capturar videos de juegos en vivo.
"Actualización: me reuní con la gente de GeForce Now (GFN) y trabajaré con ellos en un plan de datos. Trabajaremos estrechamente con GFN y los equipos de ingeniería asociados para crear captura de datos de juegos en tiempo real, escalar el proceso y procesar estos datos para el entrenamiento. Los vídeos de juego de alta calidad serán una adición muy útil a nuestro proyecto Sora", escribió Fan. “Aún no tenemos estadísticas ni archivos de video porque la infraestructura no se ha configurado para capturar grandes cantidades de video y acción de juegos en vivo. Sin embargo, necesitamos superar los obstáculos regulatorios y de ingeniería una vez que los datos de GFN se hayan limpiado y procesado. Cuando llegue, lo agregaremos a team-vfm lo antes posible".
En marzo, el proyecto alcanzó un hito: se descargaron 100.000 vídeos en dos semanas. Un empleado mencionó en un hilo sobre el hito que Ferroni tiene un descargador que está usando, y Ferroni confirmó que han estado descargando audio y video. "Un progreso asombroso. La pregunta ahora es cómo podemos obtener una gran cantidad de URL de alta calidad", respondió Liu.
A finales de mayo, se envió un correo electrónico de estrategia de datos para datos de vídeo a los miembros del equipo del proyecto, anunciando que habían compilado 38,5 millones de URL de vídeo. "Según nuestro objetivo de distribución, la atención para la próxima semana seguirá centrada en películas, imágenes de drones, vídeos en primera persona y algunos vídeos de viajes y naturaleza", se lee en el correo electrónico. El correo electrónico también incluía un gráfico que mostraba el porcentaje de tipos de contenido que descargaron.
En ese correo electrónico, un gerente de producto sugirió agregar cuatro conjuntos de datos adicionales a los datos de entrenamiento del modelo. Ellos escribieron:

1. Ego-Exo4D: un conjunto de datos de video multimodal y de múltiples vistas a gran escala y un punto de referencia recopilado por 740 usuarios de cámaras en 13 ciudades de todo el mundo, que captura 1286,3 horas de video de actividades humanas calificadas.

2. Ego4D: un conjunto de datos de perspectiva en primera persona a gran escala y un conjunto de pruebas comparativas con más de 3670 horas de videos de actividades de la vida diaria recopilados en 74 ubicaciones y 9 países de todo el mundo.

3. HOI4D: un conjunto de datos de primera vista de cuatro dimensiones a gran escala con anotaciones ricas para facilitar el estudio de las interacciones entre humanos y objetos a nivel de categoría.

4. GeForce Now: datos del juego.
HOI4D fue creado por investigadores de la Universidad de Tsinghua, la Universidad de Pekín y el Instituto de Investigación Qizhi de Shanghai. Tiene licencia CC BY-NC 4.0 y no se permite su uso comercial.
"En mi opinión, si una empresa toma un conjunto de datos que es sólo para fines de investigación y lo utiliza para la investigación, todavía cumple con la licencia para ese conjunto de datos", dijo Bender.
"Pero para garantizar eso, deben tener mucho cuidado al construir cortafuegos entre la investigación que realizan y el trabajo que realizan en el desarrollo de productos".
En otro correo electrónico de actualización en mayo, Liu dijo: "El equipo de investigación ahora está entrenando un modelo con mil millones de parámetros usando muchas configuraciones diferentes, cada una con 16 nodos. Esta es una depuración importante antes de seguir expandiendo. Planeamos sacar conclusiones dentro de un unas pocas semanas y luego ampliarlo a un modelo de 10 mil millones de parámetros”.
El director ejecutivo de Nvidia, Jensen Huang, respondió en ese correo electrónico: "Gran actualización. Muchas empresas tienen que crear modelos basados ​​en vídeo. Podemos proporcionar un proceso totalmente acelerado".
En junio, los empleados discutieron qué tipos de contenido en los modelos serían más útiles para que los productos de Nvidia sigan siendo competitivos en la industria de la inteligencia artificial.
"NVIDIA tiene robots, vehículos autónomos, Omniverse y Avatar que la mayoría de las empresas de contenidos no tienen. Para tener el mayor impacto en la empresa, los datos que seleccionamos deben ser aplicables a estas aplicaciones asesinas", afirmó Liu.
"Entiendo los datos que afectan a los robots y los vehículos autónomos. ¿Alguien puede compartir los detalles de los datos que afectan los casos de uso de Omniverse y Avatar?", respondió un gerente de producto. "Será un vídeo sobre cómo los humanos interactúan con los objetos. Como instalar muebles, cortar fruta, doblar la ropa", respondió Liu.
¿El progreso de los modelos de IA se basa en tus creaciones y las mías?
Si bien Nvidia contribuye a la investigación académica, las conversaciones y los correos electrónicos obtenidos por 404 Media muestran que el modelo en el que está trabajando el equipo de Cosmos está destinado a uso comercial en varios de sus productos.
Hasta que se establezca un precedente legal sobre cómo se compilan los datos de capacitación, o hasta que se exija a las empresas que sean transparentes con respecto a estos datos, las empresas seguirán explotando el área gris legal de extraer datos de capacitación protegidos por derechos de autor. Las filtraciones de conversaciones internas como esta son la única forma en que las personas pueden saber si su trabajo se está utilizando para entrenar modelos que hacen que empresas como Nvidia, Runway u OpenAI ganen miles de millones de dólares.
La industria de la IA lleva años presionando por una mayor transparencia, ya sea a través de regulaciones gubernamentales o estándares industriales.
A principios de este año, Jack Hardinges, Elena Simperl y Nigel Shadbolt del MIT escribieron: “Es fundamental comprender qué hay en los conjuntos de datos utilizados para entrenar modelos y cómo se compilaron. Sin esta información, los desarrolladores, investigadores y especialistas en ética están tratando de abordarlos. sesgar o eliminar contenido dañino de los datos se verá obstaculizado.
La información sobre los datos de entrenamiento también será crucial para que los legisladores evalúen si los modelos subyacentes ingirieron datos personales o material protegido por derechos de autor. En el futuro, es más probable que los operadores previstos de los sistemas de IA y aquellos afectados por su uso confíen en estos sistemas si entienden cómo se desarrollaron. "
Los legisladores presentaron varios proyectos de ley el año pasado para abordar el problema, incluida la Ley de Transparencia del Modelo Subyacente de IA en diciembre, que requeriría que las empresas que crean modelos de IA subyacentes trabajen con agencias federales como la FTC y la Oficina de Derechos de Autor para desarrollar estándares de transparencia, incluido el requisito de revelar cierta información a los consumidores.
La Ley Generativa de Divulgación de Derechos de Autor de IA, propuesta en abril de este año, requeriría que los productores de conjuntos de datos presenten "un resumen suficientemente detallado de cualquier trabajo protegido por derechos de autor" al registrador o enfrentarán multas.
"Técnicamente, es muy difícil determinar si su trabajo se utilizó para entrenamiento", dijo Mahari. "Internamente, la mejor política es no decirle a la gente qué capacitación utiliza porque es muy difícil para un tercero auditar y averiguarlo. Así que, mientras no se lo digas a nadie, es muy difícil demostrarlo".
Adjunto la dirección original del informe:

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/