noticias

La versión NVIDIA de Sora estuvo expuesta a capturar ilegalmente una gran cantidad de datos y el funcionario expresó su descontento

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao proviene del templo de Aofei.
Qubits | Cuenta pública QbitAI

Versión NVIDIA de Sora expuesta——

Con el nombre en clave Cosmos, el vicepresidente de investigación Liu Mingyu es la persona a cargo.

Sin embargo, con la filtración de varios documentos internos, también estuvieron expuestos a la apropiación ilegal de datos.



(De hecho, esto no es sólo una o dos veces...)

Los empleados pueden tácitamente rastrear todos los días cualquier información no autorizada y no consensuada en Internet, como YouTube, Netflix y otras plataformas.

En conjunto, los datos visuales capturados cada día son casi tantos como los que una persona puede percibir en 80 años.

Como resultado, Nvidia respondió: Lo que hacemos,¡Totalmente legal!



Versión Nvidia de Sora expuesta: nombre en clave Cosmos

Según documentos filtrados obtenidos por 404Media, NVIDIA captura datos ilegales todos los días para entrenar nuevos modelos.

El objetivo de Cosmos es construir un modelo base de vídeo de última generación. Según correos electrónicos filtrados, el modelo integra simulaciones de transmisión de luz, física e inteligencia para desbloquear varias aplicaciones posteriores.

Por ejemplo, se utiliza en el generador mundial Omniverse 3D, en el sistema de vehículos autónomos y en productos humanos digitales.

Ming-Yu Liu, vicepresidente de investigación de NVIDIA, se desempeña como líder del proyecto de Cosmos.



También es miembro del IEEE. Dirigió el equipo de investigación de NVIDIA Deep Imagination y lanzó productos como NVIDIA Picasso [Edify], NVIDIA Canvas [GauGAN] y NVIDIA Maxine [LivePortrait].

Un correo electrónico anterior de mayo decía:

Estamos finalizando la canalización de datos v1 y asegurando los recursos informáticos necesarios para construir una fábrica de datos de video que pueda generar un equivalente diario de toda una vida de experiencia visual humana de datos de entrenamiento.

Esta imagen muestra al científico jefe de NVIDIA, Francesco Ferroni, dando un enlace a una tabla que reúne varios conjuntos de datos de vídeo, incluido MovieNet (una base de datos de 60.000 avances de películas), WebVid, InternVid-10M y varios vídeos capturados internamente.

Ahora, según un ex empleado, se les pedirá a los empleados que extraigan datos de fuentes como YouTube y Netflix.

Utilizarán un descargador de vídeos de YouTube de código abierto llamado yt-dlp, que utiliza una máquina virtual para actualizar las direcciones IP y evitar ser bloqueado por YouTube.

Con este fin, Nvidia respondió a 404 Media:

Respetamos los derechos de todos los creadores de contenido y creemos que nuestros modelos y trabajos de investigación cumplen plenamente con la letra y el espíritu de la ley de derechos de autor.
La ley de derechos de autor protege ciertas expresiones pero no los hechos, ideas, datos o información. Cualquiera es libre de obtener hechos, ideas, datos o información de otras fuentes y de utilizarlos para expresar sus propias opiniones. El uso legítimo también protege la capacidad de utilizar el trabajo con fines transformadores, como la formación de modelos. "

Google lanzó un enlace a 404 Media. En abril de este año, el director ejecutivo de YouTube dijo que si OpenAI usa videos de YouTube para entrenar a Sora, entonces.clara violaciónCondiciones de uso de YouTube.

Netflix dijo que no tenía un acuerdo de extracción de contenido con Nvidia y que los términos de servicio de la plataforma no permitían extraer contenido.

Curiosamente, el mismo día, los blogueros de YouTube presentaron una demanda colectiva contra OpenAI, acusando a la empresa de utilizar millones de grabaciones de vídeo de YouTube para entrenar sus modelos generativos de IA sin notificar ni compensar a los propietarios de los vídeos.

No es raro que estas grandes empresas hayan estado expuestas antes a la obtención ilegal de datos.

Pero hay que decir que este tipo de datos sin procesar son realmente útiles...

Anteriormente, NVIDIA también utilizaba vídeos de juegos para mejorar la calidad de los datos de entrenamiento.

El estudio que apareció recientemente en la portada de Nature muestra que este gran modelo entrenado con datos originales de Internet tiene la ventaja de ser el primero en actuar, tiene la mejor calidad de datos y el rendimiento del modelo correspondiente también es el mejor.

Más tarde, a medida que los datos de IA se hicieron cada vez más abundantes, fue fácil que los modelos grandes colapsaran.

Basura dentro basura fuera

¿Qué opinas sobre este asunto?

Enlaces de referencia:
[1]https://techcrunch.com/2024/08/05/youtuber-presenta-una-demanda-colectiva-por-el-registro-abierto-de-las-transcripciones-de-los-creadores/
[2]https://www.gamedeveloper.com/business/report-nvidia-used-scraped-video-game-footage-to-train-ai-products

[3]https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/
[4]https://pivot-to-ai.com/2024/08/05/nvidia-caught-ingesting-as-much-of-youtube-as-possible/