notícias

O misterioso modelo de base de vídeo “Cosmos” da Nvidia é exposto e todos os dados são roubados

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Relatório do coração da máquina

Departamento Editorial de Coração de Máquina

Para este modelo de vídeo, a NVIDIA está rastreando freneticamente o equivalente a 80 anos de dados de vídeo todos os dias.

Hoje, uma notícia sobre a decisão da Nvidia de parar de fabricar modelos de vídeo explodiu no Reddit.

A fonte da notícia vem da mídia estrangeira 404 Media. De acordo com o chat do Slack (plataforma de chat interna da Nvidia), e-mails e documentos obtidos, a Nvidia está pegando vídeos do Youtube e de diversas outras fontes para coletar dados de treinamento para seus produtos de IA.



Conversas internas na Nvidia analisadas pela 404 Media mostram que quando os funcionários envolvidos no projeto levantaram preocupações sobre possíveis questões legais decorrentes do uso de “conjuntos de dados de pesquisa comercialmente proibidos” e “vídeos do YouTube”, os gerentes disseram-lhes que tinham a aprovação dos mais altos níveis de a empresa, que pode ser usada.

Um ex-funcionário anônimo da Nvidia disse que os funcionários foram solicitados a extrair vídeos do Netflix, YouTube e outras fontes para treinar modelos de IA para o gerador mundial Omniverse 3D, sistemas de carros autônomos e produtos “humanos digitais”.

O projeto, denominado Cosmos internamente (mas distinto do produto de aprendizagem profunda Cosmos existente da empresa), ainda não foi lançado ao público. De acordo com um e-mail enviado aos funcionários pela liderança do projeto, o objetivo do Cosmos é construir um modelo de infraestrutura de vídeo de última geração que “encapsule transporte leve, física e simulação inteligente em um só lugar para desbloquear os vários aspectos downstream críticos para Aplicativo Nvidia.”

Para coletar vídeos de treinamento, os funcionários da NVIDIA usaram um downloader de vídeos do YouTube de código aberto chamado “yt-dlp”. Eles tentam baixar vídeos completos de várias fontes como Netflix, mas se concentram principalmente em vídeos do YouTube. E-mails revisados ​​pela 404 Media mostram que o gerente do projeto optou por usar de 20 a 30 máquinas virtuais na Amazon Web Services para baixar vídeos equivalentes a 80 anos todos os dias.

“Estamos concluindo o pipeline de dados v1 e garantindo os recursos de computação necessários para construir uma fábrica de dados de vídeo que pode gerar dados de treinamento diários equivalentes a uma vida inteira de experiência visual humana.”

Quando questionado sobre o uso de vídeos do YouTube pela Nvidia como dados de treinamento para seus modelos, um porta-voz do Google disse à 404 Media que a “posição anterior da empresa permanece válida”. Anteriormente, o CEO do YouTube, Neal Mohan, disse que se a OpenAI usasse vídeos do YouTube para melhorar seu gerador de vídeo de IA Sora, seria uma “violação clara” dos termos de uso do YouTube.

Da mesma forma, um porta-voz da Netflix disse à 404 Media que a empresa não tem acordo com a Nvidia para aquisição de conteúdo e que os termos de serviço da plataforma não permitem a extração de conteúdo.

No entanto, a Nvidia não parece se importar. As preocupações legais levantadas pelos funcionários envolvidos no projeto foram frequentemente rejeitadas pelos gerentes de projeto, que disseram que a decisão de copiar o vídeo sem permissão era uma "decisão executiva" com a qual eles não precisavam se preocupar e que constituía um uso justo e ético de direitos autorais. o conteúdo e a questão do uso acadêmico e não comercial do conjunto de dados são considerados "questões jurídicas pendentes" que serão resolvidas no futuro.

O início e o fim do projeto do modelo de vídeo NVIDIA

Semelhante a outros gigantes da tecnologia, a Nvidia contrata talentos de pesquisa acadêmica para publicar resultados acadêmicos, mas a partir de e-mails internos obtidos pela 404 Media, pode-se perceber que o Cosmos obviamente será usado para fins comerciais.

Em março deste ano, um pesquisador da NVIDIA postou no Slack e sugeriu que usar filmes de Hollywood como "Avatar" ou "Senhor dos Anéis" para treinar OpenAI Sora poderia ser mais eficaz.

Posteriormente, sua proposta foi reconhecida dentro da empresa, mas ele também acrescentou que Hollywood é particularmente sensível à possibilidade de a IA infringir direitos autorais. Em julho de 2023, o SAG-AFTRA, um dos três principais sindicatos de Hollywood com 160.000 membros, anunciou uma greve, visando produtos generativos de IA, como ChatGPT e Stable Diffusion. Antes disso, o Writers Guild of America estava em greve. mais de 70 dias. Há uma situação no Stable Diffusion. Mesmo que você não insira a palavra de prompt correspondente e insira uma descrição vaga como "Encanador de estilo de animação", o Stable Diffusion gerará diretamente a imagem clássica de Mario.

Nesta postagem, um funcionário chamado “Liu” (ou seja, Ming-Yu Liu (Liu Mingyu), vice-presidente de pesquisa da NVIDIA) respondeu: “Se o artigo não for publicado publicamente, não causará os problemas negativos acima. primeiro use vídeos para download para experimentação."



Posteriormente, outro pesquisador da NVIDIA postou uma postagem na intranet. Ele encontrou uma lista de arquivos que deveriam ser baixados primeiro para modelos de vídeo de treinamento. No entanto, o conjunto de dados HD-VILA-100M usado pela NVIDIA não possuía cerca de 2,3 milhões de arquivos de vídeo originais. Essa lista cada vez maior também inclui vídeos originais de alguns YouTubers conhecidos, como Marques Brownlee (MKBHD), um blogueiro de resenhas digitais com reputação na América do Norte como “Olá a todos, sou Classmate He”.

Devido à proteção de direitos autorais, os conjuntos gerais de dados de vídeo geralmente incluem links de URL ou IDs do YouTube. Depois que o autor exclui o vídeo original, esses conteúdos não serão mais incluídos no conjunto de dados, a menos que o autor do vídeo concorde explicitamente com a retenção e uso do conteúdo. .

Embora a Microsoft proíba explicitamente todos os usos comerciais em sua declaração de uso do conjunto de dados HD-VILA-100M, o funcionário da Nvidia que postou a mensagem não pareceu se importar. Ele rapidamente postou o link do YouTube correspondente à lista e o compartilhou com seus colegas. Discutimos uma solução para usar máquinas virtuais AWS para alterar IPs e contornar o mecanismo anti-rastreador do YouTube.

Além disso, os funcionários da NVIDIA também recorreram ao YouTube-8M, um conjunto de dados de compreensão de vídeo em grande escala lançado pelo Google. Em vez de complementar o conjunto de dados da Microsoft por conta própria, eles chegaram a um “acordo” com o YouTube e o Google, a atual controladora do YouTube, a Nvidia comprou 800 vídeos ao preço de US$ 0,00625 (cerca de 4 centavos) por vídeo e serão baixados. por meio do Google Cloud. Independentemente da questão da venda de direitos autorais, o Google pode pensar que recuperou as taxas de publicidade desses vídeos, mas a Nvidia já tem algumas limitações na largura de banda da nuvem. Baixar no Google Cloud pode obter uma conexão mais estável e previsível. Portanto, não importa como você olhe, esse “acordo” parece ser benéfico para a Nvidia.

O que é ainda mais surpreendente é quando um funcionário da Nvidia perguntou na intranet: “É razoável baixarmos vídeos do YouTube como este?”

“Esta é uma decisão de alto nível. Temos total aprovação para usar todos os dados.”

Os dados permitidos para esta decisão incluem também produções de vídeo na Netflix. Os dados da Netflix contêm muitos dados faciais de alta qualidade. Depois de aprovados, alguém pediu ajuda a colegas na intranet da empresa que tinham experiência em “construir grandes conjuntos de dados” em outras grandes empresas.

Ao mesmo tempo, a equipe do Cosmos também considerou a questão de como adicionar efetivamente imagens do jogo aos dados de treinamento. O cientista pesquisador sênior da NVIDIA, Jim Fan, também encontrou obstáculos “regulatórios” ao capturar imagens de jogos em tempo real.

Jim Fan postou:

Atualização: tenho me encontrado com o pessoal da GeForce Now (GFN) e trabalhado em planos com eles. Trabalharemos em estreita colaboração com a GFN e equipes de engenharia relacionadas para desenvolver métodos para capturar dados de jogos em tempo real, expandir a escala do pipeline e processar os dados para treinamento. Vídeos de gameplay de alta qualidade serão uma adição muito útil ao "nosso Sora"... Como o equipamento para capturar vídeos e ações de gameplay ao vivo ainda não está disponível, as estatísticas ainda não foram feitas, mas iremos limpar e O GFN processado os dados são adicionados ao team-vfm.

Em março deste ano, a coleta de dados de vídeo do Projeto Cosmo atingiu um marco: a Nvidia completou 100 mil downloads de vídeo em duas semanas.

"O progresso é incrível. A questão agora é como podemos obter um grande número de URLs de alta qualidade."

No final de maio, os membros da equipe do projeto receberam um e-mail sobre a estratégia de dados de vídeo, anunciando que haviam compilado 38,5 milhões de URLs de vídeo. “De acordo com o plano, o foco da coleção de vídeos da próxima semana ainda será filmes, imagens de drones, imagens em perspectiva de primeira pessoa e cenários naturais”, dizia o e-mail. O e-mail também incluía um gráfico mostrando os tipos de conteúdo baixados. percentagem.

O e-mail revelou algumas informações técnicas importantes, incluindo quatro conjuntos de dados de treinamento do modelo:

  • Ego-Exo4D: um conjunto de dados e benchmark de vídeo diversificado, em grande escala, multimodal e multivisualização, coletado por 740 usuários de câmeras em 13 cidades ao redor do mundo, capturando 1.286,3 horas de vídeo de atividades humanas qualificadas.
  • Ego4D: Este é um conjunto de dados egocêntrico e de grande escala e um conjunto de benchmark que coleta mais de 3.670 horas de vídeo de atividades da vida diária em 74 locais em 9 países ao redor do mundo.
  • HOI4D : Conjunto de dados egocêntricos 4D em grande escala com anotações ricas para facilitar a pesquisa de interação humano-objeto em nível de categoria. HOI4D foi criado por pesquisadores da Universidade de Tsinghua, da Universidade de Pequim e do Instituto de Pesquisa Qizhi de Xangai. É licenciado sob CC BY-NC 4.0 e o uso comercial é proibido.
  • GeForce agora: Dados do jogo.

Em outro e-mail, membros do projeto Cosmos disseram: “A equipe de pesquisa está agora treinando um modelo de 1 bilhão de parâmetros com múltiplas configurações, cada uma com 16 nós. algumas semanas e depois ampliar para um modelo de 10 bilhões de parâmetros."

“Esta atualização é ótima!” O CEO da Nvidia, Jen-Hsun Huang, respondeu ao e-mail. Ele disse: “Muitas empresas estabeleceram a meta de construir um modelo de vídeo básico e podemos definitivamente construir um pipeline acelerado”.

Em junho, os membros da equipe do projeto discutiram quais tipos de conteúdo do modelo seriam mais úteis para os produtos da Nvidia no contexto de manutenção da competitividade na indústria de IA.

“A NVIDIA tem robótica, direção autônoma, Omniverse e Avatar que a maioria das empresas de conteúdo não tem. Para maximizar o crescimento da empresa, os dados que organizamos devem ser bem aplicáveis ​​a esses aplicativos ‘matadores’”, disse o membro do Projeto Cosmos.

Não há dúvida de que o modelo que a equipe do Cosmos está desenvolvendo se destina ao uso comercial em seus diversos produtos.

Até que seja promulgada legislação que exija que estas empresas divulguem integralmente os seus dados de formação, continuarão a explorar áreas legais cinzentas para extrair dados protegidos por direitos de autor. Sem vazamentos de e-mails internos ou conversas na intranet, ninguém saberia o que está acontecendo nos bastidores, e tal modelo poderia gerar bilhões de dólares para gigantes da tecnologia como Nvidia, Runway ou OpenAI.

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/