notícias

A versão NVIDIA do Sora foi exposta à captura ilegal de uma grande quantidade de dados, e o oficial expressou insatisfação

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao vem do Templo Aofei
Qubits | Conta pública QbitAI

Versão NVIDIA do Sora exposta——

Com o codinome Cosmos, o vice-presidente de pesquisa Liu Mingyu é o responsável.

Porém, com o vazamento de diversos documentos internos, eles também foram expostos à captura ilegal de dados.



(Na verdade, isso não é apenas uma ou duas vezes...)

Os funcionários estão tacitamente autorizados a rastrear quaisquer dados não autorizados e não consensuais na Internet todos os dias, como YouTube, Netflix e outras plataformas.

Juntos, os dados visuais capturados todos os dias são quase tantos quanto uma pessoa pode perceber em 80 anos.

Como resultado, a Nvidia respondeu: O que fazemos,Totalmente legal!



Versão Nvidia do Sora exposta: codinome Cosmos

De acordo com documentos vazados obtidos pela 404Media, a NVIDIA captura dados ilegais todos os dias para treinar novos modelos.

O objetivo do Cosmos é construir um modelo básico de vídeo de última geração. De acordo com e-mails vazados, o modelo integra simulações de transmissão de luz, física e inteligência para desbloquear vários aplicativos downstream.

Por exemplo, ele é usado no gerador mundial Omniverse 3D, no sistema de carro autônomo e nos produtos humanos digitais.

Ming-Yu Liu, vice-presidente de pesquisa da NVIDIA, atua como líder do projeto Cosmos.



Ele também é membro do IEEE. Ele liderou a equipe de pesquisa NVIDIA Deep Imagination e lançou produtos como NVIDIA Picasso [Edify], NVIDIA Canvas [GauGAN] e NVIDIA Maxine [LivePortrait].

Um e-mail anterior de maio afirmava:

Estamos finalizando o pipeline de dados v1 e garantindo os recursos de computação necessários para construir uma fábrica de dados de vídeo que possa gerar diariamente o equivalente a uma vida inteira de experiência visual humana de dados de treinamento.

Esta imagem mostra o cientista-chefe da NVIDIA, Francesco Ferroni, fornecendo um link para uma tabela que reúne vários conjuntos de dados de vídeo, incluindo MovieNet (um banco de dados de 60.000 trailers de filmes), WebVid, InternVid-10M e vários conjuntos de dados de filmagens de jogos de vídeos capturados internamente.

Agora, segundo um ex-funcionário, os funcionários serão solicitados a extrair dados de fontes como YouTube e Netflix.

Eles usarão um downloader de vídeo do YouTube de código aberto chamado yt-dlp, que usa uma máquina virtual para atualizar endereços IP e evitar ser bloqueado pelo YouTube.

Para tanto, a Nvidia respondeu à 404 Media:

Respeitamos os direitos de todos os criadores de conteúdo e acreditamos que nossos modelos e trabalhos de pesquisa cumprem integralmente a letra e o espírito da lei de direitos autorais.
A lei de direitos autorais protege certas expressões, mas não fatos, ideias, dados ou informações. Qualquer pessoa é livre de obter factos, ideias, dados ou informações de outras fontes e utilizá-los para expressar as suas próprias opiniões. O uso justo também protege a capacidade de usar o trabalho para fins transformadores, como o treinamento de modelos. "

O Google lançou um link para a 404 Media Em abril deste ano, o CEO do YouTube disse que se a OpenAI usar vídeos do YouTube para treinar Sora, então.violação claraTermos de uso do YouTube.

A Netflix disse que não tinha acordo de extração de conteúdo com a Nvidia e que os termos de serviço da plataforma não permitiam a extração de conteúdo.

Curiosamente, no mesmo dia, os blogueiros do YouTube estão buscando uma ação coletiva contra a OpenAI, acusando a empresa de usar milhões de gravações de vídeo do YouTube para treinar seus modelos generativos de IA sem notificar ou compensar os proprietários dos vídeos.

Não é incomum que essas grandes empresas sejam expostas à captura ilegal de dados antes.

Mas é preciso dizer que esse tipo de dados brutos é realmente útil...

Anteriormente, a NVIDIA também usava vídeos de jogos para melhorar a qualidade dos dados de treinamento.

O estudo que apareceu recentemente na capa da Nature mostra que este grande modelo treinado com dados originais da Internet tem uma vantagem de ser o pioneiro, tem a melhor qualidade de dados e o desempenho do modelo correspondente também é o melhor.

Mais tarde, à medida que os dados de IA se tornaram cada vez mais abundantes, foi fácil o colapso de grandes modelos.

Lixo entra, lixo sai

O que você pensa sobre esse assunto?

Links de referência:
[1]https://techcrunch.com/2024/08/05/youtuber-files-class-action-suit-over-openais-scrape-of-creators-transcripts/
[2]https://www.gamedeveloper.com/business/report-nvidia-usou-filmagens-de-videogame-raspadas-para-treinar-produtos-de-ai

[3]https://www.404media.co/nvidia-ai-scraping-modelo-fundacional-projeto-cosmos/
[4]https://pivot-to-ai.com/2024/08/05/nvidia-pegou-ingestando-o-máximo-do-youtube-possível/