notícias

A Nvidia foi exposta a roubo de dados, rastreando mais de 80 anos de dados de vídeo todos os dias, e o conjunto de dados acadêmicos da Universidade de Pequim também foi afetado

2024-08-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A NVIDIA parece ter entrado em um período conturbado recentemente.
Depois que foi revelado que a produção em massa de seu chip de IA mais poderoso foi adiada e seu valor de mercado evaporou em mais de US$ 300 bilhões, a Nvidia foi denunciada pela 404 Media por obter conteúdo de vídeo de plataformas como YouTube e Netflix sem autorização para treiná-lo. .Modelo de vídeo AI que ainda não foi lançado ao público.
E-mails internos e chats do Slack mostram que, embora os funcionários da Nvidia tenham levantado questões sobre a legalidade e a ética do uso desses conjuntos de dados, a administração da empresa disse que essas ações foram aprovadas pela alta administração e argumentou que suas ações estavam em conformidade com a lei de direitos autorais.
Vale ressaltar que em discussões internas no final de fevereiro, a NVIDIA mencionou vários conjuntos de dados que estava usando, incluindo HD-VG-130M.
Este último é um conjunto de dados de 130 milhões de vídeos do YouTube construído por pesquisadores da Universidade de Pequim, e sua licença de uso estipula explicitamente que é limitado à pesquisa acadêmica.
A abordagem da Nvidia é mais como um microcosmo da maioria das empresas de IA atuais.
Quando os usuários são considerados "caixas eletrônicos de dados", a menos que pessoas internas o exponham, é realmente difícil para o mundo exterior saber se o seu e o meu trabalho se tornaram alimento para o treinamento em IA.
Em suma, os humanos ainda são consumidores no topo da cadeia alimentar, mas inevitavelmente nos tornaremos membros da cadeia de abastecimento de desenvolvimento de IA.
A seguir está o texto original da notícia da mídia estrangeira 404 Media, escrita por GPT-4o Tradução, aproveite~
Alimente a modelo com vídeos do YouTube e baixe o equivalente a 80 anos de vídeos todos os dias
Bate-papos internos do Slack, e-mails e documentos obtidos pela 404 Media mostram que A Nvidia coleta vídeos do YouTube e de várias outras fontes para compilar dados de treinamento para seus produtos de IA. Quando questionada sobre as questões legais e éticas do uso de conteúdo protegido por direitos autorais para treinar modelos de IA, a Nvidia argumentou que sua abordagem “está em total conformidade com a letra e o espírito da lei de direitos autorais”.
Conversas internas na Nvidia analisadas pela 404 Media mostram que quando os funcionários levantaram questões sobre possíveis implicações legais da utilização de conjuntos de dados e vídeos do YouTube compilados por académicos para fins de investigação, os gestores disseram-lhes que os superiores da empresa tinham aprovado a sua utilização.
Um ex-funcionário da Nvidia (que recebeu anonimato da 404 Media para discutir processos internos da Nvidia) disse que os funcionários foram solicitados a extrair vídeos do Netflix, YouTube e outras fontes para treinar o gerador de mundo Omniverse 3D da Nvidia,Piloto automáticoSistemas automotivos e "homem digital"Modelo de IA do produto.
O projeto, conhecido internamente como Cosmos (mas distinto do produto de aprendizagem profunda Cosmos existente da empresa), ainda não foi lançado publicamente.
Um e-mail do líder do projeto revelou que o Cosmos pretende construir um modelo de infraestrutura de vídeo de última geração que “reúna simulações de transporte leve, física e inteligência em um só lugar para desenvolver uma variedade de aplicações downstream críticas para a Nvidia”.
Um e-mail obtido pela 404 Media mostra um diagrama mostrando como o modelo Cosmos se aplica a diferentes produtos Nvidia.
Mensagens do Slack no canal criado pela empresa para o projeto mostram que os funcionários usam um downloader de vídeos do YouTube de código aberto chamado yt-dlp, combinado com uma máquina virtual para atualizar o endereço IP e evitar serem bloqueados pelo YouTube.
Segundo a fonte, eles tentaram baixar vídeos completos de diversas fontes, incluindo Netflix, mas focaram principalmente em vídeos do YouTube.
E-mails revisados ​​pela 404 Media mostram gerentes de projeto discutindo o uso de 20 a 30 máquinas virtuais da Amazon Web Services para baixar vídeos de 80 anos todos os dias.
“Estamos finalizando o pipeline de dados v1 e garantindo recursos de computação suficientes para construir uma fábrica de dados de vídeo que possa gerar o equivalente a 100% dos dados de vídeo todos os dias”, disse Mingyu Liu, vice-presidente de pesquisa da Nvidia e líder do projeto Cosmos. em um e-mail em maio. A quantidade de dados na experiência visual de uma vida humana.”
Conversas e instruções dentro da Nvidia mostram funcionários discutindo as considerações legais e éticas da empresa no projeto de chips e APIs que alimentaram a ascensão da IA ​​generativa e a tornaram uma das empresas públicas mais valiosas do mundo.
Também destaca as maiores empresas do setor, como Runway e IA aberta, há uma demanda insatisfeita por conteúdo como dados para treinamento de modelos de IA.
Um porta-voz da Nvidia disse em um email para 404 Media:
Respeitamos os direitos de todos os criadores de conteúdo e acreditamos firmemente que nossos modelos e trabalhos de pesquisa cumprem integralmente a letra e o espírito da lei de direitos autorais. A lei de direitos autorais protege certas expressões, mas não fatos, opiniões, dados ou informações. Qualquer pessoa pode aprender factos, ideias, dados ou informações de outras fontes e utilizá-los para criar a sua própria expressão. O uso justo também protege o direito de usar o trabalho para fins transformadores, como o treinamento de modelos.
Quando questionado sobre o uso de vídeos do YouTube pela Nvidia como dados de treinamento para seus modelos, um porta-voz do Google disse à 404 Media que os “comentários anteriores da empresa ainda se aplicam”.
Entre eles, o CEO do YouTube, Neal Mohan, disse que se a OpenAI usar vídeos do YouTube para otimizar seu gerador de vídeo de IA Sora, isso violará claramente os termos de uso do YouTube.
Um porta-voz da Netflix disse à 404 Media que a Netflix não tem acordo com a Nvidia para aquisição de conteúdo e que os termos de serviço da plataforma não permitem a extração de dados.
As questões sobre as questões jurídicas levantadas pelos funcionários envolvidos no projeto foram geralmente rejeitadas pelos gerentes de projeto, que disseram que a decisão de copiar o vídeo sem permissão foi uma "decisão de alto nível" e que os funcionários não tinham nada com que se preocupar sobre o que constituía violação de conteúdo protegido por direitos autorais e o tema do uso justo e ético de conjuntos de dados para uso acadêmico e não comercial é considerado uma "questão legal não resolvida" que será resolvida no futuro.
A nossa investigação destaca a atitude de “não perguntar” destas empresas de tecnologia ao juntarem grandes quantidades de conteúdo protegido por direitos de autor em conjuntos de dados que são usados ​​para treinar alguns dos modelos de IA mais valiosos do mundo.
Os executivos da Nvidia sugeriram que o conjunto de dados acadêmicos da Universidade de Pequim também foi abusado
Em fevereiro de 2024, Francesco Ferroni, cientista-chefe da NVIDIA, escreveu no canal NVIDIA Slack chamado #cosmos-dataset-creation:
“Olá a todos, @Sanja Fidler mencionou para mim uma iniciativa para agregar um grande número de conjuntos de dados de vídeo selecionados para modelagem generativa. Achamos que começar agregando todos os conjuntos de dados de vídeo disponíveis internamente (publicamente ou baixados internamente) para evitar duplicação. ”
(Observação: Sanja Fidler é vice-presidente de pesquisa de IA da Nvidia.)
Ferroni então vinculou a uma planilha com links para conjuntos de dados, incluindo MovieNet, um banco de dados de 60.000 trailers de filmes, e WebVid, um conjunto de dados de vídeo compilado a partir de imagens de estoque no Github que mais tarde foi descontinuado pela Shutterstock (excluído por seu criador após receber um aviso), InternVid. -10M (um conjunto de dados de 10 milhões de IDs de vídeo do YouTube no Github) e vários conjuntos de dados de imagens de videogame capturadas internamente. A 404 Media removeu os nomes dos funcionários juniores das capturas de tela das conversas do Slack.
Incluímos os nomes de vários engenheiros e executivos seniores envolvidos no projeto devido à sua visibilidade pública como líderes na indústria de IA.
A planilha vinculada por Ferroni mostra os conjuntos de dados utilizados no projeto
Numa discussão subsequente em fevereiro, os engenheiros falaram sobre os conjuntos de dados que adquiriram, incluindo o HD-VG-130M, um conjunto de 130 milhões de vídeos do YouTube. O conjunto de dados foi criado por pesquisadores da Universidade de Pequim, na China, e sua licença de uso afirma que pode ser usado apenas para fins acadêmicos.
“Ao baixar ou usar os dados, você entende, reconhece e concorda com todos os termos do contrato a seguir”, diz a página do Github para o conjunto de dados.
A página enfatiza "Apenas para uso acadêmico. Qualquer conteúdo do conjunto de dados HD-VG-130M é apenas para uso em pesquisa acadêmica. Você concorda em não copiar, comercializar ou usar para quaisquer fins comerciais. A distribuição é proibida. Respeite a privacidade do informações pessoais da fonte original." Qualquer transmissão, modificação ou qualquer outro comportamento semelhante do conteúdo do conjunto de dados não é permitido sem a permissão do proprietário dos direitos autorais.
Ao longo do projeto, os conjuntos de dados compilados e disponibilizados publicamente por pesquisadores e acadêmicos foram considerados disponíveis gratuitamente para uso em modelos NVIDIA. Os investigadores de IA estão cada vez mais preocupados com a utilização adequada dos conjuntos de dados que tornam públicos, incluindo utilizações éticas e legais.
Robert Mahari, da Iniciativa de Proveniência de Dados do MIT, disse à 404 Media que eles viram um aumento significativo no uso de licenças de uso não comercial para conjuntos de dados de pesquisa no ano passado, sugerindo que os acadêmicos estão tentando limitar o uso comercial de seu trabalho. Os conjuntos de dados compilados para uso em pesquisa diferem significativamente em finalidade dos conjuntos de dados compilados para uso comercial.
“Quando os académicos divulgam conjuntos de dados públicos, especialmente conjuntos de dados específicos de tarefas, podemos não examinar especificamente os dados em busca de certos tipos de preconceitos ou questões como o centrismo ocidental. Se esses não forem o foco da investigação, então não haverá inspeções”. Mahari disse. "Portanto, se um acadêmico declarar na licença 'Somente para uso acadêmico' ou 'Por favor, não use esses dados de maneira não intencional', há um bom motivo para cumprir esses regulamentos. Como os dados podem não ser de qualidade comercial, também podem funcionam mal em outros tipos de ambientes."
Como muitos outros gigantes da tecnologia, a Nvidia emprega pessoas que conduzem e publicam pesquisas acadêmicas. No entanto, conversas internas da Nvidia analisadas pela 404 Media indicam que o Cosmos pretende apoiar os esforços da empresa para fortalecer as suas ofertas comerciais na altamente competitiva indústria de IA.
Os conjuntos de dados de pesquisa divulgados publicamente são frequentemente distribuídos como URLs ou IDs do YouTube por dois motivos: primeiro, por motivos práticos - compartilhar milhões de arquivos completos de vídeo ou imagem é muito complicado, segundo, por motivos legais e éticos; Por exemplo, se alguém excluir seu vídeo ou tweet do YouTube, uma cópia não continuará a existir no conjunto de dados sem o conhecimento ou permissão do proprietário.
“É como contornar as restrições legais não distribuindo o conjunto de dados para pessoas de fora”, disse Emily Bender, professora e diretora do Laboratório de Lingüística Computacional da Universidade de Washington, à 404 Media. “Outros podem construir o conjunto de dados e usá-lo para seus próprios fins”.
Detalhes da discussão expostos, como a Nvidia rouba dados à margem da lei?
Em março, um cientista pesquisador iniciou uma discussão no Slack sobre a possibilidade do gerador de vídeo Sora da OpenAI usar filmes de Hollywood como “Avatar” e “O Senhor dos Anéis” como dados de treinamento.
“Os filmes são na verdade uma boa fonte de dados para continuidade 3D semelhante a um jogo e conteúdo ficcional, mas com uma qualidade superior. Os personagens são totalmente CGI, e muitas das cenas de ação ao vivo agora também são CGI”, disseram eles. Alguém respondeu que a equipe deveria treinar no conjunto de dados de filmes do Discovery Channel.
Liu Mingyu disse: “Precisamos de um voluntário para baixar todos os filmes”.
O cientista pesquisador que originalmente propôs o filme acrescentou: “Embora seja muito claro o que eles estão fazendo, temos que ter muito cuidado para que Hollywood se torne hipersensível à IA, como aconteceu com a comunidade artística após o lançamento de SD [Stable Diffusion ] e agora acontecendo em Hollywood."
Eles então postaram dois links no bate-papo: um artigo do Hollywood Reporter sobre Tyler Perry interrompendo a expansão do estúdio de US$ 800 milhões depois de ver Sora da OpenAI, e um artigo da Vanity Fair sobre a greve SAG-AFTRA de 2023 leva a artigos incluindo linguagem de IA em contratos de estúdio.
Liu Mingyu enfatizou: "O que estamos fazendo aqui não publicará nenhum resultado de pesquisa. Usaremos todos os dados disponíveis para download para realizar experimentos. Como não publicaremos nada, não haverá emoções negativas. Ex-funcionários que falaram com 404 Media explicaram." que "publicar" refere-se a publicações de pesquisa.
A pessoa que levantou "alta sensibilidade" respondeu: "Se realizarmos tal projeto dentro da empresa, ele deverá ser amplamente comunicado, porque mostrar exemplos semelhantes pode causar reação negativa."
Em março, Ferroni escreveu em outro canal do Slack relacionado ao projeto: “Foram encontrados alguns arquivos de alta prioridade que precisavam ser baixados. Descobriu-se que 2,3 milhões de vídeos brutos estavam faltando no conjunto de dados HDVILA [High-Resolution Video Language] que tínhamos. . !" Eles estavam se referindo ao HD-VILA-100M da Microsoft, um conjunto de dados de linguagem de vídeo diversificado, em grande escala e de alta resolução. Eles enviaram um link para um documento do Google Drive e disseram: “Aqui está o link que faltava no YouTube” e depois disseram: “Vamos colocar isso no processo de download!”
A declaração de licença do HD-VILA-100M diz:
"Você concorda em usar os dados apenas para fins computacionais para pesquisas não comerciais. Esta restrição significa que você pode se envolver em atividades de pesquisa não comerciais (incluindo pesquisas não comerciais conduzidas ou financiadas por uma entidade comercial), mas não pode usar os dados ou quaisquer resultados de Qualquer produto comercial, inclusive como parte de um produto ou serviço que você usa ou fornece a terceiros (ou para melhorar qualquer produto ou serviço).
“Vamos criar um banco de dados de URLs baixados”, respondeu outro engenheiro. "Os vídeos do YouTube têm IDs exclusivos. Podemos usar esses IDs como referências (os IDs depois de "?v=")? Compararemos e mesclaremos URLs muitas vezes no futuro. Ferroni respondeu: "Sim, estamos usando agora o Hive." infraestrutura de configuração", o que significa que eles estão adicionando-a à ferramenta de gerenciamento de projetos Hive.
O membro da equipe Omniverse marcado respondeu: “Estamos na AWS e reiniciar uma instância [de máquina virtual] nos dá um novo IP público, então isso não é um problema no momento”.
Em uma discussão do Slack no canal #cosmos-dataset-creation sobre como encontrar os melhores vídeos, os funcionários mencionaram ocasionalmente os aspectos legais e éticos de seu trabalho. Em fevereiro, depois que alguém mencionou o uso do YouTube-8M, um conjunto de dados de pesquisa de IDs do YouTube compilado pelo Google, Ferroni perguntou: “Talvez não possamos usar [YT8M] para fins não relacionados à pesquisa?”
O artigo e a página do projeto do YouTube-8M não mencionam questões de direitos autorais, mas o artigo afirma que o conjunto de dados foi criado para avançar na pesquisa de aprendizado de máquina: “Esperamos que este conjunto de dados forneça condições equitativas para pesquisadores na academia. conjuntos de dados de vídeo anotados em grande escala e acelerando significativamente a pesquisa na compreensão de vídeo. Esperamos que este conjunto de dados sirva como uma base de teste para o desenvolvimento de novos algoritmos de aprendizagem de representação de vídeo, especialmente métodos que lidam efetivamente com rótulos ruidosos ou incompletos.
Em resposta à pergunta de Ferroni sobre seu uso no projeto Cosmos, um funcionário da NVIDIA que anteriormente co-criou o ACAV100M respondeu:
“Sim, baixar dados do Google é muito caro. No entanto, programar 10.000 núcleos na NVIDIA tem sido um desafio.
Além disso, as limitações de largura de banda da NVIDIA na nuvem adicionam uma variabilidade considerável que pode causar problemas. Fazer download no Google Cloud significa que cada tarefa obtém uma conexão estável e de alta largura de banda com o YouTube. "
"Mais importante ainda, o download de vídeos do YouTube é proibido pelos termos de serviço do YouTube. Portanto, ao baixar o YouTube 8m, nos comunicamos com o Google e o YouTube com antecedência e usamos o Google Cloud para download como incentivo.Afinal, normalmente para 8 milhões de vídeos, eles obtêm muitas impressões de anúncios que são baixadas quando usadas para treinamento e resultam em perda de receita, portanto, devem obter alguma receita com isso. Pagar US$ 0,00625 por download de vídeo ainda é um bom negócio. "
“Ok, então espera-se que esses dados sejam usados ​​apenas para fins de pesquisa? Até onde eu sei, a API do YouTube do Google pode consultar os termos de licença de cada vídeo”, respondeu Ferroni. “Você também pode comentar sobre os termos de licenciamento do ACAV100M e do YouTube8M?”
“Até onde eu sei, os termos de serviço do YouTube proíbem o download independentemente da licença; a restrição é sobre a perda de receita publicitária, não sobre a licença”, respondeu outro funcionário. Eles continuaram:
"Não sei quais termos de licenciamento o Google filtrou ao criar o conjunto de dados; apenas baixamos o que eles listaram como incluído no conjunto de dados (eles postaram os recursos, junto com links para os vídeos originais). Baixei os dados de 8m do YouTube. O conjunto vem com metadados completos para que você possa conferir cada vídeo. Ainda preciso verificar o conjunto de dados ACAV100M. Em geral, CC ou domínio público é melhor, no entanto, se for possível incluir material protegido por direitos autorais, o uso para treinamento é atualmente legal. questão; a maioria das empresas parece considerar isso um uso justo. Acredito que nossa equipe jurídica aprovou essa prática para treinar grandes modelos de linguagem e provavelmente também aprovará o treinamento em vídeo.”
“Acho que há uma enorme lacuna entre comercializar algo sem o consentimento de alguém e pesquisar as capacidades da IA ​​generativa baseada em conteúdo divulgado publicamente”, disse Shayne Longpre, estudante de doutorado no MIT Media Lab, à 404 Media. Perguntas sobre os termos de serviço do YouTube no canal Cosmos Slack não foram a última vez que surgiram questões legais.
Mais tarde, outro funcionário disse: "Ei, equipe. Estamos usando https://research.google.com/youtube8m/download.html para baixar vídeos? Em caso afirmativo, temos aprovação legal? Em um projeto, o departamento jurídico negou sua use porque a licença para vídeos individuais é melhor do que a licença compartilhada no yt8m "Esta é uma decisão administrativa. Temos uma licença mestre que cobre todos os dados", respondeu Liu Mingyu. "Ok, obrigado!", Respondeu a pessoa que fez a pergunta.
Bender disse à 404 Media que a empresa está aproveitando a atual área legal cinzenta em torno do conteúdo protegido por direitos autorais usado para dados de treinamento. "Parece-me que existe definitivamente uma cultura de 'se conseguirmos, podemos usá-lo'", disse ela. "É muito baseado no desejo das pessoas que isso seja verdade, e não num estudo cuidadoso da sua legalidade ou numa reflexão profunda sobre o seu impacto nas pessoas."
Usar conteúdo protegido por direitos autorais para treinamento de IA “definitivamente não é uma lei estabelecida”, disse Mahari. O sistema jurídico ainda não determinou se a obtenção de dados de formação para desenvolver modelos de IA é suficientemente transformadora, especialmente porque os modelos demonstraram ser capazes de lembrar ou recuperar dados de formação como resultados. “Meu argumento (parcialmente resumido neste artigo da Science) é que o treinamento de um modelo de IA pode de fato constituir uso justo, mas isso não significa que a geração de resultados semelhantes a itens específicos nos dados de treinamento não seja uma violação.
Neste caso, não está claro se o fornecedor do modelo subjacente ou o utilizador específico que gera o resultado estaria a infringir (isto pode depender do contexto). "
Em maio, um cientista pesquisador colocou links para alguns canais do YouTube no canal Cosmos Slack e disse: “Se vocês ainda estão abertos a sugestões de canais do YouTube que podem baixar, aqui estão alguns que podem valer a pena considerar. Inclui os canais oficiais da Expedia e da Architectural Digest, bem como criadores de conteúdo individuais, como The Critical Drinker e Marques Brownlee (MKBHD). Um gerente de projeto agradeceu pelas sugestões e disse que as repassariam à equipe, ao que Fidler respondeu: "Vocês incluíram um vídeo tutorial também? Astronomia? Medicina?"
A “questão legal pendente” do uso de obras protegidas por direitos autorais para treinamento de modelos básicos comerciais pode não permanecer sem solução por muito tempo.
Ações judiciais por violação de direitos autorais movidas por detentores de direitos autorais contra empresas de IA generativa estão se acumulando, incluindo a ação da Getty Images contra o criador da Stable Diffusion, Stability AI, a ação do The New York Times contra a OpenAI e artistas e criadores contra a Stability,No meio da jornada , DeviantArt e Runway entraram com uma ação coletiva. A equipe de dados de treinamento do Cosmos também discutiu o uso do Netflix para treinar o gerador.
"Na reunião de hoje, obtivemos permissão para baixar todos os tipos de dados. Devemos baixar o Netflix inteiro? Como vamos operacionalizá-lo?", disse Liu no canal Slack. "Devíamos baixar todo o Discovery Channel!"
alguém respondeu. “Precisamos de um coordenador de informações do projeto. Quem quer fazer captura de tela enquanto assiste a todos os filmes?” “Deveríamos obter muitos vídeos faciais de alta qualidade”, continuou Liu. Alguém da equipe de infraestrutura do Omniverse foi marcado no tópico e observou que estava disposto a ajudar a “operacionalizar isso” porque tinha “experiência com outras grandes empresas construindo grandes conjuntos de dados”.
A equipe também considerou a melhor forma de adicionar imagens de videogame aos dados de treinamento. Jim Fan, pesquisador sênior da Nvidia, mencionou que existem obstáculos de “engenharia e regulatórios” na captura de vídeo de jogo ao vivo.
"Atualização: encontrei-me com o pessoal da GeForce Now (GFN) e trabalharei com eles em um plano de dados. Trabalharemos em estreita colaboração com a GFN e equipes de engenharia associadas para criar captura de dados de jogos em tempo real, dimensionar o pipeline e processar esses dados para treinamento. Vídeos de gameplay de alta qualidade serão uma adição muito útil ao nosso projeto Sora”, escreveu Fan. “Ainda não temos estatísticas ou arquivos de vídeo porque a infraestrutura não foi configurada para capturar a grande quantidade de vídeos e ações de jogos ao vivo. No entanto, precisamos superar obstáculos de engenharia e regulatórios. chegar, nós Será adicionado ao team-vfm o mais rápido possível."
Em março, o projeto atingiu um marco: 100 mil vídeos foram baixados em duas semanas. Um funcionário mencionou em um tópico discutindo o marco de que Ferroni tem um downloader que está usando, e Ferroni confirmou que está baixando áudio e vídeo. "Progresso incrível. A questão agora é como conseguiremos um grande número de URLs de alta qualidade", respondeu Liu.
No final de maio, um e-mail de estratégia de dados para dados de vídeo foi enviado aos membros da equipe do projeto, anunciando que eles haviam compilado 38,5 milhões de URLs de vídeo. “Com base em nossa distribuição alvo, o foco para a próxima semana continua focado em filmes, filmagens de drones, vídeos em primeira pessoa e alguns vídeos de viagens e natureza”, diz o e-mail. O e-mail também incluía um gráfico mostrando a porcentagem de tipos de conteúdo baixados.
Nesse e-mail, um gerente de produto sugeriu adicionar quatro conjuntos de dados adicionais aos dados de treinamento do modelo. Eles escreveram:

1. Ego-Exo4D: Um conjunto de dados de vídeo multimodal e multivisualização diversificado e de grande escala, coletado por 740 usuários de câmeras em 13 cidades ao redor do mundo, capturando 1.286,3 horas de vídeo de atividades humanas qualificadas.

2. Ego4D: Um conjunto de dados de perspectiva em primeira pessoa em grande escala e um conjunto de benchmark com mais de 3.670 horas de vídeos de atividades da vida diária coletados em 74 locais e 9 países ao redor do mundo.

3. HOI4D: Um conjunto de dados de primeira visualização quadridimensional em grande escala com anotações ricas para facilitar o estudo das interações homem-objeto em nível de categoria.

4. GeForce Now: dados do jogo.
HOI4D foi criado por pesquisadores da Universidade de Tsinghua, da Universidade de Pequim e do Instituto de Pesquisa Qizhi de Xangai. Ele é licenciado sob CC BY-NC 4.0 e nenhum uso comercial é permitido.
“Na minha opinião, se uma empresa pega um conjunto de dados que é apenas para fins de pesquisa e o utiliza para pesquisa, ela ainda está cumprindo a licença desse conjunto de dados”, disse Bender.
“Mas, para garantir isso, eles precisam ter muito cuidado para construir barreiras entre a pesquisa que realizam e o trabalho que realizam no desenvolvimento de produtos”.
Em outro e-mail de atualização em maio, Liu disse: “A equipe de pesquisa está agora treinando um modelo com 1 bilhão de parâmetros usando muitas configurações diferentes, cada uma com 16 nós. algumas semanas e depois ampliar para um modelo de 10 bilhões de parâmetros.”
O CEO da Nvidia, Jensen Huang, respondeu naquele e-mail: "Ótima atualização. Muitas empresas precisam construir modelos baseados em vídeo. Podemos fornecer um pipeline totalmente acelerado."
Em junho, os funcionários discutiram quais tipos de conteúdo nos modelos seriam mais úteis para os produtos da Nvidia permanecerem competitivos na indústria de IA.
“A NVIDIA tem robôs, carros autônomos, Omniverse e Avatar que a maioria das empresas de conteúdo não possui. Para ter o maior impacto na empresa, os dados que selecionamos devem ser bem aplicáveis ​​a esses aplicativos matadores”, disse Liu.
“Eu entendo os dados que afetam os robôs e os carros autônomos. Alguém pode compartilhar os detalhes dos dados que afetam os casos de uso do Omniverse e do Avatar?”, respondeu um gerente de produto. “Será um vídeo sobre como os humanos interagem com os objetos. Como instalar móveis, cortar frutas, dobrar roupas”, respondeu Liu.
O progresso dos modelos de IA é baseado nas suas e nas minhas criações?
Embora a Nvidia contribua para pesquisas acadêmicas, conversas e e-mails obtidos pela 404 Media mostram que o modelo no qual a equipe do Cosmos está trabalhando se destina ao uso comercial em vários de seus produtos.
Até que um precedente legal seja estabelecido sobre como os dados de treinamento são compilados, ou até que as empresas sejam obrigadas a ser transparentes sobre esses dados, as empresas continuarão a explorar a área legal cinzenta de extração de dados de treinamento protegidos por direitos autorais. Vazamentos de conversas internas como essa são a única maneira de as pessoas saberem se seu trabalho está sendo usado para treinar modelos que rendem bilhões de dólares a empresas como Nvidia, Runway ou OpenAI.
A indústria de IA vem pressionando por mais transparência há anos, seja por meio de regulamentações governamentais ou de padrões industriais.
No início deste ano, Jack Hardinges, Elena Simperl e Nigel Shadbolt do MIT escreveram: “É fundamental entender o que está nos conjuntos de dados usados ​​para treinar modelos e como eles foram compilados sem essas informações, desenvolvedores, pesquisadores e especialistas em ética esforços para abordar. preconceito ou remoção de conteúdo prejudicial dos dados será dificultado.
As informações sobre os dados de formação também serão cruciais para que os legisladores avaliem se os modelos subjacentes ingeriram dados pessoais ou material protegido por direitos de autor. A jusante, os operadores pretendidos dos sistemas de IA e as pessoas afetadas pela sua utilização terão maior probabilidade de confiar nestes sistemas se compreenderem como foram desenvolvidos. "
Os legisladores apresentaram vários projetos de lei no ano passado para resolver o problema, incluindo a Lei de Transparência do Modelo Subjacente à IA em dezembro, que exigiria que as empresas que criam modelos subjacentes de IA trabalhassem com agências federais como a FTC e o Copyright Office para desenvolver padrões de transparência, incluindo a exigência permitir-lhes divulgar determinadas informações aos consumidores.
A Lei de Divulgação de Direitos Autorais de IA Generativa, proposta em abril deste ano, exigiria que os produtores de conjuntos de dados enviassem “um resumo suficientemente detalhado de qualquer trabalho protegido por direitos autorais” ao registrador ou enfrentariam multas.
“Tecnicamente, é realmente difícil determinar se o seu trabalho foi usado para treinamento”, disse Mahari. "Internamente, a melhor política é não contar às pessoas qual treinamento você usa, porque é muito difícil para terceiros auditarem e descobrirem. Portanto, desde que você não conte a ninguém, é muito difícil provar."
Em anexo está o endereço original do relatório:

https://www.404media.co/nvidia-ai-scraping-foundational-model-cosmos-project/