notícias

Envolvendo 170.000 vídeos!NVIDIA e outros gigantes foram expostos por usar ilegalmente dados do YouTube para treinar modelos

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Gigantes da tecnologia foram expostos por usarem conteúdo não autorizado do YouTube para treinar modelos de IA (inteligência artificial).

Em 16 de julho, hora local, a mídia estrangeira informou que algumas grandes empresas de tecnologia, incluindo Apple, Nvidia, Salesforce e Anthropic, foram expostas ao uso de dados não autorizados do YouTube, um site de vídeo de propriedade do Google, ao treinar modelos de IA. As empresas usaram um conjunto de dados fornecido por terceiros que continha grandes quantidades de texto de legendas de vídeos extraídos do YouTube, violando as regras do YouTube contra a extração de conteúdo da plataforma sem permissão.

O relatório apontou que essas empresas de tecnologia usaram um conjunto de dados chamado "Legendas do YouTube" ao treinar modelos de IA. Ele tem 5,7 GB e contém 489 milhões de palavras de mais de 48.000 canais no YouTube. Esse conjunto de dados consiste no texto simples das legendas dos vídeos, incluindo a parte enviada pelos vloggers e o texto transcrito automaticamente pelo Youtube, geralmente também vem com traduções em idiomas como japonês, alemão e. Árabe.

A organização sem fins lucrativos EleutherAI é a criadora do polêmico conjunto de dados e a empresa ainda não respondeu a esta história. De acordo com o site oficial, o objetivo da EleutherAI é “reduzir o limite para o desenvolvimento de IA e fornecer a todos acesso à tecnologia de IA de ponta por meio de treinamento e lançamento de modelos”. Anteriormente, EleutherAI lançou uma compilação de dados chamada “Pile”, a maioria aberta ao público, incluindo legendas do YouTube.

Os dados mostram que algumas semanas antes de a Apple lançar o modelo OpenELM pequeno final em abril deste ano, a empresa usou Pile para treinamento. Porém, vale ressaltar que a própria Apple não baixa esses dados. Então, tecnicamente, foi o EleutherAI quem violou os termos de uso do YouTube.

Um porta-voz da startup de IA Anthropic confirmou que o conjunto de dados Pile foi usado para treinar o assistente generativo de IA da empresa, Claude, e que os termos do YouTube cobriam apenas o “uso direto de sua plataforma” e recomendou discutir quaisquer violações com o autor original dos Termos de Serviço do YouTube. Conduta. Apple, Nvidia, Salesforce e outras empresas ainda não responderam ao assunto.

Os criadores afetados por este incidente incluem blogueiros conhecidos como Marques Brownlee, MrBeast e PewDiePie, bem como grandes editores de notícias como The New York Times, British Broadcasting Corporation (BBC) e ABC News nos Estados Unidos. Além disso, parte do material do conjunto de dados promove teorias da conspiração como “Terra Plana” e até contém conteúdo de vídeos que foram excluídos. Agora, o Pile foi removido do site oficial de download, mas ainda pode ser acessado por meio de serviços de compartilhamento de arquivos.

A esse respeito, o conhecido blogueiro de tecnologia Marques Brownlee disse no Incluindo meu vídeo Tecnicamente, a Apple não 'cometeu um erro', eles não coletaram os dados de forma proativa, mas este será um problema de longa data.


Tweet de Marques Brownlee.Fonte: plataforma X

Embora a Apple e outras empresas possam ter usado conjuntos de dados públicos e não tenha havido violações, este incidente chamou mais uma vez a atenção para os problemas de dados por trás do treinamento em IA. No início deste ano, a Google, empresa controladora do YouTube, foi exposta ao uso de vídeos da plataforma para treinar seus modelos. O Google respondeu na época que esse comportamento não violava o acordo da plataforma com os criadores.

Em março deste ano, Mira Murati, diretora de tecnologia da OpenAI, foi vaga sobre a fonte dos dados de treinamento do modelo de vídeo Vincent Sora em uma entrevista. Em abril, o CEO do YouTube, Neal Mohan, disse em uma entrevista que não tinha nenhuma evidência direta para provar que a OpenAI usou vídeos do YouTube para melhorar sua ferramenta de IA de vídeo Vincent, Sora. Termos de uso da plataforma YouTube.