Os dados da IA provocam a “crise do petróleo”, as empresas de conteúdo podem simplesmente relaxar e ganhar dinheiro

Dados de IA eclodem a "crise do petróleo", as empresas de conteúdo podem simplesmente relaxar e ganhar dinheiro

2024-07-23

“

Se o grande modelo de IA for comparado a um carro, os dados brutos serão petróleo bruto.

”

Autor |

Editor｜Manmanzhou

O surgimento do ChatGPT e No meio da jornada A adoção explosiva da IA permitiu à IA alcançar a sua primeira aplicação em grande escala, ou seja, a popularização de grandes modelos.

O chamado modelo grande refere-se a um modelo de aprendizado de máquina com um grande número de parâmetros e estrutura complexa, que pode processar dados massivos e realizar diversas tarefas complexas.

Disputas de direitos autorais de dados de IA

Se os actuais grandes modelos de IA forem comparados com os automóveis, os dados brutos são petróleo bruto. Em qualquer caso, em primeiro lugar, o modelo de IA precisa de “petróleo bruto” suficiente.

As principais fontes de “petróleo bruto” para empresas de IA incluem as seguintes categorias:

●Fontes de dados abertas e gratuitas na Internet, como Wikipédia, blogs, fóruns, notícias, etc.;

●Velhos meios de comunicação e editoras;

●Universidades e outras instituições de pesquisa;

●Usuários do lado C que usam o modelo.

Os direitos de propriedade do petróleo no mundo real já possuem regulamentações legais maduras. No entanto, no campo ainda caótico da IA, os direitos de exploração do “petróleo bruto” ainda não são claros e as disputas resultantes são numerosas.

Recentemente, várias grandes gravadoras processaram produtoras musicais de IASoleÁudio , acusando-o de violação de direitos autorais.O processo segue um processo de dezembro do The New York TimesIA abertao litígio é semelhante.

Fonte: Painel publicitário

Em julho de 2023, alguns redatores entraram com uma ação judicial contra a empresa, alegandoBate-papoGPTUm resumo do trabalho do autor é gerado a partir de conteúdo protegido por direitos autorais.

Em dezembro do mesmo ano, o New York Times também noticiouMicrosofteIA abertaUma ação semelhante por violação de direitos autorais foi movida acusando as duas empresas de usar o conteúdo do jornal para treinar chatbots de inteligência artificial.

Além disso, uma ação coletiva foi movida na Califórnia, acusando a OpenAI de obter informações privadas dos usuários da Internet para treinar o ChatGPT sem o consentimento do usuário.

A OpenAI acabou não pagando pela acusação. Afirmaram que não concordavam com a acusação do New York Times e não podiam reproduzir os problemas mencionados pelo New York Times. York Times foi Não importa para OpenAI.

Fonte: https://openai.com/index/openai-and-journalism/

Para a OpenAI, talvez a maior lição deste incidente seja lidar adequadamente com o relacionamento com os fornecedores de dados e esclarecer os direitos e responsabilidades de ambas as partes. Como resultado, vimos a OpenAI alcançar parcerias com muitos provedores de dados no ano passado, incluindo, entre outros, The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer, American Journalism Project. e mais.

No futuro, a OpenAI usará legitimamente os dados dessas mídias, e essas mídias também integrarão a tecnologia da OpenAI em seus produtos.

IA impulsiona a monetização da plataforma de conteúdo

No entanto, a razão mais fundamental para a OpenAI estabelecer parcerias com fornecedores de dados não é o medo de ser processado, mas o esgotamento iminente de dados que a aprendizagem automática enfrenta. Pesquisadores como o MIT conduziram um estudo que estimou que os conjuntos de dados de aprendizado de máquina podem esgotar todos os “dados de linguagem de alta qualidade” até 2026.

“Dados de alta qualidade” tornaram-se, portanto, uma mercadoria importante para criadores de modelos como OpenAI e Google. As empresas de conteúdo e os fabricantes de modelos de IA têm repetidamente cooperado para iniciar um modelo de lucro fixo.

A plataforma de mídia tradicional Shutterstock alcançou sucessivamente cooperação com empresas de IA como Meta, Alphabet, Amazon, Apple, OpenAI, Reka, etc., e aumentará sua receita anual para US$ 104 milhões ao licenciar conteúdo para modelos de IA em 2023, e é deverá gerar US$ 250 milhões em receitas em 2027; Reddit A receita de direitos autorais de conteúdo licenciados ao Google chega a US$ 60 milhões por ano; a Apple também está buscando cooperar com a grande mídia de notícias e oferecer royalties de pelo menos US$ 50 milhões por ano; ano. Os royalties recebidos pelas empresas de conteúdo de empresas de IA estão aumentando a uma taxa de crescimento anual de 450%.

Fonte da imagem: CX Scoop

Nos últimos anos, tem sido difícil monetizar conteúdo que não seja mídia de streaming, o que tem sido um grande problema na indústria de conteúdo. Em comparação com a era do empreendedorismo na Internet, o surgimento da IA trouxe maior imaginação e expectativas de receitas mais fortes para a indústria de conteúdos.

Dados de alta qualidade continuam escassos

É claro que nem todo conteúdo atende às necessidades da IA.

Em relação ao debate entre OpenAI e o New York Times mencionado acima, outro ponto positivo é a qualidade dos dados. Para refinar o petróleo a partir do petróleo bruto, em primeiro lugar, o petróleo em si deve ser de boa qualidade e, em segundo lugar, a tecnologia de purificação deve ser boa.

A OpenAI enfatiza especificamente que o conteúdo do New York Times não fez nenhuma contribuição significativa para o treinamento do modelo da OpenAI em comparação com o Shutterstock, que permite à OpenAI gastar dezenas de milhões de dólares todos os anos, em mídias de texto como o New York Times. a pontualidade não é a queridinha da era da IA. A IA requer dados profundos e exclusivos.

No entanto, os dados de alta qualidade são muito escassos e as empresas de IA também começaram a trabalhar arduamente na "tecnologia de purificação" e na "aplicação completa".

Em 25 de junho, a OpenAI adquiriu a Rockset, empresa de banco de dados analítico em tempo real. Esta empresa fornece principalmente funções de indexação e consulta de dados em tempo real. OpenAI integrará a tecnologia da Rockset em seus produtos para melhorar o valor de uso dos dados em tempo real.

Fonte da imagem: DePIN Scan

Ao adquirir a Rockset, a OpenAI planeja permitir que a IA utilize e acesse melhor os dados em tempo real. Isso permite que os produtos da OpenAI suportem aplicações mais complexas, como sistemas de recomendação em tempo real, robôs de bate-papo dinâmicos baseados em dados, monitoramento em tempo real e sistemas de alarme, etc.

Rocket é o “departamento petroquímico” integrado da OpenAI que transforma diretamente dados comuns em dados de alta qualidade exigidos pelos aplicativos.

A confirmação dos direitos dos dados do criador é uma fantasia?

Os dados das plataformas de mídia da Internet (Facebook, Reddit, etc.) vêm em grande parte deUGC , ou seja, conteúdo contribuído pelo usuário. Embora muitas plataformas cobrem altas taxas de dados para empresas de IA, elas também adicionam discretamente uma cláusula nos termos do usuário de que “a plataforma tem o direito de usar os dados do usuário para treinar modelos de IA”.

Embora os termos de utilização indiquem claramente os direitos para treinar modelos de IA, muitos autores não sabem quais modelos estão usando o conteúdo que produzem, nem sabem se estão pagando por isso, nem podem obter os direitos e interesses relevantes que deveriam pertencer. para eles.

Durante a teleconferência de resultados trimestrais da Meta em fevereiro, Zuckerberg deixou claro que usaria imagens do Facebook e Instagram para treinar suas ferramentas de geração de IA.

Segundo relatos, o Tumblr também chegou misteriosamente a acordos de licenciamento de conteúdo com OpenAi e Midjourney, mas o conteúdo específico dos acordos específicos não foi divulgado.

Os criadores da plataforma de galeria de fotos EyeEm também receberam recentemente uma notificação de que as fotos postadas seriam usadas para treinamento de modelos de IA. O aviso mencionava que os usuários podem optar por não usar o produto, mas não mencionava nenhuma política de compensação. A controladora da EyeEm, Freepik, disse à Reuters que assinou acordos com duas grandes empresas de tecnologia para licenciar a maior parte de seus 200 milhões de imagens por cerca de 3 centavos por imagem. O presidente-executivo, Joaquin Cuenca Abela, disse que cinco outros negócios semelhantes estavam em andamento, mas se recusou a revelar a identidade do comprador.

Plataformas de conteúdo lideradas por UGC, como Getty Images, Adobe, Photobucket, Flickr e Reddit, enfrentam problemas semelhantes. Sob a enorme tentação da monetização de dados, as plataformas optam por ignorar a propriedade do conteúdo dos usuários e empacotar os dados e vendê-los para o modelo de IA. empresas.

Todo o processo foi realizado no escuro e os criadores não tiveram chance de resistir. Até mesmo muitos criadores podem ter que treinar conteúdo semelhante aos seus próprios trabalhos em um determinado modelo um dia no futuro, antes de terem a oportunidade de suspeitar que seus trabalhos anteriores foram vendidos por uma determinada plataforma a uma empresa de IA para treinamento de modelo.

A Web3 pode ser uma boa escolha para resolver o problema da dificuldade em proteger os direitos de dados e rendimentos dos criadores. Quando as empresas de IA atingiram novos máximos no mercado de ações dos EUA, a moeda do conceito de IA da web3 também disparou ao mesmo tempo. O Blockchain, com suas características descentralizadas e invioláveis, desfruta de vantagens únicas na proteção dos direitos dos criadores.

Conteúdo de mídia, como fotos e vídeos, foi adotado em grande escala na rede no mercado altista de 2021, e o conteúdo UGC em plataformas sociais também está acontecendo silenciosamente na rede. Ao mesmo tempo, muitas plataformas de modelos de IA web3 já estão incentivando usuários comuns que contribuem para o treinamento de modelos, sejam eles proprietários de dados ou treinadores.

O desenvolvimento exponencial de modelos de IA impôs maiores exigências à verificação de dados. Os criadores devem pensar: Porque é que o meu trabalho foi vendido a uma empresa de modelos de IA por 5 cêntimos por peça sem o meu consentimento? Por que não tive conhecimento de todo o processo e não consegui obter nenhum benefício?

Os esforços da plataforma de mídia para capturar os peixes grandes não podem aliviar a ansiedade dos dados das empresas do modelo de IA. O pré-requisito para obter dados de alta qualidade e alto rendimento é a confirmação dos direitos dos dados, o que é uma distribuição razoável de interesses entre criadores, plataformas e IA. empresas modelo.

Fontes de referência:

A Shutterstock arrecadou US$ 104 milhões em ativos de licenciamento para desenvolvedores de IA no ano passado (PetaPixel)
Todas as empresas de fotografia que fecharam acordos de licenciamento com empresas de IA (PetaPixel)
Reddit tem um novo acordo de treinamento de IA para vender conteúdo de usuário (TheEverge)
GPT-4 consome todos os dados do universo! A OpenAI esteve envolvida em ações judiciais uma após a outra por falta de dados, e um professor da UC Berkeley emitiu um aviso (Xinzhiyuan)
OpenAI adquire Rockset (OpenAI)

notícias

Dados de IA eclodem a "crise do petróleo", as empresas de conteúdo podem simplesmente relaxar e ganhar dinheiro

Introdução

minhas informações de contato