Se os dados da IA não forem suficientes, podemos usar papéis para “compensar”?
2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
14 de agosto
O site oficial da Nature publicou um artigo afirmando que
Várias editoras acadêmicas estão investindo em empresas de tecnologia
Venda dos direitos de uso de artigos de pesquisa
Usado para treinar modelos de IA
Em muitos casos, essas transações
O autor não foi consultado
Isso causou forte insatisfação entre alguns pesquisadores.
Artigos que foram “traídos”
Escala da natureza
Editoras acadêmicas britânicas
Taylor Francisco
Já assinou acordo com a Microsoft
Acordo no valor de US$ 10 milhões
Permitir que a Microsoft acesse seus dados
para melhorar os sistemas de IA
Em junho, houve a notícia de que
Editora americana Wiley
Permitir que uma empresa use seu conteúdo para treinar modelos
ganhando assim US$ 23 milhões
Escala da natureza
Esses papéis cobrem
Ciências naturais, ciências sociais e outros campos
Tornou-se um corpus importante para o treinamento de modelos de IA.
Um robô pintor demonstrou pintura na "Cúpula Global de Inteligência Artificial para o Benefício da Humanidade" de 2024 em Genebra, Suíça.
Fonte: Agência de Notícias Xinhua
Artigo da Nature pensa
Autores atuais de artigos acadêmicos
Ao enfrentar editores que vendem suas obras protegidas por direitos autorais
quase nenhum direito de interferir
Para artigos publicados
Não existe nenhum mecanismo existente para confirmar esses conteúdos
Se é usado como dados de treinamento de IA
No uso de grandes modelos de linguagem
Como estabelecer um mecanismo mais justo
Proteja os direitos dos criadores
Digno de ampla discussão na academia e nos círculos de direitos autorais
Dados de IA insuficientes
Papéis para “fazer as pazes”
Três elementos principais para o desenvolvimento de grandes modelos de inteligência artificial
São dados, algoritmos e poder de computação
Com o rápido desenvolvimento da tecnologia de IA
Demanda crescente por dados de treinamento
Alguns meios de comunicação disseram
final de 2021
Treinamento OpenAI GPT-4
encontrou um problema difícil
Seu treinamento se esgotou na internet
Recurso confiável de texto em inglês
então
Para lidar com este problema
OpenAI usa vídeo e áudio da plataforma Youtube
Transcreva grandes quantidades de texto de conversação
Treinando depois
Em 2 de julho, a equipe se comunicou com pessoas digitais na área de experiência imersiva em economia digital da Conferência Global de Economia Digital de 2024.
Foto do repórter da Agência de Notícias Xinhua, Ren Chao
agora
Gigantes da tecnologia mudam seu foco para
editora acadêmica
trabalhos acadêmicos como
A cristalização da sabedoria no campo da pesquisa científica
Torne-se o “bolo quente” que as pessoas correm para comprar.
Tome o processamento de linguagem natural como exemplo
Através do treinamento em um grande número de artigos
Os modelos de IA podem entender melhor
conhecimento de domínio acadêmico
melhorar sua precisão
Gigantes da tecnologia como Google e Microsoft
Investiram pesadamente na compra de corpora
Para obter uma vantagem competitiva no campo da IA
O Financial Times colocou seu próprio conteúdo
a um preço respeitável
Vendido para OpenAI
Site de notícias sociais Reddit
Também chegou a um acordo semelhante com o Google
Essas transações refletem
Os editores tentam autorizar legalmente
Evite que seu conteúdo seja rastreado gratuitamente por modelos de IA
Dilema dos dados de treinamento
Como quebrar o jogo
Trabalhe com editores
Somente empresas de tecnologia resolvem isso
O epítome do problema de dados de treinamento insuficientes
Recentemente
A revista The Economist publica um artigo
“As empresas de IA em breve consumirão a maior parte dos dados da Internet”
Preveja o que está disponível na Internet
Dados de textos humanos se esgotarão em quatro anos
No dia 23 de abril, na Feira Industrial de Hannover, na Alemanha, os visitantes jogaram o jogo “pedra, papel e tesoura” com um robô inteligente.
Foto do repórter da Agência de Notícias Xinhua, Ren Pengfei
Diante de tal problema
Fundador e CEO da OpenAI, Sam Altman
Uma solução alternativa foi proposta:
Empresas como OpenAI
Eventualmente, haverá uma mudança no uso de dados gerados por IA
(também conhecidos como dados sintéticos) para treinar IA
Os desenvolvedores estão criando tecnologias cada vez mais poderosas enquanto
Também reduziria a dependência de dados protegidos por direitos autorais
certamente
Este caminho técnico é viável?
Ainda há polêmica
Um artigo de capa da revista Nature argumentou que
Se o modelo grande puder
Treine-se com dados gerados automaticamente
IA pode se degradar
Em apenas algumas gerações, o conteúdo original
Iterado em um absurdo irremediável
Além dos métodos de dados sintéticos
Maior compartilhamento aberto de dados públicos
também é considerado um caminho eficaz
O relatório de Valores Mobiliários Industriais apontou que
Fortalecer o desenvolvimento aberto de dados públicos
é a solução atual para dispersão de dados
Medidas importantes para melhorar a qualidade dos dados de treinamento
Escrito por:Li Fei, Ma Jing Yuan composição tipográfica:Li Wenjian Coordenador:Li Zhengwei
Referência丨Natureza, The Paper, Financial Associated Press, 21st Century Business Herald
Produzido por Guangming.com
Fonte: Conferência Mundial da Internet