notícias

Foi revelado que o Google DeepMind plagiou resultados de código aberto e seu artigo foi aceito nas principais conferências

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

O vento oeste de peixes e ovelhas origina-se do Templo Aofei
Qubits | Conta pública QbitAI

O grande círculo modelo mais uma vez expôs o plágio de Dagua, desta vez,O “réu” ainda é o famoso Google DeepMind



O “requerente” gritou diretamente com raiva:Acabaram de lavar nosso relatório técnico

Especificamente:

Um artigo do Google DeepMind que foi aceito na conferência de nova geração CoLM 2024 foi rejeitado. O proprietário apontou que plagiava um estudo publicado no arXiv há um ano. O tipo de código aberto.



Ambos os artigos exploram um método para formalizar a estrutura de geração de texto modelo.

O problema é que o artigo do Google DeepMind cita claramente o artigo do “requerente”.



No entanto, mesmo que as citações sejam indicadas, os dois autores do artigo do “requerente”, Brandon T. Willard (Brandon) e R'emi Louf (Remy), ainda insistem que o Google plagiou e acreditam que:

A descrição do Google das diferenças entre os dois é “simplesmente ridícula”.



Muitos internautas levantaram lentamente um ponto de interrogação depois de ler o artigo: Como o CoLM revisou o manuscrito?



A única diferença é que o conceito foi alterado?



Dê uma olhada rápida na comparação do papel...

Comparação de dois artigos

Vamos dar uma rápida olhada na comparação abstrata dos dois artigos.

O que o artigo do Google DeepMind diz é que a tokenização traz problemas para a saída restrita do modelo de linguagem. Eles introduziram a teoria dos autômatos para resolver esses problemas.

Este método só precisa acessar o valor lógico decodificado de cada token, e o cálculo é independente do tamanho do modelo de linguagem. É eficiente e fácil de usar em quase todas as arquiteturas de modelos de linguagem.

A declaração do “requerente” é aproximadamente:

Uma estrutura eficiente é proposta para melhorar significativamente a eficiência da geração de texto restrito, construindo um índice no vocabulário do modelo de linguagem.Para simplificar, éEvite percorrer todos os valores lógicos através da indexação

Também “não depende de um modelo específico”.



De fato, há uma grande diferença de direção, então vamos dar uma olhada em mais detalhes.

Usamos o Google Gemini 1.5 Pro para resumir o conteúdo principal dos dois artigos e, em seguida, pedimos ao Gemini que comparasse as semelhanças e diferenças entre os dois.

Em relação ao artigo do "réu" do Google, Gemini resumiu seu método comoRedefinir a destokenização como uma operação de Transformador de Estado Finito (FST)



Combine esta FST com um autômato que represente a linguagem formal alvo, que pode ser representada por uma expressão regular ou uma gramática.

Através da combinação acima, é gerado um autômato baseado em token, que é usado para restringir o modelo de linguagem durante o processo de decodificação para garantir que seu texto de saída esteja em conformidade com as especificações de linguagem formal predefinidas.

Além disso, o artigo do Google também fez uma série de extensões de expressões regulares, que foram escritas usando grupos de captura especialmente nomeados para melhorar significativamente a eficiência e expressividade do sistema no processamento de texto.

Quanto ao artigo do "demandante", Gemini resumiu o cerne de sua abordagem comoReformule o problema de geração de texto como uma transformação entre máquinas de estados finitos (FSMs)

O método específico de "requerente" é:

  • Crie FSMs usando expressões regulares ou gramáticas livres de contexto e use-as para orientar o processo de geração de texto.
  • Identifique palavras válidas com eficiência em cada etapa e evite percorrer todo o vocabulário construindo um índice de vocabulário.



Gemini lista os pontos em comum entre os dois artigos.



Quanto à diferença entre os dois, é um pouco parecido com o que o internauta anterior disse. O resumo simples é: o Google define o vocabulário como um FST.



Conforme mencionado anteriormente, o Google listou o artigo do demandante como o trabalho “mais relevante” em “Trabalho relacionado”:

A pesquisa mais relevante é Outlines (Willard & Louf, 2023), que também utiliza autômatos de estados finitos (FSA) e autômatos pushdown (PDA) como restrições – nosso método foi desenvolvido de forma independente no início de 2023.

O Google acredita que a diferença entre os dois é que o método do Outlines é baseado em uma operação de “indexação” especialmente criada que requer expansão manual para novos cenários de aplicação. Em contraste, o Google redefiniu completamente todo o processo usando a teoria dos autômatos, facilitando a aplicação da FSA e a generalização para PDAs.

Outra diferença é que o Google definiu extensões para oferecer suporte à correspondência de curingas e melhorar a usabilidade.



O Google também mencionou Outlines ao apresentar os dois trabalhos relacionados a seguir.

Uma é que Yin et al. (2024) estenderam o Outlines adicionando a capacidade de "comprimir" segmentos de texto ao pré-preenchimento.

Outro é um sistema recentemente proposto por Ugare et al (2024) denominado SynCode. Ele também utiliza FSA, mas usa analisadores LALR e LR em vez de PDA para processar a gramática.

Semelhante ao Outlines, esse método depende de algoritmos personalizados.

Mas as pessoas que comem melão obviamente não compram muito:

Os revisores do CoLM devem tomar nota. Não creio que estes pareçam ser “esforços contemporâneos” separados.



Internauta: Isso não é incomum...

Assim que o incidente veio à tona, muitos internautas ficaram furiosos. O plágio era vergonhoso, sem falar que “esta não é a primeira vez que um gigante da tecnologia plagia o trabalho de uma pequena equipe”.

A propósito, Brandon e Remy trabalhavam remotamente para a Normal Computing, uma empresa de AI Infra fundada em 2022, quando publicaram o artigo do demandante.

Ah, a propósito, parte da equipe fundadora da Normal Computing veio do Google Brain...



Além disso, Brandon e Remy já iniciaram um negócio juntos. A nova empresa se chama .txt Segundo informações do site oficial, seu objetivo é fornecer um modelo de extração de informações rápido e confiável. E a página inicial do GitHub listada no site oficial é o armazém Outlines.

Voltando aos internautas, o que deixa todos ainda mais irritados é que “essa situação se tornou comum”.

Um pós-doutorado da Delft University of Technology, na Holanda, compartilhou sua experiência:

Concluímos um trabalho em outubro passado e houve um artigo recentemente aceito que usava as mesmas ideias e conceitos, mas nem sequer citava nosso artigo.



Há também um velho da Northeastern University, nos Estados Unidos, que é ainda pior. Ele já se deparou com essa situação duas vezes, e os perpetradores foram sempre o mesmo grupo. E o primeiro autor ao lado também adicionou uma estrela ao seu GitHub...



No entanto, alguns internautas expressaram opiniões diferentes:

Se postar uma postagem em um blog ou um artigo pré-impresso não avaliado conta como trapaça, então todo mundo está trapaceando, certo?



Em resposta, Remy disse com raiva:

Olá pessoal, publicar um artigo pré-impresso e abrir o código = aproveitando a situação;
Escreva um trabalho de matemática que nem exija nenhum pseudocódigo = bom trabalho? ? ?



O irmão Brandon também disse Yue:

Código-fonte aberto e escrever artigos relacionados é "tirar vantagem dos outros", mas copiar o trabalho de outras pessoas e dizer "Tive essa ideia antes" e submetê-la a uma conferência não é certo? Que nojento.



Vamos comer o melão primeiro. Você pode querer continuar a discussão na área de comentários ~

Clique aqui para ver os dois artigos:
Artigo do Google DeepMind: https://arxiv.org/abs/2407.08103v1
Artigo do autor: https://arxiv.org/abs/2307.09702

Links de referência:
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46