noticias

Se reveló que Google DeepMind había plagiado resultados de código abierto y su artículo fue aceptado en las principales conferencias.

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

El viento del oeste de peces y ovejas se origina en el templo de Aofei.
Qubits | Cuenta pública QbitAI

El gran círculo de modelos volvió a exponer el plagio de Dagua, esta vez,El “demandado” sigue siendo el famoso Google DeepMind



El "demandante" gritó directamente enojado:Acaban de lavar nuestro informe técnico.

Específicamente:

Un artículo de Google DeepMind que fue aceptado en la principal conferencia de nueva generación CoLM 2024 fue rechazado. El propietario señaló que plagiaba un estudio que se publicó en arXiv hace un año. Del tipo de código abierto.



Ambos artículos exploran un método para formalizar la estructura de generación de texto modelo.

El problema es que el documento de Google DeepMind cita claramente el documento del "demandante".



Sin embargo, incluso si se indican las citas, los dos autores del artículo "demandante", Brandon T. Willard (Brandon) y R'emi Louf (Remy), todavía insisten en que Google plagió y creen que:

La descripción que hace Google de las diferencias entre los dos es "simplemente ridícula".



Muchos internautas lentamente plantearon un signo de interrogación después de leer el artículo: ¿Cómo revisó CoLM el manuscrito?



¿La única diferencia es que se ha cambiado el concepto?



Eche un vistazo rápidamente a la comparación de papeles...

Comparación de dos artículos.

Echemos un vistazo rápido a la comparación abstracta de los dos artículos.

Lo que dice el artículo de Google DeepMind es que la tokenización trae problemas a la salida del modelo de lenguaje restringido. Introdujeron la teoría de los autómatas para resolver estos problemas. El núcleo es evitar atravesar todos los valores lógicos (logits) en cada paso de decodificación.

Este método solo necesita acceder al valor lógico decodificado de cada token y el cálculo es independiente del tamaño del modelo de lenguaje. Es eficiente y fácil de usar en casi todas las arquitecturas de modelos de lenguaje.

La declaración del "demandante" es aproximadamente:

Se propone un marco eficiente para mejorar en gran medida la eficiencia de la generación de texto restringido mediante la creación de un índice sobre el vocabulario del modelo de lenguaje.En pocas palabras, esEvite atravesar todos los valores lógicos mediante la indexación

Además "no depende de un modelo concreto".



De hecho, existe una gran diferencia de dirección, así que echemos un vistazo a más detalles.

Usamos Google Gemini 1.5 Pro para resumir el contenido principal de los dos artículos y luego le pedimos a Gemini que comparara las similitudes y diferencias entre los dos.

En cuanto al documento "demandado" de Google, Gemini resumió su método comoRedefinir la detokenización como una operación de transformador de estado finito (FST)



Combine este FST con un autómata que represente el lenguaje formal de destino, que puede representarse mediante una expresión regular o una gramática.

A través de la combinación anterior, se genera un autómata basado en token, que se utiliza para restringir el modelo de lenguaje durante el proceso de decodificación para garantizar que su texto de salida se ajuste a las especificaciones de lenguaje formales preestablecidas.

Además, el documento de Google también creó una serie de extensiones de expresiones regulares, que se escribieron utilizando grupos de captura con nombres especiales para mejorar significativamente la eficiencia y expresividad del sistema al procesar texto.

En cuanto al documento del "demandante", Gemini resumió el núcleo de su enfoque comoReplantear el problema de generación de texto como una transformación entre máquinas de estados finitos (FSM)

El método específico del "demandante" es:

  • Cree FSM utilizando expresiones regulares o gramáticas libres de contexto y utilícelas para guiar el proceso de generación de texto.
  • Identifique eficientemente palabras válidas en cada paso y evite recorrer todo el vocabulario creando un índice de vocabulario.



Gemini enumera los puntos en común entre los dos artículos.



En cuanto a la diferencia entre los dos, es un poco como lo que dijo el internauta anterior. El resumen simple es: Google define el vocabulario como un FST.



Como se mencionó anteriormente, Google incluyó el documento del demandante como el trabajo "más relevante" en "Trabajo relacionado":

La investigación más relevante es Outlines (Willard & Louf, 2023), que también utiliza autómatas de estados finitos (FSA) y autómatas pushdown (PDA) como restricciones; nuestro método se desarrolló de forma independiente a principios de 2023.

Google cree que la diferencia entre los dos es que el método de Outlines se basa en una operación de "indexación" especialmente diseñada que requiere expansión manual a nuevos escenarios de aplicación. Por el contrario, Google redefinió por completo todo el proceso utilizando la teoría de los autómatas, facilitando la aplicación de FSA y la generalización a las PDA.

Otra diferencia es que Google ha definido extensiones para admitir la coincidencia de comodines y mejorar la usabilidad.



Google también mencionó Outlines al presentar los siguientes dos trabajos relacionados.

Una es que Yin et al. (2024) ampliaron los esquemas agregando la capacidad de "comprimir" segmentos de texto al llenado previo.

Otro es un sistema propuesto recientemente por Ugare et al (2024) llamado SynCode. También utiliza FSA, pero utiliza analizadores LALR y LR en lugar de PDA para procesar la gramática.

Al igual que Outlines, este método se basa en algoritmos personalizados.

Pero la gente que come melón obviamente no lo compra mucho:

Los revisores de CoLM deberían tomar nota. No creo que estos parezcan ser "esfuerzos contemporáneos" separados.



Internauta: Esto no es raro...

Tan pronto como este incidente salió a la luz, muchos internautas se enojaron. El plagio fue vergonzoso, sin mencionar que "esta no es la primera vez que un gigante tecnológico plagia el trabajo de un pequeño equipo".

Por cierto, tanto Brandon como Remy estaban trabajando de forma remota para Normal Computing, una empresa de AI Infra fundada en 2022, cuando publicaron el documento del demandante.

Ah, por cierto, parte del equipo fundador de Normal Computing vino de Google Brain...



Además, Brandon y Remy han iniciado un negocio juntos. La nueva empresa se llama .txt. Según la información del sitio web oficial, su objetivo es proporcionar un modelo de extracción de información rápido y confiable. Y la página de inicio de GitHub que figura en el sitio web oficial es el almacén de Outlines.

Volviendo a los internautas, lo que enoja aún más a todos es que "esta situación se ha vuelto común".

Un postdoctorado de la Universidad Tecnológica de Delft (Países Bajos) compartió su experiencia:

Completamos un trabajo en octubre pasado y hubo un artículo recientemente aceptado que usaba las mismas ideas y conceptos, pero ni siquiera citaba nuestro artículo.



También hay un anciano de la Universidad Northeastern en Estados Unidos que es aún peor. Se ha encontrado con esta situación dos veces y los perpetradores siempre fueron el mismo grupo. Y el primer autor de enfrente también agregó una estrella a su GitHub...



Sin embargo, algunos internautas expresaron opiniones diferentes:

Si publicar una entrada de blog o un artículo preimpreso no evaluado cuenta como trampa, entonces todo el mundo está haciendo trampa, ¿verdad?



En respuesta, Remy dijo enojado:

Hola chicos, publicar un artículo preimpreso y abrir el código = aprovechar la situación;
Escribir un trabajo de matemáticas que ni siquiera requiera ningún pseudocódigo = ¿buen trabajo? ? ?



El hermano Brandon también dijo Yue:

Abrir código fuente y escribir artículos relacionados es "aprovecharse de los demás", pero copiar el trabajo de otras personas y decir "Tuve esta idea antes" y enviarlo a una conferencia no es correcto. Qué asco.



Primero comamos el melón. ¿Qué opinas de esto? Es posible que desee continuar la discusión en el área de comentarios ~

Haga clic aquí para ver los dos artículos:
Documento de Google DeepMind: https://arxiv.org/abs/2407.08103v1
Documento del demandante: https://arxiv.org/abs/2307.09702

Enlaces de referencia:
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46