Google DeepMind a été dénoncé pour avoir plagié des résultats open source et l'article a été accepté dans les meilleures conférences

2024-07-15

Le vent d'ouest des poissons et des moutons provient du temple Aofei
Qubits | Compte public QbitAI

Le grand cercle de mannequins a une fois de plus dénoncé le plagiat de Dagua, cette fois,Le « prévenu » est toujours le fameux Google DeepMind。

Le « plaignant » a directement crié avec colère :Ils viennent de laver notre rapport technique！

Spécifiquement:

Un article de Google DeepMind qui a été accepté dans la conférence de nouvelle génération CoLM 2024 a été rejeté. Le propriétaire a souligné qu'il avait plagié une étude publiée sur arXiv il y a un an. Le genre open source.

Les deux articles explorent une méthode pour formaliser la structure de génération de texte modèle.

Le hic, c'est que l'article de Google DeepMind cite clairement l'article du « plaignant ».

Cependant, même si les citations sont indiquées, les deux auteurs de l'article du « plaignant », Brandon T. Willard (Brandon) et R'emi Louf (Remy), insistent toujours sur le fait que Google a plagié, et estiment que :

La description par Google des différences entre les deux est « tout simplement ridicule ».

De nombreux internautes ont lentement soulevé un point d'interrogation après avoir lu l'article : comment CoLM a-t-il révisé le manuscrit ?

La seule différence est que le concept a été changé ?

Jetez rapidement un œil à la comparaison papier...

Comparaison de deux articles

Jetons un coup d’œil rapide à la comparaison abstraite des deux articles.

Ce que dit l'article de Google DeepMind, c'est que la tokenisation pose des problèmes avec la sortie du modèle de langage contraint. Ils ont introduit la théorie des automates pour résoudre ces problèmes. L'essentiel est d'éviter de parcourir toutes les valeurs logiques (logits) à chaque étape de décodage.

Cette méthode nécessite uniquement d'accéder à la valeur logique décodée de chaque jeton, et le calcul est indépendant de la taille du modèle de langage. Elle est efficace et facile à utiliser dans presque toutes les architectures de modèles de langage.

La déclaration du « demandeur » est en gros :

Un cadre efficace est proposé pour améliorer considérablement l'efficacité de la génération de texte contraint en construisant un index sur le vocabulaire du modèle de langage.Pour faire simple, c'estÉvitez de parcourir toutes les valeurs logiques via l'indexation。

Également "ne dépend pas d'un modèle spécifique".

Il y a effectivement une grande différence de direction, alors regardons plus en détail.

Nous avons utilisé Google Gemini 1.5 Pro pour résumer le contenu principal des deux articles, puis avons demandé à Gemini de comparer les similitudes et les différences entre les deux.

Concernant l'article de Google « défendeur », Gemini a résumé sa méthode comme suit :Redéfinir la détokenisation en tant qu'opération Finite State Transformer (FST)。

Combinez ce FST avec un automate qui représente le langage formel cible, qui peut être représenté par une expression régulière ou une grammaire.

Grâce à la combinaison ci-dessus, un automate basé sur des jetons est généré, qui est utilisé pour contraindre le modèle de langage pendant le processus de décodage afin de garantir que son texte de sortie est conforme aux spécifications de langage formel prédéfinies.

En outre, l'article de Google a également créé une série d'extensions d'expressions régulières, écrites à l'aide de groupes de capture spécialement nommés pour améliorer considérablement l'efficacité et l'expressivité du système lors du traitement du texte.

Quant au document « plaignant », Gemini a résumé le cœur de son approche comme suit :Recadrer le problème de génération de texte comme une transformation entre machines à états finis (FSM)。

La méthode spécifique du « demandeur » est la suivante :

Créez des FSM à l'aide d'expressions régulières ou de grammaires sans contexte et utilisez-les pour guider le processus de génération de texte.
Identifiez efficacement les mots valides à chaque étape et évitez de parcourir tout le vocabulaire en créant un index de vocabulaire.

Gemini énumère les points communs entre les deux articles.

Quant à la différence entre les deux, c'est un peu ce que disait l'internaute précédent. Le résumé est simple : Google définit le vocabulaire comme un FST.

Comme mentionné précédemment, Google a répertorié l'article du plaignant comme l'ouvrage « le plus pertinent » dans la catégorie « Travaux connexes » :

La recherche la plus pertinente est Outlines (Willard & Louf, 2023), qui utilise également des automates à états finis (FSA) et des automates pushdown (PDA) comme contraintes - notre méthode a été développée indépendamment début 2023.

Google estime que la différence entre les deux réside dans le fait que la méthode Outlines est basée sur une opération « d'indexation » spécialement conçue qui nécessite une extension manuelle à de nouveaux scénarios d'application. En revanche, Google a complètement redéfini l’ensemble du processus en utilisant la théorie des automates, facilitant ainsi l’application de FSA et sa généralisation aux PDA.

Une autre différence est que Google a défini des extensions pour prendre en charge la correspondance des caractères génériques et améliorer la convivialité.

Google a également mentionné Outlines lors de la présentation des deux ouvrages connexes suivants.

La première est que Yin et al. (2024) ont étendu les contours en ajoutant la possibilité de « compresser » des segments de texte au pré-remplissage.

Un autre système est récemment proposé par Ugare et al (2024) appelé SynCode. Il utilise également FSA, mais utilise les analyseurs LALR et LR au lieu du PDA pour traiter la grammaire.

Semblable aux Outlines, cette méthode repose sur des algorithmes personnalisés.

Mais les gens qui mangent du melon n’en achètent évidemment pas beaucoup :

Les réviseurs CoLM doivent en prendre note. Je ne pense pas qu’il s’agisse d’« efforts contemporains » distincts.

Internaute : Ce n'est pas rare...

Dès que cet incident a été révélé, de nombreux internautes se sont mis en colère contre le plagiat, sans compter que « ce n'est pas la première fois qu'un géant de la technologie plagie le travail d'une petite équipe ».

À propos, Brandon et Remy travaillaient à distance pour Normal Computing, une société AI Infra fondée en 2022, lorsqu'ils ont publié l'article du plaignant.

Oh, au fait, une partie de l'équipe fondatrice de Normal Computing venait de Google Brain...

De plus, Brandon et Remy ont désormais lancé une entreprise ensemble. La nouvelle société s'appelle .txt. Selon les informations du site officiel, son objectif est de fournir un modèle d'extraction d'informations rapide et fiable. Et la page d'accueil de GitHub répertoriée sur le site officiel est l'entrepôt Outlines.

Pour en revenir aux internautes, ce qui met tout le monde encore plus en colère, c'est que « cette situation est devenue courante ».

Un postdoctorant de l'Université de technologie de Delft aux Pays-Bas a partagé son expérience :

Nous avons terminé un travail en octobre dernier, et il y a eu un article récemment accepté qui utilisait les mêmes idées et concepts, mais ne citait même pas notre article.

Il y a aussi un vieil homme de l'Université Northeastern aux États-Unis qui est encore pire. Il a été confronté à cette situation à deux reprises, et les auteurs étaient toujours le même groupe. Et le premier auteur ci-contre a également ajouté une étoile sur son GitHub...

Cependant, certains internautes ont exprimé des opinions différentes :

Si publier un article de blog ou un article préimprimé non évalué est considéré comme de la triche, alors tout le monde triche, n'est-ce pas ?

En réponse, Rémy dit avec colère :

Hé les gars, publier un article préimprimé et open source le code = profiter de la situation ;
Écrire un devoir de mathématiques qui ne nécessite même pas de pseudocode = bon travail ? ? ?

Frère Brandon a également dit à Yue :

Le code open source et la rédaction d'articles connexes, c'est « profiter des autres », mais copier le travail d'autres personnes et dire « J'ai eu cette idée plus tôt » et la soumettre à une conférence n'est pas correct ? Quelle horreur.

Je vais d'abord manger le melon ici. Qu'en penses-tu ? Vous souhaiterez peut-être poursuivre la discussion dans la zone de commentaires ~

Cliquez ici pour les deux articles :
Document Google DeepMind : https://arxiv.org/abs/2407.08103v1
Document du demandeur : https://arxiv.org/abs/2307.09702

Liens de référence :
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46

nouvelles