Nachricht

Es stellte sich heraus, dass Google DeepMind Open-Source-Ergebnisse plagiiert hatte, und sein Artikel wurde in Top-Konferenzen aufgenommen

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Der Westwind aus Fischen und Schafen kommt vom Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Der große Modelkreis deckte erneut Plagiate von Dagua auf, dieses MalDer „Angeklagte“ ist immer noch der berühmte Google DeepMind



Der „Kläger“ rief direkt wütend:Sie haben gerade unseren technischen Bericht gewaschen

Speziell:

Ein Google DeepMind-Artikel, der in die Top-New-Generation-Konferenz CoLM 2024 aufgenommen wurde, wurde abgelehnt. Der Eigentümer wies darauf hin, dass er eine Studie plagiierte, die vor einem Jahr auf arXiv veröffentlicht wurde. Die Open-Source-Variante.



In beiden Artikeln wird eine Methode zur Formalisierung der Struktur der Modelltextgenerierung untersucht.

Der Haken ist, dass das Google DeepMind-Papier eindeutig das Papier des „Klägers“ zitiert.



Doch selbst wenn die Zitate angegeben sind, bestehen die beiden Autoren des „Kläger“-Papiers, Brandon T. Willard (Brandon) und R'emi Louf (Remy), immer noch darauf, dass Google plagiiert hat, und glauben, dass:

Googles Beschreibung der Unterschiede zwischen den beiden sei „einfach lächerlich“.



Viele Internetnutzer stellten sich nach der Lektüre des Artikels langsam die Frage: Wie hat CoLM das Manuskript überprüft?



Der einzige Unterschied besteht darin, dass das Konzept geändert wurde?



Werfen Sie schnell einen Blick in den Papiervergleich...

Vergleich zweier Arbeiten

Werfen wir einen kurzen Blick auf den abstrakten Vergleich der beiden Arbeiten.

In dem Artikel von Google DeepMind heißt es, dass die Tokenisierung Probleme bei der Ausgabe eingeschränkter Sprachmodelle mit sich bringt. Um diese Probleme zu lösen, besteht der Kern darin, das Durchlaufen aller logischen Werte (Logits) bei jedem Dekodierungsschritt zu vermeiden.

Diese Methode muss nur auf den dekodierten logischen Wert jedes Tokens zugreifen und die Berechnung erfolgt unabhängig von der Größe des Sprachmodells. Sie ist effizient und in fast allen Sprachmodellarchitekturen einfach zu verwenden.

Die Aussage des „Klägers“ lautet ungefähr:

Es wird ein effizientes Framework vorgeschlagen, um die Effizienz der eingeschränkten Textgenerierung erheblich zu verbessern, indem ein Index für das Vokabular des Sprachmodells erstellt wird.Um es einfach auszudrücken: Das ist esVermeiden Sie es, alle logischen Werte durch Indizierung zu durchlaufen

Auch „nicht abhängig von einem bestimmten Modell“.



Es gibt tatsächlich einen großen Richtungsunterschied, also werfen wir einen Blick auf weitere Details.

Wir haben Google Gemini 1.5 Pro verwendet, um die Hauptinhalte der beiden Artikel zusammenzufassen, und dann Gemini gebeten, die Ähnlichkeiten und Unterschiede zwischen den beiden zu vergleichen.

In Bezug auf das „beklagte“ Google-Papier fasste Gemini seine Methode wie folgt zusammen:Definieren Sie die Detokenisierung als Finite State Transformer (FST)-Operation neu



Kombinieren Sie diesen FST mit einem Automaten, der die formale Zielsprache darstellt, die durch einen regulären Ausdruck oder eine Grammatik dargestellt werden kann.

Durch die obige Kombination wird ein tokenbasierter Automat generiert, der das Sprachmodell während des Decodierungsprozesses einschränkt, um sicherzustellen, dass sein Ausgabetext den voreingestellten formalen Sprachspezifikationen entspricht.

Darüber hinaus hat das Google-Papier auch eine Reihe von Erweiterungen für reguläre Ausdrücke erstellt, die mithilfe speziell benannter Capture-Gruppen geschrieben wurden, um die Effizienz und Ausdruckskraft des Systems bei der Textverarbeitung erheblich zu verbessern.

Was das Papier des „Klägers“ betrifft, fasste Gemini den Kern seines Ansatzes wie folgt zusammen:Formulieren Sie das Textgenerierungsproblem als Transformation zwischen Finite-State-Maschinen (FSMs) neu.

Die spezifische Methode des „Klägers“ ist:

  • Erstellen Sie FSMs mithilfe regulärer Ausdrücke oder kontextfreier Grammatiken und verwenden Sie diese als Steuerung für den Textgenerierungsprozess.
  • Identifizieren Sie gültige Wörter bei jedem Schritt effizient und vermeiden Sie das Durchlaufen des gesamten Wortschatzes, indem Sie einen Wortschatzindex erstellen.



Gemini listet die Gemeinsamkeiten zwischen den beiden Papieren auf.



Der Unterschied zwischen den beiden ähnelt ein wenig dem, was der vorherige Internetnutzer gesagt hat. Die einfache Zusammenfassung lautet: Google definiert das Vokabular als FST.



Wie bereits erwähnt, listete Google die Arbeit des Klägers als „relevanteste“ Arbeit unter „Ähnliche Arbeiten“ auf:

Die relevanteste Forschung ist Outlines (Willard & Louf, 2023), die auch Finite-State-Automaten (FSA) und Pushdown-Automaten (PDA) als Einschränkungen verwendet – unsere Methode wurde Anfang 2023 unabhängig entwickelt.

Google glaubt, dass der Unterschied zwischen den beiden darin besteht, dass die Methode von Outlines auf einem speziell gestalteten „Indexierungs“-Vorgang basiert, der eine manuelle Erweiterung auf neue Anwendungsszenarien erfordert. Im Gegensatz dazu hat Google den gesamten Prozess mithilfe der Automatentheorie völlig neu definiert, wodurch es einfacher wird, FSA anzuwenden und auf PDAs zu verallgemeinern.

Ein weiterer Unterschied besteht darin, dass Google Erweiterungen definiert hat, um den Wildcard-Abgleich zu unterstützen und die Benutzerfreundlichkeit zu verbessern.



Google erwähnte Outlines auch bei der Einführung der folgenden zwei verwandten Werke.

Einer davon ist, dass Yin et al. (2024) Outlines erweitert haben, indem sie die Möglichkeit hinzugefügt haben, Textsegmente zur Vorbelegung zu „komprimieren“.

Ein anderes ist ein kürzlich von Ugare et al. (2024) vorgeschlagenes System namens SynCode. Es verwendet ebenfalls FSA, verwendet jedoch LALR- und LR-Parser anstelle von PDA, um die Grammatik zu verarbeiten.

Ähnlich wie Outlines basiert diese Methode auf benutzerdefinierten Algorithmen.

Aber die Leute, die Melone essen, kaufen sie offensichtlich nicht sehr oft:

CoLM-Rezensenten sollten dies zur Kenntnis nehmen. Ich glaube nicht, dass es sich hierbei um separate „gleichzeitige Bemühungen“ handelt.



Netizen: Das ist nicht ungewöhnlich...

Als dieser Vorfall ans Licht kam, waren viele Internetnutzer wütend. Plagiate seien beschämend, ganz zu schweigen davon, dass „dies nicht das erste Mal ist, dass ein Technologieriese die Arbeit eines kleinen Teams plagiiert.“

Übrigens arbeiteten sowohl Brandon als auch Remy remote für Normal Computing, ein 2022 gegründetes AI-Infra-Unternehmen, als sie das Papier des Klägers veröffentlichten.

Übrigens, ein Teil des Gründungsteams von Normal Computing kam von Google Brain ...



Darüber hinaus haben Brandon und Remy nun gemeinsam ein Unternehmen gegründet, das den Namen .txt trägt und dessen Ziel es ist, ein schnelles und zuverlässiges Informationsextraktionsmodell bereitzustellen. Und die auf der offiziellen Website aufgeführte GitHub-Homepage ist das Outlines-Warehouse.

Um auf die Internetnutzer zurückzukommen: Was alle noch wütender macht, ist die Tatsache, dass „diese Situation alltäglich geworden ist“.

Ein Postdoktorand der Technischen Universität Delft in den Niederlanden teilte seine Erfahrungen:

Letzten Oktober haben wir eine Arbeit fertiggestellt und es gab eine kürzlich angenommene Arbeit, die dieselben Ideen und Konzepte verwendete, aber nicht einmal unsere Arbeit zitierte.



Es gibt auch einen alten Mann von der Northeastern University in den Vereinigten Staaten, dem es noch schlimmer geht. Er hat diese Situation zweimal erlebt, und die Täter waren immer dieselbe Gruppe. Und auch der erste Autor gegenüber hat seinem GitHub einen Stern hinzugefügt...



Einige Internetnutzer äußerten jedoch unterschiedliche Meinungen:

Wenn das Posten eines Blog-Beitrags oder eines nicht bewerteten Preprint-Artikels als Betrug gilt, dann betrügt doch jeder, oder?



Als Antwort sagte Remy wütend:

Hallo Leute, einen vorab gedruckten Artikel veröffentlichen und den Code als Open Source veröffentlichen = die Situation ausnutzen;
Eine Mathearbeit schreiben, die nicht einmal Pseudocode erfordert = gute Arbeit? ? ?



Bruder Brandon sagte auch Yue:

Open-Source-Code und das Schreiben verwandter Artikel bedeutet „Ausnutzen anderer“, aber die Arbeit anderer Leute zu kopieren und zu sagen „Ich hatte diese Idee schon früher“ und sie auf einer Konferenz einzureichen, ist nicht richtig? Wie widerlich.



Lass uns zuerst die Melone essen. Was denkst du darüber? Möglicherweise möchten Sie die Diskussion im Kommentarbereich fortsetzen ~

Klicken Sie hier für die beiden Beiträge:
Google DeepMind-Papier: https://arxiv.org/abs/2407.08103v1
Papier des Klägers: https://arxiv.org/abs/2307.09702

Referenzlinks:
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46