Google DeepMind がオープンソースの結果を盗用したとして暴露され、論文がトップカンファレンスに採択されました

2024-07-15

魚と羊の西風はアオフェイ寺院から発生します
パブリックアカウント QbitAI

大手模型サークルが再びダグアからの盗作を暴露、今度は「被告」は依然として有名な Google DeepMind です。

「原告」は直接怒ってこう叫びました。彼らは私たちの技術レポートを洗ったところです！

具体的には：

トップの新世代カンファレンスCoLM 2024に採択されたGoogle DeepMindの論文は、1年前にarXivに投稿された研究を盗用していると指摘した。オープンソースの種類。

どちらの論文も、モデルテキスト生成の構造を形式化する方法を検討しています。

問題は、Google DeepMind の論文が「原告」の論文を明確に引用していることです。

しかし、たとえ引用が示されていても、「原告」論文の著者二人、Brandon T. Willard (Brandon) と R'emi Louf (Remy) は依然として Google が盗作したと主張し、次のように信じている。

両者の違いについてのGoogleの説明は「まったくばかげている」。

多くのネチズンは論文を読んだ後、ゆっくりと疑問符を上げました：CoLMは原稿をどのようにレビューしましたか？

違うのはコンセプトが変わったということだけでしょうか？

紙の比較を簡単に見てみましょう...

2 つの論文の比較

2 つの論文の抽象的な比較を簡単に見てみましょう。

Google DeepMind の論文によれば、トークン化は制約された言語モデルの出力に問題をもたらし、これらの問題を解決するためにオートマトン理論が導入されました。その核心は、各デコードステップですべての論理値 (ロジット) を走査することを避けることです。

このメソッドは、各トークンのデコードされた論理値にアクセスするだけでよく、計算は言語モデルのサイズに依存しません。効率的で、ほとんどすべての言語モデルアーキテクチャで簡単に使用できます。

「原告」の陳述は大まかに次のとおりです。

言語モデルの語彙にインデックスを構築することで、制約付きテキスト生成の効率を大幅に向上させる効率的なフレームワークが提案されています。簡単に言えば、それは、インデックス作成を通じてすべての論理値を走査することを避ける。

また「特定のモデルに依存しない」。

確かに方向性に大きな違いがあるので、さらに詳しく見てみましょう。

私たちは Google Gemini 1.5 Pro を使用して 2 つの論文の主な内容を要約し、その後、Gemini に 2 つの論文の類似点と相違点を比較してもらいました。

「被告」のGoogle論文に関して、ジェミニはその手法を次のように要約した。非トークン化を有限状態変換器 (FST) オペレーションとして再定義する。

この FST を、正規表現または文法で表現できるターゲット形式言語を表すオートマトンと組み合わせます。

上記の組み合わせにより、トークンベースのオートマトンが生成されます。これは、出力テキストが事前に設定された正式な言語仕様に確実に準拠するように、デコードプロセス中に言語モデルを制約するために使用されます。

さらに、Google の論文では、テキスト処理時のシステムの効率と表現力を大幅に向上させるために、特別に名前を付けたキャプチャグループを使用して書かれた一連の正規表現拡張も作成しました。

「原告」論文に関して、ジェミニはそのアプローチの核心を次のように要約した。テキスト生成の問題を有限状態マシン (FSM) 間の変換として再構成する。

「原告」の具体的な方法は次のとおりです。

正規表現または文脈自由文法を使用して FSM を構築し、それらをテキスト生成プロセスのガイドとして使用します。
各ステップで有効な単語を効率的に特定し、語彙インデックスを構築することで語彙全体を横断することを避けます。

Gemini は 2 つの論文の共通点を挙げています。

2 つの違いについては、前のネットユーザーが言ったことと少し似ています。簡単にまとめると、Google は語彙を FST として定義します。

前述したように、Google は原告の論文を「関連著作物」の「最も関連性のある」著作物としてリストしました。

最も関連性の高い研究は、Outlines (Willard & Louf、2023) です。この研究では、有限状態オートマトン (FSA) とプッシュダウンオートマトン (PDA) も制約として使用されています。私たちの手法は 2023 年の初めに独自に開発されました。

Google では、この 2 つの違いは、Outlines の手法が特別に作成された「インデックス作成」操作に基づいており、新しいアプリケーションシナリオへの手動拡張が必要であると考えています。対照的に、Google はオートマトン理論を使用してプロセス全体を完全に再定義し、FSA の適用と PDA への一般化を容易にしました。

もう 1 つの違いは、Google がワイルドカードマッチングをサポートし、使いやすさを向上させる拡張機能を定義していることです。

Google は、次の 2 つの関連作品を紹介する際にも、Outlines について言及しました。

1 つは、ying et al. (2024) がテキストセグメントを事前入力に「圧縮」する機能を追加することでアウトラインを拡張したことです。

もう 1 つは、Ugare et al (2024) によって最近提案された SynCode と呼ばれるシステムです。また、FSA も利用しますが、文法を処理するために PDA の代わりに LALR および LR パーサーを使用します。

アウトラインと同様に、この方法はカスタムアルゴリズムに依存します。

しかし、メロンを食べる人は明らかにメロンをあまり買いません。

CoLM のレビュー担当者は注意してください。これらが別々の「同時並行的な取り組み」であるとは思えません。

ネチズン：これは珍しいことではありません...

この事件が発覚するとすぐに、多くのネチズンは「テクノロジー大手が小規模チームの作品を盗用するのはこれが初めてではない」ことは言うまでもなく、盗作は恥ずべきことであると怒った。

ちなみに、ブランドン氏とレミー氏は原告の論文を発表した当時、2022年に設立されたAIインフラ企業であるノーマル・コンピューティング社でリモート勤務していた。

ああ、ところで、Normal Computing の創設チームの一部は Google Brain から来ています...

さらに、Brandon と Remy は共同でビジネスを開始しました。公式 Web サイトの情報によると、その目標は高速で信頼性の高い情報抽出モデルを提供することです。そして、公式 Web サイトに記載されている GitHub ホームページは、Outlines ウェアハウスです。

ネット民の話に戻ると、皆がさらに怒っているのは「この状況が一般的になってしまった」ということだ。

オランダのデルフト工科大学の博士研究員は、次のように経験を共有しました。

私たちは昨年 10 月に作品を完成させました。最近、同じアイデアとコンセプトを使用した論文が受理されましたが、私たちの論文は引用されていませんでした。

米国のノースイースタン大学の老人もいますが、彼はこのような状況に二度遭遇しましたが、加害者はいつも同じグループでした。そして、反対側の最初の著者も GitHub にスターを追加しました...

しかし、一部のネチズンは異なる意見を表明しました。

ブログ投稿や評価されていないプレプリント論文を投稿することが不正行為とみなされるなら、誰もが不正行為をしていることになりますよね?

それに対してレミーは怒ってこう言った。

皆さん、プレプリント論文を出版し、コードをオープンソースにしてください = 状況を利用してください。
疑似コードさえ必要としない数学論文を書く = 良い仕事ですか? ? ?

ブランドン兄弟もユエにこう言いました。

オープンソースコードを書いたり、関連する論文を書いたりするのは「他人を利用する」ことですが、他人の作品をコピーして「このアイデアは前に思いつきました」と言ってカンファレンスに提出するのは間違っているのでしょうか？なんとも嫌なことだ。

まずはここのメロンを食べてみますが、どう思いますか？コメントエリアでディスカッションを続けてもよいでしょう~

2 つの論文についてはここをクリックしてください。
Google DeepMind 論文: https://arxiv.org/abs/2407.08103v1
原告の論文: https://arxiv.org/abs/2307.09702

参考リンク:
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46

ニュース