Google DeepMind の最新研究: これら 3 つのタスクを解決しますか?人間にはできないし、AI

Google DeepMind の最新研究: これら 3 つのタスクを解決しますか?それは人間にはできませんし、AIにもできません。

2024-07-22

作者: 趙亜琦

序文

人工知能 (AI) は完璧な推論者ではありません。現在普及している言語モデル (LM) も、人間と同様のエラー傾向、特に重大な「コンテンツ効果」を示します。

既存の知識や信念と一致する情報を処理する場合、人々の推論はより正確で自信を持って行われますが、そのような知識や信念に反する情報を処理する場合にはバイアスやエラーが発生する可能性があります。

この結論は、Google DeepMind チームが発表した最近の研究論文から得られています。

人間には「直観系」と「理性系」という2つの推論系があり、その推論過程は既存の知識や経験の影響を受けやすいです。たとえば、論理的ではあるが不合理な命題に直面したとき、人はしばしばそれが無効であると誤って結論付けます。

興味深いことに、この研究は、大規模な Transformer 言語モデルもこの人間のような動作を示し、プロンプトが表示されたときに直感的なバイアスと一貫した論理的推論の両方を示す可能性があることを示しています。これは、言語モデルが人間の二重システムの動作をシミュレートし、「経験的」エラーを示すこともできることを意味します。

今回の研究で研究チームは、自然言語推論（NLI）、三段論法の論理的妥当性の判断（三段論法）、およびWason選択タスクという3つの推論タスクにおけるLMと人間のパフォーマンスを比較した。

図｜3種類の推論タスクの操作内容

LM と人間の両方のパフォーマンスは、3 つの推論タスクにおける意味内容の妥当性と信頼性に影響されることが判明しました。

この発見は、現在の AI システムの推論能力の限界を明らかにしました。これらのモデルは自然言語の処理では優れたパフォーマンスを発揮しますが、複雑な論理的推論が関係する場合には注意して使用する必要があります。

タスク 1:

自然言語推論

自然言語推論 (NLI) とは、モデルが 2 つの文間の論理関係 (含意、矛盾、中立性など) を判断する必要があることを意味します。研究によると、言語モデルはそのようなタスクにおいて内容の影響を受けやすい、つまり、文の意味内容が合理的で信頼できる場合、モデルは無効な引数を有効であると誤判断する可能性が高くなります。この現象はAIの分野では「意味バイアス」と呼ばれており、人間の推論によく見られる誤りでもあります。

研究チームは、これらのタスクを処理する際の人間と LM のパフォーマンスをテストするために、一連の NLI タスクを設計しました。その結果、意味的に合理的な文に直面した場合、人間とLMの両方が誤った判断を下す可能性が高いことが示されました。たとえば、次の例:

入ってください：水たまりは海より大きいです。
質問: 水たまりが海より大きいとしたら...
選択肢：A「海は水たまりより大きい」B「海は水たまりより小さい」

前提と結論の論理関係は間違っていますが、前提文の合理性からLMも人間も結論Bが正しいと考える傾向があります。比較すると、自然言語推論タスクにおける人間と言語モデルのエラー率は類似しており、言語モデルの推論能力がいくつかの面で人間のレベルに近く、日常会話の理解と処理においてはAIも人間と同じくらい敏感である可能性があることを示しています。 . 内容が誤解を招きます。

図 | NLI タスクの詳細な結果。人間 (左) とすべてのモデルは比較的高いパフォーマンスを示し、信念に一致する推論と、信念に違反する推論、さらにはナンセンスな推論との間の精度の差は比較的小さいです。

タスク 2:

三段論法の論理的妥当性の判断

三段論法は、通常 2 つの前提と 1 つの結論で構成される論理的推論の古典的な形式です。例: 「すべての人は死ぬ。ソクラテスも人間である。だから、ソクラテスも死ぬ。」研究によると、言語モデルは、三段論法の論理的妥当性を判断する際に、意味論的な内容によって影響を受けることがよくあります。言語モデルは自然言語の処理には優れていますが、厳密な論理的推論タスクでは依然として人間のような間違いを犯す傾向があります。

これをテストするために、研究者らは複数の三段論法推論タスクを設計し、人間と LM のパフォーマンスを比較しました。たとえば、これは典型的な三段論法タスクです。

前提1: すべての銃は武器です。
前提２：全ての武器は危険物です。
結論: すべての銃は危険物です。

この場合、前提と結論の意味内容は非常に合理的であるため、LM と人間の両方が結論が正しいと判断しやすくなります。ただし、セマンティックコンテンツが正当化されなくなった場合は、たとえば次のようになります。

前提１：危険物は全て武器である。
前提2: すべての武器は銃です。
結論: すべての危険物は銃です。

論理的に間違っているにもかかわらず、LM と人間は、前提文のもっともらしさのために、結論が正しいと誤って信じてしまうことがあります。

図 | 三段論法ロジックタスクの詳細な結果。人間とモデルの両方が明らかなコンテンツ効果を示します。結論が期待と一致している場合 (シアン)、結論が期待に反している場合 (紫)、その議論が有効であると信じる強いバイアスが存在します。引数が無効です。

タスク 3:

ウェイソンセレクト

ウェイソン選択タスクは、条件文を理解し検証する個人の能力をテストするために設計された古典的な論理的推論タスクです。実験では、参加者に「D」「F」「3」「7」などの文字や数字が書かれた4枚のカードを見せた。どのカードを裏返す必要があるかを判断し、「カードの表に D がある場合は、裏に 3 がある」というルールを確認することが課題です。

この研究では、言語モデルと人間は、このタスクでも前の 2 つのタスクと同様のエラー率を示し、どちらも情報価値のないカードを選択する傾向があることがわかりました。たとえば、「7」ではなく「3」を選択しました。このエラーは、人間と LM の両方が、実際にルールを検証するカードではなく、前提条件に直接関連するカードを選択する傾向があるために発生します。

ただし、タスクのルールに飲酒年齢や飲み物の種類などの社会的に関連した内容が含まれている場合、モデルと人間の両方のパフォーマンスが向上しました。例えば：

ルール: 飲酒は 18 歳以上でなければなりません。
カードの内容: ビールを飲む、コーラを飲む、16 歳、20 歳。

図 | Watson 選択タスクの詳細な結果。各言語モデルは、現実的なルールにおいて特定の利点を示します。

この場合、人間とLMは正しいカード、すなわち「ビールを飲む」と「16歳」を選択する可能性が高かった。これは、日常生活において、AI も人間と同様に、慣れ親しんだ状況でより優れたパフォーマンスを発揮することを示唆しています。

欠点と展望

全体として、研究チームは、現在の言語モデルは推論タスクで人間と同様に機能し、特に意味論的な内容を含む推論タスクでは同じように間違いを犯すことさえあると考えています。これは言語モデルの限界を明らかにしていますが、将来の AI 推論能力を向上させるための方向性も示しています。

ただし、この研究には一定の限界もあります。

まず、研究チームは少数のタスクしか考慮していないため、さまざまなタスクにわたる人間と言語モデルのコンテンツへの影響を包括的に理解することが制限されています。それらの類似点と相違点を完全に理解するには、より広範囲のタスク内でさらに検証する必要があります。

さらに、言語モデルは人間よりもはるかに多くの言語データでトレーニングされるため、これらの影響が人間の言語データに近い規模で発生するかどうかを判断することが困難になります。

研究者らは、将来の研究では、モデルのトレーニングを因果的に操作することでコンテンツのバイアスを軽減する方法を検討し、これらのバイアスが人間のデータにより近いスケールでトレーニング中に依然として現れるかどうかを評価できる可能性があると示唆しています。

さらに、モデルの推論能力に対する教育的要因の影響や、さまざまなトレーニング特性がコンテンツ効果の発現にどのように影響するかを研究することは、推論プロセスにおける言語モデルと人間の類似点と相違点をさらに理解し、言語モデルをより広く使用できるようにするのに役立ちます。アプリケーションシナリオでより大きな役割を果たします。

論文リンク:

https://academic.oup.com/pnasnexus/article/3/7/pgae233/7712372

｜クリックしてフォローし、スターを忘れずに｜

ニュース

Google DeepMind の最新研究: これら 3 つのタスクを解決しますか?それは人間にはできませんし、AIにもできません。

導入

私の連絡先情報