ニュース

2000年生まれの中国人がネイチャー誌に論文を発表、大型モデルは人間にとって信頼性が低いと主張

2024-10-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

2000年代生まれの中国人の研究が『nature』誌に掲載され、この大規模なモデル論文は激しい議論を巻き起こした。

簡単に言うと、この論文では、指示に忠実に従う大きなモデルほど信頼性が低くなり、場合によっては信頼性も低下することが判明しました。gpt-4 は質問への回答において gpt-3 ほど信頼性がありません

以前のモデルと比較して、最新のモデルはより多くの計算能力と人間のフィードバックを備えていますが、回答の信頼性は実際には悪化しています。

結論が出るとすぐに、20万人以上のネチズンが注目を集めました。

それはredditフォーラムでも議論を引き起こした。

これは、多くの専門家/博士レベルのモデルが、「9.9 と 9.11 のどちらが大きいか」という単純な質問をまだわかっていないことを人々に思い出させます。

この現象について論文では、これも反映されていると述べています。モデルのパフォーマンスが人間の期待する難易度と一致しない

言い換えれば、「llm は、ユーザーが予期しない場所で成功することも、(さらに危険なことに) 失敗することもある」ということです。

イリヤ・サツケヴァーは 2022 年に次のように予測しました。

おそらく時間が経てばこの差は縮まるでしょう。

しかし、この論文では、そうではないことがわかりました。 gpt、llama、bloomシリーズはもちろん、openai新しいo1 モデルとクロード-3.5-ソネット信頼性にも懸念がある。

さらに重要なことに、この論文は次のことも発見しました。人間の監視に頼ってエラーを修正するアプローチもうまくいきません。

一部のネチズンは、大型モデルは信頼性の問題を引き起こす可能性があるが、前例のない機能も提供すると信じています。

私たちは堅牢な評価手法の開発と透明性の向上に注力する必要があります。

この研究が明らかにしていると信じている人もいますai直面する微妙な課題(モデルの拡張性と信頼性のバランス)

モデルが大きくなると信頼性が低くなり、人間のフィードバックに依存することは機能しません

結論を説明するために、この論文では人間の観点から llm の信頼性に影響を与える 3 つの重要な側面を検証します。

1、一貫性のない難易度: llm は人間が失敗すると予想する場所で失敗しますか?
2、
タスクの回避: llm は自分の能力を超えた質問に答えることを避けますか?
3、
プロンプト言語表現に対する敏感さ: 問題作成の有効性は問題の難易度に影響されますか?

さらに重要なのは、著者らは歴史的な傾向と、タスクの難易度に応じてこれら 3 つの側面がどのように変化するかについても分析しています。

以下で 1 つずつ展開します。

最初の質問について、この論文では主に次の点に焦点を当てています。難易度に対する正しさの進化

gpt と llama の進化から判断すると、難易度が高くなると、すべてのモデルの正確性が大幅に低下します。(人間の期待と一致します)

ただし、これらのモデルはまだ多くの非常に単純なタスクを解決できません。

これは、人間のユーザーが llm の安全な動作空間を発見し、それを使用してモデルの展開パフォーマンスが完璧であることを確認できないことを意味します。

驚くべきことに、新しい llm は主に難しいタスクのパフォーマンスを向上させますが、単純なタスクでは大幅な改善はありません。例えば、gpt-4 とその前世代の gpt-3.5-turbo の比較

上記は、人間の難易度の期待とモデルのパフォーマンスの間に矛盾があることを証明しています。そして、この矛盾は新しいモデルではさらに悪化します。

これは次のことも意味します。

現在、人間が llm を信頼できると判断できる安全な動作条件はありません。

これは、高い信頼性と安全な動作空間の特定が必要なアプリケーションでは特に懸念されます。このことは、人間が懸命に作り上げてきた最先端の機械知能が本当に国民が期待しているものなのかを考えさせます。

次に、論点 2 の論文の結果についてです。(回避とは通常、質問に対する答えから逸脱するモデル、または直接「わかりません」と述べるモデルを指します)

以前の llm と比較すると、最新の llm は、間違っている答えや厳粛なナンセンスな答えの多くを大幅に改善します、自分の能力を超えたタスクを慎重に回避するのではなく。

これは皮肉な現象にもつながります。ベンチマークによっては、新しい llm のエラー率が精度 (ドージ) よりも速く改善することもあります。

一般的に、人間は直面する課題が困難であればあるほど、曖昧になりがちです。

しかし、llm の実際のパフォーマンスはまったく異なることが調査で示されています。彼らの回避行動は難易度とはあまり関係がありません。

このため、ユーザーは最初は苦手なタスクを完了するために llm に過度に依存し、長期的には失望してしまう可能性があります。

その結果、人間はモデル出力の精度を検証し、エラーを検出する必要もあります。(llm を使用して怠けたい場合は、大幅な割引が受けられます)

最後に、この論文では、信頼性指標の一部が改善されたとしても、モデルは依然として同じ問題の小さな定式化の変更に敏感であることがわかりました。

栗をあげる「次の質問に答えてください...」ではなく「答えていただけますか...?」と質問すると、精度が異なります。

分析結果:最新のモデルは以前のモデルと比べて大幅に最適化されていないため、既存のスケールアップとシェイプアップのみに依存しても、指示感度の問題を完全に解決することはできません。

また、平均パフォーマンスの観点から最適な表現形式を選択したとしても、それは主に難易度の高いタスクには効果的ですが、同時に難易度の低いタスクには効果がない可能性があります。(エラー率が高くなります)

これは次のことを示しています人類は依然としてこの促進プロジェクトの影響を受けています

さらに恐ろしいのは、同紙が次のことを発見したことだ。人間による監視ではモデルの信頼性の低さを軽減することはできない

この論文では、人間による調査に基づいて、人間の難しさの認識が実際のパフォーマンスと一致しているかどうか、また人間がモデルの出力を正確に評価できるかどうかを分析しています。

結果は次のとおりですユーザーが難しいと考える操作領域では、たとえ単純なタスクであっても、誤った出力が正しいとみなされることが多く、低モデル誤差と低監視誤差の両方を備えた安全な操作領域は存在しません。

上記の信頼性の問題は、gpt、llama、bloom を含む複数の llm シリーズに存在します。調査では次のことが挙げられています。32モデル

これらのモデルは異なる特性を示しますスケールアップ(計算量、モデル サイズ、データの増加)シェイプアップ(たとえば、命令 ft、rlhf)。

上記に加えて、著者らは後に、最新かつ最強のモデルの一部にも、この記事で述べた信頼性の低さの問題があることを発見しました。

openai の o1 モデル、antropicic の claude-3.5-sonnet、meta の llama-3.1-405b を含む

例を示したドキュメントもあります。(詳細はオリジナルドキュメントを参照してください)

さらに、他のモデルに信頼性の問題があるかどうかを検証するために、著者は論文で使用されたテストベンチマークを使用しました信頼性ベンチこれもオープンソースです。

簡単な算数(「足し算」)、語彙整理(「ワードパズル」)、地理知識(「ロケーション」)、理科の基礎・上級問題(「サイエンス」)、情報中心の5つの領域を網羅したデータセットです。変換(「変換」)。

著者紹介

最初の紙周楽新現在、ケンブリッジ大学を cs の修士号を取得して卒業したばかり (24 歳) で、研究対象は大規模言語モデルの評価です。

これに先立って、ホセ・ヘルナンデス・オラーロ教授の指導の下、バレンシア工科大学でデータ サイエンスの学士号を取得しました。

彼の個人ホームページには、彼が多くのインターンシップ経験があることが示されています。 openai と meta の両方でレッド チームのテストに参加しました。(レッドチームコンサルティング)

この論文に関して、彼は次の点に焦点を当てました。

一般的な人工知能の設計と開発には、根本的な変化特に、予測可能なエラー分散が重要な高リスク領域ではそうです。これが達成される前に、人間の監視に頼るのは危険です。

モデルを評価するときは、人間が感じる困難を考慮し、モデルの回避行動を評価する、難しいタスクのパフォーマンスだけに焦点を当てるのではなく、モデルの機能とリスクについてより包括的な説明を提供できます。

この文書では、これらの信頼性の低さについて考えられるいくつかの理由と解決策についても具体的に述べています。

スケールアップでは、近年のベンチマークは、より困難な例を追加したり、いわゆる「信頼できる」ソースをより重視したりする傾向が強まっており、そのため、研究者は困難なタスクでモデルのパフォーマンスを最適化する傾向が強くなり、その結果、慢性的な問題が発生します。難易度の一貫性の低下。

シェイプアップ (rlhf など) では、雇われた人はタスクを回避する回答にペナルティを課す傾向があり、その結果、解決できない難しい問題に直面したときにモデルが「ナンセンスな発言」をする可能性が高くなります。

こうした信頼性の低さをどう解決するか論文では、人間の難易度の予想を使用してモデルをより適切にトレーニングまたは微調整したり、タスクの難易度とモデルの信頼度を使用して、モデル自身の能力を超えた問題を回避するようにモデルをより適切に学習したりできると考えています。

これについてどう思いますか?