LLM 推論のパフォーマンスは出力形式に影響され、JSON が最も深刻です

LLM 推論のパフォーマンスは出力形式に影響されます。JSON が最も深刻です。

2024-08-16

出力形式の違いは大規模モデルのパフォーマンスにどのような影響を与えるのでしょうか? ！

大規模言語モデル (LLM) が 2 つのプロンプトの下で同じ数学的問題を解決できるようにします。問題は次のとおりです。

イライザさんの週最初の 40 時間労働の時給は 10 ドルで、残業代は 1 時間あたり 1.2 倍です。イライザが今週 45 時間働いた場合、彼女は今週いくら稼いだでしょうか?

思考連鎖プロンプト: 「次の形式で出力を段階的に推論してください: ...答え: 最終的な答えは...」。

形式制限プロンプト: 「次の有効な JSON 形式で出力を提供します: ... (特定の JSON 形式については図を参照してください)。」

正しい答えは、460, 思考チェーン (モデルにステップごとに考えさせる) は機能しますが、形式制限 (「JSON 形式での出力」) は失敗することがわかります。！

これは国立台湾大学と Appier AI Research による新しい研究の一場面です。彼らは次のことを発見しました—

形式の制限により LLM の推論能力が低下し、制限が厳しくなるほど推論の精度が低下します。 (反抗的な性格が特徴)

しかし良いニュースは、それは治療できるということです。

彼らは見つけました、最良の解決策これは「二次変換」です (そのとおりです)。つまり、LLM は最初に自然言語で質問に答え、次にその回答をターゲット形式に変換します。

その過程で、異なる形式でデータを生成する際の、GPT-3.5 Turbo、Claude 3 Haiku、Gemini 1.5 Flash などの異なるモデルのパフォーマンスの違いを比較しました。判明したのは、：

GPT は YAML を好み、Claude は XML を好み、Gemini/Gemma は JSON を好みます。 (基本的には人それぞれ好みがあります)

研究を読んだ後、一部のネチズンは次のように指摘した。構造化された生成とタスク推論のバランスをとる意味：

形式の制限により、LLM の推論能力が低下します

上記の研究は arXiv で公開されており、この論文は主に、フォーマットの制約下では LLM の推論能力が大幅に低下することを明らかにしています。特にJSONモードでは。

ずっと、LLM を産業アプリケーションに組み込む大きな障害は、標準化された出力形式に準拠していないことです。

一般的なソリューションは構造化生成です。この場合、形式の制約により、LLM は JSON や XML などの標準化された形式で出力を提供できます。

ただし、この制限を達成する方法はたくさんありますが、その後の影響については研究されていません。 (この制限はモデルのパフォーマンスに影響しますか?)

とにかくやってみよう、研究者が採用3つの一般的な方法さまざまな形式の制限がダウンストリームのパフォーマンスに及ぼす影響を評価するには、次の手順を実行します。

JSON モード: 事前定義されたタグスペースによって LLM の出力を制限します
FRI: 特定のパターンに準拠した標準化された形式の応答を生成するように LLM をガイドします
NL からフォーマットへ: 最初に自然言語で質問に答え、次にターゲット形式に変換する 2 段階のプロセス

ところで、付け加えなければなりません自然言語 (NL)、これは最も制限のない形式であり、モデルは自然言語で自由に質問に答えることができます。

評価オブジェクトは、GSM8K (自然言語環境での数学的問題を含む) と Last Letter Concatenation (最後の文字接続タスク)、完全に一致する答えを必要とする 2 つのデータセット、および Shuffled Objects (シャッフルされたオブジェクト追跡タスク) です。

彼らは、推論を必要とするこれらのタスクでは、手がかりが緩い方が一般に良い結果をもたらすことを発見しました。

同時に、ほとんどの場合、JSON スキーマのパフォーマンスが最悪になります、次に形式制限指示 (FRI)、次に自然言語から形式 (NL から形式) への変換、および自然言語 (NL) プロンプトが続きます。

この研究では、異なる LLM が異なるデータ形式に対応することも判明しました。さまざまな設定を表示する。

たとえば、GPT は YAML 形式を好み、Claude は XML 形式を好み、Gemini/Gemma は JSON 形式を好みます。

ただし、分類タスクでは、形式制限により精度が向上する可能性がありますなぜなら、考えられる答えの選択肢が減り、それによって誤り率が下がるからです。

彼らはさらに、形式の制限によりモデルの推論能力が低下する可能性があると結論付けました。理由、主に次のものが含まれます。

必要な中間推論ステップを生成するモデルの機能を制限します。
強制された書式設定要件は、モデルが自然に回答を生成する方法と互換性がない可能性があります。
書式設定に誤りがあると、たとえ推論が正しくても、書式の問題により回答が間違っていると判断されてしまう可能性があります。

朗報：治る可能性がある

この問題に対して、彼らはいくつかの対策を提案しました。

まず、前述したように、ほとんどの場合、JSON モードのパフォーマンスは最悪であり、最後に自然言語からフォーマットへの (NL からフォーマットへ) 変換が行われます。

すると逆に、フォーマットの制限を解決する最良の解決策は、NL からフォーマットへの変換ですつまり、LLM は最初に自然言語で質問に答え、次にその回答をターゲット形式に変換します。このアプローチでは、フォーマットへの準拠から推論を切り離すことで、パフォーマンスの向上が可能になります。

さらに、構造化された出力キーの順序LLM の回答に重要な影響を与えます。

たとえば、GPT-3.5 Turbo を使用すると、JSON モードの応答の 100% で「推論」の前に「回答」キーが誤って配置され、モデルが思考プロセスを示す代わりに直接答えを与えることになりました。

調査では、フォーマットの制限が原因となることも示されています。解析エラーパフォーマンスの違いの主な理由ではありません。

たとえば、LLaMA 3 8B モデルでは、Last Letter タスクの JSON 形式解析エラー率はわずか 0.15% ですが、自然言語応答と比較すると、パフォーマンスギャップは 38.15% に達します。

そしてできる修正ヒントを使用してこれらのエラーを軽減しますたとえば、Claude-3-Haiku モデルの Last Letter タスクでは、修正ステップを通じて、JSON 形式と YAML 形式の精度がそれぞれ +2.8% と +44.8% 増加しました。

上記は、LLM を適用するときに、解析しやすい形式と固有の推論機能の保持との間でバランスを見つける必要があることも意味します。

最後に、研究者らは論文の中で次のように述べています。

正規表現と比較して、回答パーサーとしての LLM は、表面的なパターンマッチングに限定されず、より深く正確なテキスト理解を提供することができ、回答の意味とコンテキストを真に理解することができます。

ニュース

LLM 推論のパフォーマンスは出力形式に影響されます。JSON が最も深刻です。

導入

私の連絡先情報