ニュース

google deepmind が genrm テクノロジーを実証: 報酬モデルとして llm を微調整して生成 ai 推論機能を向上

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house は 9 月 3 日、google deepmind チームが 8 月 27 日に genrm 生成検証器の紹介とデモンストレーションを行い、生成 ai 推論機能を向上させるための報酬モデルを創造的に提案した論文を arxiv に発表したと報告しました。

ai 業界では、大規模言語モデル (llm) を改善するための現在の主流のアプローチは best-of-n モードです。つまり、llm によって生成された n 個の候補ソリューションが検証者によってソートされ、最適なソリューションが選択されます。 。

このような llm ベースのバリデーターは通常、ソリューションをスコアリングするための識別分類器としてトレーニングされますが、事前トレーニングされた llm のテキスト生成機能を利用することはできません。

この制限を克服するために、deepmind チームは、次のトークン予測ターゲットを使用して、検証とソリューション生成を実行しながら検証者をトレーニングしようとしました。

deepmind チームの生成検証器 (genrm) には、従来の検証器と比較して主に次の利点があります。

コマンド調整のシームレスな統合

思考連鎖推論をサポートする

多数決による追加の推論時間の計算を利用する

アルゴリズムおよび小学校の数学的推論タスクで gemma ベースのバリデーターを使用すると、genrm は判別バリデーターおよび llm-as-a-judge バリデーターを上回り、best-of-n を使用して解決された問題の割合が 16 ~ 64% 向上しました。

google deepmind が報告したように、カテゴリ別報酬モデルに対する genrm の優位性は、特に新しいモデルによって学習された不正行為を防止する能力の点で、人工知能報酬システムの重要な進化を示しています。この進歩は、ai の成果を社会的責任の基準に合わせるために報酬モデルを改善することが緊急に必要であることを浮き彫りにしています。