gpt-4o ミニランキング雪崩、大型モデルアリーナのルール更新、ウルトラマンのポイントアップのヒント valid

2024-08-31

大型モデルアリーナのルールが更新されました。gpt-4o miniのランキングは一気に崩れ、トップ10圏外へ。

新しいリストは ai に答えます長さやスタイルなどの特徴はダウングレードされています。、スコアが問題を解決するモデルの真の能力を反映していることを保証します。

美しいフォーマットを使用しようとしたり、字幕の数を増やしたり、ユーザーを喜ばせてランキングを上げるためのその他のテクニックは、今ではすべて役に立ちません。

新しいルールのもとで、ウルトラマンは、gpt-4o ミニ、ムスクのgrok-2シリーズ順位の大幅な低下、googleジェミニ1.5フラッシュ小型モデルも後退した。

クロードシリーズ、ラマ-3.1-405b大型モデルのスコアも続々とアップ。

ハードタスク (ハードプロンプト) のみが計算される場合、スタイルコントロールリスト内の大規模なモデルの利点はさらに明白になります。

以前は、gpt-4o ミニモデルが gpt-4o フルヘルスバージョンと同率で 1 位になったこともありましたが、これは明らかにネチズンの物理的な経験と矛盾していました。

かつてカルパシー氏が推奨した評価基準である lmsys large model arena も、「モデルの機能ではなくユーザーの好みしか反映できない」ところまで落ち込んでいます。

lmsys 組織はその経験から学び、gpt-4o mini が参加した 1,000 回の戦闘のデータを初めて公開し、それによってモデルの拒否率、生成されたコンテンツの長さ、フォーマットを投票結果に影響を与えるいくつかの要素として分析しました。

さらに、gpt-4o miniの発売前に、ウルトラマンは人間の好みに合わせて最適化されているとほのめかしていました。

今回、lmsys はさらに一歩進んで、これらの要因を制御するための新しいアルゴリズムを開始しました。これは計画の最初のステップにすぎません。

スタイルの影響をコントロールするにはどうすればよいでしょうか?

あると仮定しますモデルaコード、事実、公平な回答などを生成するのが得意ですが、出力は非常に簡潔です。

モデルb内容（正確さなど）の点ではあまり優れていませんが、出力は長く、詳細で、美しくフォーマットされています。

それで、どちらが良いでしょうか？

答えは一意ではありません。lmsys は、モデルのスコアのどの程度がコンテンツまたはスタイルによって寄与されているかを数学的に見つけようとします。

さらに、最近の研究では、人間は、美しく整形され、より詳細な ai の回答を好む可能性があります。

までにブラッドリー・テリーが復帰応答の長さ、マークダウン字幕の数、リスト、太字テキストの数などのスタイル機能を引数として追加します。

これは統計学では一般的な手法であり、最近では alpacaeval lc などによる大規模モデルの評価に使用されています。

回帰に交絡変数 (応答長など) を含めることで、スコアの増加をモデル検出力自体ではなく交絡変数に起因させることができます。

関連コードはgoogle colabで公開されています。

さらに、「長さのみを制御する」、「形式のみを制御する」というアブレーション実験も行った。 gpt-4o mini および google gemini シリーズのスコアは、フォーマットの影響をより大きく受けます。

ただし、このアプローチには制限があります。たとえば、長さと応答の質の間の正の相関など、考慮されていない交絡因子が考慮されていない可能性があります（思考連鎖プロンプトなど）。

多くのネチズンは、調整された困難なタスクリストが主観的な印象とより一致していると述べました。

また、リストとリストを争う大規模なモデル企業との間で行われる一進一退のゲームこそが、この分野全体を共に前進させることができると考える人もいる。

まだ大規模モデルアリーナの結果に基づいてモデルを選択していますか?または、より良い評価方法がある場合は、コメント欄で共有してください。

ニュース