オープンソースの大規模モデルの新たな王は gpt4o を覆し、新しいテクノロジーは自己修正が可能で、mathematics 99.2 はテストセットを最大限に活用しました

2024-09-06

西風は蒼飛寺から吹いてくる
パブリックアカウント qbitai

オープンソースの大規模モデルの王座は突然変わり、それは小規模な起業家チームによって誕生し、業界を瞬時に爆発させました。

新しいモデルは次のように呼ばれますリフレクション70b、新しいトレーニング技術を使用して、aiが推論プロセス中に自らの誤りや錯覚を修正する方法を学習できるようにします。

例えば、最近流行しているデジタルrテストでは、最初はほとんどの機種と同じミスをしていましたが、率先してテストを行いました。<リフレクション>タグ鍾は訂正した。

公式評価では、70b モデルは最強のオープンソース llama 3.1 405b、gpt-4o、claude 3 opus、gemini 1.5 pro を総合的に上回り、特に数学的ベンチマーク gsm8k を直接最大値に達しました。得点 99.2%。

この結果には、openai の科学者でありポーカー ai の父であるノームブラウン氏も熱心にマイクを開きました。

gsm8k スコアは 99%!このベンチマークは正式に段階的に廃止される可能性がありますか?

このモデルがオンラインになるとすぐに、ネチズンはそのトライアルに圧倒され、meta はより多くのコンピューティング能力を積極的にサポートしました。

netizen テストでは、reflection 70b は、gsm8k データセットに対して間違った答えがある質問に答えることができます。

gsm8k に存在する、本質的に正しくない 5 つの「ground_truth」問題をモデルに与えました。
データセット内で間違った答えを繰り返すのではなく、モデルはすべて正解したのは印象的です。99.2% の精度はテストセットを暗記することで得られるものではないことを示します！

あらゆる種類の r を数えるのは簡単です。作られた言葉「drirrrrngrrrrnnnn」のいくつかの r も正しく数えることができます。

ネチズンは、小規模なチームによって作成されたオープンソースがトップのクローズドソースを超え、最も強力なオープンソースモデルがローカルで実行できるようになったことに驚いています。

キーとなる70bはまだ始まりに過ぎず、より大型のものが来週リリースされる予定だと関係者は述べた。リフレクション405b。

405b のパフォーマンスは sonnet や gpt-4o よりも大幅に向上すると予想されます。

reflection 70b の重みは公開されており、今日後半に hyperbolic labs によって api アクセスが提供される予定です。

モデルは自己反映してエラーを修正できる

reflection 70b について現在入手可能な詳細は以下の通りです。

reflection 70b の機能を向上させる鍵となるのは、と呼ばれる方法の使用です。反射チューニングモデルが生成するテキストを反映し、応答を最終的に決定する前に独自の推論のエラーを検出して修正できるようにするトレーニング方法。

トレーニングのデータは、glaiveai プラットフォームを使用して生成された合成データから取得されます。

reflection 70b は llama 3.1 70b 命令に基づいており、他の llama モデルと同じコード、パイプラインなどを使用して reflection llama-3.1 70b からサンプリングできます。

標準の llama 3.1 チャット形式も使用します。

ただし、reflection 70b ではいくつかの機能が導入されています。特別なトークン、構造化された出力プロセス。

次の例に示すように、計画プロセスを別のステップに分割すると、cot 効果が向上し、出力を洗練された状態に保つことができます。

モデルはこちらからになります<thinking>そして</thinking>ラベル内出力の推論が開始され、その推論に満足すると、<output>そして</output>最終的な答えはラベルに出力されます。

そのため、内部の思考や推論を最終的な答えから切り離すことができます。

存在する<thinking>セクションでは、モデルは 1 つ以上を出力する場合があります。<reflection>ラベルこれは、モデルが推論に誤りを発見し、最終的な答えを提供する前にそれを修正しようとすることを示します。

システムは次のようにプロンプトを表示します。

あなたは複雑な推論と考察が可能な世界クラスのaiシステムです。タグ内のクエリを推論し、タグ内の最終的な応答を提供します。
タグ。推論に間違いがあったことに気づいたら、タグ内で訂正してください。
(あなたは、複雑な推論と反映が可能な世界クラスの人工知能システムです。タグ内のクエリについて推論し、その後
タグ内に最終応答を入力します。どこかの時点で自分の推論が間違っていることに気付いた場合は、ラベル内で修正してください。 )

ベンチマークテストでは、すべてのベンチマークが汚染についてチェックされ、lmsys の llm decontaminator によって隔離されていることにも言及する価値があります。<output>セクションを作成し、このセクションだけをテストします。

reflection 70b を使用する際、公式はいくつかのヒントも共有しました。

最初はパラメータ温度を 0.7、top_p を 0.95 にすることが推奨されます。
正確性を高めるには、プロンプトの最後に「慎重に検討してください。」を追加することをお勧めします。

関係者もこう述べた来週レポートが発表されます、モデルのトレーニングプロセスと調査結果を詳しく説明します。

エージェントの起業家チームによって作成されました

reflection 70b の背後には、hyperwriteai の ceo が率いる小規模なチームがあります マット・シューマー鉛。

linkedin によると、mutt shumer 氏は米国のシラキュース大学を卒業した連続起業家で、現在 othersideai の共同創設者兼 ceo を務めています。

othersideai は、大規模 ai システムを通じて世界最先端のオートコンプリートツールの開発に特化した ai アプリケーション会社であり、hyperwrite の背後にある会社でもあります。

hyperwrite は、google chrome を人間のように操作して、ピザの注文などの一連のタスクを完了できるブラウザ操作エージェントです。

gpt-llm-trainerと同様にテキストで目標を記述するだけで、ステップを列挙しながら実行してくれます。

最初に発売されたとき、「autogpt よりも優れている」と主張されました。

hyperwrite は、google 拡張機能としてインストールすることもできます。

さらに、mutt shumer は高校生のときに visos を設立し、医療目的の次世代仮想現実ソフトウェアの開発に取り組んでいます。

また、高機能の製品を作成し、公正な価格で販売することでスポーツ用品業界に変革を起こすことを目指す会社 furi を設立しました。

メタサポートがあり、試用版は現在公開されていますが、まだ一時的にアクセスできません。

子供靴に興味がある場合は、まず注文してください〜

https://reflection-playground-production.up.railway.app/

参考リンク:
[1]https://huggingface.co/mattshumer/reflection-llama-3.1-70b
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degenerator/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

ニュース

オープンソースの大規模モデルの新たな王は gpt4o を覆し、新しいテクノロジーは自己修正が可能で、mathematics 99.2 はテストセットを最大限に活用しました

モデルは自己反映してエラーを修正できる

エージェントの起業家チームによって作成されました

導入

私の連絡先情報

ニュース

オープンソースの大規模モデルの新たな王は gpt4o を覆し、新しいテクノロジーは自己修正が可能で、mathematics 99.2 はテスト セットを最大限に活用しました

モデルは自己反映してエラーを修正できる

エージェントの起業家チームによって作成されました

導入

私の連絡先情報

オープンソースの大規模モデルの新たな王は gpt4o を覆し、新しいテクノロジーは自己修正が可能で、mathematics 99.2 はテストセットを最大限に活用しました