私の連絡先情報
郵便メール:
2024-07-24
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- クレシーはアオフェイ寺院から来ています
パブリックアカウント QbitAI
まさに今、GPT-4o miniバージョンが“ハイライトの瞬間”を迎えました——
lmsys大型モデルアリーナに登った、フルヘルスバージョンと同率1位となり、Claude 3.5を引き離しました。
一般的なデータセットの評価とは異なり、大規模なモデルアリーナはユーザーが自分で質問を設定し、自分の足で投票した結果であるため、「質問を磨く」というショートカットはできず、よりリアルです。
この結果が出るやいなや、CEO のアルトマンも興奮してこう言いました。
評価結果を前に、当初は予約しようとしていましたが、GPT-4o mini がフルヘルスバージョンと同等のパフォーマンスを示し、価格がわずか 1/20 であることを知り、それでも非常に興奮しました。
ネチズンは、それを見た後は大丈夫だと言いましたが、GPT-4oの記者会見でデモされた「彼女」がいつオンラインになるのかをより懸念していました。
同時に、OpenAI は開発者にメリットをもたらすもう 1 つの良いニュースも送信しました —
GPT-4oミニ微調整は徐々に開放していきます、現在は Tier 4 と Tier 5 ユーザーに公開されており、徐々に範囲を拡大する予定です。
そして今から 9 月 23 日まで、毎日 200 万トレーニング トークンを無料で使用できます。
80 を超えるモデルで何百万ラウンドもの 1 対 1 の競争が行われた後、lmsys リスト上の GPT-4o mini のスコアは、完全版とわずか 7 ポイント差でした。
lmsys のリストの並び順によれば、この 7 ポイントの差は順位には影響せず、両モデルは同率 1 位としてカウントされます。
それに続いて、Claude 3.5 ファミリと Gemini ファミリ、および GPT-4 の他の 2 つのバージョンが続きます。
GPT-4o mini の生データを見ると、その平均勝率 0.6 はフルヘルスバージョンに次ぐ 2 番目であることがわかります。
両者の対戦結果だけを見れば互角である。
lmsysのパフォーマンスが注目される理由は、独自の競技方法にある――。
データセットを使用する代わりに、ユーザーが独自の質問を考え、1 対 1 のバトルで 2 つのモデルをランダムに引きます。を選択し、どのモデルのパフォーマンスが優れているかを選択します。
選択肢が与えられる前は、モデルは匿名であり、ユーザーはどの 2 つのモデルが競合しているのかを知りません。モデルから何かが漏洩した場合、投票は無効になります。
この方法で得られるスコアはより現実的であり、「質問の磨き上げ」によって人為的に高いスコアが得られる可能性を回避するだけでなく、ユーザー エクスペリエンスに近くなります。
この大きな模型アリーナ、最近では機械学習のトップカンファレンスICML2024に参加しました。
また、lmsysの評価もOpenAIで非常に人気のある、正式に発売される前の GPT-4o mini の初期バージョンは、gpt-mini という仮名でリストされていました。
この時点ですでにGPT4-Turboと同レベルの4位にランクされていた。
GPT-4o がオンラインになる前に、lmsys で gpt2-chatbot という仮名でテストも行われました。
ただし、GPT-4o mini は非常に優れた性能を発揮しますが、Claude 3.5 ソネットを超えるというのは言い過ぎではないかと疑問を持つ人もいます。
lmsys メソッドの整合性が崩れ始めているので変更する必要がある、そうしないとテスト ベンチマークとして役に立たなくなる、と率直に言う人もいます。
ミニバージョンの発売はコストパフォーマンスに重点を置いています。
入出力トークン 100 万個あたりの価格はそれぞれ 15 セントと 60 セント (約 1.09/4.36 RMB) で、3.5 Turbo の半分にもなりません。
2 年前の GPT-3 の text-davinci-003 バージョン (当時の最高モデル) と比較すると、価格は 99% 下がりました。
小規模なモデルをユーザーに公開することに加えて、OpenAI は新しい遊び方も考案しました —
「スーパー アライメント」チームの遺作では、大きなモデルのパラメータの 1000 分の 1 または 100 分の 1 を持つ小さなモデルが、大きなモデルの最適化に使用されました。
実験では、大規模モデルと小規模モデルが互いに「ゲーム」を行い、小規模モデルが真実を語っていると信じ込ませるために、大規模モデルは出力を継続的に最適化および調整する必要があります。
この「ゲーム」の過程で、大型モデルの機能が向上し、精度を大幅に損なうことなく、わかりやすさが大幅に向上しました。
OpenAIに加えて、他の企業も小規模なモデルを発売しています。
たとえば、GPT-4o mini の前に、Google と Anthropic はそれぞれ Gemini Flash と Claude 3-Haiku を発売しました。
GPT-4o miniは、性能や価格の面でこの2モデルを上回り、OpenAIの2モデルへの逆襲とも言える。
GPT-4o miniがリリースされたのと同じ週に、Hugging Faceと「ヨーロッパのOpenAI」Mistralは両方とも小型モデルを発売しました。
Apple でさえ、独自の 7B モデルを立ち上げ、すべてのトレーニング プロセスとリソースを一度にオープンソース化しました。
つまり、使用用途に応じた性能があれば、小型モデルのほうが経済的な選択であることは間違いありません。
同時に、規模が小さいということは端末側での運用も可能となり、プライバシー保護などの面でメリットがあります。
このようにして、「小さい」モデルがますますカールしていく理由を理解するのは難しくありません。
参考リンク:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015