熾烈を極め、GPT-4oはGoogleの新モデルChatGPT公式アカウントに敗北：全員深呼吸

2024-08-02

さあ、GPT-4o は Google の新モデルに追い抜かれました!

1 週間で 12,000 人以上が匿名で投票しました。ジェミニ1.5プロ（0801） Google を代表して、lmsys アリーナで初めて 1 位を獲得しました。（中国語タスクも1位）

そして今回は総合ランキング（スコアは1300のみ）に加えて、ビジュアルリーダーボードそれも1位です。

Gemini チームの中心人物である Simon Okumine 氏は、次のようなお祝いのメッセージを投稿しました。

(この新しいモデルは) 私たちがこれまでに作った中で最も強力で最もスマートな Gemini です。

ある Reddit ユーザーもこのモデルを「非常に優れている」と呼び、機能が縮小されないことへの期待を表明した。

より多くのネチズンは、OpenAI がついに挑戦を受け、反撃するために新しいバージョンをリリースするだろうと興奮を表明しました。

ChatGPTの公式アカウントも何かを示唆するものが出てきました。

興奮のさなか、Google AI Studio の製品責任者は、このモデルが無料テスト段階：

AIスタジオで無料で利用可能

ネチズン：Googleがついに登場しました！

厳密に言えば、Gemini 1.5 Pro (0801) は実際には新しいモデルではありません。

すべき実験版Google が 2 月にリリースした Gemini 1.5 Pro を基にして、1.5 シリーズはその後コンテキストウィンドウを 200 万に拡張しました。

モデルが更新されるたびに名前が長くなり、これも不満の原因となっています。

いいえ、OpenAI の従業員は、奇妙であることを忘れずに彼を祝福しました。

もちろん、名前は覚えにくいですが、今回の公式アリーナ評価では Gemini 1.5 Pro (0801) が好成績を収めました。

全体的な勝率ヒートマップは、GPT-4o より 54%、Claude 3.5 Sonnet より 59% 優れていることを示しています。

存在する多言語対応ベンチマークテストでは、中国語、日本語、ドイツ語、ロシア語で第 1 位にランクされています。

ただし、コーディングおよびハードプロンプトアリーナでは、依然として Claude 3.5 Sonnet、GPT-4o、Llama 405B などの対戦相手に勝つことができません。

これはネチズンからも批判されており、次のように翻訳されています。

重要なのはエンコードですが、そのパフォーマンスは良好ではありません。

ただし、Amway Gemini 1.5 Pro (0801) を出している人もいます。画像および PDF 抽出機能。

DAIR.AI の共同創設者であるエルビスは、石油パイプラインに関する一連のテストを個人的に実施し、次のように結論付けました。

視覚機能は GPT-4o に非常に近い。

また、以前は Claude 3.5 Sonet ではうまく解決できなかった問題を、Gemini 1.5 Pro (0801) を使用して解決した人もいました。

結果は、パフォーマンスが向上しただけでなく、その小さな友人である Gemini 1.5 Flash をも破ったことを示しました。

しかし、いくつかの古典的な一般知識テスト「リンゴで終わる文を10個書いてください」というように、まだ理解できません。

もう一つ

一方、Google の Gemma 2 シリーズは新たな機能を備えています。20億パラメータモデル。

ジェマ2（2B）箱から出してすぐに使えます、Google Colab の無料 T4 GPU で実行できます。

アリーナのリーダーボードでは、すべての GPT-3.5 モデルを超える、Mixtral-8x7bをも上回ります。

Google の一連の新しいランキングに直面して、アリーナリストの信頼性改めて全員から質問。

Nous Research の共同創設者である Teknium (微調整されたポストトレーニングの分野で有名なプレイヤー) は次のように注意を喚起しました。

Gemma 2 (2B) は、Arena では GPT-3.5 Turbo よりも高いスコアを示していますが、MMLU では後者よりもはるかに低くなります。
アリーナランキングをモデルのパフォーマンスの唯一の指標として使用する場合、この不一致は懸念されるでしょう。

Abacus.AIの最高経営責任者（CEO）であるビンドゥ・レディ氏も、次のように直訴した。

この人間評価によるランキングの使用を直ちに中止してください。
Claude 3.5 Sonnet は GPT-4o-mini よりもはるかに優れています。
同様の Gemini/Gemma スコアは、このランキングリストではそれほど高くないはずです。

では、この人間による匿名投票の方法はまだ信頼できると思いますか?

ニュース