ニュース

熾烈、GPT-4oはGoogleの新モデルChatGPT公式アカウントに敗北:全員深呼吸

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

さあ、GPT-4o は Google の新モデルに追い抜かれました!

1 週間で 12,000 人以上が匿名で投票しました。ジェミニ1.5プロ(0801) Google を代表して、lmsys アリーナで初めて 1 位を獲得しました。 (中国語タスクも1位)



そして今回は総合ランキング(スコアは1300のみ)に加えて、ビジュアルリーダーボードそれも1位です。



Gemini チームの中心人物である Simon Okumine 氏は、次のようなお祝いのメッセージを投稿しました。

(この新しいモデルは) 私たちがこれまでに作った中で最も強力で最もスマートな Gemini です。



ある Reddit ユーザーもこのモデルを「非常に優れている」と呼び、機能が縮小されないことへの期待を表明した。



より多くのネチズンは、OpenAI がついに挑戦を受け、反撃するために新しいバージョンをリリースするだろうと興奮を表明しました。



ChatGPTの公式アカウントも何かを示唆するものが出てきました。



興奮のさなか、Google AI Studio の製品責任者は、このモデルが無料テスト段階

AIスタジオで無料で利用可能



ネチズン:Googleがついに登場しました!

厳密に言えば、Gemini 1.5 Pro (0801) は実際には新しいモデルではありません。

すべき実験版Google が 2 月にリリースした Gemini 1.5 Pro を基にして、1.5 シリーズはその後コンテキスト ウィンドウを 200 万に拡張しました。

モデルが更新されるたびに名前が長くなり、これも不満の原因となっています。

いいえ、OpenAI の従業員は、奇妙であることを忘れずに彼を祝福しました。



もちろん、名前は覚えにくいですが、今回の公式アリーナ評価では Gemini 1.5 Pro (0801) が好成績を収めました。

全体的な勝率ヒート マップは、GPT-4o より 54%、Claude 3.5 Sonnet より 59% 優れていることを示しています。



存在する多言語対応ベンチマークテストでは、中国語、日本語、ドイツ語、ロシア語で第 1 位にランクされています。



ただし、コーディングおよびハード プロンプト アリーナでは、依然として Claude 3.5 Sonnet、GPT-4o、Llama 405B などの対戦相手に勝つことができません。



これはネチズンからも批判されており、次のように翻訳されています。

重要なのはエンコードですが、そのパフォーマンスは良好ではありません。



ただし、Amway Gemini 1.5 Pro (0801) を出している人もいます。画像および PDF 抽出機能

DAIR.AI の共同創設者であるエルビスは、石油パイプラインに関する一連のテストを個人的に実施し、次のように結論付けました。

視覚機能は GPT-4o に非常に近い



また、以前は Claude 3.5 Sonet ではうまく解決できなかった問題を、Gemini 1.5 Pro (0801) を使用して解決した人もいました。

結果は、パフォーマンスが向上しただけでなく、その小さな友人である Gemini 1.5 Flash をも破ったことを示しました。



しかし、いくつかの古典的な一般知識テスト「リンゴで終わる文を10個書いてください」というように、まだ理解できません。



もう一つ

一方、Google の Gemma 2 シリーズは新たな機能を備えています。20億パラメータモデル



ジェマ2(2B)箱から出してすぐに使えます、Google Colab の無料 T4 GPU で実行できます。



アリーナのリーダーボードでは、すべての GPT-3.5 モデルを超える、Mixtral-8x7bをも上回ります。



Google の一連の新しいランキングに直面して、アリーナリストの信頼性改めて全員から質問。

Nous Research の共同創設者である Teknium (微調整されたポストトレーニングの分野で有名なプレイヤー) は次のように注意を喚起しました。

Gemma 2 (2B) は、Arena では GPT-3.5 Turbo よりも高いスコアを示していますが、MMLU では後者よりもはるかに低くなります。
アリーナランキングをモデルのパフォーマンスの唯一の指標として使用する場合、この不一致は懸念されるでしょう。



Abacus.AIの最高経営責任者(CEO)であるビンドゥ・レディ氏も、次のように直訴した。

この人間評価によるランキングの使用を直ちに中止してください。
Claude 3.5 Sonnet は GPT-4o-mini よりもはるかに優れています。
同様の Gemini/Gemma スコアは、このランキング リストではそれほど高くないはずです。



では、この人間による匿名投票の方法はまだ信頼できると思いますか?