私の連絡先情報
郵便管理者@information.bz
2024-08-02
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
勢いよく起き上がり、GPT-4oGoogleの新モデルに追い抜かれた!
1 週間で 12,000 人以上が匿名で投票しました。ジェミニ1.5プロ(0801)Google を代表して、lmsys アリーナで初めて 1 位を獲得しました。(中国語タスクも1位)
そして今回は総合ランキングに加えて2冠です(スコアは1300のみ)、存在するビジュアルリーダーボードそれも1位です。
Gemini チームの中心人物である Simon Okumine 氏は、次のようなお祝いのメッセージを投稿しました。
(この新しいモデルは) 私たちがこれまでに作った中で最も強力で最もスマートな Gemini です。
ある Reddit ユーザーもこのモデルを「非常に優れている」と呼び、機能が縮小されないことへの期待を表明した。
さらに多くのネチズンが興奮を表明し、オープンAIついに新作で反撃に挑戦!
ChatGPTの公式アカウントも何かを示唆するものが出てきました。
興奮のさなか、Google AI Studio の製品責任者は、このモデルが無料テスト段階:
AIスタジオで無料で利用可能
ネチズン:Googleがついに登場しました!
厳密に言えば、Gemini 1.5 Pro (0801) は実際には新しいモデルではありません。
すべき実験版Google が 2 月にリリースした Gemini 1.5 Pro を基にして、1.5 シリーズはその後コンテキスト ウィンドウを 200 万に拡張しました。
モデルが更新されるたびに名前が長くなり、これも不満の原因となっています。
いいえ、OpenAI の従業員は、奇妙であることを忘れずに彼を祝福しました。
もちろん、名前は覚えにくいですが、今回の公式アリーナ評価では Gemini 1.5 Pro (0801) が好成績を収めました。
全体的な勝率ヒート マップは、GPT-4o より 54%、Claude 3.5 Sonnet より 59% 優れていることを示しています。
存在する多言語対応ベンチマークテストでは、中国語、日本語、ドイツ語、ロシア語で第 1 位にランクされています。
ただし、コーディングおよびハード プロンプト アリーナでは、依然として Claude 3.5 Sonnet、GPT-4o、Llama 405B などの対戦相手に勝つことができません。
これはネチズンからも批判されており、次のように翻訳されています。
重要なのはエンコードですが、そのパフォーマンスは良好ではありません。
ただし、Amway Gemini 1.5 Pro (0801) を出している人もいます。画像および PDF 抽出機能。
DAIR.AI の共同創設者であるエルビスは、石油パイプラインに関する一連のテストを個人的に実施し、次のように結論付けました。
視覚機能は GPT-4o に非常に近い。
また、以前は Claude 3.5 Sonet ではうまく解決できなかった問題を、Gemini 1.5 Pro (0801) を使用して解決した人もいました。
結果は、パフォーマンスが向上しただけでなく、その小さな友人である Gemini 1.5 Flash をも破ったことを示しました。
しかし、いくつかの古典的な一般知識テスト「リンゴで終わる文を10個書いてください」というように、まだ理解できません。
もう一つ
一方、Google の Gemma 2 シリーズは新たな機能を備えています。20億パラメータモデル。
ジェマ2(2B)箱から出してすぐに使えます、Google Colab の無料 T4 GPU で実行できます。
アリーナのリーダーボードでは、すべての GPT-3.5 モデルを超える、Mixtral-8x7bをも上回ります。
Google の一連の新しいランキングに直面して、アリーナリストの信頼性改めて全員から質問。
テクニウム氏、Nous Research 共同創設者(微調整トレーニングの分野では有名な選手)投稿リマインダー:
Gemma 2 (2B) は、Arena では GPT-3.5 Turbo よりも高いスコアを示していますが、MMLU では後者よりもはるかに低くなります。
アリーナランキングをモデルのパフォーマンスの唯一の指標として使用する場合、この不一致は懸念されるでしょう。
Abacus.AIの最高経営責任者(CEO)であるビンドゥ・レディ氏も、次のように直訴した。
この人間評価によるランキングの使用を直ちに中止してください。
Claude 3.5 Sonnet は GPT-4o-mini よりもはるかに優れています。
同様の Gemini/Gemma スコアは、このランキング リストではそれほど高くないはずです。
では、この人間による匿名投票の方法はまだ信頼できると思いますか?