Google がついに OpenAI に勝利: 実験版 Gemini 1.5 Pro が GPT-4o

Google がついに OpenAI に勝利: 実験版 Gemini 1.5 Pro が GPT-4o を上回る

2024-08-02

マシンハートレポート

編集者: Chen Chen、Xiaozhou

このような強力なモデルを使用して、Google は誰でも無料トライアルを提供しています。

過去 2 日間、Google は最新の調査結果を発表しました。昨日の最も強力なエンドサイド Gemma 2 2B 小型モデルのリリースに続き、Gemini 1.5 Pro 実験版 (0801) がリリースされました。

ユーザーは、Google AI Studio と Gemini API を通じてテストし、フィードバックを提供できます。

無料なので、最近人気のサイズ比の問題をテストしてみましょう。 Gemini 1.5 Pro (0801) に 9.9 と 9.11 のどちらの数字が大きいかを尋ねたところ、モデルは最初に正しく答え、その理由も説明しました。

「Strawberryという単語にはrは何個ある？」と問い続けたところ、Gemini 1.5 Pro（0801）がひっくり返ってしまいました。プロンプトで「呪文」を段階的に適用すると、モデル分析は 4 番目のステップで失敗しました。

Google AI Studio テストアドレス: https://aistudio.google.com/app/prompts/new_chat

しかし、公式評価から判断すると、Gemini 1.5 Pro (0801) は依然としてさまざまな指標において非常に高い能力を持っています。新しいモデルは、権威ある LMSYS Chatbot Arena のリーダーボードですぐにトップとなり、1300 という素晴らしい ELO スコアを誇りました。

この成果により、Gemini 1.5 Pro (0801) は OpenAI の GPT-4o を上回りました。(ELO: 1286) や Anthropic の Claude-3.5 Sonnet (ELO: 1271) などの強力な競合他社の存在は、人工知能の状況に変化をもたらす可能性があります。

Gemini チームの主要メンバーである Simon Okumine 氏は、Gemini 1.5 Pro (0801) を Google がこれまでに作成した中で最も強力で最もスマートな Gemini (モデル) と呼んでいます。

Gemini 1.5 Pro (0801) は、Chatbot Arena でトップの座を獲得したことに加えて、多言語タスク、数学、ハードプロンプト、コーディングなどの分野でも非常に優れたパフォーマンスを示しました。

具体的には、Gemini 1.5 Pro (0801) が中国語、日本語、ドイツ語、ロシア語で最初にパフォーマンスを示しました。

しかし、コーディングとハードプロンプトの分野では、Claude 3.5 Sonnet、GPT-4o、Llama 405B が依然としてリードしています。

勝率ヒートマップ: Gemini 1.5 Pro (0801) の GPT-4o に対する勝率は 54%、Claude-3.5-Sonnet に対する勝率は 59% です。

Gemini 1.5 Pro (0801) はビジョンランキングでも 1 位にランクされています。

ネットユーザーは、Googleが今回は本当にみんなの予想を上回った、と事前に何の公式発表もなしに突然最強モデルのテストを開始したと述べた。

Gemini 1.5 Pro (0801) は高い結果を達成していますが、まだ実験段階にあります。これは、モデルが広く使用される前にさらなる変更が加えられる可能性があることを意味します。

ネットユーザーのコメント

一部のネチズンは、Gemini 1.5 Pro (0801) のコンテンツ抽出機能、コード生成機能、推論機能などをテストしました。彼のテスト結果を見てみましょう。

出典: https://x.com/omarsar0/status/1819162249593840110

まず、Gemini 1.5 Pro (0801) には、強力な画像情報抽出機能が備わっています。たとえば、請求書の画像を入力し、請求書の詳細を JSON 形式で記述します。

Gemini 1.5 Pro (0801) の PDF ドキュメントコンテンツ抽出機能を見てみましょう。古典的な論文「Attending Is All You Need」を例として、その論文の章ディレクトリを抽出します。

Gemini 1.5 Pro (0801) で、コード全体を直接生成する大規模言語モデル (LLM) の知識の学習に役立つ Python ゲームを生成します。

Gemini 1.5 Pro (0801) では、コード内の関数の役割、Python ゲームのプレイ方法などを含む詳細なコードの説明も提供されることは注目に値します。

このプログラムは Google AI Studio で直接実行でき、トークン化の定義に関する多肢選択式の質問を行うなど、試すことができます。

多肢選択式の質問が単純すぎて退屈だと感じる場合は、さらに Gemini 1.5 Pro (0801) でより複雑なゲームを生成させることができます。

LLM の専門知識を備えた文章穴埋めゲームを入手してください:

Gemini 1.5 Pro (0801) の推論能力をテストするために、ネチズンは「ろうそくを吹く」質問をしましたが、モデルは不正解でした。

いくつかの欠陥はあるものの、Gemini 1.5 Pro (0801) は GPT-4o に近いビジュアル機能と、Claude 3.5 Sonnet に近いコード生成および PDF の理解および推論機能を示しており、これは期待に値します。

https://www.youtube.com/watch?v=lUA9elNdpoY

ニュース

Google がついに OpenAI に勝利: 実験版 Gemini 1.5 Pro が GPT-4o を上回る

導入

私の連絡先情報