マスクがまた騒動を巻き起こす！新しい大型モデルが GPT-4o に挑戦、ネチズンは熱狂中

マスクがまた騒動を巻き起こす！新しい大型モデルが GPT-4o に挑戦、ネチズンは熱狂

2024-08-14

北京時間8月14日午後の知東渓ニュース、マスク氏の大規模モデル立ち上げxAI第2世代モデルの発売Grok-2 ベータ版、Grok-2 および Grok-2 ミニバージョンを含む。

ムスク自身のソーシャルプラットフォームに情熱を込めて投稿サスコラムR。

彼は「Grokはロケットスピードだ」というLmsysのツイートをリツイートした。 sus-column-r はランキングリストで 12,000 票を超える票を獲得し、そのパフォーマンスClaude 3.5 Sonnet や GPT-4-Turbo よりも優れており、GPT-4o同率3位。

GPQA、MMLU、MMLU-Pro、MATH、MathVistaなどの多くの評価において、グロク2このスコアは、GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5 などの主流モデルのスコアを上回っていますが、GPT-4o にはまだ劣っています。

現在、X PremiumおよびPremium+のユーザーはGrok-2およびGrok-2 miniを体験できるようになっているが、実際のテストと体験をZhixixiが初めて実施した。

いくつかの経験を経て、Grok-2 について最も明白に感じたのは、そのロジックが非常に明確であるということです。たとえば、次の例では、Grok-2 と GPT-4o はどちらも正解を返していますが、前者の各ステップの手順と計算は非常に明確で理解しやすいです。さらに、Grok-2 の Vincentian グラフィックス機能は、FLUX.1 のサポートによって飛躍的に向上し、一貫した「大胆な」スタイルを維持しています。

xAI はまた、今月後半に Grok-2 エンタープライズ API の 2 つのバージョンをリリースする予定です。

体験アドレス：https://lmarena.ai/?model=sus-column-r

1. 複数のバージョンの GPT-4 に性能が追いつき、視覚的かつ論理的な機能が強化されています。

LMSYS チャットボットアリーナでは、Grok-2 の初期バージョンである sus-column-r が評価に参加しました。全体的な Elo スコアのパフォーマンスは、Claude および複数の GPT-4 バージョンを上回ります。

以下の図に示すように、Grok-2のスコアはGPT-4o-miniの7月18日バージョンやGPT-4-Turboの4月9日バージョンを上回りましたが、それでも8月8日バージョンのスコアは低かったです。 ChatGPT-4o - GPT-4o の最新の 5 月 15 日バージョン。

内部的には、xAI チームは同様のプロセスに従ってモデルを評価し、評価はモデルの 2 つのコア機能に焦点を当てています。指示には正確に従ってください、2つ目は情報提供です。正確さと信頼性。

Grok-2 は、推論解析検索コンテンツそしてツールを使用する欠落している情報を正確に特定し、一連のイベントを通じて論理的推論を実行し、無関係な投稿を効果的に削除する機能など、大きな進歩を遂げました。

ベンチマークテストでは、チームは以下をカバーする一連のテストを使用しました。推論、読解、数学、科学、コーディングGrok-2 モデルの包括的な評価は、他の分野の学術ベンチマークに基づいて実施されました。

結果は、Grok-2 とその簡易バージョンの Grok-2 mini が前世代の Grok-1.5 モデルと比較して大幅に改善されていることを示しています。

大学院レベルで科学的知識 (GPQA など)、常識的な質疑応答 (MMLU、MMLU-Pro など)同様に数学コンテストの問題 (MATH など)他の分野では、その性能は他の上位モデルと競合することができます。

以下の図に示すように、Grok-2 はこれらすべてのテストで良好なスコアを獲得しました。GPT-4 Turbo、Claude 3 Opus、Gemini Pro 1.5 を上回りましたが、それでも GPT-4o には勝てませんでした。

Grok-2 は、視覚的なタスク特に優れたパフォーマンス視覚的な数学的推論 (MathVista)そして文書ベースの質問応答 (DocVQA)特にパフォーマンスは抜群です。

2. Grok-2 は、

Grok-2 および Grok-2 mini は現在 X サブスクライバーに利用可能であり、サブスクリプション以外のユーザーもラージモデルアリーナで Grok-2 モデル sus-column-r の初期バージョンを無料で体験できます。

大型モデルの分野では、GPT-4o を含む合計 62 のモデルが利用可能です。比較を容易にするために、最初にこの初期のモデルをテストしてみましょう。

1 つ目は、少し前に多くのモデルを覆したサイズ比の問題です。13.11 と 13.8 のどちらが大きいかです。 Grok-2 と GPT-4o は両方とも正確に答えましたが、Grok-2 の思考プロセスはより明確であり、詳細な思考ステップが列挙されていました。

もう 1 つの古典的な質問「イチゴには r はいくつありますか?」では、Grok-2 は最初は不正解でしたが、英語に切り替えた後、GPT-4o は中国語と英語の両方で正解しました。大型モデルはまだ運の要素がありそうです。

大型モデルのアリーナにあるモデルはリアルタイムでインターネットに接続されていないが、「Googleが発表したばかりのPixel 9のハイライトは何ですか？」と尋ねると、両モデルともまだこの情報を持っていないと答えた。次に、Grok-2 は、技術開発の傾向と Pixel の過去の特性に基づいて、カメラ、プロセッサ、AI などが Google のアップデートの焦点であるとの予測を示しました。

GPT-4oは予測を示さなかったが、Pixelスマートフォンの過去のハイライトを要約した。

コーディング機能の点では、2 つのモデルのパフォーマンスは同等であり、要件に応じた詳細なソリューション手順と完全なコードが提供されています。

論理的推論の点では、Grok-2 は再び論理の明確さを示し、推論の各ステップはサブタイトルに分割されています。 GPT-4o も正解しましたが、思考ステップが十分に明確ではありませんでした。

Vincent グラフ機能は、Grok-2 の今回のアップデートの主な焦点です。これに接続されている FLUX.1 モデルは、その強力なパフォーマンスにより、最近オープンソースコミュニティで非常に人気があります。ただし、イメージ生成機能は大型モデルの分野では体験できず、X サブスクリプションを通じてのみ実現できます。

ネットユーザーは、Grok-2 のオフライン記者会見の開催にテキスト生成機能を使用するなど、すでに Grok-2 Wenshengtu を楽しんでいます。

あるいは、想像力を働かせて、マスクに火星で車を運転してもらいましょう。

Grok のほぼゼロの検閲システムに基づいて、多くのネチズンは、トランプに銃撃するよう要求したり、ジョージ W. ブッシュにコカインを吸引するように要求したりするなどのジョークを作成しました...

あるいは、トランプ大統領をスペースXのロケットで空に飛ばしてもらいましょう。同じ要求に直面したとき、GPT-4o は断固として拒否しました。

Grok の検閲システムはどれほど恥じらいのないものなのでしょうか? 一部のネチズンは「人種ごとに IQ 上位 10 をランク付けする」という大規模なモデルをテストしましたが、Grok-2 だけがためらうことなく答えを出しました。チャットGPT, クロードは真っ向から拒否し、ジェミニは骨の折れる教育を開始しました。

全体として、Grok-2 は依然として大胆なスタイルを実装していますが、同時に、そのモデルのパフォーマンスは GPT-4o などのヘッドモデルに匹敵し、ロジックはより明確で、マルチモーダル機能は FLUX.1 よりも優れています。祝福を受けて、真っ直ぐに舞い上がった。

3. エンタープライズシステムをシームレスに統合するために、月末にエンタープライズ API プラットフォームを開始します

今月末、xAI は新しい規格を通過します。エンタープライズ API プラットフォーム、Grok-2およびGrok-2 miniを開発者向けに正式に発売しました。

この API は、サポートするために新しいカスタマイズされた技術アーキテクチャを採用します。マルチリージョン推論の展開、のためにグローバルユーザー低遅延でスムーズなエクスペリエンスを提供します。

同時に、xAI は、必須の多要素認証 (Yubikey、Apple TouchID、TOTP など) を含むセキュリティ機能を強化し、詳細なセキュリティ機能を提供します。トラフィック統計と高度な請求分析サービス、データのエクスポートをサポートしています。

さらに、xAI は、チーム、ユーザー、請求管理機能を既存の社内ツールやサービスにシームレスに統合することをサポートする管理 API も開始しました。

結論: Grok-2 と X プラットフォームの結びつきはさらに深くなり、OpenAI などは大きなプレッシャーにさらされています。

Grok-2 と Grok-2 mini は現在、X プラットフォーム上でオンラインになっており、たとえば、強化された検索エクスペリエンス、X 投稿の詳細な分析、最適化された返信機能は非常に魅力的です。 xAI は間もなく、マルチモーダル理解機能のプレビューバージョンもリリースする予定です。

2023 年 11 月の Grok-1 の発売以来、xAI は技術、製品、資金調達において急速な進歩を遂げており、Grok-2 の発売はその新たなマイルストーンとなります。マスク氏が Grok の大規模モデル機能と X プラットフォームの強力なコンテンツユーザーエコロジーを結び付けると、次のような閉ループが形成されます。オープンAIAlibaba Cloudを含む大規模モデルの新興企業に対するプレッシャーはさらに大きい。

著者 | 李水清バニラ

編集者 | ユンペン

ニュース