ニュース

Grok-2 が登場しました。画像生成と画像認識が可能で、その性能は GPT-4o に匹敵します。Musk: ロケットのように発展しています。

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

マシンハートレポート

マシーンハート編集部

GPT-5 はまだ出ていませんが、Grok はすでに追いついています。

Google と OpenAI がニュースを争っていた同じ日に、マスク氏の xAI も怠けていたわけではありません。

北京時間水曜日の午後、xAIは新世代のGrok 2大型モデルを正式にリリースした。



サードパーティの大規模モデルベンチマーク組織である Chatbot Arena も、LMSYS リストのスコアリストを直ちに更新しました。 Grok 2 (sus-column-r) の初期モデルは、Claude 3.5 Sonnet や GPT-4-Turbo を上回り、GPT-4o (バージョン 0513) に次いで 4 番目にランクされます。

コーディング、複雑な問題、数学に優れています。





マスク氏は思わず「グロックの推進速度はロケットのようだ」と自慢した。



なお、これは初期バージョンのスコアにすぎず、Chatbot Arenaは今後正式版をテストする予定だという。

マスク氏は、Grok-2は最先端の推論機能を備えた高度な言語モデルであると述べた。新世代には、Grok-2 と Grok-2 mini の 2 つのバージョンが含まれています。どちらのモデルも X プラットフォーム上の Grok ユーザーにリリースされました。現在、X Premium および Premium+ ユーザーはすでに Grok-2 および Grok-2 mini モデルを体験できます。

以前の Grok-1.5 と比較して、Grok-2 の初期プレビュー バージョンは大幅な進歩を遂げ、チャット、推論、コーディングなどで優れた機能を実証しました。 xAI によると、Grok-2 と Grok-2 mini は現在 X のベータ版であり、今月後半にはエンタープライズ API 経由で利用可能になる予定です。

新しいモデルがリリースされてから 30 分も経たないうちに、あるネチズンはすでに Grok 2 mini を使用して「ホットドッグを食べている私とマスク」の画像を生成していました。





別の方法でワシントンの肖像画を生成してみてください。



Grok 2 mini を使って空飛ぶ猫を生成しようとした人もいます。



他の人がテスラ モデル Y を作りましたが、見た目は似ていますか?



Grok-2 パフォーマンス PK

xAI が Grok-2 の初期バージョンである「sus-column-r」を Chatbot Arena に導入すると、そのパフォーマンスが他の一般的なオープンおよびクローズド ソース モデルとどのように比較されるかがわかります。

全体的な Elo スコアに関しては、Grok-2 は Claude シリーズ モデルや GPT-4 のほとんどのバージョンよりも優れたパフォーマンスを発揮します。もちろん、リストの最初にあるのは、OpenAI が最近リリースしたばかりの GPT-4o (バージョン 8 月 8 日) です。



下の図は、Grok-2 と他の人気モデルの勝率の比較を示しています。



下の図は、Grok 1.5 と Grok 2 の 2 つのバージョン間の事実に基づく勝率の比較を示しています。



xAI は、このプロセスを採用して Grok 2 モデルを評価し、AI Tutor を使用してさまざまなタスクでモデルと実際に対話します。各対話中に、Grok 2 は AI チューターに 2 つの応答を提供し、AI チューターはガイドに記載されている特定の基準に基づいて最適な応答を選択します。

xAI は、指示に従うことと、正確で真実の情報を提供するという 2 つの主要な領域でモデルのパフォーマンスを評価することに重点を置いています。その結果、Grok 2 では、取得したコンテンツから推論し、欠落情報の正確な特定、一連のイベントによる推論、無関係な投稿の破棄などのツールを使用する能力が大幅に向上していることがわかりました。

ベンチマークスコア

xAI は、推論、読解、数学、科学、コーディングなどの幅広い学術ベンチマークにわたって Grok-2 モデルを評価しました。

Grok-2 と Grok-2 mini はどちらも、以前の Grok-1.5 モデルに比べて大幅に改善されています。パフォーマンスは、大学院レベルの科学知識 (GPQA)、一般知識 (MMLU、MMLU-Pro)、数学競技問題 (MATH) などの分野で他の最先端のモデルに匹敵します。

さらに、Grok-2 は視覚ベースのタスクでも優れたパフォーマンスを発揮し、視覚的な数学的推論 (MathVista) と文書ベースの質問応答 (DocVQA) で顕著なパフォーマンスを発揮します。



Grok 2 のインターフェースと機能が「大幅に変身」

過去数か月間、xAI は x プラットフォームでの Grok エクスペリエンスを継続的に改善してきました。さて、次世代 Grok 2 の発売に伴い、xAI は以下に示すようにインターフェースを再設計しました。



もちろん、xAI は、Conway の「Game of Life」の簡単な実装など、いくつかの新機能を提供します。



もう一つの例は、マルチモーダルな理解能力(写真を見て話す)です。



その中で、Grok-2 は xAI の最も高度な AI アシスタントであり、テキストおよび視覚的な理解機能と、X アプリケーションの Grok タブからアクセスできる X プラットフォームからの統合されたリアルタイム情報を備えています。

Grok-2 mini は、速度と解答品質のバランスが取れた小型ながら強力なモデルです。



Grok-2 は、前バージョンよりも直観的で、制御性が高く、柔軟性が高いため、答えを探したり、共同執筆したり、コーディング タスクを解決したりするなど、さまざまなタスクに適しています。

さらに、xAI はスタートアップ Black Forest Labs と協力して、X 上で Grok の機能を拡張するために FLUX.1 モデルを実験しています。



今月後半、xAI は新しいエンタープライズ API プラットフォームを通じて Grok-2 および Grok-2 mini を開発者にリリースする予定です。今後の API は新しいカスタム テクノロジー スタックに基づいて構築されており、グローバルな低遅延アクセスのためのマルチリージョン推論展開が可能になります。

もちろん、xAI は、必須の多要素認証 (Yubikey、Apple TouchID、TOTP などを使用) など、いくつかの強化されたセキュリティ機能も提供します。

2023 年 11 月の Grok-1 の打ち上げ以来、xAI がこのシリーズのモデルを驚くべき速度で進歩させてきたことがわかります。まもなく、マルチモーダルを理解できるプレビュー バージョンがリリースされる予定です。 xAI の後の焦点は、新しいコンピューティング クラスターを通じてモデルの中核となる推論機能を向上させることになります。

ブログアドレス:https://x.ai/blog/grok-2