私の連絡先情報
郵便管理者@information.bz
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
メンチェンはアオフェイ寺院の出身です
パブリックアカウント QbitAI
マスクの xAI 大型モデルが第 2 世代で登場!
グロク2ベータ版がリリースされ、Xiabei Grok-2 mini はすでにプラットフォーム上でオンラインでプレイ可能です。
マスク氏はまた、リドラーという形で、1か月以上にわたって大規模なモデル界を悩ませてきた秘密を明らかにした。
Lmsys大型モデルアリーナに謎の匿名モデルがいたことが判明サスコラムR、本当の姿はGrok-2です。
sus-column-r はリーダーボードに 10,000 を超える人間の投票を蓄積しており、GPT-4o の API バージョンで 3 位タイ。
xAI 独自の内部テストでは、Grok-2 は一般知識 (MMLU、MMLU-Pro)、数学競技問題 (MATH)、大学院レベルの科学知識 (GPQA) などの分野で他の最先端のモデルと競合しました。
さらに、Grok-2 はビジョンベースのタスクに最も優れており、視覚的な数学的推論 (MathVista) で SOTA に達します。
ただし、この写真のレイアウトは少し注意が必要です。最も高いスコアを持つ GPT-4o と Claude-3.5-Sonnet は、ユーザーから遠くに配置されています。
スコアを見るだけではまだ抽象的なので、実際のテストを実際に見てみましょう。
Grok-2 の直接テスト
/Twitter プラットフォームの有料ユーザーの場合は、Grok チャネルに直接入って試してみることができます。お金をかけない場合は、Lmsys のラージ モデル アリーナにアクセスして、sus-column-r を選択して試してみることもできます。
そして有料ユーザーは Xiaobei ミニバージョンのみをプレイできます。、無料ユーザーはビッグカップでプレイでき、これも非常に寛大です。。
Grok-2 はリアルタイム データにアクセスできるため、その日のニュースを直接彼に要約してもらうことができます, お楽しみモードをオンにすると、コメントを付けることもできます。
有料版も最新のオープンソース AI グラフ モデル Flux.1 にアクセスしました、中国語のプロンプト単語を理解できるように英語に翻訳します。
ホームページ上の「Amway a Fantasy Game」の質問例をクリックすると、最初に「Baldur's Gate 3」を推奨し、プロット、キャラクターのカスタマイズ、ゲームの仕組み、世界の形成、ユーモアの要素、プレイヤーコミュニティなどのいくつかの側面について議論していることがわかります。レビューは別の視点から行われており、ゲームのハイライトを非常によく捉えています。
この時点で、直接中国語に切り替えて質問を続けることができます。
Grok-2は、まだリリースされていないゲーム「Black Myth: Wukong」についても知っており、Unreal 5エンジンが使用されるリリース日が8月20日であると正確に述べ、ネチズン間の議論を要約しました。
最後にはネチズンの投稿も含まれており、クリックしてディスカッションに参加できます。プラットフォーム全体との機能統合はすでに行われています。
ただし、モデルのミニバージョンしかないため、次は強度テストのために大型モデルアリーナに移動し、GPT-4oでPKを行うこともできます。
最近人気のIQテストの質問「9.9と9.11ではどちらが大きいですか?」テストでは、Grok-2 (sus-column-r) が ChatGPT の最新バージョンを上回りました。
しかし、別の人気のあるテスト「イチゴにはrはいくつある?」この問題に関しては、どちらもまだ失敗しました。 (数回試してみると、両方とも正しくなる可能性がわずかにあります)。
より深刻な罠の質問「次のろうそくのうち、最初に消えるのはどれですか?」, Grok-2 は ChatGPT よりもわずかに高度です。
テストのポイントは、最初に吹き消されたろうそくの残りの部分が長いということです (正解 3)。Grok-2 の考えは正しいですが、どれが最も長いかは次のとおりです。正しくありません。
どちらも、古典的なビッグモデルの弱点「逆転の呪い」問題を何とか克服したようだ。 「トム・クルーズの母親は誰ですか?」という質問に直接答えることができるだけでなく、データの出現頻度が低い「メアリー・リー・ファイファーの息子はトム・クルーズである」という逆質問にも答えることができます。
(もちろん、それが古典的な問題になった後、より関連性の高いデータが利用可能になる可能性は排除できません。)
マスク氏の大型モデルはテスラを犠牲にしてアップグレードされた
テストは終了し、Grok-2 は前世代の Grok-1.5 と比較して大きな進歩を遂げていることがわかります。
マスク氏は舞台裏で多大なリソースと人材を費やした。
たとえば、xAI に参加した新しい研究者は、xAI を使用できると述べました。100,000 枚のカードクラスター研究をすることは、学校で貧弱なリソースを使うよりもはるかに楽しいです。
しかし、一部の人々は満足していません、それがテスラの株主です。
ウォール・ストリート・ジャーナル紙によると、マスク氏は人材、データ、GPU リソースを Tesla から xAI に移転し続けている。
これまでのところ、xAI はテスラで働いていた従業員を少なくとも 11 人雇用しており、そのうち 6 人はオートパイロット チームで直接働いていました。
マスク氏はまた、もともとテスラ向けに予約されていたGPUの注文に対してxAIの供給を優先するようNvidiaに要請した。
マスク氏はまた、テスラが収集する膨大な量の視覚データについて公に話しており、それはxAIモデルをトレーニングするためのリソースとして使用できると述べている。
少なくとも3人のテスラ株主が、xAIへのリソース移転がテスラ投資家の利益を損なったとして、この件でマスク氏を訴えた。
この訴訟は現在デラウェア州の裁判所で係争中である。