11 のインジケーターで GPT-4o を破りました! 360度ゲームで大手模型会社16社が力を合わせて戦う

11 のインジケーターで GPT-4o を打ち負かしましょう! 360 ゲームでは 16 の大手モデル会社が力を合わせて戦うことができます

2024-08-05

クレシーはアオフェイ寺院から来ています
パブリックアカウント QbitAI

最後に、国内の大型モデルは、総合的な機能の点で GPT-4o と競合できます。

12 の指標のテストでは、このモデルは11 項目が GPT-4o を上回り、全体的な能力は 10 パーセントポイント高かった。。

また、詩鑑賞など中国の特色のある分野では、その利点はさらに顕著になります。「最も難しい中国のベンチマーク」精神薄弱バーも大躍進。

ただし、これは大手模型メーカーが単独で進めた結果ではありません。メーカー16社による「合同チーム」。

チームの発起人は360。自社だけでなく、BATをはじめとする大手メーカーも参加している。百度、バイトダンス、テンセント、アリババ、ファーウェイ、国産大型モデル「ファイブリトルタイガース」、Zhipu AI、Dark Side of the Moon、MiniMax、Baichuan Intelligence、Zero One Thing、ヘッドローブのメーカーは 5 社あります。SenseTime、iFlytek、TAL、Huanquan 定量的、壁に面したインテリジェンス 、計16メーカーが入荷しました。（注：上記のランキングは順不同です）

現在、この「共同チーム」が製品に招待されています。AIアシスタントすべてのユーザーが無料で使用できます。

10 個以上の大きなモデルを操作できます

AIアシスタントのうち、16メーカーの大型モデルが集結しており、同一プラットフォーム上で直接通信が可能です。どちらかを選択してください。

そして途中でいつでも機種変更可能、システムは前のコンテキストを記憶し、後続のモデルが会話を完了し続けます。

たとえば、以下のダイアログウィンドウでは、Zhipu 9.11 と 9.8 のどちらが大きいかを尋ねた後、モデルを Spark に切り替えて、比較する方法を直接尋ねました。

会話からは、後に交代したXinghuoが、「比較する方法」という4つの単語が小数の大きさの比較について尋ねていることを正確に理解したことがわかります。

もちろん、同じ問題に対して、直接実行することもできます。オンサイトPK用に他社モデルを召喚。

モデルを PK するときに、より多くの情報や回答も確認できるため、回答がより詳細になるだけでなく、相互検証も可能になります。

たとえば、私たちはテレビシリーズ「雍正王朝」の2人のキャラクターの関係についての質問を最初にZhipuに投げかけました。

次に、より詳しい情報が得られるかどうかを確認するために、Wen Xin Yiyan に回答を求めました。その結果、Zhipu の答えは正しく、Wen Xin Yiyan はより詳細な補足をしました。

さらに重要なのは、360 AI アシスタントは、選択が難しいユーザーや、どのモデルがより適しているかわからないユーザーにも非常に優しいことです。

対話モデルとして「AI アシスタント」オントロジーを選択している限り、システムは対話の内容に基づいてユーザーの意図を判断し、次にタスクの種類に基づいてユーザーの意図を判断します。最適なモデルを自動的にマッチング。

たとえば、ライティングタスクを完了すると、AIアシスタントがコピーライティングが得意なビーンバッグを割り当ててくれます。

プログラミングの問題が発生した場合、強力なコーディング機能を備えた DeepSeek が呼び出されます。

主に論理的な推論に基づいた問題には、知恵のスペクトルによって答えることができます。

もちろん、インターフェースに表示されるタスクの分類は比較的一般的なものですが、実際の操作では、AI アシスタントがタスクをさらに細かく分割します。

さらに、モデルを選択する際には、AI アシスタントが最初にオンライン検索も行います。

したがって、AI アシスタントを使用するもう 1 つの利点は、モデルのナレッジベースの更新時間を気にせずに最新の情報を取得できることです。

いくつかの一般的なタスクについては、AI アシスタントプラットフォームも用意されています専属アシスタント、これらの機能をよりよく実現できます。

AI アシスタントは Web ページで使用されるだけでなく、他に 2 つの主要な入り口があります - デスクトップと 360 セキュアブラウザー。

たとえば、360 セキュアブラウザでは、AI アシスタントプラグインをインストールした後、Web を閲覧すると右下隅に浮遊ボールが表示されます。

ワンクリックで右側のサイドバーにAIアシスタントを呼び出すことができ、執筆中に同じウィンドウ内でAIに素早く話しかけることもできます。

また、浮遊ボールの上にマウスを移動すると、その上に新しいボタンが表示され、クリックすると現在閲覧しているページをワンクリックで要約することができます。

ページ上の詳細についてAIアシスタントに質問することもできます。

英語コンテンツの要約にも対応します。

さらに、ページ上の個々の単語やフレーズを選択すると、AI アシスタントのツールバーが表示され、選択した部分を翻訳して説明したり、より関連性の高い情報をオンラインで検索したりできます。

デスクトップ側は 360 Security Guard をベースに実装されており、機能はブラウザと同様ですが、ワード呼び出しの範囲が Web ページからシステム全体に拡張されます。

では、AIアシスタントの背後にはどのようなテクノロジーが使用されているのでしょうか?

独自の「専門家連携」体制

実際、需要に応じて大規模なモデルをスケジュールするこの方法は、たまたま 360 によって開始された新しいテクノロジーです—CoE (Collaboration-of-Experts)、専門家コラボレーションアーキテクチャ。

多くの国内モデルが個別の指標で OpenAI と同点、またはそれを上回っていることはわかっていますが、総合的な強さという観点では、その差が明らかになりました。

360の考え方はこの「単独で作業する」モデルを変更し、大規模モデル「専門家クラスター」を構築してハイブリッド大規模モデルを形成する、それぞれが強みを活かして「共同チーム」方式で GPT-4o と戦うことができるようにします。

その結果、360 CoEアーキテクチャに基づく国内大型モデル16台で構成されたハイブリッド大型モデルは、12指標のテストで総合スコア80.49点を達成し、GPT-4oの69.22点を上回りました。

コードを除いて、他の 11 のインジケーターは GPT-4o よりも優れています。

特に「遅滞者」や詩鑑賞などの中国の特色を伴う問題では、CoE の優位性はさらに明白です。

MoE (Mixture-of-Experts、混合専門家) アーキテクチャと比較すると、360 の CoE モデルはスピード、インテリジェンス、コスト3 つのレベルすべてに大きな利点があります。

CoE は、意図認識とタスクのスケジューリングを通じて、推論リソースの割り当てを最適化し、効率を向上させ、コストを削減します。推論コストが 90% 削減。

CoE アーキテクチャで最も効率的な方法でモデルをスケジュールできるようにするには、少なくとも 2 つの作業側面が不可欠です。

1つはこれらのモデルの機能の包括的な評価, この方法でのみ、各モデルが得意な分野を理解し、モデルにどのようなタスクを割り当てるべきかを知ることができます。

この目的を達成するために、360 は 12 分野の専門家データベース内のモデルのパフォーマンスに関する包括的なテストを実施し、モデルの独自の機能を明らかにしました。

△GPT-4o以外の機種名は伏せてあります

一方、それはユーザーの意図の解釈——タスク要件の理解は、明らかに、割り当てモデルにとって不可欠な基盤です。

過去 10 年間に検索エンジン業界で蓄積されたテクノロジーとデータに基づいて、360 は 1 億を超える意図分類を識別できる専用モデルをトレーニングしました。

AI をより包括的にする

技術的なスキルに加えて、360 はどのように状況を整理し、大手模型メーカー 15 社を「ハブに参加」させるのか、と尋ねずにはいられません。

360 Company の創設者兼会長である周紅儀氏は、メーカーが協力する出発点は次のとおりであると述べました。大型モデルへの投資は莫大であり、それらを使用することによってのみコストをカバーし、製品を継続的に改善することができます。。

360 には多数のユーザーがおり、デスクトップとブラウザーという 2 つ星のシナリオを開くことができ、これらのモデルに巨大なユーザーグループを呼び込むことができます。

プラグインと比較して、これら 2 つの入口により、ユーザーは大規模モデルの機能に非常に近づくことができます。今日の大規模モデルに対する最大の要求は、まさにユーザーが使用できるようにシーンとユーザーに近いところにあることです。

さらに、統合された AI アシスタントは、単一の大型モデルの欠点を回避し、互いの長所を活用することで GPT-4o を超えることができるため、メーカーはユーザーにそれを使用する機会を提供し、将来的にはさらに多くのシナリオがリリースされる予定です。

この 360 AI アシスタントのモデルは、AGI の登場前にモデルのレベルを向上させるための優れたソリューションであると言え、AI の普及率を高めるためにも有益です。

最近では、国内の大手模型メーカーが合意形成を図り、よりオープン化を進め、安価なトークンAPIを次々と提供し始めています。

したがって、デスクトップとブラウザという 2 つの入り口に 360 を開放することは、単に「世界中から人材を集める」ためだけではなく、このオープン化への一般的な傾向に従うことでもあります。

より高いレベルに立つ、360 度静止AI がより多くの人に恩恵をもたらすことを願っています。

周宏儀は次のように信じています。AI が人間を排除するのではなく、AI の使い方を知らない人間を排除するのです。; そして、その使い方を知っている人にとって、AI は強力なツールとなるでしょう。

しかし同時に、AI自体を軽蔑すべきではなく、それを学びたいと願う人に習得する機会が与えられるべきです。

これは 360 が語る包括的な AI であり、誰もが AI によってもたらされる機能を享受し、AI 時代に乗り遅れることを避けることができます。

AI アシスタントポータル:
https://bot.360.com

ニュース

11 のインジケーターで GPT-4o を打ち負かしましょう! 360 ゲームでは 16 の大手モデル会社が力を合わせて戦うことができます

10 個以上の大きなモデルを操作できます

独自の「専門家連携」体制

AI をより包括的にする

導入

私の連絡先情報