ニュース

中国のマルチモーダル理解リストが発表、テンセント・フンユアンが中国で1位に

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

マルチモーダルな理解は、複雑な現実世界を理解するための大規模モデルの重要な機能の 1 つです。

8月2日、中国のマルチモーダル大型モデルSuperCLUE-Vベンチマーク8月リストが発表され、テンセント・フンユアンの大型モデルがマルチモーダル理解における優れたパフォーマンスで傑出し、国内大型モデルランキングで首位を獲得した。優れたリーダーの象限。


一般に「画像とテキスト」として知られるマルチモーダルな理解には、モデルが画像要素を正確に識別し、それらの関係を理解し​​、自然言語記述を生成する必要があります。これは、画像認識の精度をテストするだけでなく、シーンの包括的な理解、詳細に対する深い洞察を反映し、複雑な現実世界に対するモデルの理解をテストします。

この評価では、海外モデル 4 つと国内の代表的なマルチモーダル モデル 8 つを含む、国内外の最も代表的な 12 つのマルチモーダル理解モデルを対象としています。評価内容は、基本的な能力と応用的な能力を評価する 2 つの主要な方向をカバーしています。大型モデル。 Tencent の Hunyuan 大型モデルは、マルチモーダルな基本機能とアプリケーション機能の点で 71.95 という高いスコアを獲得し、テクノロジー層とアプリケーション層における総合的な優位性を示しています。


SuperCLUE関係者によると、評価基準は理解の正確さ、回答の関連性、推論の深さなどの側面をカバーしており、採点ルールは自動化された定量的採点と専門家によるレビューを組み合わせて、評価の科学性と公平性を確保しているという。

評価結果は、国内の大型モデルがマルチモーダル理解の基本能力の点で海外のトップモデルに近づいていることを示しており、その中でTencent Hunyuanの大型モデルの合計スコアはGPT-4oよりもわずかに低いだけであり、そのパフォーマンスは優れています。 CLaude3.5-SonnetおよびGemini-1.5-Proよりも、基本的な機能において国内モデルの急速な反復が示されています。応用能力の点では、テンセントの渾源大型モデルは、中国の文脈に対する深い理解と、一般、常識、画像、その他の分野における包括的な能力により、実用化の大きな可能性を示しています。


Tencent Hunyuan 大型モデルの技術ベースに依存している AI ネイティブ アプリケーション Tencent Yuanbao は、リリース当初から、ドキュメントのスクリーンショット、ポートレートや風景、レジのレシート、またはランダムな写真など、マルチモーダルな理解能力を備えています。元宝 彼らは皆、写真の内容に基づいて独自の理解と分析を行うことができます。


Tencent の副社長 Jiang Jie 氏は以前、Tencent の Hunyuan モデルにとってマルチモダリティは「必須の答え」であると述べました。現在、Hunyuan モデルはマルチモーダルからフルモーダルまでのテクノロジーを積極的に展開しており、ユーザーはすぐに Tencent Yuanbao で Kuai を体験できるようになります。アプリ、Tencent の内部ビジネスおよびシナリオは、Tencent Cloud を通じて外部アプリケーションにも公開されます。

現在、テンセントの大規模ハイブリッド モデルは、中国で初めて、テンセントの大規模言語モデルの機能、マルチモーダル理解機能を利用したハイブリッド エキスパート モデル (MoE) 構造を採用しています。改良を重ね、国内トップレベルに達しました。

雷峰.com