nouvelles

Publication de la liste chinoise d'entente multimodale, Tencent Hunyuan se classe premier en Chine

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La compréhension multimodale est l’une des capacités clés des grands modèles pour comprendre le monde réel complexe.

Le 2 août, la liste de référence SuperCLUE-V des grands modèles multimodaux chinois a été publiée. Grâce à ses excellentes performances en matière de compréhension multimodale, le grand modèle Tencent Hunyuan s'est démarqué parmi de nombreux modèles participants et a remporté le classement des grands modèles nationaux. Quadrant des leaders exceptionnels.


La compréhension multimodale, communément appelée « images et texte », nécessite que le modèle identifie avec précision les éléments de l'image, comprenne leurs relations et génère des descriptions en langage naturel. Cela teste non seulement la précision de la reconnaissance d'image, mais reflète également une compréhension globale de la scène, une vision approfondie des détails et teste la compréhension du modèle du monde réel complexe.

Cette évaluation couvre les 12 modèles de compréhension multimodaux les plus représentatifs au pays et à l'étranger, dont 4 modèles étrangers et 8 modèles multimodaux représentatifs nationaux. Le contenu de l'évaluation couvre deux directions principales : la capacité de base et la capacité d'application. grands modèles. Le grand modèle Hunyuan de Tencent a reçu un score élevé de 71,95 en termes de capacités de base multimodales et de capacités d'application, démontrant ses avantages complets dans les couches technologiques et applicatives.


Selon les responsables de SuperCLUE, les critères d'évaluation couvrent des dimensions telles que l'exactitude de la compréhension, la pertinence des réponses et la profondeur du raisonnement. Les règles de notation combinent une notation quantitative automatisée et un examen par des experts pour garantir la scientificité et l'équité de l'évaluation.

Les résultats de l'évaluation montrent que les grands modèles nationaux se rapprochent des meilleurs modèles étrangers en termes de capacités de base de compréhension multimodale. Parmi eux, le score total du grand modèle Tencent Hunyuan n'est que légèrement inférieur à celui du GPT-4o et ses performances sont meilleures. que CLaude3.5-Sonnet et Gemini-1.5-Pro ​​​​montre l'itération rapide des modèles nationaux dans les capacités de base. En termes de capacités d'application, le grand modèle Hunyuan de Tencent présente un grand potentiel d'applications pratiques grâce à sa compréhension approfondie du contexte chinois et à ses capacités complètes dans les domaines général, du bon sens, des images et d'autres domaines.


S'appuyant sur la base technique du grand modèle Tencent Hunyuan, l'application native d'IA Tencent Yuanbao a une capacité de compréhension multimodale dès le début de sa sortie, qu'il s'agisse de captures d'écran de documents, de portraits et de paysages, de reçus de caisse ou de toute photo aléatoire, Yuanbao Ils peuvent tous donner leur propre compréhension et analyse en fonction du contenu de l'image.


Jiang Jie, vice-président de Tencent, a déclaré précédemment que la multimodalité était une « réponse incontournable » pour le modèle Hunyuan de Tencent. Actuellement, le modèle Hunyuan déploie activement des technologies allant du multimodal au entièrement modal, et les utilisateurs pourront bientôt faire l'expérience de Kuai dans Tencent Yuanbao. App, les activités et scénarios internes de Tencent, et sera ouvert aux applications externes via Tencent Cloud.

À l'heure actuelle, le grand modèle hybride de Tencent s'est étendu à une échelle de paramètres de plusieurs milliards. Il est le premier en Chine à adopter la structure du modèle expert hybride (MoE), en s'appuyant sur les capacités du grand modèle linguistique de Tencent et ses capacités de compréhension multimodale. ont été continuellement améliorés, atteignant le premier niveau national.

leifeng.com