noticias

Publicada la lista de entendimiento multimodal chino, Tencent Hunyuan ocupa el primer lugar en China

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La comprensión multimodal es una de las capacidades clave de los modelos grandes para comprender el complejo mundo real.

El 2 de agosto, se publicó la lista de referencia de agosto del modelo grande multimodal chino SuperCLUE-V. Con su excelente desempeño en comprensión multimodal, el modelo grande Tencent Hunyuan se destacó entre muchos modelos participantes y ganó el ranking de modelos grandes nacionales. Cuadrante de Líderes Destacados.


La comprensión multimodal, comúnmente conocida como "imágenes y texto", requiere que el modelo identifique con precisión los elementos de la imagen, comprenda sus relaciones y genere descripciones en lenguaje natural. Esto no solo prueba la precisión del reconocimiento de imágenes, sino que también refleja una comprensión integral de la escena, una visión profunda de los detalles y prueba la comprensión del modelo del complejo mundo real.

Esta evaluación cubre los 12 modelos de comprensión multimodal más representativos en el país y en el extranjero, incluidos 4 modelos en el extranjero y 8 modelos multimodales representativos nacionales. El contenido de la evaluación cubre dos direcciones principales: la capacidad básica y la capacidad de aplicación. Las preguntas abiertas evalúan el modo multimodal. modelos grandes. El modelo grande Hunyuan de Tencent recibió una puntuación alta de 71,95 en términos de capacidades básicas multimodales y capacidades de aplicación, lo que demuestra sus ventajas integrales en las capas de tecnología y aplicación.


Según los funcionarios de SuperCLUE, los criterios de evaluación cubren dimensiones como la precisión de la comprensión, la relevancia de las respuestas y la profundidad del razonamiento. Las reglas de puntuación combinan la puntuación cuantitativa automatizada y la revisión de expertos para garantizar la cientificidad y la equidad de la evaluación.

Los resultados de la evaluación muestran que los modelos grandes nacionales se han acercado a los mejores modelos extranjeros en términos de capacidades básicas de comprensión multimodal. Entre ellos, la puntuación total del modelo grande Tencent Hunyuan es solo ligeramente inferior a la del GPT-4o y su rendimiento es mejor. que CLAude3.5-Sonnet y Gemini-1.5-Pro ​​muestra la rápida iteración de los modelos domésticos en capacidades básicas. En términos de capacidades de aplicación, el gran modelo Hunyuan de Tencent muestra un gran potencial para aplicaciones prácticas con su profundo conocimiento del contexto chino y sus capacidades integrales en general, sentido común, imágenes y otros campos.


Basándose en la base técnica del modelo grande de Tencent Hunyuan, la aplicación nativa de IA Tencent Yuanbao tiene capacidad de comprensión multimodal desde el comienzo de su lanzamiento, ya sean capturas de pantalla de documentos, retratos y paisajes, recibos de caja o cualquier fotografía aleatoria. Yuanbao Todos pueden dar su propia comprensión y análisis según el contenido de la imagen.


Jiang Jie, vicepresidente de Tencent, dijo anteriormente que la multimodalidad es una "respuesta obligada" para el modelo Hunyuan de Tencent. Actualmente, el modelo Hunyuan está implementando activamente tecnologías desde multimodal hasta totalmente modal, y los usuarios pronto podrán experimentar Kuai en Tencent Yuanbao. App, escenarios y negocios internos de Tencent, y estará abierta a aplicaciones externas a través de Tencent Cloud.

En la actualidad, el gran modelo híbrido de Tencent se ha expandido a una escala de parámetros de nivel de billón y es el primero en China en adoptar la estructura del modelo híbrido experto (MoE). Confiando en las capacidades del gran modelo de lenguaje de Tencent, sus capacidades de comprensión multimodal. Se han mejorado continuamente, alcanzando el nivel nacional líder.

leifeng.com