notícias

Lançada lista de entendimento multimodal chinês, Tencent Hunyuan ocupa o primeiro lugar na China

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A compreensão multimodal é uma das principais capacidades dos grandes modelos para compreender o complexo mundo real.

Em 2 de agosto, a lista de benchmark de agosto do modelo grande multimodal chinês SuperCLUE-V foi lançada. Com seu excelente desempenho no entendimento multimodal, o modelo grande Tencent Hunyuan se destacou entre muitos modelos participantes e ganhou o ranking de modelos grandes domésticos. Quadrante de Líderes Destacados.


A compreensão multimodal, comumente conhecida como "imagens e texto", exige que o modelo identifique com precisão os elementos da imagem, compreenda suas relações e gere descrições em linguagem natural. Isso não apenas testa a precisão do reconhecimento de imagem, mas também reflete uma compreensão abrangente da cena, uma visão aprofundada dos detalhes e testa a compreensão do modelo do complexo mundo real.

Esta avaliação abrange os 12 modelos de compreensão multimodal mais representativos no país e no exterior, incluindo 4 modelos estrangeiros e 8 modelos multimodais representativos nacionais. O conteúdo da avaliação abrange duas direções principais: capacidade básica e capacidade de aplicação. modelos grandes. O grande modelo Hunyuan da Tencent recebeu uma pontuação alta de 71,95 em termos de capacidades básicas multimodais e capacidades de aplicação, mostrando suas vantagens abrangentes nas camadas de tecnologia e aplicação.


De acordo com funcionários do SuperCLUE, os critérios de avaliação cobrem dimensões como precisão de compreensão, relevância das respostas e profundidade de raciocínio. As regras de pontuação combinam pontuação quantitativa automatizada e revisão especializada para garantir a cientificidade e justiça da avaliação.

Os resultados da avaliação mostram que os grandes modelos nacionais se aproximaram dos principais modelos estrangeiros em termos de capacidades básicas de compreensão multimodal. Entre eles, a pontuação total do grande modelo Tencent Hunyuan é apenas ligeiramente inferior ao GPT-4o e seu desempenho é melhor. do que CLaude3.5-Sonnet e Gemini-1.5-Pro ​​​​mostra a rápida iteração de modelos domésticos em capacidades básicas. Em termos de capacidades de aplicação, o grande modelo Hunyuan da Tencent mostra um grande potencial para aplicações práticas com a sua profunda compreensão do contexto chinês e as suas capacidades abrangentes em geral, bom senso, imagens e outros campos.


Baseando-se na base técnica do grande modelo Tencent Hunyuan, o aplicativo nativo de IA Tencent Yuanbao tem capacidade de compreensão multimodal desde o início de seu lançamento, sejam capturas de tela de documentos, retratos e paisagens, recibos de caixa ou qualquer foto aleatória, Yuanbao Todos eles podem fornecer sua própria compreensão e análise com base no conteúdo da imagem.


Jiang Jie, vice-presidente da Tencent, disse anteriormente que a multimodalidade é uma "resposta obrigatória" para o modelo Hunyuan da Tencent. Atualmente, o modelo Hunyuan está implantando ativamente tecnologias de multimodal a totalmente modal, e os usuários em breve poderão experimentar Kuai no Tencent Yuanbao. App, negócios e cenários internos da Tencent, e estará aberto a aplicativos externos por meio da Tencent Cloud.

Atualmente, o grande modelo híbrido da Tencent se expandiu para uma escala de parâmetros de nível de trilhão. É o primeiro na China a adotar a estrutura do modelo especialista híbrido (MoE), contando com as capacidades do grande modelo de linguagem da Tencent, suas capacidades de compreensão multimodal. foram continuamente melhorados, atingindo o nível doméstico líder.

leifeng. com