소식

중국 다중 모드 이해 목록 공개, Tencent Hunyuan이 중국에서 1위를 차지

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

다중 모드 이해는 복잡한 현실 세계를 이해하는 대형 모델의 핵심 기능 중 하나입니다.

8월 2일, 중국 다중 모드 대형 모델 SuperCLUE-V 벤치마크 8월 목록이 공개되었습니다. 다중 모드 이해도에서 뛰어난 성능을 발휘한 Tencent Hunyuan 대형 모델은 많은 참가 모델 중에서 두각을 나타내며 국내 대형 모델 순위를 굳건히 유지했습니다. 뛰어난 리더의 사분면.


일반적으로 "그림 및 텍스트"로 알려진 다중 모드 이해를 위해서는 모델이 이미지 요소를 정확하게 식별하고, 해당 관계를 이해하고, 자연어 설명을 생성해야 합니다. 이는 이미지 인식의 정확성을 테스트할 뿐만 아니라 장면에 대한 포괄적인 이해, 세부 사항에 대한 심층적인 통찰력을 반영하고 복잡한 현실 세계에 대한 모델의 이해를 테스트합니다.

이번 평가에서는 해외 모델 4개와 국내 대표 멀티모달 모델 8개 등 국내외 대표적인 멀티모달 이해 모델 12개를 대상으로 하며, 평가 내용은 크게 기본능력과 응용능력을 평가하는 서술형 질문으로 구성된다. 대형 모델. Tencent의 Hunyuan 대형 모델은 다중 모드 기본 기능 및 애플리케이션 기능 측면에서 71.95점이라는 높은 점수를 받아 기술 및 애플리케이션 계층에서 포괄적인 장점을 보여주었습니다.


SuperCLUE 관계자에 따르면 평가 기준은 이해의 정확성, 응답의 타당성, 추론의 깊이 등을 포괄하며, 채점 규칙은 자동화된 정량 채점과 전문가 검토를 결합해 평가의 과학성과 공정성을 보장한다.

평가 결과, 멀티모달 이해 기본 역량 측면에서 국내 대형 모델이 해외 상위 모델에 근접한 것으로 나타났다. 그 중 텐센트 훈위안 대형 모델의 총점은 GPT-4o보다 약간 낮을 뿐이고 성능도 더 좋다. CLaude3.5-Sonnet 및 Gemini-1.5-Pro보다 기본 기능에서 국내 모델의 빠른 반복을 보여줍니다. 응용 기능 측면에서 Tencent의 Hunyuan 대형 모델은 중국 상황에 대한 깊은 이해와 일반, 상식, 이미지 및 기타 분야에 대한 포괄적인 역량을 바탕으로 실제 응용에 큰 잠재력을 보여줍니다.


Tencent Hunyuan 대형 모델의 기술 기반을 바탕으로 AI 네이티브 애플리케이션 Tencent Yuanbao는 출시 초기부터 문서 스크린샷, 초상화 및 풍경, 계산원 영수증 또는 임의의 사진 등 다양한 모드 이해 능력을 갖추고 있습니다. Yuanbao 그들은 모두 그림의 내용을 바탕으로 각자의 이해와 분석을 제공할 수 있습니다.


Tencent의 부사장인 Jiang Jie는 이전에 다중 모드가 Tencent의 Hunyuan 모델에 대한 "반드시 대답"이라고 말했습니다. 현재 Hunyuan 모델은 다중 모드에서 완전 모드까지 기술을 적극적으로 배포하고 있으며 사용자는 곧 Tencent Yuanbao에서 Kuai를 경험할 수 있습니다. App, Tencent의 내부 비즈니스 및 시나리오는 Tencent Cloud를 통해 외부 애플리케이션에 공개됩니다.

현재 Tencent의 대규모 하이브리드 모델은 1조 수준의 매개변수 규모로 확장되었습니다. Tencent의 대규모 언어 모델 기능과 다중 모드 이해 기능을 바탕으로 중국 최초로 하이브리드 전문가 모델(MoE) 구조를 채택했습니다. 지속적으로 개선되어 국내 최고 수준에 도달했습니다.

leifeng.com