Новости

Опубликован список китайского мультимодального понимания, Tencent Hunyuan занимает первое место в Китае

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Мультимодальное понимание — одна из ключевых возможностей больших моделей для понимания сложного реального мира.

2 августа был опубликован августовский список эталонных китайских мультимодальных моделей SuperCLUE-V. Благодаря отличным показателям мультимодального понимания крупная модель Tencent Hunyuan выделилась среди многих участвующих моделей и выиграла отечественный рейтинг крупных моделей. Во-первых, твердо держитесь на позиции. Квадрант выдающихся лидеров.


Мультимодальное понимание, широко известное как «изображения и текст», требует, чтобы модель точно идентифицировала элементы изображения, понимала их взаимосвязи и генерировала описания на естественном языке. Это не только проверяет точность распознавания изображений, но также отражает всестороннее понимание сцены, углубленное понимание деталей и проверяет понимание моделью сложного реального мира.

Эта оценка охватывает 12 наиболее репрезентативных мультимодальных моделей понимания в стране и за рубежом, в том числе 4 зарубежных модели и 8 отечественных репрезентативных мультимодальных моделей. Содержание оценки охватывает два основных направления: базовые способности и открытые вопросы для оценки мультимодальных моделей. большие модели. Крупная модель Hunyuan от Tencent получила высокий балл 71,95 с точки зрения мультимодальных базовых возможностей и возможностей приложений, что свидетельствует о ее всеобъемлющих преимуществах на технологическом и прикладном уровнях.


По словам представителей SuperCLUE, критерии оценки охватывают такие параметры, как точность понимания, актуальность ответов и глубина аргументации. Правила выставления оценок сочетают в себе автоматизированную количественную оценку и экспертную оценку, чтобы обеспечить научность и справедливость оценки.

Результаты оценки показывают, что отечественные большие модели приблизились к лучшим зарубежным моделям с точки зрения базовых возможностей мультимодального понимания. Среди них общий балл большой модели Tencent Hunyuan лишь немного ниже, чем GPT-4o, а ее производительность лучше. чем CLaude3.5-Sonnet и Gemini-1.5-Pro ​​показывает быструю итерацию отечественных моделей по базовым возможностям. С точки зрения прикладных возможностей, большая модель Hunyuan от Tencent демонстрирует большой потенциал для практического применения благодаря глубокому пониманию китайского контекста и обширным возможностям в целом, здравом смысле, изображениях и других областях.


Опираясь на техническую базу большой модели Tencent Hunyuan, собственное приложение AI Tencent Yuanbao с самого начала своего выпуска обладает способностью мультимодального понимания, будь то снимки экрана документа, портреты и пейзажи, кассовые чеки или любая случайная фотография. Юаньбао Все они могут дать свое собственное понимание и анализ, основанный на содержании изображения.


Цзян Цзе, вице-президент Tencent, ранее заявил, что мультимодальность является «обязательным ответом» для модели Tencent Hunyuan. В настоящее время в модели Hunyuan активно внедряются технологии от мультимодального до полномодального, и вскоре пользователи смогут ощутить Kuai в Tencent Yuanbao. App, внутренний бизнес и сценарии Tencent, и будет открыт для внешних приложений через Tencent Cloud.

В настоящее время большая гибридная модель Tencent расширилась до шкалы параметров уровня триллиона. Это первая в Китае структура гибридной экспертной модели (MoE), основанная на возможностях большой языковой модели Tencent и ее возможностях мультимодального понимания. постоянно совершенствуются, достигая ведущего внутреннего уровня.

leifeng.com