Nachricht

Die chinesische multimodale Verständnisliste wurde veröffentlicht und Tencent Hunyuan belegt den ersten Platz in China

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Multimodales Verständnis ist eine der Schlüsselfähigkeiten großer Modelle, um die komplexe reale Welt zu verstehen.

Am 2. August wurde die SuperCLUE-V-Benchmark-August-Liste für multimodale Großmodelle veröffentlicht. Mit ihrer hervorragenden Leistung im multimodalen Verständnis stach das Großmodell von Tencent Hunyuan unter vielen teilnehmenden Modellen hervor und gewann die Rangliste der inländischen Großmodelle Quadrant herausragender Führungskräfte.


Das multimodale Verständnis, allgemein bekannt als „Bilder und Text“, erfordert, dass das Modell Bildelemente genau identifiziert, ihre Beziehungen versteht und Beschreibungen in natürlicher Sprache generiert. Dies testet nicht nur die Genauigkeit der Bilderkennung, sondern spiegelt auch ein umfassendes Verständnis der Szene, einen detaillierten Einblick in Details wider und testet das Verständnis des Modells für die komplexe reale Welt.

Diese Bewertung deckt die 12 repräsentativsten multimodalen Verständnismodelle im In- und Ausland ab, darunter 4 ausländische Modelle und 8 inländische repräsentative multimodale Modelle. Der Bewertungsinhalt deckt zwei Hauptrichtungen ab: Grundfähigkeit und Anwendungsfähigkeit große Modelle. Das Hunyuan-Großmodell von Tencent erhielt eine hohe Punktzahl von 71,95 in Bezug auf multimodale Grundfunktionen und Anwendungsfähigkeiten und zeigte damit seine umfassenden Vorteile auf der Technologie- und Anwendungsebene.


Laut SuperCLUE-Beamten umfassen die Bewertungskriterien Dimensionen wie Genauigkeit des Verständnisses, Relevanz der Antworten und Tiefe der Argumentation. Die Bewertungsregeln kombinieren automatisierte quantitative Bewertung und Expertenprüfung, um die Wissenschaftlichkeit und Fairness der Bewertung sicherzustellen.

Die Bewertungsergebnisse zeigen, dass inländische Großmodelle hinsichtlich der grundlegenden Fähigkeiten des multimodalen Verständnisses den Spitzenmodellen aus Übersee nahegekommen sind. Unter ihnen ist die Gesamtpunktzahl des Tencent Hunyuan-Großmodells nur geringfügig niedriger als die von GPT-4o und seine Leistung ist besser als CLaude3.5-Sonnet und Gemini-1.5-Pro ​​​​zeigt die schnelle Iteration inländischer Modelle in grundlegenden Funktionen. In Bezug auf die Anwendungsfähigkeiten zeigt das Hunyuan-Großmodell von Tencent mit seinem tiefen Verständnis des chinesischen Kontexts und seinen umfassenden Fähigkeiten in den Bereichen Allgemein, gesunder Menschenverstand, Bilder und anderen Bereichen großes Potenzial für praktische Anwendungen.


Basierend auf der technischen Basis des großen Tencent Hunyuan-Modells verfügt die native KI-Anwendung Tencent Yuanbao seit Beginn ihrer Veröffentlichung über multimodale Verständnisfähigkeiten, unabhängig davon, ob es sich um Dokument-Screenshots, Porträts und Landschaften, Kassenbelege oder beliebige Fotos handelt. Yuanbao Sie alle können basierend auf dem Inhalt des Bildes ihr eigenes Verständnis und ihre eigene Analyse abgeben.


Jiang Jie, Vizepräsident von Tencent, sagte zuvor, dass Multimodalität ein „Muss“ für das Hunyuan-Modell von Tencent sei. Derzeit setzt das Hunyuan-Modell aktiv Technologien von multimodal bis vollmodal ein, und Benutzer werden Kuai bald in Tencent Yuanbao erleben können App, Tencents internes Geschäft und Szenarien, und wird über Tencent Cloud für externe Anwendungen offen sein.

Derzeit wurde das große Hybridmodell von Tencent auf eine Parameterskala auf Billionenebene erweitert. Es ist das erste in China, das die Struktur des Hybridexpertenmodells (MoE) übernimmt und sich auf die Fähigkeiten des großen Sprachmodells von Tencent und seine multimodalen Verständnisfähigkeiten verlässt wurden kontinuierlich verbessert und erreichen das führende inländische Niveau.

leifeng.com