berita

Daftar pemahaman multimodal Tiongkok dirilis, Tencent Hunyuan menempati urutan pertama di Tiongkok

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Pemahaman multimodal adalah salah satu kemampuan utama model besar untuk memahami dunia nyata yang kompleks.

Pada tanggal 2 Agustus, daftar benchmark SuperCLUE-V model besar multimoda Tiongkok bulan Agustus dirilis. Dengan kinerjanya yang luar biasa dalam pemahaman multimoda, model besar Tencent Hunyuan menonjol di antara banyak model yang berpartisipasi dan memenangkan peringkat model besar domestik Kuadran Pemimpin Berprestasi.


Pemahaman multimodal, umumnya dikenal sebagai "gambar dan teks", memerlukan model untuk mengidentifikasi elemen gambar secara akurat, memahami hubungannya, dan menghasilkan deskripsi bahasa alami. Hal ini tidak hanya menguji keakuratan pengenalan gambar, tetapi juga mencerminkan pemahaman komprehensif tentang pemandangan, wawasan mendalam terhadap detail, dan menguji pemahaman model terhadap dunia nyata yang kompleks.

Penilaian ini mencakup 12 model pemahaman multimodal yang paling representatif di dalam dan luar negeri, termasuk 4 model luar negeri dan 8 model multimodal yang representatif dalam negeri. Isi penilaian mencakup dua bidang utama: kemampuan dasar dan kemampuan penerapan model besar. Model besar Hunyuan dari Tencent memperoleh skor tinggi sebesar 71,95 dalam hal kemampuan dasar multi-modal dan kemampuan aplikasi, yang menunjukkan keunggulan komprehensifnya dalam lapisan teknologi dan aplikasi.


Menurut pejabat SuperCLUE, kriteria evaluasi mencakup dimensi seperti keakuratan pemahaman, relevansi tanggapan, dan kedalaman penalaran. Aturan penilaian menggabungkan penilaian kuantitatif otomatis dan tinjauan ahli untuk memastikan keilmuan dan keadilan evaluasi.

Hasil evaluasi menunjukkan bahwa model besar dalam negeri telah mendekati model luar negeri teratas dalam hal kemampuan dasar pemahaman multimodal. Diantaranya, skor total model besar Tencent Hunyuan hanya sedikit lebih rendah daripada GPT-4o, dan kinerjanya lebih baik. daripada CLaude3.5-Sonnet dan Gemini- 1.5-Pro ​​​​menunjukkan iterasi cepat model domestik dalam kemampuan dasar. Dalam hal kemampuan penerapan, model besar Hunyuan Tencent menunjukkan potensi besar untuk penerapan praktis dengan pemahaman mendalam tentang konteks Tiongkok dan kemampuan komprehensifnya secara umum, akal sehat, gambar, dan bidang lainnya.


Mengandalkan basis teknis model besar Tencent Hunyuan, aplikasi asli AI Tencent Yuanbao memiliki kemampuan pemahaman multi-modal sejak awal dirilis, baik itu tangkapan layar dokumen, potret dan lanskap, kwitansi kasir, atau foto acak apa pun. Yuanbao Mereka semua dapat memberikan pemahaman dan analisisnya masing-masing berdasarkan isi gambar.


Jiang Jie, wakil presiden Tencent, sebelumnya mengatakan bahwa multimodalitas adalah "jawaban yang harus dijawab" untuk model Hunyuan Tencent. Saat ini, model Hunyuan secara aktif menerapkan teknologi dari multimodal ke modal penuh, dan pengguna akan segera merasakan Kuai di Tencent Yuanbao. Aplikasi, bisnis dan skenario internal Tencent, dan akan terbuka untuk aplikasi eksternal melalui Tencent Cloud.

Saat ini, model hybrid besar Tencent telah diperluas ke skala parameter tingkat triliun. Ini adalah model pertama di Tiongkok yang mengadopsi struktur model ahli hybrid (MoE). terus ditingkatkan hingga mencapai level domestik terdepan.

leifeng.com