berita

Evaluasi terbaru model besar Tiongkok dirilis: Tencent Hunyuan menempati peringkat pertama di Tiongkok!

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kuai Technology melaporkan pada tanggal 5 Agustus bahwa dalam evaluasi benchmark SuperCLUE-V terbaru terhadap model-model besar multi-modal Tiongkok, model besar Hunyuan milik Tencent menduduki peringkat pertama di negara tersebut, dan menempati peringkat yang kuat dalam Excellent Leaders Quadrant.

Evaluasi ini berfokus pada kemampuan utama model besar untuk memahami dunia nyata yang kompleks, yaitu pemahaman multi-modal, yang biasa dikenal dengan “gambar dan teks”.

Pemahaman multimodal memerlukan model yang dapat secara akurat mengidentifikasi elemen gambar, memahami hubungan di antara elemen tersebut, dan menghasilkan deskripsi bahasa alami.

Kemampuan ini tidak hanya menguji keakuratan pengenalan gambar, tetapi juga mencerminkan pemahaman komprehensif tentang pemandangan dan wawasan mendalam terhadap detail.

Dalam evaluasi ini, total 12 model besar pemahaman multi-modal yang mewakili di dalam dan luar negeri berpartisipasi. Model besar Tencent Hunyuan menunjukkan keunggulan yang signifikan baik dalam kemampuan dasar multi-modal maupun kemampuan aplikasi, dan menerima skor keseluruhan yang tinggi 71,95.

Kriteria evaluasi mencakup dimensi seperti keakuratan pemahaman, relevansi respons, dan kedalaman penalaran, yang menjamin keilmuan dan keadilan evaluasi.

Model besar Hunyuan Tencent mengikuti model luar negeri teratas dalam hal kemampuan dasar. Skor keseluruhannya hanya sedikit lebih rendah dari GPT-4o, dan kinerjanya lebih baik daripada CLaude3.5-Sonnet dan Gemini-1.5-Pro.

Dalam hal kemampuan penerapan, dengan pemahaman mendalam tentang konteks Tiongkok dan kemampuan komprehensif secara umum, akal sehat, gambar, dan bidang lainnya, model besar Hunyuan Tencent menunjukkan potensi besar untuk penerapan praktis.