Llama 3.1 405B VS Mistral Large 2, Siapa Raja Open Source?

Llama 3.1 405B VS Mistral Large 2, Siapa Raja Open Source? ｜AI Hengping

2024-07-27

Penulis｜Kelinci Giok Garam dan Lada
Surel｜[email protected]

Baru-baru ini, dua model AI skala besar telah dirilis.

Pada tanggal 23 Juli,MetadiumumkanLlama 3.1 405Bmodel, yang tidak hanya mendukung8 jenisbahasa manusia jugaMahir dalam berbagai bahasa komputer,Seperti yang ditunjukkan di bawah ini:

Kemudian pada tanggal 24 Juli,Burung mistralKecerdasan buatandiposting terbaruMistral Besar2model, model ini mendukungPuluhan jenisbahasa manusia, danMahir dalam lebih dari 80 bahasa pemrograman , termasuk Python, Java, C, C++, JavaScript dan Bash, dll. Ia juga mahir dalam beberapa bahasa yang lebih spesifik seperti Swift dan Fortran.

Pengkodean Base64 Ini adalah metode pengkodean yang mengubah data biner menjadi format teks dan sering digunakan untuk mengirimkan data biner dalam protokol teks. Base64 dikodekan dalamPemrosesan awal data, input dan output model, keamanan dataIni memiliki berbagai macam aplikasi.

Melalui pengkodean Base64, kami dapat mengevaluasi kemampuan pemrosesan multi-bahasa model AI dan menguji apakah model tersebut dapat secara akurat memahami dan menerjemahkan informasi yang dikodekan, terutama kemampuannya untuk memahami dan memproses berbagai bahasa dan format pengkodean. Kemampuan penerjemahan multi-bahasa, akurasi jawaban, dan kemampuan penalaran mereka kemudian diuji.

Decoding adalah proses kebalikan dari pengkodean.Jika model AI dapat secara akurat menafsirkan dan memproses pengkodean Base64 atau mendekode informasi yang relevan, model tersebut akan lebih nyaman melakukan tugas pemrograman sehari-hari, menguraikan data jaringan, dan bahkan mengekstrak informasi dari file yang kompleks.

Saat ini, kita menggunakan hal ini yang tampaknya tidak jelasPengkodean dan penguraian Base64untuk mengetesKecerdasan buatanKemampuan multibahasa untuk model besar.

Selanjutnya, kita akan memainkan permainan puzzle tentang pengkodean Base64 dengan sedikit suasana "detektif".

Meskipun pemain utamanya adalahLlama 3.1 405BDanMistral Besar2，Tapi kami juga bergabungQwen2-72BDanGPT-4o, yang satu adalah proyek sumber terbuka terkemuka di Tiongkok, yang lainnya adalah perwakilan sumber tertutup, lihatlah merekaApakah mungkin untuk mengatasi "tantangan pengkodean" ini semudah bahasa biasa?Kita lihat saja nanti!

aturan permainan:

Kami akan menggunakan string berkode Base64 untuk pengujian multi-bahasa, termasuk bahasa Mandarin dan Inggris. Melalui pengujian ini, kami dapat memahami performa setiap model utama dalam hal terjemahan multibahasa, akurasi jawaban, dan kemampuan penalaran.

- Ada 2 putaran pengujian, dengan tiga percakapan di setiap putaran. Setiap jawaban yang benar bernilai 1 poin.

- Untuk memastikan keadilan pengujian, kami akan meminta model untuk tidak menggunakan alat kode untuk mendekode.

- Kata cepat: Ini adalah pesan base64 []. Tolong beri tahu saya apa pesan ini tanpa menggunakan alat pengkodean.

Pertama-tama, kami memiliki gambaran kasar tentang langkah-langkah dan proses pengkodean dan dekode Base64.

Pengkodean Base64 mengubah data biner menjadi serangkaian 64 karakter tertentu (AZ, az, 0-9, +, /) untuk mewakilinya. Jika langkah-langkah dalam proses decoding salah atau string bukan pengkodean Base64 yang valid, hasil decode mungkin salah atau tidak ada artinya. Untuk memeriksa apa yang sebenarnya diwakili oleh string yang dikodekan Base64, Anda dapat menggunakan alat atau pustaka online dalam bahasa pemrograman Anda untuk memecahkan kodenya dengan benar.

Putaran 1: decoding bahasa Inggris

Babak ini menggunakan kata-kata bahasa Inggris yang dikonversi ke pengkodean Base64 untuk evaluasi.

Keadilan：SnVzdGljZQo=

Keberanian：QnJhdmVyeQo=

Kebaikan：S2luZG5lc3M=

Pertama-tama mari kita gunakan pengkodean bahasa Inggris untuk menguji hasil model besar.Llama 3.1 405BSemua jawaban benar sekali.Skor 3 poin.Namun semua jawabannya dalam bahasa Inggris, yang tidak terlalu ramah terhadap bahasa Mandarin.

Namun tetap hadir dengan paket emoticon uniknya sendiri. Siapa yang tidak suka dengan “sentuhan kemanusiaan” ini?

DanMistral Besar 2Pesan Base64 bahasa Inggris yang diterjemahkanJawab dua pertanyaan dengan benar , skor 2 poin. Pada pertanyaan kedua, teks aslinya adalah brevery, dan kata yang diterjemahkan adalah "berani". Sumber kesalahan yang paling mungkin adalah kesalahan dalam konversi karakter ke indeks biner, konversi indeks ke biner, atau reorganisasi dari bilangan biner.

Namun, patut dipuji bahwa selama proses penguraian kode, pertama-tama dijelaskan prinsipnya, kemudian menggunakan 5 langkah untuk menganalisis dan bernalar secara bertahap, dan terakhir memecahkan kode, yang terperinci dan jelas, serta sangat mudah dipahami.

Gambar bisa meluncur ke atas dan ke bawah

ObrolanGPT-4oJawabannya ringkas dan cepat seperti biasanya. Kali ini konten yang didekodekan juga cukup tepat, dengan skor 3 poin.

Gambar bisa meluncur ke atas dan ke bawah

Mari kita lihat yang terakhirQwen2-72BJawaban decoding bahasa Inggris, ketiga jawaban benar, dan tindakan pencegahan dalam pengkodean sebenarnya juga dijelaskan, mudah dimengerti, dan bijaksana, dengan skor 3 poin.

Putaran 2: Dekripsi bahasa Mandarin, tidak ada yang selamat?

Babak ini meningkatkan kesulitan dan menggunakan kata-kata berbahasa Mandarin untuk dikonversi ke pengkodean Base64 untuk evaluasi.

Keadilan: 5q2j5LmJ

Berani: 5YuH5pWi

Kebaikan: 5ZaE6Imv

Mari kita lihat cangkir super besarnya terlebih dahuluLlama 3.1 405BCara menjawab:

Setelah menanyakan tiga pertanyaan berturut-turut, Llama 3.1 405B masih menjawab informasi yang diterjemahkan dalam bahasa Inggris, namun yang didapatnya adalah kata-kata bahasa Inggris "Hello World", "Hello" dan "Goodbye", yang pada dasarnya semuanya salah.Skor 0 poin untuk babak ini.

Jika dilihat sekilas, hasil setelah konversi string Base64 biasanya tidak akan terlihat seperti gambar di bawah ini, kecuali jika data aslinya seperti ini.Llama 3.1 405B mulai bermasalah pada langkah kedua, yaitu "memetakan karakter Base64 ke ASCII", dan semua hasil selanjutnya pasti salah.

Selama proses decoding, setiap karakter Base64 harus dipetakan ke nilai biner 6-bit tertentu. Jika pemetaan karakter-ke-biner salah selama decoding, hasil decode secara alami juga akan salah.

Namun yang menarik adalah,Llama 3.1 405B ituLebih “manusiawi”, setiap jawaban akan memiliki beberapa ekspresi kecil di dalam teks, dan saya akan menambahkan beberapa sebelum menjawabModalKonten seperti ini menjadi semakin manusiawi.

Gambar bisa meluncur ke atas dan ke bawah

Mari kita lihat Mistral Large 2 yang dirilis hari ini.

Setelah tiga pertanyaan, saya tidak dapat menjawab satu pun kata dalam bahasa Mandarin yang diberi kode dengan benarSkor 0 poin。

Meskipun proses penalaran decoding Mistral Large 2 sangat rinci, hingga ke setiap langkah, lebih jelas untuk melihat langkah mana yang salah.Terutama diLangkah kedua salah, pemetaan karakter Base64 ke biner, lalu langkah penalaran juga salah, dan hasilnya pasti salah.。

Pada langkah ini, karakter yang dikodekan Base64 salah dipetakan langsung ke karakter ASCII dan bukan nilai binernya yang benar. Misalnya, '5' dipetakan ke 'H'.Pemetaan iniMengabaikan cara kerja pengkodean Base64, yaitu setiap karakter Base64 sebenarnya mewakili bilangan biner 6-bit, bukan karakter ASCII langsung.

Tampaknya kemampuan ini perlu diperkuat.

Gambar bisa meluncur ke atas dan ke bawah

Mari kita lihat mereka yang memiliki pemahaman lebih baik tentang bahasa MandarinObrolanGPT-4o, itu langsung memberikan konten yang diterjemahkan, semuanya benar,Skor 3 poin pada babak ini.

Mari kita lihat produk dalam negeri yang paling resistenQwen2-72B, hasil decodingnya juga "Test", "Hello" dan "World", yang pada dasarnya semuanya salah, dan babak ini mendapat 0 poin.

Mari kita lihat lebih dekat gagasan Qwen2-72B, Jawabannya hanya berisi gagasan penalaran, dan berbagai langkah konversi dihilangkan untuk langsung memperoleh jawabannya.Dengan kata lain, kesalahan utama Qwen2-72B sebagian besar terkonsentrasi padaMemahami pengkodean Base64DanEksekusi langkah decodingunggul.

Misalnya:langsungDapatkan karakter Cina tertentu dari pengkodean Base64, yang tidak mungkin terjadi karena memerlukan urutan byte dan pengkodean yang benar (seperti UTF-8) untuk menafsirkan data biner.

Skor akhirnya adalah:

Jelas sekali bahwa ChatGPT-4o mencetak 6 poin, yang benar-benar mengungguli model utama lainnya. Baik itu bahasa Mandarin atau Inggris, kode Base64 dapat dengan mudah diubah menjadi arti yang kita pahami.

Tiga model lainnya, Llama 3.1 405B dan Qwen2-72B, semuanya mencetak 3 poin dan berkinerja baik dalam decoding bahasa Inggris, tetapi relatif tidak memadai dalam decoding bahasa Mandarin.di dalamLlama 3.1 405B lebih "manusiawi" ketika membalas dan dapat memberikan nilai lebih emosional kepada orang lain.Namun jawaban keseluruhannya condong ke arah bahasa Inggris, dan fungsi bahasa Mandarin relatif lebih banyak, kecuali jika memang diharuskan untuk membalas dalam bahasa Mandarin.

Dan bagian bawahMistral Large 2 kehilangan satu poin untuk setiap pertanyaan karena decoding bahasa Inggris yang salah, tetapi proses penalaran decoding sangat detail dan jelas.Ini menunjukkan kemampuan penalaran yang kuat, sementara kinerja model lain sangat bervariasi dalam hal ini.

Melalui tes ini,Kami menemukan bahwa model besar memiliki kinerja yang berbeda dalam decoding multi-bahasa dan bahasa pemrograman, dan model besar saat ini sedikit tidak seimbang dalam pemrosesan multi-bahasa.Secara keseluruhan, tanggapan dalam bahasa Inggris secara umum akurat dan jelas, namun tanggapan dalam bahasa Cina kurang akurat.

akhirnya

Pengkodean adalah serangkaian transformasi logis yang dilakukan manusia terhadap informasi itu sendiri untuk mengangkut informasi secara efisien. Biasanya kita menganggapnya sebagai "bahasa komputer". Namun pengujian ini menunjukkan bahwa untuk model bahasa besar, pengkodean dan penguraian kode yang benar telah menjadi masalah yang sulit. Terutama dalam lingkungan multi-bahasa, setiap proses pengkodean dan penguraian kode melibatkan banyak langkah dan beberapa aturan pengkodean. Jika ada kesalahan dalam satu tautan atau bahkan kesalahan perhitungan biner, tidak mungkin mendapatkan jawaban yang akurat.

Secara keseluruhan GPT-4o memang lebih baik. Dari game kecil ini saja, Qwen2-72B lebih baik 50-50 dibandingkan Llama3.1 405B. Agak mengherankan, Mistral Large2 berada di peringkat terakhir kali ini.

Jika Anda menyukai permainan kecil kami, silakan ikuti kami. Jika Anda ingin berdiskusi lebih lanjut dengan kami, Anda juga dapat memindai kode QR di bawah untuk bergabung dengan komunitas kami.

berita

Llama 3.1 405B VS Mistral Large 2, Siapa Raja Open Source? ｜AI Hengping

Perkenalan

informasi kontak saya