Llama 3.1 bocor sebelumnya, menjatuhkan GPT-4o dari singgasananya? Lebih cepat dan 10 kali lebih murah

Llama 3.1 bocor sebelumnya, menjatuhkan GPT-4o dari singgasananya?Lebih cepat dan 10 kali lebih murah

2024-07-24

Teks |. Chang Minxiao dan Yuan Yingliang

Editor｜Anita Tang

Jika nasib model besar Llama menjadi puncak model open source, maka "tragisnya bocor" adalah bencana yang harus diatasi Llama.

Pada bulan Maret 2023, Llama 2 bocor terlebih dahulu, dan Meta harus merilis modelnya sebagai open source.

Saat ini, sejarah terulang kembali.

Pada 12 Juli waktu Pasifik, seorang karyawan Meta mengungkapkan bahwa Meta berencana merilis Llama versi skala parameter terbesar hingga saat ini: Llama 3.1 405B pada 23 Juli 2024 waktu setempat. Ia mengungkapkan, 405B akan menjadi model multimodal pertama di seri Llama.

Namun, pada 22 Juli waktu Pasifik, satu hari sebelum jadwal rilis, model dan hasil benchmark Llama 3.1 bocor di komunitas teknis seperti Reddit, dan tautan magnet Llama 3.1 (program yang digunakan untuk mengunduh dokumen) Telah telah diedarkan di komunitas seperti HuggingFace.

Dilihat dari hasil yang bocor,Performa Llama 3.1 sebanding dengan GPT-4o OpenAI!

Beberapa blogger AI memuji bahwa rilis Llama 3.1 akan menjadi hari lain yang mengubah nasib dunia AI:

△Sumber:X

Hasil benchmark yang bocor menunjukkan bahwa Llama 3.1 memiliki tiga ukuran: 8B, 70B, dan 405B. Model 70B dengan jumlah parameter terkecil memiliki performa yang sebanding dengan GPT-4o dalam banyak aspek.

△Gambar di atas menunjukkan perbandingan antara masing-masing versi Llama 3.1 dan OpenAI GPT-4o dan Llama 3 8B/70B. Diantaranya, versi 70B yang berada di skala tengah, juga mengungguli GPT-4o dalam banyak aspek. Sumber gambar: pengguna X @mattshumer_

Beberapa netizen mengemukakan bahwa jika berdasarkan benchmark ini, Llama 3.1 405B ≈ GPT-4o, Llama 3.1 70B akan menjadi model ringan pertama dan GPT-4o mini yang mampu mengalahkan OpenAI.

△Sumber gambar: X pengguna @corbtt

Namun, banyak netizen yang telah mengunduh model untuk "pengguna awal" menemukan bahwa versi bocoran Llama 3.1 405B memiliki ukuran file sekitar 820GB, membutuhkan hampir tiga kali lipat memori Llama 2 (sekitar 280GB) yang mempertahankan akurasi penuh.

Artinya, kecuali Anda memiliki tambang di rumah dan mampu membeli GPU yang cukup, akan sulit bagi masing-masing pengembang untuk menjalankan Llama 3.1 di komputer mereka sendiri. Beberapa netizen berspekulasi bahwa Llama 3.1 bukan untuk individu, melainkan untuk institusi dan perusahaan.

Llama 3.1 yang belum diumumkan secara resmi juga sudah disiram air dingin. Banyak netizen yang mengeluh: Llama 3.1 memiliki persyaratan GPU yang terlalu tinggi dan tidak sebagus GPT-4o mini dari OpenAI di sebelahnya.

△ Komentar netizen di X. Sumber gambar: pengguna X @_Talesh

Iterasi fungsi, optimalisasi indikator, dan pengurangan sumber daya komputasi

Menurut informasi model yang bocor, Llama 3.1 memiliki lebih banyak iterasi dalam fungsionalitas daripada Llama 3, yang akan dirilis pada 19 April 2024, termasuk jendela konteks yang lebih panjang, input dan output multi-bahasa, dan kemungkinan integrasi alat pengembang dan pihak ketiga.

Pelatihan data: Llama 3.1 dilatih menggunakan 15T+ token dari sumber publik. Penyempurnaan data mencakup kumpulan data penyetelan instruksi yang tersedia untuk umum (tidak seperti Llama-3!) dan lebih dari 25 juta contoh yang dihasilkan secara sintetis. Dialog multibahasa: Llama 3.1 mendukung 8 bahasa: Inggris, Jerman, Prancis, Italia, Portugis, Hindi, Spanyol, dan Thailand. Meskipun sayangnya tidak tersedia dalam bahasa China, pengembang dapat menyempurnakan model Llama 3.1 untuk bahasa selain 8 bahasa yang didukung. Jendela konteks: Panjang konteks setiap versi diperluas dari 8k menjadi 128k, yang kira-kira setara dengan kemampuan model untuk mengingat, memahami, dan memproses 96.000 kata sekaligus, hampir keseluruhan "Harry Potter" asli.

Banyak netizen yang ingin mencobanya dan membiarkan Llama 3.1 bersaing dengan model "pendahulunya". Mereka menemukan bahwa tidak hanya indikatornya yang meningkat secara signifikan, tetapi juga sumber daya komputasinya telah banyak dihemat.

Berdasarkan pengujian netizen, dibandingkan dengan Llama 3, kemampuan Llama 3.1 mengalami peningkatan yang signifikan. Diantaranya, human_eval dan truthfulqa_mc1 mengalami kemajuan yang signifikan, artinya kemampuan menghasilkan kode pemrograman lebih kuat dan jawaban pertanyaan lebih autentik.

Pada saat yang sama, dibandingkan dengan model dasar, model instruksi Llama 3 telah meningkatkan indikator secara signifikan seperti pembelajaran cepat, pembelajaran kontekstual, dan penyesuaian parameter yang efisien.

Hal ini wajar karena model dasar biasanya tidak disesuaikan untuk tugas tertentu, sedangkan model instruksi dilatih secara khusus untuk mengikuti instruksi atau menyelesaikan tugas tertentu. Secara umum, indikator model instruksi berperforma lebih baik.

Hal ini membuat orang semakin menantikan rilis resmi Llama3.1. Hasil pengujian model Llama3.1 yang bocor saat ini hanya untuk model dasar, sedangkan model instruksi mungkin berperforma lebih baik!

△Sumber gambar: X pengguna @thenameless7741

Yang mengejutkan, pada hasil pengujian benchmark, model Llama 3.1 70B menyamai atau bahkan mengalahkan GPT-4o, sedangkan model Llama 3.1 8B mendekati performa model Llama 3 70B. Beberapa netizen berspekulasi bahwa ini mungkin menggunakan teknologi distilasi model, yaitu model 8B dan 70B yang disederhanakan dari model terbesar 405B, sehingga menjadikan model besar menjadi "kecil".

Teknologi penyulingan model dapat dipandang sebagai pembelajaran siswa dari seorang guru. Model yang besar dan kuat (model guru) adalah gurunya, dan model yang lebih kecil dan sederhana (model siswa) adalah siswanya. Model siswa belajar dengan cara “meniru” model guru, menjadikan keluarannya sedekat mungkin dengan keluaran model guru, sehingga mempelajari pengetahuan dan kemampuan yang serupa.

Model siswa yang dilatih dengan distilasi dapat mengurangi ukuran model dan kebutuhan sumber daya komputasi sambil mempertahankan performa tinggi dan akurasi yang cukup besar.

△Sumber: Reddit

Tidak semua orang bisa menjalankannya, tapi harganya masuk akal.

Apakah Llama 3.1 akan menjadi open source seperti yang diharapkan masih belum diketahui. Namun walaupun open source, jika ingin bisa menggunakan Llama 3.1 tetap harus memiliki tambang di rumah.

Jika ingin menjalankan Llama 3.1, tiket masuk paling dasar adalah GPU yang memadai.

Dokumen yang bocor menunjukkan bahwa waktu pelatihan Llama 3.1 405B pada perangkat keras tipe H100-80GB adalah 30,84 juta jam GPU. Artinya, dengan asumsi hanya satu H100-80GB yang digunakan per jam, diperlukan waktu 30,84 juta jam untuk menjalankan Llama 3.1 405B - dibutuhkan waktu 3500 tahun hingga model tersebut berjalan!

△Sumber: Reddit

Jika perusahaan ingin menerapkan secara pribadi, jika perusahaan ingin berhasil menjalankan Llama 3.1 405B dalam waktu satu bulan, perusahaan harus mencadangkan setidaknya 43.000 H100-80GB. Dihitung berdasarkan harga satuan H100 sebesar US$40.000,Menggunakan tiket daya komputasi Llama 3.1 405B, harganya mencapai 1,7 miliar dolar AS, setara dengan 12,5 miliar yuan.

Namun kabar baiknya adalah biaya inferensi Llama 3.1 mungkin lebih murah.

Menurut Analisis Buatan, biaya yang diperlukan untuk menghasilkan 1 juta Token, Llama 3.1 405B akan lebih murah dan hemat biaya dibandingkan model mutakhir dengan kualitas serupa (GPT-4o dan Claude 3.5 Sonnet).

△Sumber gambar: X pengguna @ArtificialAnlys

Selain itu, beberapa netizen berspekulasi melalui kode file sumber bahwa Llama 3.1 405B dapat menjadi produk keanggotaan, dan pengguna harus membayar saat menggunakannya. Namun kita masih perlu menunggu rilis resminya untuk mengetahui keadaan sebenarnya.

△Sumber gambar: X pengguna @testingcatalog

(Penulis 36Kr Zhou Xinyu juga berkontribusi pada artikel ini)

Selamat datang untuk berkomunikasi

berita

Llama 3.1 bocor sebelumnya, menjatuhkan GPT-4o dari singgasananya?Lebih cepat dan 10 kali lebih murah

Perkenalan

informasi kontak saya