berita

Tautan magnetik Llama 3.1 bocor lebih cepat dari jadwal!Tahta model open source berpindah tangan dalam semalam, GPT-4o terlampaui

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Departemen Editorial

[Pengantar Kebijaksanaan Baru] Llama 3.1 telah bocor lagi sebelumnya! Komunitas pengembang kembali heboh: model terbesar adalah 405B, model 8B dan 70B juga ditingkatkan pada saat yang sama, dan ukuran model sekitar 820GB. Hasil pengujian benchmark sangat mencengangkan, dan tautan magnet beredar secara liar di seluruh jaringan.

Sejarah terulang kembali, Llama 3.1 405B bocor terlebih dahulu!

Kini, kabar telah tersebar tentang tolok ukur dan tautan magnet.


Selain 405B terbesar, Meta juga telah mengupgrade model 8B dan 70B yang dirilis awal Mei kali ini, serta menambah panjang konteks menjadi 128K.

Pada titik ini, versi model secara resmi telah diiterasi dari Llama 3 ke Llama 3.1.


Menurut informasi yang diberikan oleh tautan magnet, ukuran model baru adalah 763.48GiB (sekitar 820GB).


Terlihat dari bocoran "uji benchmark" bahwa model kecil 8B pun dapat bermain dengan baik, dan performa model 70B dapat menyamai GPT-4o di berbagai benchmark.


Pengembang sangat marah setelah melihat hasil pengujian. CEO Topologi Aidan McLau berseru——

Jika tolok ukur Llama 3-405B benar, maka hal itu akan terjadi

- Menjadi model terbaik di dunia

- Dapat disesuaikan untuk semua orang

- Lebih murah dari GPT-4o!


CEO HyperWriteAI Matt Schumer memperkirakan: Ini pasti akan menjadi SOTA dalam model sumber terbuka. (Bahkan 70B dapat bersaing dengan GPT-4o, belum lagi ini sebelum instruksi penyempurnaan.)

Bayangkan model level GPT-4o berjalan dengan 330 token per detik dan 10 kali lebih murah. Ini sangat menyenangkan.

Besok akan menjadi hari yang liar!


Dan kata-kata Xiao Zha mengisyaratkan kedatangan 405B – momen tenang sebelum minggu yang menentukan.


Banyak netizen yang bertanya kepada OpenAI online: Kapan model barunya akan dirilis?

Keluarga Llama 3.1, diluncurkan besok

Menurut kartu model yang bocor, Llama 3.1 akan dirilis pada tanggal 23.

Lisensinya adalah "Lisensi Komersial Khusus" dan "Lisensi Komunitas Llama 3.1".


Kartu Model Bocor: https://pastebin.com/9jGkYbXY

Secara khusus, model besar multibahasa seri Llama 3.1 adalah serangkaian model generatif yang telah dilatih sebelumnya dan telah disesuaikan dengan instruksi, termasuk tiga ukuran parameter 8B, 70B, dan 405B.

Model hanya teks Llama 3.1 (8B, 70B, 405B) setelah penyempurnaan instruksi, dioptimalkan untuk kasus penggunaan percakapan multi-bahasa.


Selain bahasa Inggris, dapat mendukung 7 bahasa, termasuk Jerman, Perancis, Italia, Portugis, Hindi, Spanyol dan Thailand.

Menurut laporan, kemampuan baru Llama 3.1 mencakup konteks yang lebih panjang, dukungan untuk input dan output multi-bahasa, dan integrasi pengembang dengan alat pihak ketiga.

Tolak ukur

Grafik benchmark di GitHub (sekarang 404) menunjukkan kinerja luar biasa dari Llama 3.1 dalam pengujian benchmark.

Secara khusus, dalam evaluasi benchmark model pra-pelatihan benchmark, Llama 3.1 405B mencetak rekor terbaru dalam tugas umum, penalaran pengetahuan, dan pemahaman membaca.

Khusus pada benchmark subdivisi MMLU dan SQuAD, peningkatannya paling terlihat.

Pada saat yang sama, versi parameter Llama 3.1 8B dan 70B telah sedikit ditingkatkan dibandingkan dengan Llama 3. Namun dalam beberapa hal, 70B Llama 3.1 tidak sebaik generasi sebelumnya.


Selain itu, pada model instruction fine-tuning terlihat bahwa Llama 3.1 405B lebih kuat dibandingkan model pre-trained. Dalam hal penalaran, pengkodean, matematika, penggunaan alat, dan tolok ukur multi-bahasa, mereka telah mengalahkan versi 8B dan 70B yang telah disempurnakan.

Model Llama 3.1 8B dan 70B yang disempurnakan juga secara signifikan meningkatkan kinerja dalam berbagai tugas kemampuan.


Beberapa netizen telah mengumpulkan benchmark dari model terkemuka lainnya. Melalui perbandingan, terlihat bahwa Claude 3.5 Soneta adalah raja dari semua benchmark.

Versi fine-tuned Llama 3.1 405B adalah yang terbaik pada benchmark matematika MMLU Pro saja, mengalahkan semua model besar dengan skor 73,3%.

Selain itu, 405B setara dengan GPT-4o pada tolok ukur GPQA (Graduate Level Professional Knowledge and Reasoning), Matematika, DROP (Reading Comprehension), MGSM (Multilingual Mathematics), HumanEval (Programming), dan BBH (Knowledge Assessment) .

Selain itu, 405B jauh lebih unggul dibandingkan model mini GPT-4o terbaru.


Llama 3.1 adalah model bahasa autoregresif yang menggunakan arsitektur Transformer yang dioptimalkan. Versi yang disesuaikan menggunakan SFT dan RLHF untuk menyesuaikan preferensi manusia demi keselamatan.

Untuk model seri Llama 3.1, jumlah token hanya mengacu pada data pra-pelatihan.

Semua versi model menggunakan Grouped Query Attention (GQA) untuk meningkatkan skalabilitas inferensi.

Data pelatihan token 15T

Seperti Llama 3, Llama 3.1 telah dilatih sebelumnya pada sekitar 15 triliun token dari sumber yang tersedia untuk umum.

Data penyempurnaan mencakup kumpulan data instruksi yang tersedia untuk umum, serta lebih dari 25 juta sampel sintetis, dan data pra-pelatihan tersedia hingga Desember 2023.



Tersedia untuk penelitian komersial

Llama 3.1 mendukung berbagai lingkungan bahasa untuk penggunaan komersial dan penelitian.

Model hanya teks yang disempurnakan dengan instruksi cocok untuk asisten obrolan, sementara model terlatih dapat disesuaikan dengan berbagai tugas pembuatan bahasa alami. Koleksi model Llama 3.1 juga mendukung pemanfaatan keluaran modelnya untuk menyempurnakan model lainnya, termasuk pembuatan data sintetis dan distilasi model.

Pelanggaran undang-undang dan peraturan penggunaan, kebijakan penggunaan, dan lisensi komunitas Llama 3.1 yang dilarang dan bahasa yang didukung berada di luar cakupan.

Dan tim menekankan bahwa selain 8 bahasa yang didukung, Llama 3.1 dilatih dalam bahasa yang lebih luas. Pengembang dapat menyempurnakannya dan menerapkannya ke bahasa lain, asalkan kebijakan seperti lisensi komunitas dipatuhi dan penggunaannya aman serta bertanggung jawab.

39,3 juta jam pelatihan GPU

Selama pra-pelatihan, Meta menggunakan perpustakaan pelatihan yang disesuaikan, kluster GPU yang disesuaikan dengan Meta, dan infrastruktur produksi. Penyempurnaan, anotasi, dan evaluasi juga dilakukan pada infrastruktur produksi.

Pelatihan telah menggunakan total 39,3 juta jam GPU waktu komputasi, dan jenis perangkat kerasnya adalah H100-80GB (TDP 700W).

Waktu pelatihan adalah total waktu GPU yang diperlukan untuk melatih setiap model, dan konsumsi daya adalah kapasitas daya puncak setiap perangkat GPU, disesuaikan dengan efisiensi penggunaan daya.


Total emisi gas rumah kaca berdasarkan lokasi dari pelatihan ini diperkirakan mencapai 11.390 ton karbon dioksida setara (CO2eq).

Meta menekankan bahwa mereka telah mempertahankan emisi gas rumah kaca net-zero sejak tahun 2020 dan 100% listriknya dihasilkan dari sumber daya terbarukan, sehingga total emisi gas rumah kaca berdasarkan patokan pasar adalah setara dengan 0 ton karbon dioksida.


risiko yang signifikan

Meta juga telah melakukan pengujian terhadap risiko-risiko besar.

Meliputi kegunaan CBRNE (Bahan Kimia, Biologi, Radiologi, Nuklir dan Bahan Peledak), keselamatan anak dan serangan siber.

Mengenai serangan siber, tim menyelidiki apakah LLM dapat meningkatkan kemampuan manusia dalam tugas peretasan, termasuk tingkat keahlian dan kecepatan.

Penelitian ini berfokus pada evaluasi kemampuan LLM untuk digunakan sebagai agen otonom dalam operasi serangan siber, terutama ketika diserang oleh ransomware.

Tujuan utamanya adalah untuk mengevaluasi apakah model-model ini dapat secara efektif melakukan serangan siber yang kompleks sebagai agen independen tanpa campur tangan manusia.

Netizen kembali menggoreng panci dan menyaksikan sejarah

Setelah link magnet dirilis, netizen yang tidak sabar mulai langsung mendownloadnya, namun ini mungkin memakan waktu lama.


Beberapa netizen menunggu Llama 3.1 405B dirilis besok dan menyaksikan sejarah lagi!


Kesenjangan antara model sumber terbuka dan sumber tertutup kembali menyempit.


Seseorang juga menguji pertanyaan jebakan klasik "Siapa yang lebih besar, 9.11 atau 9.9?", dan Llama 3.1-405B menjawabnya dengan benar.


Bagi yang "GPU miskin", 820GB terlalu enggan untuk dijalankan di notebook.





Referensi:

https://x.com/bindureddy/status/1815443198459990098

https://x.com/kimmonismus/status/1815314833236984274

https://x.com/mattshumer_/status/1815453195717742838

https://x.com/swishfever/status/1815512729286815756