Melampaui model sumber terbuka tingkat GPT4o! Llama 3.1 bocor: 405 miliar parameter, tautan unduhan tersedia

Di luar model sumber terbuka level GPT4o! Llama 3.1 bocor: 405 miliar parameter, tautan unduhan tersedia

2024-07-23

Laporan Jantung Mesin

Departemen Editorial Jantung Mesin

Siapkan GPU Anda!

Llama 3.1 akhirnya muncul, tapi sumbernya bukan Meta resmi.

Hari ini, bocoran berita model Llama baru menjadi viral di Reddit.Selain model dasar, juga mencakup hasil benchmark 8B, 70B dan parameter terbesar 405B。

Gambar di bawah ini menunjukkan hasil perbandingan masing-masing versi Llama 3.1 dengan OpenAI GPT-4o dan Llama 3 8B/70B. dapat dilihat,Bahkan versi 70B mengungguli GPT-4o di berbagai benchmark。

Sumber gambar: https://x.com/mattshumer_/status/1815444612414087294

Tentunya model 8B dan 70B versi 3.1 merupakan sulingan dari 405B, sehingga terdapat peningkatan performa yang signifikan dibandingkan generasi sebelumnya.

Beberapa netizen mengatakan demikianUntuk pertama kalinya, model sumber terbuka melampaui model sumber tertutup seperti GPT4o dan Claude Sonnet 3.5, mencapai SOTA pada berbagai tolok ukur.。

Pada saat yang sama, kartu model Llama 3.1 bocor, dan detailnya juga bocor (tanggal yang tertera pada kartu model menunjukkan bahwa kartu tersebut didasarkan pada rilis 23 Juli).

Seseorang merangkum hal-hal penting berikut:

Model ini menggunakan 15T+ token dari sumber publik untuk pelatihan, dan batas waktu untuk data pra-pelatihan adalah Desember 2023;
Data penyempurnaan mencakup kumpulan data penyempurnaan instruksi yang tersedia untuk umum (tidak seperti Llama 3) dan 15 juta sampel sintetis;
Model ini mendukung berbagai bahasa, termasuk Inggris, Prancis, Jerman, Hindi, Italia, Portugis, Spanyol, dan Thailand.

Sumber gambar: https://x.com/iScienceLuvr/status/1815519917715730702

Walaupun link Github yang bocor saat ini adalah 404, namun beberapa netizen sudah memberikan link downloadnya (namun demi keamanan disarankan menunggu pengumuman resmi channel malam ini):

Namun, ini adalah model besar dengan skala ratusan miliar. Harap siapkan ruang hard disk yang cukup sebelum mengunduh:

Berikut isi penting kartu model Llama 3.1:

Modelkan informasi dasar

Ansambel Meta Llama 3.1 Multilingual Large Language Model (LLM) adalah serangkaian model generatif yang telah dilatih sebelumnya dan telah disesuaikan dengan instruksi dengan ukuran 8B, 70B, dan 405B (input teks/output teks). Model hanya teks yang disempurnakan dengan perintah Llama 3.1 (8B, 70B, 405B) dioptimalkan untuk kasus penggunaan percakapan multibahasa dan mengungguli banyak model obrolan sumber terbuka dan sumber tertutup yang tersedia pada tolok ukur industri umum.

Arsitektur model: Llama 3.1 adalah model bahasa autoregresif arsitektur Transformer yang dioptimalkan. Versi yang disempurnakan menggunakan SFT dan RLHF untuk menyelaraskan preferensi kegunaan dan keamanan.

Bahasa yang didukung: Inggris, Jerman, Prancis, Italia, Portugis, Hindi, Spanyol, dan Thailand.

Hal ini dapat disimpulkan dari informasi model kartu ituModel seri Llama 3.1 memiliki panjang konteks 128k . Semua versi model menggunakan Grouped Query Attention (GQA) untuk meningkatkan skalabilitas inferensi.

penggunaan yang diharapkan

Kasus penggunaan yang dimaksudkan. Llama 3.1 ditujukan untuk aplikasi bisnis dan penelitian multibahasa. Model hanya teks yang disesuaikan dengan instruksi cocok untuk obrolan seperti asisten, sedangkan model terlatih dapat disesuaikan dengan berbagai tugas pembuatan bahasa alami.

Kumpulan model Llama 3.1 juga mendukung kemampuan untuk memanfaatkan keluaran modelnya untuk menyempurnakan model lainnya, termasuk pembuatan dan penyulingan data sintetis. Lisensi Komunitas Llama 3.1 mengizinkan kasus penggunaan ini.

Llama 3.1 berlatih dalam kumpulan bahasa yang lebih luas daripada 8 bahasa yang didukung. Pengembang dapat menyempurnakan model Llama 3.1 untuk bahasa selain dari 8 bahasa yang didukung, asalkan mereka mematuhi Perjanjian Lisensi Komunitas Llama 3.1 dan Kebijakan Penggunaan yang Dapat Diterima, dan bertanggung jawab dalam kasus tersebut untuk memastikan bahwa bahasa lain digunakan di cara yang aman dan bertanggung jawab Bahasa Llama 3.1.

Infrastruktur perangkat lunak dan perangkat keras

Yang pertama adalah elemen pelatihan. Llama 3.1 menggunakan perpustakaan pelatihan khusus, kluster GPU Meta yang disesuaikan, dan infrastruktur produksi untuk pra-pelatihan.

Yang kedua adalah pelatihan konsumsi energi. Pelatihan Llama 3.1 menggunakan total perhitungan GPU 39,3 M pada perangkat keras tipe H100-80GB (TDP adalah 700W). Di sini waktu pelatihan adalah total waktu GPU yang diperlukan untuk melatih setiap model, dan konsumsi daya adalah kapasitas daya puncak setiap perangkat GPU, yang disesuaikan dengan efisiensi daya.

Pelatihan tentang emisi gas rumah kaca. Total emisi gas rumah kaca berdasarkan tolok ukur geografis selama periode pelatihan Llama 3.1 diperkirakan setara dengan 11.390 ton CO2. Sejak tahun 2020, Meta telah mempertahankan emisi gas rumah kaca netto-zero di seluruh operasi globalnya dan mencocokkan 100% penggunaan listriknya dengan energi terbarukan, sehingga menghasilkan total emisi gas rumah kaca berbasis pasar sebesar 0 ton CO2e selama periode pelatihan.

Metode yang digunakan untuk menentukan pelatihan penggunaan energi dan emisi gas rumah kaca dapat dilihat pada makalah berikut. Karena Meta merilis model ini secara publik, model lain tidak perlu menanggung beban pelatihan penggunaan energi dan emisi gas rumah kaca.

Alamat makalah: https://arxiv.org/pdf/2204.05149

data pelatihan

Ikhtisar: Llama 3.1 telah dilatih sebelumnya menggunakan sekitar 15 triliun data token dari sumber publik. Data penyempurnaan mencakup kumpulan data instruksi yang tersedia untuk umum, dan lebih dari 25 juta contoh yang dihasilkan secara sintetis.

Kesegaran data: Batas waktu data pra-pelatihan adalah Desember 2023.

Skor tolok ukur

Di bagian ini, Meta melaporkan hasil penilaian model Llama 3.1 pada benchmark anotasi. Untuk semua evaluasi, Meta menggunakan perpustakaan evaluasi internal.

Pertimbangan risiko keamanan

Tim peneliti Llama berkomitmen untuk menyediakan sumber daya berharga bagi komunitas riset untuk mempelajari ketangguhan penyesuaian yang aman dan menyediakan model siap pakai yang aman dan tangguh bagi pengembang untuk berbagai aplikasi guna mengurangi pekerjaan pengembang dalam menerapkan AI yang aman. kuantitas sistem.

Tim peneliti menggunakan pendekatan pengumpulan data multifaset yang menggabungkan data buatan manusia dari vendor dengan data sintetis untuk memitigasi potensi risiko keamanan. Tim peneliti mengembangkan sejumlah pengklasifikasi berbasis model bahasa besar (LLM) untuk memilih perintah dan respons berkualitas tinggi dengan cermat, sehingga meningkatkan kontrol kualitas data.

Perlu disebutkan bahwa Llama 3.1 sangat mementingkan model penolakan terhadap perintah yang tidak berbahaya dan nada penolakan. Tim peneliti memperkenalkan petunjuk batas dan petunjuk permusuhan ke dalam kebijakan data keamanan dan memodifikasi respons data keamanan untuk mengikuti pedoman nada.

Model Llama 3.1 tidak dirancang untuk digunakan secara mandiri, namun harus digunakan sebagai bagian dari sistem AI secara keseluruhan, dengan tambahan "pagar pengaman" yang disediakan sesuai kebutuhan. Pengembang harus menerapkan langkah-langkah keamanan sistem saat membangun sistem agen.

Perhatikan bahwa rilis ini memperkenalkan fitur-fitur baru, termasuk jendela konteks yang lebih panjang, input dan output multibahasa, dan kemungkinan integrasi pengembang dengan alat pihak ketiga. Saat mengembangkan kemampuan baru ini, selain mempertimbangkan praktik terbaik yang umumnya berlaku untuk semua kasus penggunaan AI generatif, Anda juga perlu memberikan perhatian khusus pada masalah berikut:

Penggunaan Alat: Seperti halnya pengembangan perangkat lunak standar, pengembang bertanggung jawab untuk mengintegrasikan LLM dengan alat dan layanan pilihan mereka. Mereka harus mengembangkan kebijakan yang jelas untuk kasus penggunaannya dan mengevaluasi integritas layanan pihak ketiga yang mereka gunakan untuk memahami batasan keselamatan dan keamanan saat menggunakan fungsi ini.

Multibahasa: Lama 3.1 mendukung 7 bahasa selain Inggris: Prancis, Jerman, Hindi, Italia, Portugis, Spanyol, dan Thailand. Llama mungkin dapat mengeluarkan teks dalam bahasa lain, namun teks ini mungkin tidak memenuhi ambang batas kinerja keamanan dan kemampuan membantu.

Nilai inti Llama 3.1 adalah keterbukaan, inklusi, dan menolong. Ini dirancang untuk melayani semua orang dan cocok untuk berbagai kasus penggunaan. Oleh karena itu, Llama 3.1 dirancang agar dapat diakses oleh semua orang dari berbagai latar belakang, pengalaman, dan perspektif. Llama 3.1 berpusat pada pengguna dan kebutuhan mereka, tanpa memasukkan penilaian atau norma yang tidak perlu, sekaligus mencerminkan pengakuan bahwa konten yang mungkin tampak bermasalah dalam beberapa konteks dapat berguna dalam konteks lain. Llama 3.1 menghormati martabat dan otonomi semua pengguna dan, khususnya, menghormati nilai-nilai kebebasan berpikir dan berekspresi yang mendorong inovasi dan kemajuan.

Namun Llama 3.1 adalah teknologi baru, dan seperti teknologi baru lainnya, ada risiko yang terkait dengan penggunaannya. Pengujian yang dilakukan sampai saat ini belum dan tidak dapat mencakup semua situasi. Oleh karena itu, seperti semua LLM, potensi keluaran Llama 3.1 tidak dapat diprediksi sebelumnya, dan dalam beberapa kasus model mungkin merespons permintaan pengguna secara tidak akurat, bias, atau tidak menyenangkan. Oleh karena itu, sebelum menerapkan aplikasi apa pun dari model Llama 3.1, pengembang harus melakukan pengujian keamanan dan penyesuaian untuk aplikasi spesifik model tersebut.

Sumber kartu model: https://pastebin.com/9jGkYbXY

Informasi referensi: https://x.com/op7418/status/1815340034717069728

https://x.com/iScienceLuvr/status/1815519917715730702

https://x.com/mattshumer_/status/1815444612414087294

berita

Di luar model sumber terbuka level GPT4o! Llama 3.1 bocor: 405 miliar parameter, tautan unduhan tersedia

Perkenalan

informasi kontak saya