Model Terkuat Llama 3.1 405B Resmi Dirilis, Zuckerberg: Open Source Pimpin Era Baru

Model terkuat Llama 3.1 405B resmi dirilis, Zuckerberg: Open source memimpin era baru

2024-07-24

Laporan Jantung Mesin

Departemen Editorial Jantung Mesin

Baru saja Llama 3.1 yang ditunggu-tunggu telah resmi dirilis!

Meta secara resmi mengeluarkan suara bahwa "open source memimpin era baru."

Dalam blog resminya, Meta mengatakan: "Hingga saat ini, model bahasa besar open source sebagian besar tertinggal dibandingkan model tertutup dalam hal fungsionalitas dan kinerja. Sekarang, kami mengantarkan era baru yang dipimpin oleh open source. Kami telah merilis Meta Llama secara publik 3.1 405B. Kami percaya bahwa ini adalah model basis sumber terbuka terbesar dan terkuat di dunia, dengan lebih dari 300 juta unduhan semua versi Llama hingga saat ini, dan kami baru saja memulainya.”

Pendiri dan CEO Meta Zuckerberg juga secara pribadi menulis artikel panjang "AI Open Source Adalah Jalan ke Depan", menjelaskan mengapa open source adalah hal yang baik untuk semua pengembang, Meta, dan dunia.

Sorotan dari rilis ini meliputi:

Seri model terbaru memperluas panjang konteks hingga 128K, menambahkan dukungan untuk delapan bahasa, dan mencakup model sumber terbuka teratas Llama 3.1 405B;
Llama 3.1 405B memiliki keunggulan tersendiri, dan Meta secara resmi mengatakan bahwa Llama 3.1 405B setara dengan model sumber tertutup terbaik;
Rilis ini juga menyediakan lebih banyak komponen (termasuk sistem referensi) untuk digunakan dengan model untuk membangun Llama sebagai sebuah sistem;
Pengguna dapat merasakan Llama 3.1 405B melalui WhatsApp dan meta.ai.

Alamat: https://llama.meta.com/

Netizen dapat mengunduhnya dan mencobanya.

Llama 3.1 Pendahuluan

Llama 3.1 405B adalah model pertama yang tersedia untuk umum yang menyaingi model AI teratas dalam hal akal sehat, kemampuan manipulasi, matematika, penggunaan alat, dan terjemahan multibahasa.

Meta mengatakan generasi terbaru Llama akan menginspirasi aplikasi dan paradigma pemodelan baru, termasuk memanfaatkan pembuatan data sintetis untuk meningkatkan dan melatih model yang lebih kecil, dan distilasi model—sebuah kemampuan yang belum pernah dicapai sebelumnya di ruang sumber terbuka.

Pada saat yang sama, Meta juga meluncurkan versi upgrade dari model 8B dan 70B, yang mendukung berbagai bahasa, memiliki panjang konteks 128K, dan kemampuan penalaran yang lebih kuat. Model terbaru mendukung kasus penggunaan tingkat lanjut seperti peringkasan teks bentuk panjang, agen percakapan multibahasa, dan asisten pengkodean.

Misalnya, Llama 3.1 dapat menerjemahkan cerita ke dalam bahasa Spanyol:

Ketika pengguna bertanya, “Ada 3 baju, 5 pasang celana pendek, dan 1 baju. Misalkan Anda akan bepergian selama 10 hari. Apakah pakaiannya cukup disiapkan?” Model dapat dengan cepat bernalar.

Konteks panjang: Untuk dokumen yang diunggah, Llama 3.1 mampu menganalisis dan merangkum dokumen berukuran besar hingga 8 ribu token.

Asisten pengkodean, untuk kebutuhan pengguna, dapat dengan cepat menulis kode:

Selain itu, pengembang Llama 3.1 405B juga mentweet "spoiler", mengatakan bahwa pengembangan model yang mengintegrasikan kemampuan suara dan visual seperti GPT-4o masih dalam pengembangan.

Meta juga telah membuat perubahan pada lisensi sumber terbuka untuk memungkinkan pengembang menggunakan keluaran model Llama (termasuk 405B) untuk menyempurnakan model lainnya. Selain itu, sesuai dengan komitmen open source, mulai hari ini, Meta membuat model ini tersedia bagi komunitas untuk diunduh di llama.meta.com dan Hugging Face.

tautan unduhan:

https://huggingface.co/meta-llama
https://llama.meta.com/

Evaluasi model

Meta dievaluasi pada lebih dari 150 kumpulan data benchmark, selain evaluasi manusia yang ekstensif.

Hasil eksperimen menunjukkan bahwa model andalan Llama 3.1 405B mampu bersaing dengan model dasar terkemuka termasuk GPT-4, GPT-4o, dan Claude 3.5 Sonnet dalam berbagai tugas. Selain itu, model kecil 8B dan 70B bersaing dengan model sumber tertutup dan sumber terbuka dengan jumlah parameter yang serupa.

Arsitektur model

Sebagai model Meta terbesar hingga saat ini, melatih Llama 3.1 405B menggunakan lebih dari 15 triliun token merupakan tantangan besar. Untuk mengaktifkan pelatihan pada skala ini, Meta mengoptimalkan seluruh tumpukan pelatihan dan melatih lebih dari 16.000 GPU H100, menjadikan model ini model Llama pertama yang dilatih pada skala ini.

Untuk mengatasi masalah ini, Meta membuat pilihan desain berikut, dengan fokus menjaga proses pengembangan model tetap skalabel dan sederhana.

Arsitektur model Transformer dekoder standar dengan hanya sedikit penyesuaian dipilih daripada model ahli hibrid untuk memaksimalkan stabilitas pelatihan.
Prosedur pelatihan pasca-iterasi diterapkan, menggunakan penyesuaian yang diawasi dan optimalisasi preferensi langsung di setiap putaran. Hal ini memungkinkan Meta membuat data sintetis kualitas tertinggi untuk setiap putaran dan meningkatkan kinerja setiap fitur.

Dibandingkan dengan versi Llama sebelumnya, Meta telah meningkatkan kuantitas dan kualitas data yang digunakan untuk pra-pelatihan dan pasca-pelatihan, seperti mengembangkan jalur pra-pemrosesan dan pengelolaan yang lebih hati-hati untuk data pra-pelatihan, dan mengembangkan jaminan kualitas yang lebih ketat. dan pengelolaan data pasca pelatihan.

Seperti yang diharapkan dari undang-undang penskalaan model bahasa, model andalan baru Meta mengungguli model kecil yang dilatih menggunakan prosedur yang sama. Meta juga menggunakan model parameter 405B untuk meningkatkan kualitas pasca pelatihan model yang lebih kecil.

Untuk mendukung keluaran inferensi skala besar model 405B, Meta mengkuantisasi model dari 16 bit (BF16) menjadi 8 bit (FP8), yang secara efektif mengurangi persyaratan komputasi yang diperlukan dan memungkinkan model berjalan pada satu node server.

Perubahan perintah dan obrolan

Llama 3.1 405B berupaya meningkatkan kegunaan, kualitas, dan kepatuhan instruksi rinci model dalam menanggapi instruksi pengguna, sekaligus memastikan tingkat keamanan yang tinggi.

Pada fase pasca pelatihan, tim peneliti membangun model obrolan akhir dengan melakukan beberapa putaran penyelarasan berdasarkan model yang telah dilatih sebelumnya. Setiap putaran melibatkan penyetelan terawasi (SFT), pengambilan sampel penolakan (RS), dan optimalisasi preferensi langsung (DPO).

Tim peneliti menggunakan pembuatan data sintetis untuk menghasilkan sebagian besar contoh SFT, dengan beberapa iterasi untuk menghasilkan data sintetis yang semakin berkualitas tinggi di semua fitur. Selain itu, tim peneliti menggunakan berbagai teknik pemrosesan data untuk memfilter data sintetis ini ke kualitas tertinggi dan menyempurnakan volume data di seluruh skalabilitas fungsional.

Sistem Lama

Model Llama selalu ada sebagai bagian dari sistem AI dan dapat mengoordinasikan banyak komponen, termasuk memanggil alat eksternal. Meta dirancang untuk melampaui model dasar dan memberikan fleksibilitas kepada pengembang untuk merancang dan membuat produk khusus yang sesuai dengan visi mereka.

Untuk mengembangkan AI secara bertanggung jawab di luar lapisan model, Meta telah merilis sistem referensi lengkap yang mencakup beberapa contoh aplikasi serta komponen baru seperti Llama Guard 3, model keamanan multibahasa, dan Prompt Guard, filter injeksi cepat). Contoh aplikasi ini bersifat open source dan dapat dibangun oleh komunitas open source.

Untuk berkolaborasi lebih luas dengan industri, startup, dan komunitas open source guna membantu mendefinisikan antarmuka komponen dengan lebih baik, Meta telah menerbitkan permintaan komentar untuk "Llama Stack" di GitHub. Llama Stack adalah seperangkat antarmuka standar untuk membangun komponen rantai alat kanonik (penyempurnaan, pembuatan data sintetis) dan aplikasi agen. Ini membantu mencapai interoperabilitas dengan lebih mudah.

Tidak seperti model tertutup, anak timbangan model Llama tersedia untuk diunduh. Pengembang dapat sepenuhnya menyesuaikan model dengan kebutuhan dan aplikasi mereka, melatih kumpulan data baru, dan melakukan penyesuaian tambahan.

Dikembangkan menggunakan Llama 3.1 405B

Bagi pengembang biasa, menerapkan model berskala besar seperti 405B tidak diragukan lagi merupakan sebuah tantangan, dan memerlukan sumber daya komputasi yang besar serta keterampilan profesional. Saat berkomunikasi dengan komunitas pengembang, Meta menyadari bahwa pengembangan AI generatif bukan hanya tentang memasukkan perintah ke dalam model. Mereka mengharapkan semua pengembang untuk memanfaatkan sepenuhnya potensi Llama 3.1 405B di bidang berikut:

Inferensi real-time dan batch
penyesuaian yang diawasi
Uji dan evaluasi kinerja model dalam aplikasi tertentu
Pra-pelatihan berkelanjutan
Pengambilan Augmented Generation (RAG)
panggilan fungsi
Pembuatan data sintetis

Sejak peluncuran, semua fitur lanjutan model Llama 3.1 405B akan segera tersedia bagi pengembang untuk memulai. Pengembang juga dapat menjelajahi alur kerja tingkat tinggi, seperti pembuatan data sintetis berdasarkan distilasi model. Dalam peningkatan ini, Meta juga dengan mulus mengintegrasikan solusi yang disediakan oleh mitra AWS, NVIDIA, dan Databricks untuk mencapai generasi augmentasi pengambilan (RAG) yang lebih efisien. Selain itu, Groq telah dioptimalkan untuk inferensi latensi rendah untuk penerapan model di cloud, dan peningkatan kinerja serupa telah dilakukan untuk sistem lokal.

Meta juga telah mengintegrasikan "paket hadiah alat" untuk Llama 3.1 405B kali ini, termasuk proyek-proyek utama seperti vLLM, TensorRT, dan PyTorch, mulai dari pengembangan model hingga penerapan "di luar kotak", dalam satu langkah.

Tautan referensi: https://ai.meta.com/blog/meta-llama-3-1/

berita

Model terkuat Llama 3.1 405B resmi dirilis, Zuckerberg: Open source memimpin era baru

Perkenalan

informasi kontak saya