Model besar open source yang paling kuat menjadi dewa dalam semalam! Llama 3.1 dirilis secara mengejutkan, era GPT-4 yang sebenarnya untuk semua orang ada di sini

Model besar open source yang paling kuat menjadi dewa dalam semalam! Llama 3.1 dirilis secara mengejutkan, era GPT-4 yang benar-benar universal telah tiba

2024-07-24

hal-hal cerdas
Penulis: Departemen Editorial Zhi Dongxi

Zhidongxi melaporkan pada 24 Juli bahwa tadi malam, Meta mengumumkan peluncuran model open source paling kuat hingga saat ini——Llama 3.1 405B, juga merilis model Llama 3.1 70B dan 8B yang baru ditingkatkan.

Llama 3.1 405B mendukung panjang konteks128K Token, berdasarkan15 triliun Token、Lebih dari 16.000 GPU H100Ini adalah model Llama pertama yang pernah dilatih Meta pada skala ini.

Hasil evaluasi para peneliti berdasarkan lebih dari 150 set uji benchmark menunjukkan bahwa,Llama 3.1 405B bekerja dengan GPT-4o, Claude 3.5 Sonnet dan Gemini Ultra serta model kepala industri lainnya.。

Selain performanya yang kuat, pendiri dan CEO Meta Mark Zuckerberg juga secara pribadi mengeluarkan artikel untuk mendukungnya. Ia mengatakan bahwa selain memiliki biaya dan performa yang lebih baik dibandingkan model sumber tertutup,Model open source 405B akan menjadi pilihan terbaik bagi perusahaan untuk menyempurnakan dan melatih model yang lebih kecil。

Meta AI mengumumkan aksesnya ke Llama 3.1 405B dan meluncurkan fungsi-fungsi baru seperti pengeditan gambar AI, pemrograman AI, dan asisten cerdas perangkat VR/AR. Zuckerberg memperkirakan,Penggunaan asisten Meta AI akan melampaui ChatGPT dalam beberapa bulan。

▲Meta AI mendukung interaksi audio dan video real-time antara headset Quest dan pengguna

Ekosistem open source Meta juga sudah siap. Meta danLebih dari 25 mitraModel Llama 3.1 akan tersedia antara lain Amazon AWS, NVIDIA, Databricks, Groq, Dell, Microsoft Azure dan Google Cloud.

Hingga saat ini, total unduhan semua versi model Llama telah melampaui300 juta kali, peluncuran model Llama 3.1, yang setara dengan model sumber tertutup mainstream, mungkin berarti bahwa kisah model sumber terbuka yang ingin diceritakan Meta baru saja dimulai...

Tautan unduhan model:

https://llama.meta.com/

https://huggingface.co/meta-llama

Tautan kertas:

https://t.co/IZqC6DJkaq

▲ Abstrak interpretasi makalah model Meta Llama 3.1

1. Model sumber terbuka 405B dibandingkan dengan GPT-4o, dan 25 mitra siap

Meta mengevaluasi kinerja lebih dari 150 kumpulan data benchmark dan menemukan bahwa Llama 3.1 405B sebanding dengan GPT-4o, Claude 3.5 Sonnet, dan Gemini Ultra dalam serangkaian tugas seperti akal sehat, pengoperasian, matematika, penggunaan alat, dan terjemahan multi-bahasa .

Dalam skenario kehidupan nyata, Llama 3.1 405B dibandingkan dengan evaluasi manusia dan evaluasinyaPerforma keseluruhannya lebih baik dibandingkan GPT-4o dan Claude 3.5 Sonnet。

ditingkatkanLama 3.1 8B dan 70BModel juga berperforma lebih baik daripada model dengan ukuran parameter yang sama. Model parameter yang lebih kecil ini mendukung jendela konteks 128K Token yang sama, multi-bahasa, inferensi yang lebih baik, dan penggunaan alat canggih untuk mendukung aplikasi yang lebih canggih.

Meta telah memperbarui lisensinya untuk memungkinkan pengembang, untuk pertama kalinya, menggunakan keluaran model Llama termasuk skala parameter 405B untuk menyempurnakan model lainnya.

Pada saat yang sama, ekosistem open source Meta semakin berkembang, dan lebih dari 25 perusahaan telah meluncurkan model Llama 3.1 baru.

di dalam,Teknologi Amazon Cloud, Databricks, dan Nvidia Serangkaian layanan lengkap diluncurkan untuk mendukung pengembang dalam menyempurnakan dan melatih model mereka sendiri. Startup chip AI Groq dan lainnya telah membangun layanan inferensi berlatensi rendah dan berbiaya rendah untuk semua model baru yang dirilis oleh Meta kali ini.

Pada saat yang sama, model-model ini akan menjadiTeknologi Amazon Cloud, Microsoft Azure, Google Cloud, OracleMenyediakan layanan pada platform cloud utama.

Skala AI, Dell, DeloittePerusahaan seperti Llama siap membantu perusahaan mengadopsi model Llama dan melatih model khusus menggunakan data mereka sendiri.

Llama 3.1 405B tidak hanya merupakan model open source terkuat, tetapi juga diharapkan menjadi model terkuat. Jarak antara open source dan close source telah diperpendek lagi.

2. Optimalkan tumpukan pelatihan sepenuhnya dan fokus untuk membuat model dapat diskalakan

Agar dapat melatih model berdasarkan 15 triliun Token sekaligus mencapai hasil yang diinginkan para peneliti dalam waktu yang wajar, Meta telah sepenuhnya mengoptimalkan tumpukan pelatihan.

Dalam mengatasi tantangan di atas, Meta memilih untuk fokus pada strategi yang menjaga proses pengembangan model tetap terukur dan mudah:

1. Peneliti memilihArsitektur model Transformer khusus dekoder standarMelakukan sedikit penyesuaian dibandingkan menggunakan model ahli hibrida MoE dapat memaksimalkan stabilitas pelatihan.

2. Para peneliti menggunakanProsedur pasca pelatihan yang berulang , menggunakan penyesuaian yang diawasi dan pengoptimalan preferensi langsung di setiap putaran. Hal ini memungkinkan model untuk membuat data sintetis kualitas tertinggi untuk setiap putaran dan meningkatkan kinerja di setiap kemampuan.

Dibandingkan dengan model seri Llama sebelumnya, Meta meningkatkan kuantitas dan kualitas data yang digunakan untuk pra-pelatihan dan pasca-pelatihan.Peningkatan tersebut meliputiMengembangkan jalur pra-pemrosesan dan pengelolaan yang lebih hati-hati untuk data pra-pelatihan, mengembangkan jaminan kualitas yang lebih ketat, dan memfilter metode untuk data pasca-pelatihan。

Seperti yang diharapkan dari Hukum Penskalaan model bahasa besar, model andalan baru Meta mengungguli model kecil yang dilatih menggunakan strategi yang sama. Meta juga meningkatkan kualitas pelatihan model yang lebih kecil menggunakan model dengan parameter 405B.

Pada saat yang sama, untuk mendukung inferensi skala besar model parameter 405B, para peneliti mengkuantisasi model dari BF16 ke FP8, sehingga secara efektif mengurangi persyaratan komputasi yang diperlukan dan memungkinkan model dijalankan dalam satu node server.

Dalam hal penyempurnaan instruksi dan obrolan, para peneliti menghasilkan model akhir dengan melakukan beberapa putaran penyelarasan di atas model yang telah dilatih sebelumnya, dengan setiap putaran melibatkan pengawasan fine-tuning (SFT), pengambilan sampel penolakan (RS), dan optimasi preferensi langsung (DPO). Sebagian besar contoh SFT dihasilkan menggunakan pembuatan data sintetis untuk menghasilkan data sintetis berkualitas lebih tinggi di semua fitur.

Selain itu, Meta menggunakan beberapa teknik pemrosesan data untuk memfilter data sintetis ini ke kualitas tertinggi, yang memungkinkan model baru menyesuaikan volume data di seluruh skalabilitas fungsional.

Di sisi data, para peneliti juga secara cermat menyeimbangkan data untuk menghasilkan model berkualitas tinggi dengan segala fitur. Misalnya, mempertahankan kualitas model pada tolok ukur konteks pendek memungkinkannya menskalakan hingga panjang konteks 128 ribu.

Selain itu, Meta juga mengumumkan peluncuran secara keseluruhansistem lama . Selain mencakup model Llama, sistem ini juga melibatkan koordinasi beberapa komponen dan panggilan alat eksternal untuk membantu pengembang mengembangkan produk khusus yang lebih kuat dari model dasar.

Sistem Llama akan mencakup serangkaian komponen baru, termasuk open source barualat keamanan Seperti Llama Guard 3 (model keamanan multi-bahasa) dan Prompt Guard (filter injeksi instan). Untuk menghubungkan komponen yang berbeda, Meta juga telah mengeluarkan permintaan komentar pada Llama Stack API, antarmuka standar yang memudahkan proyek pihak ketiga untuk memanfaatkan model Llama.

Bagi pengembang biasa, menggunakan model skala 405B masih merupakan sebuah tantangan, yang memerlukan banyak sumber daya komputasi dan keahlian.

Berdasarkan sistem Llama, pengembangan AI generatif bukan hanya tentang mendorong model. Setiap orang harus dapat menggunakan model 405B untuk menyelesaikan lebih banyak tugas, termasuk penalaran real-time dan batch, penyesuaian yang diawasi, evaluasi model untuk aplikasi tertentu, dan berkelanjutan. pra-pelatihan, dan pembuatan yang ditingkatkan pengambilan (RAG), pemanggilan fungsi, pembuatan data sintetis, dll.

Ini adalah model terbesar yang diluncurkan oleh Meta hingga saat ini, dan lebih banyak ukuran yang ramah perangkat, lebih banyak mode, dan pembaruan di tingkat agen akan dirilis di masa mendatang.

tiga,Modifikasi bahan peledak model besar 405BAI Meta, Quest asisten suara cerdasmeningkatkan

Sekarang, beberapa terminal milik Meta, sepertiObrolan WhatsApp dan Meta AIZhongdu mulai menggunakan Llama 3.1 405B.

Meta AI saat ini mendukung tujuh bahasa baru. Kali ini Meta meluncurkan serangkaian alat kreatif Meta AI baru, yang terutama berfokus pada bidang-bidang seperti generasi visual, matematika, dan pengkodean.

Tampilan pertama pada generasi visual, Meta AI diluncurkanFungsi prompt pembuatan gambar “Imagine Me”., yang memungkinkan pengguna mengetik “bayangkan saya” di obrolan Meta AI dan menambahkan perintah seperti “bayangkan saya sebagai bangsawan” atau “bayangkan saya dalam lukisan surealis” untuk menghasilkan gambar dan membaginya dengan teman dan keluarga.

Meta AI akan online"Edit Dengan AI" fitur ini, pengguna dapat dengan mudah menambahkan atau menghapus objek dengan mengklik mouse, atau mengubah dan mengeditnya sambil menjaga gambar lainnya tidak berubah, seperti "Ubah Cat ke Corgi". Meta AI juga akan mendukung penambahan gambar yang baru dibuat ke postingan Facebook, serta di platform sosial seperti Instagram, Messenger, dan WhatsApp.

Dalam matematika dan pemrograman, pengguna bisa mendapatkan bantuan dalam tugas matematika dengan penjelasan dan umpan balik langkah demi langkah, menulis kode lebih cepat dengan dukungan debugging dan saran pengoptimalan, dan menguasai konsep teknis dan ilmiah yang kompleks dengan bimbingan ahli.

Pengguna dapat menggabungkan keahlian pengkodean Meta AI dan kemampuan pembuatan gambar untuk membuat game baru dari awal atau versi baru dari game klasik. Hanya perlu beberapa menit untuk mewujudkan ide fantastis Anda dan bahkan membiarkan pengguna melihat pratinjau game secara langsung.

Perlu disebutkan bahwa Meta AI juga cocok untuk ituKacamata pintar Ray-Ban Meta , dan akan diluncurkan dalam mode eksperimental di Meta Quest di AS dan Kanada bulan depan. Meta AI akan menggantikan perintah suara saat ini di Quest, memungkinkan pengguna mengontrol headset secara handsfree, mendapatkan jawaban atas pertanyaan, tetap mendapatkan informasi terkini, memeriksa cuaca, dan banyak lagi.

Pengguna juga dapat menggunakan Meta AI dengan tampilan yang mereka lihat di headset, seperti menanyakan hal-hal yang mereka lihat di lingkungan fisik.

4. Surat terbuka Zuckerberg: Open source lebih baik bagi pengembang, Meta, dan dunia

Seri Llama 3.1 baru saja dirilis, dan blog panjang Zuckerberg telah diluncurkan di situs resminya pada saat yang bersamaan, membuat bau mesiu antara model open source dan close source semakin kuat.

▲ Tangkapan layar sebagian dari surat terbuka Zuckerberg

Pada awalnya, Zuckerberg menyebutkan bahwa kesenjangan antara model open source dan model close source secara bertahap semakin dekat. Tahun lalu, Llama 2 hanya setara dengan model sumber tertutup tercanggih generasi sebelumnya. Tahun ini, Llama 3 setara dengan model tercanggih dan memimpin di beberapa area.

Mulai tahun depan, ia mengharapkan model Llama menjadi yang paling maju di industri . Dan model seri Llama saat ini sudah berada di posisi terdepan dalam hal keterbukaan, kemampuan modifikasi, dan efektivitas biaya.

Dalam blognya, ia menunjuk langsung pada model sumber tertutup dan menjawab tiga pertanyaan utama: mengapa AI sumber terbuka baik bagi pengembang, mengapa AI sumber terbuka baik untuk Meta, dan mengapa AI sumber terbuka baik bagi dunia.

Pertama, mengapa AI open source bagus untuk pengembang?

Dia percaya bahwa pengembang perlu melatih dan menyempurnakan model mereka sendiri untuk memenuhi kebutuhan spesifik mereka; pengembang perlu mengendalikan nasib mereka sendiri daripada terikat pada pemasok tertutup. Pengembang perlu melindungi data mereka sendiri; model yang murah untuk dijalankan; pengembang ingin berinvestasi pada ekosistem yang akan menjadi standar jangka panjang.

Manfaat AI open source bagi Meta adalah model bisnis Meta adalah membangun pengalaman dan layanan terbaik bagi masyarakat. Untuk melakukan hal ini, ia yakin Meta harus memastikan bahwa Meta selalu memiliki akses terhadap teknologi terbaik dan tidak terjerumus ke dalam ketertutupan ekosistem pesaing.

Pada saat yang sama, AI open source akan mendorong Meta untuk mengembangkan Llama menjadi ekosistem lengkap yang berpotensi menjadi standar industri.

Dia juga menyebutkan bahwa salah satu perbedaan utama antara Meta dan pemain model sumber tertutup adalah bahwa menjual akses ke model AI bukanlah model bisnis Meta, yang berarti sumber terbuka tidak akan mengurangi pendapatan, keberlanjutan, atau investasi lanjutannya dalam kemampuan penelitian .

Terakhir, Meta memiliki sejarah panjang dalam proyek open source dan kesuksesan.

Mengenai perdebatan mengenai keamanan model AI open source, Zuckerberg mengatakan hal iniAI open source akan lebih aman dibandingkan opsi lainnya . Ia percaya bahwa open source akan memastikan lebih banyak orang di seluruh dunia dapat menikmati manfaat dan peluang yang diberikan oleh AI, bahwa kekuasaan tidak terkonsentrasi di tangan segelintir perusahaan, dan bahwa teknologi dapat diterapkan secara lebih merata dan aman di seluruh masyarakat.

Kesimpulan: Meta telah mengambil langkah lain, dan perdebatan mengenai sumber terbuka dan tertutup pada model besar telah berubah.

Pertarungan antara model besar sumber terbuka dan tertutup terus berlanjut...

Dari perilisan model seri Meta Llama 3.1, terlihat bahwa kesenjangan antara model sumber terbuka dan sumber tertutup yang besar semakin menyempit, dan terdapat kecenderungan yang kuat untuk saling mengimbangi dan mengejar ketertinggalan. . Sebagai pendukung setia kamp model besar open source dan pelopor inovasi teknologi, Meta telah bertekad untuk membangun ekosistem open source sendiri sejak peluncuran seri model Llama. Pada saat yang sama, dibandingkan dengan model Llama sebelumnya, Meta rilis model baru ini juga akan membangun tim internal untuk memungkinkan sebanyak mungkin pengembang dan mitra menggunakan seri Llama.

Meta telah mengambil langkah lain, membuat kesimpulan perdebatan model sumber terbuka dan sumber tertutup semakin membingungkan. Namun dalam analisis akhir, dalam aplikasi sebenarnya, banyak perusahaan dan pengembang akan memilih untuk menggunakan model sumber terbuka atau sumber tertutup sesuai dengan kebutuhan dan situasi tertentu. Oleh karena itu, diperlukan waktu untuk membuktikan kemampuan spesifik model dan penerapannya secara nyata. skenario kehidupan.

berita

Model besar open source yang paling kuat menjadi dewa dalam semalam! Llama 3.1 dirilis secara mengejutkan, era GPT-4 yang benar-benar universal telah tiba

Perkenalan

informasi kontak saya