berita

Open source = model paling kuat! Llama 3.1 dirilis, Zuckerberg: momen penting

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

hanya,Liama ​​3.1Resmi dirilis, naik takhta model besar!

Di lebih dari 150 set pengujian benchmark, performa versi 405B setara atau bahkan melampaui model SOTA GPT-4o dan Claude 3.5 Sonnet yang ada.

Dengan kata lain, kali ini,Model open source terkuat adalah model terkuat



Sebelumnya Llama 3.1 sudah berkali-kali terekspos dan bocor, dan kini bisa dikatakan sudah ditunggu-tunggu sejak lama.

Mulai hari ini, modelnya dapat diunduh dan digunakan di situs resminya, dan aplikasi Meta AI dapat dicoba secara online.

Yang lebih dihargai oleh komunitas riset adalah dirilisnya hampir 100 halaman makalah terperinci, yang mencakup segala hal dalam proses pembuatan Llama 3.1: data pra-pelatihan, pemfilteran, anil, data sintetis, undang-undang penskalaan, infrastruktur, paralelisme, pelatihan resep, adaptasi pasca pelatihan, penggunaan alat, benchmarking, strategi inferensi, kuantifikasi, visi, suara, video...

Kepala ilmuwan HuggingFace memuji: Jika Anda mulai mempelajari model besar dari awal, mulailah membaca makalah ini.



Xiao ZhaZuckerbergDalam wawancara terbarunya dengan Bloomberg, dia secara khusus mengejek OpenAI.

  • Kepemimpinan Altman patut dipuji, namun agak ironis bahwa perusahaan bernama OpenAI telah menjadi pemimpin dalam membangun model kecerdasan buatan yang tertutup.



Xiao Zha juga menulis artikel panjang khusus untuk ini:AI open source adalah jalan ke depan

Di masa lalu, model sumber terbuka sebagian besar tertinggal dibandingkan model sumber tertutup dalam hal kinerja, fungsionalitas, dll., namun sekarang:

  • Sama seperti Linux open source, ia menonjol di antara sistem sumber tertutup dan mendapatkan popularitas, secara bertahap menjadi lebih maju dan lebih aman, serta memiliki ekosistem yang lebih luas daripada sistem sumber tertutup.
  • Saya yakin Llama 3.1 akan menjadi titik balik dalam industri ini.



Hingga saat ini, total unduhan semua versi Llama telah melampaui 300 juta kali, dan Meta juga membuat klaim yang berani:

  • Ini baru permulaan.

Vendor cloud besar juga telah meluncurkan dukungan untuk Llama 3.1 sesegera mungkin, dan harganya sesuai dengan harga Bibi Jiang:



LIama 3.1 resmi dirilis

Pertama-tama mari kita lihat kemampuan model.

Llama 3.1 memperluas panjang konteks hingga 128K dan menambahkan dukungan untuk delapan bahasa.

Diantaranya, versi Piala Super Besar 405B telah menyamai dan melampaui model-model teratas yang ada dalam hal akal sehat, kemampuan manuver, matematika, penggunaan alat, dan kemampuan terjemahan multi-bahasa.





Selain itu, versi upgrade dari model 8B dan 70B juga telah diluncurkan, dan kemampuannya pada dasarnya sama dengan model teratas dengan parameter yang sama.



Mari kita lihat lagiArsitektur model

Menurut pengenalan resmi, melatih model Llama 3.1 405B pada lebih dari 15 triliun token merupakan sebuah tantangan yang cukup besar.

Untuk mencapai tujuan ini, mereka secara signifikan mengoptimalkan seluruh tumpukan pelatihan dan memperluas skala daya komputasi model hingga lebih dari 16.000 GPU H100 untuk pertama kalinya.



Secara khusus, kami masih mengadopsi arsitektur Transformer khusus dekoder standar dan membuat beberapa perubahan kecil; dan mengadopsi proses pasca-pelatihan berulang, dengan SFT (pengaturan halus yang diawasi) dan DPO (optimasi preferensi langsung) di setiap putaran untuk meningkatkan setiap putaran. Kinerja kemampuan.

Dibandingkan dengan versi Llama sebelumnya, mereka telah meningkatkan kuantitas dan kualitas data yang digunakan untuk pra-pelatihan dan pasca-pelatihan.

Untuk mendukung inferensi produksi massal model ukuran 405B, Meta mengkuantisasi model dari nilai 16-bit (BF16) menjadi 8-bit (FP8), sehingga secara efektif mengurangi persyaratan komputasi yang diperlukan dan memungkinkan model berjalan dalam satu node server. .

adaPenyempurnaan instruksiDi sisi lain, Meta juga meningkatkan kemampuan model untuk merespons instruksi pengguna dan meningkatkan kemampuannya untuk mengikuti instruksi terperinci sambil memastikan keamanan.

Pada tahap pasca-pelatihan, Meta melakukan beberapa putaran penyelarasan berdasarkan model yang telah dilatih sebelumnya.

Setiap putaran mencakup Supervised Fine-Tuning (SFT), Rejection Sampling (RS), dan Direct Preference Optimization (DPO).

Mereka menghasilkan sebagian besar contoh SFT menggunakan data sintetis dan melakukan iterasi beberapa kali.

Selain itu, berbagai teknik pemrosesan data digunakan untuk memfilter data sintetis ini dengan kualitas terbaik.

Sebanyak 15T token dibersihkan dan disaring menggunakan model Llama 2, sedangkan jalur pemrosesan data terkait kode dan matematika sebagian besar menggunakan metode Deepseek.



Selain respons paling dasar menurut kata-kata cepat, pejabat Meta mengatakan bahwa pengembang biasa mana pun dapat menggunakannya untuk melakukan hal-hal lanjutan, seperti:

  • Inferensi real-time dan batch
  • Awasi penyempurnaan
  • Evaluasi model untuk aplikasi spesifik
  • Pra-pelatihan berkelanjutan
  • Pengambilan Augmented Generation (RAG)
  • panggilan fungsi
  • Pembuatan data sintetis

Dan di balik hal ini adalah dukungan dari mitra ekologis yang kuat.



Xiao Zha menulis artikel panjang: AI open source adalah jalan ke depan

(Berikut ini diterjemahkan oleh Big Model, dan konten utamanya diekstraksi. Jika ada kekurangan atau kesalahan, harap diperbaiki!)

Pada masa-masa awal komputasi berkinerja tinggi, perusahaan-perusahaan teknologi besar pada saat itu berinvestasi besar-besaran dalam mengembangkan Unix versi sumber tertutup mereka sendiri. Pada saat itu, sulit membayangkan perangkat lunak canggih seperti itu dapat diproduksi dengan cara lain selain sumber tertutup. Namun, sistem operasi Linux open source akhirnya mendapatkan popularitas yang luas - awalnya karena memungkinkan pengembang untuk memodifikasi kode secara bebas dan lebih murah seiring waktu, Linux tidak hanya menjadi lebih maju dan aman, tetapi juga membangun ekosistem yang lebih luas daripada Unix sumber tertutup mana pun; sistem, mendukung lebih banyak fitur. Saat ini, Linux adalah landasan standar industri untuk komputasi awan dan sebagian besar sistem operasi perangkat seluler, dan kita semua menikmati produk yang lebih baik karenanya.

Saya yakin kecerdasan buatan akan berkembang dengan cara yang sama . Saat ini, beberapa perusahaan teknologi sedang mengembangkan model sumber tertutup terkemuka. Namun open source dengan cepat menutup kesenjangan tersebut. Tahun lalu, Llama 2 hanya sebanding dengan model generasi sebelumnya. Tahun ini, Llama 3 bersaing dengan model tercanggih dan memimpin di beberapa area. Mulai tahun depan, kami berharap model Llama masa depan menjadi yang paling canggih di industri. Namun sebelum itu, Llama sudah memimpin dalam hal keterbukaan, kemampuan untuk dimodifikasi, dan efisiensi biaya.

Hari ini kita sedang bergerak menuju“Kecerdasan buatan sumber terbuka menjadi standar industri” arah. Kami merilis Llama 3.1 405B, model AI open source mutakhir pertama, serta model Llama 3.1 70B dan 8B yang ditingkatkan. Selain memiliki rasio biaya/kinerja yang jauh lebih baik dibandingkan model sumber tertutup, keterbukaan model 405B akan menjadikannya pilihan terbaik untuk menyempurnakan dan menyaring model yang lebih kecil.

Selain merilis model-model ini, kami bekerja sama dengan sejumlah perusahaan untuk mengembangkan ekosistem yang lebih luas. Amazon, Databricks, dan Nvidia meluncurkan serangkaian layanan yang memungkinkan pengembang menyempurnakan dan menyaring model mereka sendiri. Inovator seperti Groq telah membangun layanan inferensi berlatensi rendah dan berbiaya rendah untuk semua model baru. Model-model ini akan tersedia di semua platform cloud utama, termasuk AWS, Azure, Google, Oracle, dan banyak lagi. Perusahaan seperti Scale.AI, Dell, Deloitte, dan lainnya siap membantu perusahaan mengadopsi Llama dan melatih model khusus dengan data mereka sendiri. Seiring berkembangnya komunitas dan semakin banyak perusahaan yang mengembangkan layanan baru, bersama-sama kita dapat menjadikan Llama sebagai standar industri, sehingga memberikan manfaat AI bagi semua orang.

Meta didedikasikan untuk kecerdasan buatan sumber terbuka. Saya akan menjelaskan mengapa menurut saya open source adalah tumpukan pengembangan terbaik, mengapa Llama open source baik untuk Meta, dan mengapa AI open source baik untuk dunia dan oleh karena itu merupakan platform berkelanjutan jangka panjang.

Mengapa AI open source baik untuk pengembang

Saat saya berbicara dengan pengembang, CEO, dan pejabat di seluruh dunia, saya biasanya mendengar beberapa tema:

  • Kita perlu melatih, menyempurnakan, dan menyaring model kita sendiri . . Setiap organisasi memiliki kebutuhan uniknya masing-masing dan paling cocok menggunakan model dengan ukuran berbeda yang dapat dilatih atau disesuaikan berdasarkan data spesifik mereka. Untuk tugas pada perangkat dan tugas klasifikasi, model kecil sudah cukup; untuk tugas yang lebih kompleks, diperlukan model besar. Sekarang Anda dapat memanfaatkan model Llama yang canggih, terus melatihnya dengan data Anda sendiri, lalu menyaringnya menjadi ukuran model yang paling sesuai dengan kebutuhan Anda - tanpa membiarkan kami atau orang lain melihat data Anda.
  • Kita perlu mengendalikan nasib kita sendiri dan tidak terjebak dalam vendor sumber tertutup . Banyak organisasi tidak mau bergantung pada model yang tidak dapat mereka jalankan dan kendalikan sendiri. Mereka tidak ingin penyedia model sumber tertutup dapat mengubah model, mengubah ketentuan penggunaan, atau bahkan menghentikan layanan sepenuhnya. Mereka juga tidak ingin dibatasi untuk menggunakan model secara eksklusif hanya pada satu platform cloud. Open source memungkinkan ekosistem perusahaan yang luas untuk memiliki toolchain yang kompatibel, sehingga Anda dapat dengan mudah berpindah di antara mereka.
  • Kita perlu menjaga keamanan data kita . Banyak organisasi menangani data sensitif yang perlu dilindungi dan tidak dapat dikirim melalui cloud API dalam model sumber tertutup. Ada juga organisasi yang tidak mempercayai penyedia model sumber tertutup dengan data mereka. Open source memecahkan masalah ini dengan memungkinkan Anda menjalankan model di mana saja. Ada kepercayaan umum bahwa perangkat lunak open source umumnya lebih aman karena proses pengembangannya lebih transparan.
  • Kita membutuhkan model yang beroperasi secara efisien dan terjangkau . Pengembang dapat menjalankan inferensi Llama 3.1 405B pada infrastruktur mereka sendiri, baik untuk tugas inferensi langsung maupun offline, dengan biaya sekitar setengah biaya menggunakan model sumber tertutup seperti GPT-4o.
  • Kami ingin berinvestasi pada ekosistem yang akan menjadi standar jangka panjang . Banyak orang melihat open source bergerak lebih cepat dibandingkan model close source, dan mereka ingin membangun sistem mereka berdasarkan arsitektur yang akan memberikan keuntungan terbesar dalam jangka panjang.

Mengapa AI open source bagus untuk Meta

Model bisnis Meta adalah menciptakan pengalaman dan layanan terbaik bagi masyarakat. Untuk melakukan hal ini, kita harus memastikan bahwa kita selalu memiliki akses terhadap teknologi terbaik dan tidak terjebak dalam ekosistem sumber tertutup pesaing, sehingga membatasi kemampuan kita untuk berinovasi.

Salah satu pengalaman utama saya adalah layanan kami dibatasi oleh pembatasan Apple terhadap apa yang dapat kami bangun di platform mereka. Dari cara mereka mengenakan pajak kepada pengembang, hingga peraturan yang mereka terapkan secara serampangan, hingga semua inovasi produk yang mereka cegah agar tidak dirilis, jelas bahwa jika kita dapat membangun versi terbaik dari produk kita tanpa pesaing kita dapat membatasi inovasi kita, Meta dan banyak perusahaan lain akan mampu memberikan layanan yang lebih baik kepada masyarakat. Secara filosofis, inilah alasan utama mengapa saya sangat yakin dalam membangun ekosistem terbuka untuk komputasi generasi berikutnya dalam AI dan AR/VR.

Orang-orang sering bertanya kepada saya apakah saya khawatir akan kehilangan keunggulan teknis dengan Llama open source, namun menurut saya hal ini tidak mencerminkan gambaran yang lebih besar karena beberapa alasan:

Pertama, untuk memastikan bahwa kita memiliki akses terhadap teknologi terbaik dan tidak terjebak dalam ekosistem sumber tertutup dalam jangka panjang, Llama perlu berevolusi menjadi ekosistem alat yang lengkap, termasuk peningkatan efisiensi, optimalisasi silikon, dan integrasi lainnya. Jika kami adalah satu-satunya perusahaan yang menggunakan Llama, ekosistem tidak akan berkembang dan kinerja kami tidak akan lebih baik daripada Unix versi sumber tertutup.

Kedua, saya memperkirakan perkembangan AI akan terus menjadi sangat kompetitif, artinya open source pada model tertentu tidak memberikan keuntungan yang signifikan dibandingkan model terbaik berikutnya pada saat itu. Jalan Llama untuk menjadi standar industri adalah dengan terus menjaga daya saing, efisiensi dan keterbukaan, berkembang dari generasi ke generasi.

Ketiga, perbedaan utama antara penyedia model Meta dan sumber tertutup adalah bahwa menjual akses ke model AI bukanlah model bisnis kami. Artinya, merilis Llama ke publik tidak mengganggu pendapatan, keberlanjutan, atau kemampuan kami untuk berinvestasi dalam penelitian, dan hal ini tidak berlaku bagi penyedia sumber tertutup.

Terakhir, Meta memiliki sejarah panjang dalam proyek open source dan kesuksesan. Kami telah menghemat miliaran dolar melalui proyek Open Compute dengan merilis desain server, jaringan, dan pusat data serta membiarkan rantai pasokan menstandarkan desain kami. Kami mendapat manfaat dari inovasi ekosistem dengan menggunakan alat-alat terkemuka yang bersifat open source seperti PyTorch, React, dan banyak lagi. Pendekatan ini selalu berhasil bagi kami dalam jangka panjang.

Mengapa AI open source bermanfaat bagi dunia

Saya percaya open source sangat penting untuk mencapai masa depan AI yang positif. Kecerdasan buatan memiliki potensi lebih besar dibandingkan teknologi modern lainnya dalam meningkatkan produktivitas, kreativitas, dan kualitas hidup manusia—dan mempercepat pertumbuhan ekonomi sekaligus mendorong kemajuan dalam bidang kedokteran dan penelitian ilmiah. Open source akan memastikan lebih banyak orang di seluruh dunia memiliki akses terhadap manfaat dan peluang AI, kekuasaan tidak terkonsentrasi di tangan segelintir perusahaan, dan teknologi dapat diterapkan secara lebih merata dan aman di seluruh masyarakat.

Terdapat perdebatan yang sedang berlangsung mengenai keamanan model AI open source, dan menurut pendapat saya, AI open source akan lebih aman dibandingkan alternatif lainnya.

Saya memahami kerangka keselamatan yang perlu kita lindungi dari dua jenis bahaya: tidak disengaja dan disengaja. Kerugian yang tidak disengaja adalah ketika sistem AI dapat menimbulkan kerugian meskipun orang yang menjalankannya tidak bermaksud melakukannya. Misalnya, model AI modern mungkin secara tidak sengaja memberikan saran kesehatan yang buruk. Atau, dalam skenario yang lebih futuristik, beberapa orang khawatir bahwa model dapat mereplikasi dirinya sendiri secara tidak sengaja atau mengoptimalkan sasaran secara berlebihan sehingga merugikan manusia. Kerugian yang disengaja adalah ketika pelaku kejahatan menggunakan model AI dengan tujuan menyebabkan kerugian.

Patut dicatat bahwa kerusakan yang tidak disengaja mencakup sebagian besar kekhawatiran masyarakat mengenai kecerdasan buatan—mulai dari dampak sistem AI terhadap miliaran orang yang menggunakannya, hingga sebagian besar skenario fiksi ilmiah yang benar-benar membawa bencana bagi umat manusia. Dalam hal ini, open source seharusnya lebih aman karena sistemnya lebih transparan dan dapat diteliti secara luas. Secara historis, perangkat lunak sumber terbuka lebih aman. Demikian pula, menggunakan Llama dan sistem keamanannya seperti Llama Guard kemungkinan akan lebih aman dan andal dibandingkan model sumber tertutup. Akibatnya, sebagian besar perbincangan tentang keamanan AI open source berfokus pada bahaya yang disengaja.

Proses keselamatan kami mencakup pengujian ketat dan tim merah untuk mengevaluasi kemampuan model kami dalam menyebabkan bahaya yang signifikan, dengan tujuan memitigasi risiko sebelum dirilis. Karena modelnya terbuka, siapa pun dapat mengujinya sendiri. Kita harus ingat bahwa model ini dilatih berdasarkan informasi yang sudah ada di web, jadi ketika mempertimbangkan dampak buruknya, titik awalnya haruslah apakah model tersebut dapat berkontribusi terhadap lebih banyak dampak buruk daripada informasi yang dapat diambil dengan cepat dari Google atau hasil penelusuran lainnya.

Saat Anda mempertimbangkan peluang masa depan, ingatlah bahwa sebagian besar perusahaan teknologi dan penelitian ilmiah terkemuka saat ini dibangun di atas perangkat lunak sumber terbuka. Jika kita berinvestasi bersama, perusahaan dan penelitian generasi berikutnya akan menggunakan AI open source.

Yang terpenting, AI open source mewakili peluang terbaik dunia untuk memanfaatkan teknologi ini guna memaksimalkan peluang ekonomi dan keamanan bagi semua orang.

mari kita membangun bersama

Seperti model Llama sebelumnya, Meta berkembang dan kemudian merilis dirinya sendiri tanpa terlalu memperhatikan pembangunan ekosistem yang lebih luas. Kami mengambil pendekatan berbeda dengan peluncuran ini. Kami membangun tim secara internal untuk membuat Llama tersedia bagi sebanyak mungkin pengembang dan mitra, dan kami juga secara aktif membangun kemitraan sehingga lebih banyak perusahaan di ekosistem ini juga dapat memberikan kemampuan unik kepada pelanggan mereka.

aku percayaPeluncuran Llama 3.1 akan menjadi titik balik bagi industri , sebagian besar pengembang akan mulai menggunakan sumber terbuka, dan saya berharap pendekatan ini akan berkembang mulai sekarang. Saya harap Anda akan bergabung dengan kami dalam perjalanan kami untuk memberikan manfaat kecerdasan buatan kepada semua orang di dunia.

Tautan wawancara terbaru:
https://x.com/rowancheung/status/1815763595197616155

Tautan referensi:
[1]https://about.fb.com/news/2024/07/ai-sumber-terbuka-adalah-jalan-maju/
[2]https://ai.meta.com/blog/meta-llama-3-1/