Llama 3.1 resmi dirilis: 405 miliar parameter model open source, Xiao Zha: Jalankan open source hingga akhir

Llama 3.1 resmi dirilis: 405 miliar parameter model open source, Xiao Zha: Jalankan open source sampai akhir

2024-07-24

Teks |. Deng Yongyi dan Zhou Xinyu

Editor｜Su Jianxun

Tahta GPT-4o belum hangat, Xiao Zha memimpin pasukan open source dan bergegas ke sana——

Seperti yang dikabarkan sebelumnya, Meta resmi merilis Llama 3.1 pada 23 Juli Waktu Pasifik di Amerika Serikat. Ini adalah seri model besar yang paling banyak digunakan dan berkinerja terbaik di bidang open source saat ini.

Secara kebetulan, sehari sebelum dirilis, Llama 3.1 telah "bocor" di komunitas pengembang. Selain informasi model, juga disertakan tautan magnet ke model 405B.

Informasi Llama 3.1 yang dirilis secara resmi juga sesuai dengan berita: ada tiga ukuran: 8B, 70B dan 405B, dan panjang konteks telah ditingkatkan menjadi 128K.

Menurut data pengujian benchmark yang disediakan oleh Meta, 405B paling populer (405 miliar parameter) sudah memiliki kinerja yang sebanding dengan GPT-4 dan Claude 3.5.

△Perbandingan dengan GPT-4 dan Claude 3.5

Llama 3.1 tidak takut dengan model teratas Yishui saat ini:

△Perbandingan dengan model sumber tertutup

△Perbandingan dengan model sumber terbuka

Dapat dikatakan bahwa rilis Llama 3.1 telah menandai tonggak sejarah dalam pertarungan sengit baru-baru ini antara rute open source dan sumber tertutup: model open source teratas telah benar-benar bergabung dengan model sumber tertutup teratas.

“Sejauh ini, model bahasa open source berskala besar sebagian besar tertinggal dibandingkan model tertutup dalam hal fungsionalitas dan kinerja. Sekarang, kita sedang mengantarkan era baru yang dipimpin oleh open source.”

△ Gambaran yang menjadi populer di kalangan AI baru-baru ini, model sumber terbuka menyusul model sumber tertutup

Meta juga melampirkan makalah setebal 92 halaman pada rilis resminya, mengungkapkan rincian pelatihan:

Llama 3.1 dilatih pada data lebih dari 15 triliun token, menggunakan 16,000 blok H100. Data pra pelatihan yang digunakan per Desember 2023. Untuk memastikan stabilitas pelatihan, hanya arsitektur model Transformer yang digunakan untuk penyesuaian, bukan arsitektur Mixed Expert Model (MoE) yang saat ini populer.

Hal ini juga mengarah pada fakta bahwa Llama 3.1 dapat mempertahankan keluaran berkualitas tinggi dari jendela konteks pendek meskipun diperluas hingga panjang konteks 128K. Ini bukan lagi "teks panjang khusus", tetapi "panjang dan pendek bebas".

Saat ini belum ada model open source sebesar ini di dunia yang mampu mencapai skala pelatihan sebesar itu.

Untuk lebih jelasnya, kami juga memperkenalkannya secara detail di push beberapa jam yang lalu. Saya tidak akan membahas detailnya di sini.

Pada tahun 2024, ketika skala pelatihan model menjadi semakin besar, para pengembang juga bertanya-tanya: Akankah perusahaan besar yang telah membayar biaya pelatihan yang besar terus melakukan open source?

Bagaimanapun juga, OpenAI merupakan pembelajaran dari masa lalu - OpenAI menganut semangat open source pada awalnya, namun sejak GPT3.5 menjadi populer dan dikomersialkan, OpenAI tidak lagi menjadi open source dan diejek sebagai Closed AI.

Namun pada saat Llama 3.1 dirilis, Zuckerberg kembali menegaskan:

Jalankan open source sampai akhir!

Selain merilis model, Xiao Zha juga menerbitkan manifesto open source yang bijaksana dan idealis, menjelaskan mengapa Meta harus menjadi open source dan mengapa open source bermanfaat bagi pengembang.

Perlu dicatat bahwa ia percaya bahwa meskipun Amerika Serikat dan Tiongkok menghadapi persaingan AI yang ketat, memilih jalur open source masih memiliki lebih banyak keuntungan daripada kerugian.

Oke, Llama 3.1 sudah seperti ini, dan kita harus bertanya lagi: Kapan OpenAI dan GPT-5 akan hadir?

Berikut surat terbuka Zuckerberg yang disusun oleh “Intelligent Emergence”:

"AI Open Source Adalah Jalan ke Depan"

Pada masa-masa awal komputasi berkinerja tinggi, perusahaan teknologi besar saat itu berinvestasi besar-besaran dalam mengembangkan Unix versi sumber tertutup mereka sendiri. Pada saat itu, sulit membayangkan cara lain untuk mengembangkan perangkat lunak canggih tersebut.

Namun, Linux open source akhirnya menjadi populer—awalnya karena memungkinkan pengembang untuk memodifikasi kodenya sesuka mereka dan lebih murah seiring berjalannya waktu, Linux menjadi lebih maju, lebih aman, dan memiliki ekosistem yang lebih luas daripada Unix open source mana pun, dan mendukung lebih banyak fitur . Saat ini, Linux adalah landasan standar industri untuk komputasi awan dan sistem operasi yang menjalankan sebagian besar perangkat seluler—dan kita semua mendapatkan manfaat dari keunggulannya.

Saya yakin kecerdasan buatan akan berkembang dengan cara yang sama. Saat ini, beberapa perusahaan teknologi sedang mengembangkan model sumber tertutup terkemuka. Namun open source dengan cepat menutup kesenjangan tersebut. Tahun lalu, Llama 2 hanya sebanding dengan model generasi lama yang tertinggal dari yang terdepan. Tahun ini, Llama 3 bersaing dengan model tercanggih dan memimpin di beberapa area. Mulai tahun depan, kami berharap Llama masa depan akan menjadi yang paling maju di industrinya. Namun sebelum itu, Llama sudah memimpin dalam hal open source, kemampuan modifikasi, dan efisiensi biaya.

Hari ini, kami mengambil langkah berikutnya untuk menjadikan AI open source sebagai standar industri. Kami akan merilis Llama 3.1 405B, model AI open source pertama yang terdepan di industri, serta model Llama 3.1 70B dan 8B yang baru dan lebih baik. Selain memiliki biaya/kinerja yang lebih baik dibandingkan model sumber tertutup, fakta bahwa model 405B adalah sumber terbuka akan menjadikannya pilihan terbaik untuk menyempurnakan dan mengekstraksi model yang lebih kecil.

Selain merilis model-model ini, kami juga bekerja sama dengan sejumlah perusahaan untuk mengembangkan ekosistem yang lebih luas. Amazon, Databricks, dan Nvidia meluncurkan rangkaian layanan lengkap untuk mendukung pengembang dalam menyempurnakan dan menyempurnakan model mereka sendiri. Perusahaan inovatif seperti Groq (perusahaan rintisan chip AI) telah membangun layanan inferensi berlatensi rendah dan berbiaya rendah untuk semua model baru.

Model-model ini akan tersedia di semua cloud utama, termasuk AWS, Azure, Google, Oracle, dan banyak lagi. Scale.AI, Dell, Deloitte, dan lainnya siap membantu perusahaan menerapkan Llama dan melatih model khusus menggunakan data mereka sendiri. Seiring pertumbuhan komunitas dan semakin banyak perusahaan yang mengembangkan layanan baru, bersama-sama kita dapat menjadikan Llama sebagai standar industri dan memberikan manfaat AI bagi semua orang.

Meta berkomitmen pada AI sumber terbuka. Saya akan menjelaskan mengapa menurut saya open source adalah tumpukan pengembangan terbaik bagi manusia, mengapa Llama open source baik untuk Meta, mengapa AI open source baik untuk dunia, dan karena itu, komunitas open source tetap ada.

Mengapa AI open source baik untuk pengembang

Saat saya berbicara dengan pengembang, CEO, dan pejabat pemerintah di seluruh dunia, saya biasanya mendengar beberapa tema:

Kita perlu melatih, menyempurnakan, dan menyempurnakan model kita sendiri.

Setiap organisasi memiliki kebutuhan berbeda yang paling baik dilayani oleh model dengan ukuran berbeda yang dilatih atau disesuaikan menggunakan data spesifik. Tugas pada perangkat dan tugas klasifikasi memerlukan model yang lebih kecil, sedangkan tugas yang lebih kompleks memerlukan model yang lebih besar.

Sekarang, Anda dapat mengambil model Llama yang canggih, terus melatihnya menggunakan data Anda sendiri, lalu menyempurnakannya menjadi model berukuran optimal - tanpa kami atau orang lain dapat melihat data Anda.

Kita perlu mengendalikan nasib kita sendiri dan tidak terikat pada vendor sumber tertutup.

Banyak organisasi tidak mau bergantung pada model yang tidak dapat mereka jalankan dan kendalikan. Mereka tidak ingin penyedia model sumber tertutup dapat mengubah model mereka, mengubah ketentuan penggunaan, atau bahkan berhenti melayani mereka sepenuhnya. Mereka juga tidak ingin terjebak dalam satu cloud yang memiliki hak eksklusif terhadap model tertentu. Open source menyediakan toolchain yang kompatibel untuk banyak ekosistem perusahaan, dan Anda dapat dengan mudah beralih di antara ekosistem tersebut.

Kita perlu melindungi data kita.

Banyak organisasi menangani data sensitif yang perlu dilindungi dan tidak dapat ditransfer melalui cloud API ke model sumber tertutup. Organisasi lain tidak mempercayai penyedia model sumber tertutup dengan data mereka. Open source memecahkan masalah ini dengan memungkinkan Anda menjalankan model di mana pun Anda inginkan. Sudah diterima secara luas bahwa perangkat lunak sumber terbuka lebih aman karena dikembangkan secara lebih transparan.

Kita membutuhkan model operasi yang efisien dan terjangkau.

Pengembang dapat menjalankan inferensi pada Llama 3.1 405B pada infrastruktur mereka sendiri dengan biaya sekitar 50% dari biaya penggunaan model sumber tertutup seperti GPT-4o untuk tugas inferensi offline dan langsung kepada pengguna.

Kami bertaruh pada ekosistem yang bisa menjadi standar jangka panjang.

Banyak orang melihat sumber terbuka bergerak lebih cepat daripada model sumber tertutup, dan mereka menginginkan arsitektur yang digunakan dalam sistem mereka untuk memberikan keuntungan terbesar dalam jangka panjang.

Mengapa AI open source bagus untuk Meta

Model bisnis Meta adalah membangun pengalaman dan layanan terbaik bagi masyarakat. Untuk melakukan hal ini, kita harus memastikan bahwa kita selalu memiliki akses terhadap teknologi terbaik, daripada terjebak dalam ekosistem sumber tertutup pesaing yang membatasi apa yang dapat kita bangun.

Salah satu pengalaman formatif saya adalah bahwa layanan kami dibatasi oleh apa yang Apple izinkan untuk kami bangun di platform mereka. Cara mereka mengenakan pajak kepada pengembang, aturan sewenang-wenang yang mereka terapkan, dan semua inovasi produk yang mereka cegah untuk dirilis, jelas bahwa jika kita dapat membuat versi terbaik dari produk kita dan pesaing tidak dapat membatasi apa yang dapat kita buat, maka Meta dan banyak perusahaan lain akan bebas untuk membangun layanan yang lebih baik bagi masyarakat. Secara filosofis, inilah alasan utama mengapa saya sangat yakin akan pembangunan ekosistem open source untuk komputasi generasi berikutnya dalam AI dan AR/VR.

Orang sering bertanya kepada saya apakah saya khawatir Llama sumber terbuka akan kehilangan keunggulan teknisnya, namun menurut saya hal ini mengabaikan beberapa alasan penting:

Pertama, untuk memastikan kita memiliki akses terhadap teknologi terbaik dan tidak terjebak dalam ekosistem sumber tertutup dalam jangka panjang, Llama perlu berevolusi menjadi ekosistem yang lengkap termasuk perkakas, peningkatan efisiensi, optimalisasi silikon, dan integrasi lainnya. Jika kami adalah satu-satunya perusahaan yang menggunakan Llama, ekosistemnya tidak akan berkembang dan kami tidak akan lebih baik dibandingkan varian Unix yang bersumber tertutup.

Kedua, saya berharap persaingan akan semakin ketat seiring dengan berkembangnya kecerdasan, yang berarti bahwa pada saat open source model tertentu, orang tidak akan menyerah pada model berikutnya yang memiliki keunggulan lebih besar. Jalan Llama untuk menjadi standar industri adalah melalui model persaingan yang konsisten, efisiensi, dan sumber terbuka dari generasi ke generasi.

Ketiga, perbedaan utama antara penyedia model Meta dan sumber tertutup adalah bahwa menjual akses ke model AI bukanlah model bisnis kami. Artinya, merilis Llama ke publik tidak mengganggu pendapatan, keberlanjutan, atau kemampuan kami untuk berinvestasi dalam penelitian, seperti yang terjadi pada vendor sumber tertutup. (Ini adalah salah satu alasan mengapa beberapa penyedia sumber tertutup melobi pemerintah agar tidak menggunakan sumber terbuka.)

Terakhir, Meta memiliki sejarah panjang dan kesuksesan dalam proyek sumber terbuka. Kami telah menghemat miliaran dolar dengan merilis desain server, jaringan, dan pusat data melalui Proyek Komputasi Sumber Terbuka dan menstandardisasi rantai pasokan pada desain kami. Kami mendapat manfaat dari inovasi ekosistem, alat open source terkemuka seperti PyTorch, React, dan banyak lagi. Pendekatan ini selalu berhasil bagi kami jika kami menerapkannya dalam jangka panjang.

Mengapa AI open source bermanfaat bagi dunia

Saya percaya open source diperlukan untuk masa depan AI yang positif. Kecerdasan buatan memiliki potensi lebih besar dibandingkan teknologi modern lainnya dalam meningkatkan produktivitas, kreativitas, dan kualitas hidup manusia, serta memajukan penelitian medis dan ilmiah sekaligus mempercepat pertumbuhan ekonomi.

Open source akan memastikan lebih banyak orang di seluruh dunia memiliki akses terhadap manfaat dan peluang AI, kekuasaan tidak terkonsentrasi di tangan segelintir perusahaan, dan teknologi dapat diterapkan secara lebih merata dan aman di seluruh masyarakat.

Terdapat perdebatan yang sedang berlangsung mengenai keamanan model AI open source, dan menurut pendapat saya, AI open source akan lebih aman dibandingkan alternatif lainnya. Saya pikir pemerintah akan menyimpulkan bahwa mereka berkepentingan untuk mendukung open source karena hal ini akan membuat dunia lebih sejahtera dan aman.

Pemahaman saya tentang keselamatan adalah kita perlu melindungi diri dari dua jenis bahaya: bahaya yang tidak disengaja dan bahaya yang disengaja. Kerugian yang tidak disengaja adalah ketika sistem AI dapat menimbulkan kerugian meskipun orang yang menjalankannya tidak berniat melakukannya.

Misalnya, model AI modern mungkin secara tidak sengaja memberikan saran kesehatan yang buruk. Atau, dalam skenario yang lebih futuristik, beberapa orang khawatir bahwa model dapat mereplikasi dirinya sendiri secara tidak sengaja atau mengoptimalkan sasaran secara berlebihan sehingga merugikan manusia. Kerugian yang disengaja adalah ketika pelaku kejahatan menggunakan model AI dengan tujuan menyebabkan kerugian.

Patut dicatat bahwa kerusakan yang tidak disengaja mencakup sebagian besar kekhawatiran masyarakat mengenai kecerdasan buatan—mulai dari dampak sistem AI terhadap miliaran orang yang akan menggunakannya hingga skenario fiksi ilmiah yang benar-benar membawa bencana bagi umat manusia. Dalam hal ini, open source seharusnya lebih aman karena sistemnya lebih transparan dan dapat diperiksa secara luas.

Secara historis, perangkat lunak sumber terbuka lebih aman karena alasan ini. Demikian pula, penggunaan Llama dan sistem keamanannya seperti Llama Guard mungkin lebih aman dibandingkan model sumber tertutup. Akibatnya, sebagian besar diskusi tentang keamanan AI open source berfokus pada bahaya yang disengaja.

Proses keselamatan kami mencakup pengujian ketat dan tim merah untuk mengevaluasi apakah model kami mampu menyebabkan bahaya yang berarti, dengan tujuan memitigasi risiko sebelum dirilis. Karena modelnya open source, siapa pun dapat mengujinya sendiri.

Kita harus ingat bahwa model-model ini dilatih berdasarkan informasi yang sudah tersedia di internet, jadi ketika mempertimbangkan kerugian, titik awal kita adalah apakah suatu model lebih cepat daripada informasi yang dapat diambil dari Google atau hasil pencarian lainnya.

Ketika mempertimbangkan tindakan yang disengaja, ada gunanya jika kita membedakan antara apa yang mungkin dilakukan oleh individu atau aktor skala kecil dan apa yang mungkin dilakukan oleh aktor skala besar seperti negara-bangsa dengan sumber daya yang besar.

Di masa depan, pelaku kejahatan tertentu mungkin memanfaatkan kecerdasan model AI untuk menciptakan jenis dampak buruk baru dari informasi yang tersedia di internet. Pada titik ini, keseimbangan kekuatan sangatlah penting bagi keselamatan AI.

Saya pikir akan lebih baik jika kita hidup di dunia dimana AI digunakan secara luas sehingga pemain besar bisa mengimbangi kekuatan penjahat kecil. Inilah cara kami mengelola keamanan di jaringan sosial—sistem AI kami yang lebih canggih mengidentifikasi dan memblokir ancaman dari penyerang kurang canggih yang sering kali menggunakan sistem AI yang lebih kecil.

Secara lebih luas, institusi besar yang menerapkan AI dalam skala besar akan berkontribusi terhadap keamanan dan stabilitas masyarakat secara keseluruhan. Selama setiap orang mempunyai akses terhadap model serupa—sesuatu yang difasilitasi oleh sumber terbuka—maka pemerintah dan lembaga yang memiliki sumber daya komputasi lebih banyak akan mampu memeriksa pelaku kejahatan dengan komputasi yang lebih sedikit.

Pertanyaan berikutnya adalah bagaimana Amerika Serikat dan negara-negara demokrasi harus menanggapi ancaman dari negara-negara dengan sumber daya yang besar seperti Tiongkok. Keunggulan Amerika Serikat terletak pada desentralisasi dan inovasi open source.

Beberapa orang percaya bahwa kita harus memblokir model kita untuk mencegah Tiongkok mendapatkannya, namun pendapat saya adalah bahwa hal ini tidak akan berhasil dan hanya akan merugikan Amerika Serikat dan sekutunya. Musuh kita sangat pandai dalam spionase. Mencuri model di stik USB relatif mudah, dan cara sebagian besar perusahaan teknologi beroperasi tidak membuatnya menjadi lebih sulit.

Dunia yang hanya menggunakan model-model sumber tertutup tampaknya akan mengakibatkan segelintir perusahaan besar ditambah musuh geopolitik kita memiliki akses terhadap model-model terkemuka, sementara perusahaan rintisan, universitas, dan usaha kecil akan kehilangan akses terhadap model-model tersebut.

Selain itu, membatasi inovasi AS pada pengembangan sumber tertutup akan meningkatkan kemungkinan bahwa kita tidak akan memimpin. Sebaliknya, menurut saya strategi terbaik kita adalah membangun ekosistem open source yang kuat dan meminta perusahaan-perusahaan terkemuka kita bekerja sama dengan pemerintah dan sekutu kita untuk memastikan mereka dapat memanfaatkan kemajuan terbaru dan berkelanjutan dalam keuntungan penggerak pertama dalam jangka panjang.

Saat Anda mempertimbangkan peluang masa depan, ingatlah bahwa sebagian besar perusahaan teknologi dan penelitian ilmiah terkemuka saat ini dibangun di atas perangkat lunak sumber terbuka. Jika kita berinvestasi bersama, perusahaan dan penelitian generasi berikutnya akan menggunakan AI open source. Hal ini mencakup startup yang masih baru, serta orang-orang di universitas dan negara yang mungkin tidak memiliki sumber daya untuk mengembangkan AI canggih mereka sendiri dari awal.

Yang terpenting, AI open source mewakili peluang terbaik dunia untuk memanfaatkan teknologi ini guna menciptakan peluang ekonomi dan keamanan terbesar bagi semua orang.

mari kita membangun bersama

Untuk model Llama sebelumnya, Meta mengembangkannya sendiri dan kemudian merilisnya tanpa terlalu fokus membangun ekosistem yang lebih luas.

Kami mengambil pendekatan berbeda dengan peluncuran ini. Kami sedang membangun tim secara internal untuk membuat Llama tersedia bagi sebanyak mungkin pengembang dan mitra, dan kami juga secara aktif membangun kemitraan sehingga lebih banyak perusahaan di ekosistem ini juga dapat menawarkan kemampuan unik kepada pelanggan mereka.

Saya yakin peluncuran Llama 3.1 akan menjadi titik balik dalam industri ini, dengan sebagian besar pengembang mulai menggunakan sumber terbuka, dan saya berharap pendekatan ini akan berkembang dari sini. Saya harap Anda akan bergabung dengan kami dalam perjalanan kami untuk memberikan manfaat kecerdasan buatan kepada semua orang di dunia.

Tautan untuk mendapatkan Llama 3.1 adalah: https://llama.meta.com/

MZ (Mark Zuckerberg)

Selamat datang untuk berkomunikasi

berita

Llama 3.1 resmi dirilis: 405 miliar parameter model open source, Xiao Zha: Jalankan open source sampai akhir

Perkenalan

informasi kontak saya