berita

Model open source melampaui model close source terkuat. Bisakah Llama 3.1 menumbangkan ekosistem AI? |Jiazi Guangnian

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Zuckerberg berjanji untuk mengejar open source sampai akhir.

Penulis|Sukhoi

Editor|Zhao Jian

Llama 3.1 akhirnya hadir.

Pada tanggal 23 Juli waktu setempat di Amerika Serikat, Meta resmi merilis Llama 3.1. Ini mencakup tiga ukuran: 8B, 70B dan 405B, dan konteks maksimum ditingkatkan menjadi 128k. Llama saat ini merupakan salah satu seri model besar dengan pengguna terbanyak dan kinerja paling kuat di bidang sumber terbuka.

Poin utama dari Llama 3.1 ini adalah:

1. Ada tiga versi: 8B, 70B dan 405B, dimana versi 405B saat ini merupakan salah satu model sumber terbuka terbesar; 2. Model ini memiliki 405 miliar parameter, melampaui kinerja model AI teratas yang ada; Jendela konteks yang lebih panjang (hingga 128 ribu token), mampu menangani tugas dan percakapan yang lebih kompleks; 4. Mendukung input dan output multi-bahasa, meningkatkan keserbagunaan dan penerapan model; 5. Peningkatan kemampuan penalaran, terutama dalam penyelesaian masalah matematika yang kompleks dan menghasilkan konten dengan cepat.

Meta menulis di blog resminya: "Saat ini, kinerja model bahasa besar open source masih tertinggal dibandingkan model sumber tertutup. Namun sekarang, kami sedang mengantarkan era baru yang dipimpin oleh open source. Rilis publik Meta kami Llama 3.1 405B adalah model basis sumber terbuka terbesar dan terkuat pertama di dunia di pasar, dengan lebih dari 300 juta unduhan kumulatif dari semua versi Llama hingga saat ini, ini hanyalah permulaan.”

Perdebatan antara open source dan close source selalu menjadi topik hangat di bidang teknologi.

Perangkat lunak sumber terbuka lebih transparan dan fleksibel, memungkinkan pengembang di seluruh dunia untuk bersama-sama meninjau, memodifikasi, dan meningkatkan kode, sehingga mendorong inovasi dan kemajuan pesat dalam teknologi. Model sumber tertutup biasanya dikembangkan dan dikelola oleh satu perusahaan atau organisasi, yang dapat memberikan dukungan dan layanan profesional untuk menjamin keamanan dan stabilitas perangkat lunak. Namun model ini juga membatasi kontrol pengguna dan kemampuan penyesuaian.

Hingga saat ini, model sumber tertutup selalu sedikit lebih baik. Hingga peluncuran Llama 3.1, perdebatan sengit mengenai sumber terbuka dan sumber tertutup telah ditandai: model sumber terbuka akhirnya dapat bersaing dengan model sumber tertutup.

Menurut data benchmark yang disediakan Meta, versi terpopuler 405B sudah sebanding dengan GPT-4 dan Claude 3 dalam hal performa. Diantaranya, Evaluasi Manusia terutama digunakan untuk mengevaluasi kemampuan model dalam memahami dan menghasilkan kode serta memecahkan masalah logika abstrak. Dalam persaingan dengan model besar lainnya, Llama 3.1 405B tampak sedikit lebih baik.


Llama 3.1 setara dengan GPT-4 dan Claude 3.5 Sumber: Meta

Andrew Ng, profesor ilmu komputer dan teknik elektro dan direktur Laboratorium Kecerdasan Buatan di Universitas Stanford, memuji "tim Meta dan Llama atas kontribusi luar biasa mereka terhadap open source" di media sosial. “Dengan bertambahnya panjang konteks dan fungsionalitas yang ditingkatkan, Llama 3.1 adalah hadiah yang luar biasa bagi semua orang,” katanya, dan berharap bahwa “peraturan konyol seperti SB1047 yang diusulkan California tidak akan menghalangi inovasi seperti ini.”


Media sosial Ng Enda, sumber : X

Yann LeCun, pemenang Turing Award dan Kepala Ilmuwan Kecerdasan Buatan di Meta, mengutip deskripsi kinerja The Verge tentang Llama 3.1—Meta telah merilis model kecerdasan buatan sumber terbuka terbesar dan terbaik hingga saat ini: Llama 3.1 berkinerja baik pada tolok ukur tertentu. Dalam pengujian, ia melampaui OpenAI dan pesaing lainnya.


Media sosial Yang Likun, sumber: X

Menariknya, Llama 3.1 versi 405B diduga telah "dicuri" di HugginFace dan GitHub kemarin. Data evaluasi yang dikirimkan oleh pelapor pada dasarnya konsisten dengan informasi versi yang resmi dirilis hari ini.

Mark Zuckerberg, pendiri dan CEO Meta, secara pribadi menulis artikel panjang berjudul "Open Source AI Is the Path Forward", yang merinci manfaat open source bagi pengembang dan Meta serta mengapa hal itu penting secara global.

Ia memperkirakan pada akhir tahun ini, Meta AI akan melampaui ChatGPT sebagai asisten yang paling banyak digunakan.

Dia juga berkata:Bersumpah untuk menjalankan open source sampai akhir.


Potongan artikel dari "AI Sumber Terbuka Adalah Jalan ke Depan", sumber Meta

1.Pembuatan Llama 3.1

Dalam hal arsitektur model, sebagai model Meta terbesar hingga saat ini, Llama 3.1 dilatih pada data lebih dari 15 triliun token, dan data pra-pelatihan tersedia hingga Desember 2023.

Untuk mengimplementasikan pelatihan dalam skala besar dalam waktu yang wajar dan mencapai hasil yang diinginkan, Meta mengoptimalkan seluruh tumpukan pelatihan, menggunakan lebih dari 16.000 blok H100. 405B adalah model Llama pertama yang dilatih pada skala ini.


Arsitektur model transformator dalam proses pembuatan teks Llama 3.1, sumber: Meta

Untuk memaksimalkan stabilitas dan kenyamanan pelatihan, Meta memilih arsitektur model Transformer khusus dekoder standar untuk penyempurnaan, daripada arsitektur Mixed Expert Model (MoE) yang saat ini populer.

Keputusan ini memungkinkan Llama 3.1 untuk tetap memastikan keluaran teks pendek berkualitas tinggi ketika mendukung panjang konteks hingga 128K, memungkinkan pemrosesan teks panjang dan pendek yang fleksibel, bukan hanya berfokus pada teks panjang.

Pada saat yang sama, tim peneliti menerapkan metode pasca-pelatihan berulang untuk menghasilkan data sintetik berkualitas tinggi dan meningkatkan berbagai fungsi model melalui setiap putaran penyesuaian yang diawasi dan pengoptimalan preferensi langsung. Dibandingkan dengan versi sebelumnya, Llama 3.1 meningkatkan kuantitas dan kualitas data pra-pelatihan dan pasca-pelatihan, memperkenalkan proses pra-pemrosesan dan manajemen yang lebih rinci, serta teknologi jaminan kualitas dan penyaringan yang lebih ketat.

Menurut hukum perluasan model bahasa, Llama 3.1 melampaui model kecil sebelumnya yang menggunakan prosedur pelatihan yang sama dalam kinerjanya.

Untuk memenuhi persyaratan berjalannya model 405B skala besar, Meta mengkuantisasi data model dari 16-bit (BF16) menjadi 8-bit (FP8), yang sangat mengurangi permintaan sumber daya komputasi dan memungkinkan model untuk berjalan pada satu node server.

Dalam hal penyempurnaan perintah dan obrolan model Llama 3.1 405B, tim pengembangan berkomitmen untuk meningkatkan daya tanggap, kepraktisan, dan kualitas model terhadap perintah pengguna sambil memastikan tingkat keamanan yang tinggi.

Pada fase pasca latihan, tim melakukan beberapa putaran penyesuaian berdasarkan pra latihan. Setiap putaran mencakup penyetelan terawasi (SFT), pengambilan sampel penolakan (RS), dan optimalisasi preferensi langsung (DPO).Selain itu, tim menggunakan pembuatan data sintetis untuk menghasilkan sebagian besar contoh SFT, yang berarti mereka tidak hanya mengandalkan data dunia nyata melainkan data yang dihasilkan secara algoritmik untuk melatih model.

Pada saat yang sama, tim juga menggunakan berbagai metode pemrosesan data untuk memfilter data ini guna memastikan kualitas tertinggi dan memperluas jangkauan penerapan data yang disempurnakan.

Meta juga menjajaki strategi baru, yaitu menggunakan model 405B sebagai "model pengajar" untuk model 70B dan 8B, sehingga mengekstraksi model kecil yang disesuaikan dari model besar yang sesuai dengan kebutuhan berbagai industri. Pendekatan ini sejalan dengan strategi GPT-4o mini.Artinya, "buatlah besar dulu, lalu kecilkan"

Andrej Karpathy, salah satu mantan anggota pendiri OpenAI, pernah mengomentari GPT-4o Mini: "Modelnya harus menjadi lebih besar terlebih dahulu sebelum menjadi lebih kecil. Karena kami memerlukan mereka untuk (secara otomatis) membantu merekonstruksi data pelatihan agar menjadi ideal. format sintetis." Ia menunjukkan bahwa metode ini dapat secara efektif mentransfer kedalaman dan luasnya pengetahuan model besar ke model yang lebih kecil yang lebih praktis dan lebih murah.

Sebagai pemimpin di jalur model open source, Meta juga telah menunjukkan ketulusannya dalam mendukung fasilitas model Llama.

Sistem Llama dirancang sebagai kerangka komprehensif yang dapat mengintegrasikan banyak komponen, termasuk memanggil alat eksternal. Tujuan Meta adalah menyediakan sistem yang lebih luas yang memungkinkan pengembang merancang dan membuat produk khusus secara fleksibel untuk memenuhi kebutuhan mereka.

Untuk mengembangkan AI secara bertanggung jawab di luar lapisan model, tim peneliti merilis sistem referensi lengkap dengan beberapa contoh aplikasi dan komponen baru, seperti model keamanan multibahasa Llama Guard 3 dan filter injeksi cepat Prompt Guard. Aplikasi ini bersifat open source dan tersedia untuk pengembangan lebih lanjut oleh komunitas.

Untuk mendefinisikan antarmuka komponen dengan lebih baik dan mempromosikan standardisasinya di industri, para peneliti berkolaborasi dengan industri, perusahaan rintisan, dan komunitas yang lebih luas serta menerbitkan proposal "Llama Stack" di GitHub. Ini adalah seperangkat antarmuka standar yang menyederhanakan konstruksi komponen rantai alat (seperti penyesuaian, pembuatan data sintetis) dan aplikasi agen.

Menurut data uji benchmark yang disediakan oleh Meta, Llama 3.1 405B mendapatkan skor 98,1 pada benchmark NIH/Multi-needle, sebanding dengan GPT-4 dan Claude 3.5 dalam hal skor performa. Versi 405B memiliki kemampuan luar biasa untuk mengintegrasikan informasi teks berukuran besar dan mendapat skor 95,2 pada uji benchmark ZeroSCROLLS/QuALITY. Versi ini sangat bersahabat dengan pengembang aplikasi AI yang peduli dengan kinerja RAG.


Llama 3.1 dibandingkan dengan model sumber tertutup seperti GPT4, sumber: Meta


Llama 3.1 dibandingkan dengan model open source seperti Mistral 7B Instruct, sumber: Meta

Versi Llama 3.1 8B secara signifikan lebih baik daripada Gemma 2 9B 1T dan Mistral 7B Instruct, dan kinerjanya telah meningkat secara signifikan dibandingkan dengan Llama 3 8B generasi sebelumnya. Pada saat yang sama, versi Llama 3.1 70B bahkan melampaui GPT-3.5 Turbo.

Menurut laporan resmi tim Llama, mereka melakukan evaluasi kinerja mendalam dan pengujian manual ekstensif terhadap model ini pada lebih dari 150 kumpulan data benchmark multi-bahasa. Hasilnya menunjukkan bahwa model teratas Llama sebanding dengan model dasar teratas di pasaran seperti GPT-4, GPT-4o dan Claude 3.5 Sonnet dalam berbagai tugas. Pada saat yang sama, dibandingkan dengan model sumber tertutup dan terbuka dengan skala parameter serupa, Llama versi kecil juga menunjukkan daya saing yang kuat.


2.Perdebatan antara model open source dan close source

Dapatkah model sumber terbuka mengungguli model sumber tertutup?

Masalah ini telah menjadi kontroversi sejak tahun lalu. Jalur pengembangan kedua model ini mewakili filosofi teknis yang berbeda, dan masing-masing memiliki keunggulan tersendiri dalam mendorong kemajuan teknologi dan memenuhi kebutuhan bisnis.

Misalnya, Llama 3.1 adalah model sumber terbuka besar yang memungkinkan peneliti dan pengembang mengakses kode sumbernya, dan orang dapat dengan bebas mempelajari, memodifikasi, dan bahkan meningkatkan model tersebut. Keterbukaan ini mendorong kolaborasi dan inovasi yang luas, sehingga memungkinkan pengembang dari berbagai latar belakang untuk bekerja sama memecahkan masalah.

Sebaliknya, ChatGPT adalah model sumber tertutup yang dikembangkan oleh OpenAI. Meskipun menyediakan akses API, algoritma inti dan data pelatihannya tidak diungkapkan sepenuhnya. Sifat GPT-3 yang bersifat sumber tertutup membuatnya lebih tangguh dalam jalur komersialisasi. Pada saat yang sama, kemampuan pengendaliannya menjamin stabilitas dan keamanan produk, sehingga lebih dapat dipercaya oleh perusahaan ketika menangani informasi sensitif. Namun, ketertutupan ini juga membatasi kemampuan peneliti eksternal untuk sepenuhnya memahami dan berinovasi dalam model tersebut.

Pada bulan Mei tahun lalu, media asing melaporkan bahwa Google telah membocorkan dokumen bertema: "Kami tidak memiliki parit, begitu pula OpenAI. Saat kami masih berdebat, open source diam-diam telah mencuri pekerjaan kami." Setelah Meta merilis model besar open source Llama 2 pada tahun yang sama, Yang Likun mengatakan bahwa Llama 2 akan mengubah struktur pasar model bahasa besar.

Orang-orang menantikan komunitas open source yang dipimpin oleh rangkaian model Llama. Sebelumnya, model sumber tertutup tercanggih GPT-4 selalu sedikit lebih baik, meskipun kesenjangan antara Llama 3 pada saat itu sudah sangat kecil.

Daftar paling otoritatif di bidang model besar adalah Large Model Arena (LLM Arena), yang mengadopsi sistem poin ELO dari catur. Aturan dasarnya adalah membiarkan pengguna mengajukan pertanyaan apa pun kepada dua model anonim (misalnya ChatGPT, Claude, Llama) dan memilih model dengan jawaban lebih baik. Model dengan jawaban yang lebih baik akan menerima poin, dan peringkat akhir ditentukan oleh akumulasi poin. Arean ELO mengumpulkan data pemungutan suara dari 500.000 orang.


Ikhtisar peringkat model besar, sumber: LLM Arena

Pada peringkat LLM Arena, GPT-4o OpenAI saat ini menempati posisi teratas. Sepuluh model teratas semuanya merupakan sumber tertutup. Meskipun model sumber tertutup masih unggul jauh dalam peringkatnya, kesenjangan antara model sumber terbuka dan sumber tertutup tidak semakin besar seperti yang dikatakan Robin Li pada Konferensi Pengembang AI Baidu tahun 2024, namun sebenarnya secara bertahap menyempit.


Selama WAIC, Robin Li berkata: "Open source sebenarnya adalah sejenis pajak IQ."Sumber: Baidu

Dengan dirilisnya Llama 3.1 hari ini, model open source akhirnya dapat bersaing dengan model close source.

Mengenai model open source atau close source mana yang lebih baik, "Jiazi Guangnian" telah berdiskusi dengan banyak praktisi industri AI. Industri ini umumnya percaya bahwa:Hal ini sering kali bergantung pada pendirian pribadi seseorang dan bukan merupakan masalah hitam-putih yang sederhana.

Persoalan open source dan close source bukan semata-mata perbedaan teknis, namun lebih pada pilihan model bisnis. Saat ini, apakah itu model besar open source atau close source, model bisnis yang sepenuhnya sukses belum ditemukan.

Jadi faktor apa saja yang mempengaruhi perbedaan kemampuan antara model open source dan model close source?

Zhang Junlin, kepala penelitian dan pengembangan teknologi baru di Weibo, menunjukkan bahwa tingkat pertumbuhan kemampuan model merupakan faktor kunci. Jika kapabilitas model berkembang pesat, berarti dibutuhkan sumber daya komputasi dalam jumlah besar dalam waktu singkat. Dalam hal ini, model sumber tertutup memiliki keunggulan lebih karena keunggulan sumber dayanya. Sebaliknya, jika kemampuan model tumbuh perlahan, kesenjangan antara sumber terbuka dan sumber tertutup akan berkurang dan kecepatan ketertinggalan akan semakin cepat.

Ia yakin dalam beberapa tahun ke depan, perbedaan kemampuan antara model open source dan close source akan bergantung pada perkembangan teknologi "data sintetis". Jika teknologi “data sintetik” mengalami kemajuan yang signifikan dalam dua tahun ke depan, kesenjangan antara keduanya mungkin akan semakin besar; jika tidak ada terobosan, kemampuan keduanya akan cenderung serupa;

Secara keseluruhan, “data sintetik” akan menjadi teknologi kunci untuk pengembangan model bahasa besar di masa depan.

Open source atau close source tidak dengan sendirinya menentukan performa model. Model sumber tertutup tidak memimpin karena merupakan sumber tertutup, dan model sumber terbuka tidak ketinggalan karena merupakan sumber terbuka. Sebaliknya, model memilih sumber tertutup karena terdepan, dan harus memilih sumber terbuka karena kurang terdepan.

Jika sebuah perusahaan membuat model yang berkinerja sangat baik, model tersebut mungkin tidak lagi bersifat open source.

Misalnya, startup bintang Perancis Mistral, model 7B open source terkuatnya Mistral-7B dan model MoE open source pertama 8x7B (MMLU 70) adalah salah satu model paling populer di komunitas open source. Namun, Mistral-Medium (MMLU-75) dan Mistral-Large (MMLU-81) yang kemudian dilatih oleh Mistral, keduanya merupakan model sumber tertutup.

Saat ini, model sumber tertutup dengan kinerja terbaik dan model sumber terbuka dengan kinerja terbaik didominasi oleh perusahaan besar, dan di antara perusahaan besar, Meta memiliki tekad sumber terbuka terbesar.Jika OpenAI bukan open source dari sudut pandang keuntungan komersial, lalu apa tujuan Meta memilih menjadi open source dan memungkinkan pengguna mencobanya secara gratis?

Pada laporan keuangan kuartal terakhir, tanggapan Zuckerberg terhadap masalah ini adalah bahwa sumber terbuka teknologi AI Meta adalah untuk mempromosikan inovasi teknologi, meningkatkan kualitas model, menetapkan standar industri, menarik talenta, meningkatkan transparansi, dan mendukung pertimbangan strategi jangka panjang.

Kali ini Zuckerberg menjelaskan secara detail "mengapa AI open source baik untuk pengembang" dalam "AI Open Source Adalah Jalan ke Depan":

Dalam percakapan dengan pengembang, CEO, dan pejabat pemerintah dari seluruh dunia, saya sering mendengar mereka menekankan perlunya melatih, menyempurnakan, dan mengoptimalkan model mereka sendiri.

Setiap organisasi memiliki kebutuhan unik, dan model dengan ukuran berbeda dapat dioptimalkan untuk kebutuhan tersebut, dilatih atau disesuaikan dengan data spesifik. Tugas sederhana pada perangkat dan tugas klasifikasi mungkin memerlukan model yang lebih kecil, sedangkan tugas yang lebih kompleks memerlukan model yang lebih besar.

Sekarang Anda dapat menggunakan model Llama yang canggih dan terus melatihnya dengan data Anda sendiri, kemudian mengoptimalkannya ke skala ideal—tanpa kami atau siapa pun memiliki akses ke data Anda.

Kita perlu mengendalikan nasib kita sendiri, tidak terikat pada vendor sumber tertutup.

Banyak organisasi tidak ingin bergantung pada model yang tidak dapat mereka jalankan dan kendalikan sendiri. Mereka khawatir penyedia model sumber tertutup dapat mengubah model, ketentuan penggunaan, atau bahkan menghentikan layanan sepenuhnya. Mereka juga tidak ingin terpaku pada satu platform cloud yang memiliki hak eksklusif atas model tertentu. Open source memberi banyak perusahaan rantai alat yang kompatibel, sehingga memudahkan peralihan antar sistem yang berbeda.

Kita perlu melindungi data kita.

Banyak organisasi menangani data sensitif dan perlu melindungi data ini agar tidak dikirim melalui cloud API ke model sumber tertutup. Organisasi lain tidak mempercayai pendekatan penyedia model sumber tertutup terhadap pemrosesan data. Open source memecahkan masalah ini dengan membiarkan Anda menjalankan model di mana pun Anda inginkan, dan secara luas dianggap lebih aman karena transparansi proses pengembangan.

Kita memerlukan cara yang efisien dan ekonomis untuk beroperasi.

Pengembang dapat menjalankan model Llama 3.1 405B untuk inferensi pada infrastruktur mereka sendiri dengan biaya sekitar setengah biaya menggunakan model sumber tertutup seperti GPT-4o, yang cocok untuk tugas inferensi langsung dan offline.

Kami bertaruh pada ekosistem yang menjanjikan untuk menjadi standar jangka panjang.

Banyak orang melihat model sumber terbuka berkembang lebih cepat daripada model sumber tertutup, dan mereka berharap arsitektur sistem yang mereka bangun akan memberikan keuntungan terbesar dalam jangka panjang.

(Gambar sampul dari akun Meta X)