berita

Llama 3.1 telah lahir!Raksasa sumber terbuka ini mengalahkan sumber tertutup untuk pertama kalinya, dan era GPT-4 untuk semua akan segera tiba

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Departemen Editorial

[Pengantar Kebijaksanaan Baru] Pola model besar sekali lagi berubah dalam semalam. Llama 3.1 405B melakukan debut besar, melampaui GPT-4o dan Claude 3.5 Sonnet dalam beberapa pengujian. Untuk pertama kalinya dalam sejarah, model sumber terbuka mengalahkan model sumber tertutup terkuat saat ini. Xiao Zha dengan berani berkata: AI open source pasti akan menang, sama seperti Linux akhirnya menang.

Raja open source baru, Llama 3.1 405B, secara resmi diluncurkan tadi malam!

Dalam beberapa tolok ukur, baik GPT-4o dan Claude 3.5 Sonnet terlampaui. Dengan kata lain, model SOTA sumber tertutup telah digantikan oleh model sumber terbuka.


Dalam semalam, Llama 3.1 405B menjadi model paling bertenaga di dunia.

(Pada saat yang sama, ada juga versi baru model 70B dan 8B)


LeCun merangkum beberapa poin penting dari keluarga model Llama 3.1:

- Performa 405B sebanding dengan model sumber tertutup terbaik

- Sumber terbuka/bebas menggunakan bobot dan kode, memungkinkan penyesuaian, penyulingan ke model lain, dan penerapan di mana saja

- Konteks 128k, multi-bahasa, kemampuan pembuatan kode yang baik, kemampuan penalaran yang kompleks, dan kemampuan penggunaan alat

- Llama Stack API memungkinkan integrasi yang mudah


Meta kali ini bisa dikatakan telah menerapkan semangat open source hingga tuntas, sekaligus bermurah hati merilis makalah lebih dari 90 halaman.

Thomas Wolf, kepala ilmuwan HuggingFace, memuji: Jika Anda ingin mempelajari model besar dari awal, makalah inilah yang Anda butuhkan!

Ini benar-benar mencakup segalanya - data pra-pelatihan, pemfilteran, anil, data sintetis, hukum penskalaan, infrastruktur, pemrosesan paralel, metode pelatihan, adaptasi pasca-pelatihan, penggunaan alat, pembandingan, strategi inferensi, kuantisasi, visi, ucapan, dan video……

Peneliti AI2 Nathan Lambert memperkirakan bahwa makalah Llama 3.1 setebal 90 halaman ini akan secara langsung mendorong kemajuan model open source selama 3-9 bulan!


CEO Meta Xiao Zha dengan bangga menulis artikel panjang: Kecerdasan buatan open source adalah jalan ke depan.


Dalam wawancara dengan New York Times, Xiao Zha mendukung AI open source

Dalam artikel ini, Xiao Zha secara emosional mengenang perubahan haluan Meta di gelombang LLM——

Tahun lalu, Llama 2 hanya sebanding dengan model lama yang marginal; tahun ini, Llama 3 sudah mengungguli model tercanggih dalam beberapa aspek mulai tahun depan, model Llama masa depan akan menjadi model tercanggih.

Mengenai pertanyaan yang berkali-kali ditanyakan kepadanya, "Apakah Anda khawatir kehilangan keunggulan teknis karena Llama open source?", Xiao Zha langsung membandingkan dirinya dengan Linux.

Dia mengatakan bahwa di masa lalu, perusahaan teknologi besar berinvestasi besar-besaran pada versi Unix mereka sendiri, namun pada akhirnya Linux open source menang karena memungkinkan pengembang untuk memodifikasi kode sesuka hati, yang lebih maju, lebih aman, dan lebih luas secara ekologis.

AI juga kemungkinan akan berkembang dengan cara yang sama.

Untuk tujuan ini, Meta telah secara khusus melonggarkan lisensinya, memungkinkan pengembang untuk menggunakan keluaran model Llama 3.1 berkualitas tinggi untuk pertama kalinya guna meningkatkan dan mengembangkan model AI pihak ketiga.


Netizen: Era baru dimulai

Setelah Llama 3.1 resmi dicabut, hal itu menimbulkan keributan di seluruh jaringan.

Master AI Karpathy segera mengungkapkan beberapa pemikirannya sendiri:

Saat ini, dengan dirilisnya model 405B, model besar mutakhir setingkat GPT-4/Claude 3.5 Sonnet terbuka bagi semua orang untuk digunakan dan dibuat untuk pertama kalinya. . Bobotnya bersifat open source dan berlisensi komersial, memungkinkan pembuatan data sintetis, distilasi, dan penyesuaian model.

Ini adalah LLM perbatasan yang benar-benar terbuka yang dirilis oleh Meta. Selain itu, mereka juga merilis laporan teknis setebal 92 halaman, yang berisi banyak detail model: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/


Filosofi di balik rilis model ini diuraikan dalam artikel panjang oleh Xiao Zha, yang layak dibaca karena mencakup semua pandangan dan argumen utama yang mendukung pandangan dunia ekosistem AI terbuka dengan sangat baik:

AI open source adalah masa depan.

Saya sering mengatakan bahwa ini masih merupakan masa-masa awal, seperti tahun 1980-an, bagi LLM untuk menjadi paradigma komputasi besar berikutnya, dan Meta jelas memposisikan dirinya untuk menjadi pemimpin dalam ekosistem terbuka.

- Orang-orang akan meminta dan menggunakan RAG dengan model ini

- Orang akan menyempurnakan modelnya

- Orang-orang akan menyaringnya menjadi model ahli yang lebih kecil untuk tugas dan aplikasi tertentu

- orang menelitinya, melakukan benchmark, mengoptimalkannya

Selain itu, ekosistem terbuka mengatur dirinya sendiri menjadi produk, aplikasi, dan layanan secara modular, dan setiap peserta dapat menyumbangkan keahlian uniknya.

Salah satu contohnya adalah startup chip AI Groq yang telah mengintegrasikan model Llama 3.1, yang dapat mencapai penalaran instan seperti model 8B.

Karpathy mengatakan karena tekanan server, dia sepertinya tidak dapat mencoba menjalankan 405B di Groq, yang mungkin merupakan model besar paling kuat dan tercepat saat ini.


Dia juga berharap model sumber tertutup akan segera menyusul dan sangat menantikannya.

Peneliti meta Tian Yuandong berkata bahwa era baru telah dimulai! LLM sumber terbuka kini setara/lebih baik daripada LLM sumber tertutup!


Raja baru model open source telah lahir.


Setelah menguji Llama 3.1 8B yang telah disempurnakan, pendiri OpenPipe berkata dengan penuh emosi: Belum pernah ada model open source sekecil dan sekuat ini - performanya lebih baik daripada GPT-4o mini dalam setiap tugas!



Ilmuwan senior NVIDIA Jim Fan mengatakan bahwa kekuatan GPT-4 ada di tangan kita. Ini adalah momen bersejarah.


Hanya sedikit orang yang memperhatikan infrastruktur di balik pelatihan model AI. Soumith Chintala, ayah dari Pytorch, menyatakan bahwa kegagalan juga akan terjadi pada fasilitas yang dibangun dengan 16.000 GPU.

Detail ini disembunyikan di makalah Llama 3.1, termasuk cara memparalelkan dan menjaga keandalan sistem. Perlu disebutkan bahwa tim Meta mencapai 90% waktu pelatihan efektif dalam pelatihan model.



Beberapa netizen merinci bahwa selama proses iterasi model Llama, penggunaan GPU juga meningkat.

Lama 1: 2048 GPU

Lama 2: 4096 GPU

Llama 3.1: 16384 GPU (Sebenarnya, Llama 3 dilatih pada dua cluster dengan 24.000 GPU)

Llama 4:......


Keluarga model sumber terbuka paling kuat

Faktanya, beberapa poin penting tentang model seri Llama 3.1 pada dasarnya telah dirusak kemarin.

Sebagaimana tercantum dalam informasi yang bocor, Llama 3.1 dapat mendukung 8 bahasa (Inggris, Jerman, Prancis, Italia, Portugis, Hindi, Spanyol, dan Thailand), agen percakapan multibahasa, kasus penggunaan terjemahan, dll.

Dalam hal panjang konteks, dibandingkan dengan Llama 2 dan Llama 3, semua konteks dalam model seri Llama 3.1 telah meningkat 16 kali lipat menjadi 128K.


Meta menekankan bahwa Llama 3.1 juga telah ditingkatkan dalam penggunaan alat, mendukung penggunaan alat zero-shot, termasuk pencarian web, operasi matematika, dan eksekusi kode.

Berdasarkan konteks yang panjang, model tidak hanya mengetahui kapan harus menggunakan suatu alat, namun juga bagaimana menggunakannya dan bagaimana menafsirkan hasilnya.

Selain itu, melalui penyempurnaan, Llama 3.1 memberikan fleksibilitas luar biasa dalam memanggil alat khusus.


Kemampuan utama

Pertama, Llama 3.1 dapat dijalankan sebagai sistem yang mampu melakukan tugas "agen":

- Bagi tugas dan lakukan penalaran multi-langkah

- gunakan alat

- Alat bawaan: model dilengkapi dengan pengetahuannya sendiri tentang alat seperti penelusuran atau penerjemah kode

- Pembelajaran zero-shot: model dapat belajar memanggil alat melalui definisi alat kontekstual yang belum pernah dilihat sebelumnya

Misalnya, menanyakan model: "Ini adalah file CSV, dapatkah Anda menjelaskan isinya?"

Ia akan mengenali bahwa: File CSV ini berisi tingkat inflasi bulanan selama bertahun-tahun, dan kolom tahun menunjukkan tahun untuk setiap rangkaian tingkat inflasi bulanan.


Selanjutnya, kita dapat memintanya untuk memplot grafik dari waktu ke waktu.


Selanjutnya, ia juga dapat menyelesaikan serangkaian tugas rumit, seperti merencanakan tren S&P500 pada grafik yang sama.


Setelah selesai, Anda dapat mengubah ukuran bagan untuk menambahkan informasi ke sumbu yang berbeda.


Seperti gambar di atas, Llama 3.1 mendukung 8 bahasa, sehingga mampu menerjemahkan multibahasa.

Kita bisa menerjemahkan dongeng Hansel dan Gretel (Rumah Permen) ke dalam bahasa Spanyol.


Bahkan ketika dihadapkan pada pertanyaan penalaran yang lebih kompleks, Llama 3.1 bisa menang dengan mudah.

"Saya punya 3 kemeja, 5 celana pendek, dan 1 gaun. Saya akan melakukan perjalanan 10 hari. Apakah pakaian ini cukup untuk liburan saya?"

AI menguraikan kondisi yang diketahui, membayangkan rencana pencocokan yang masuk akal untuk atasan, celana pendek, dan rok, dan menyarankan bahwa yang terbaik adalah menghadirkan lebih banyak atasan.


Setelah alasannya selesai, hal itu juga memberi kami panduan berpakaian perjalanan dan daftar bagasi yang lebih rinci.


Kita juga dapat membiarkan AI menulis kode dengan tangan.

Misalnya, biarkan ia membuat program yang menggunakan algoritma penelusuran mundur rekursif atau algoritma pencarian yang mengutamakan kedalaman untuk menghasilkan labirin sempurna dengan ukuran dan kompleksitas yang dapat disesuaikan.

Segera setelah AI dimulai, ia keluar dari kode Python dari program labirin.


Setelah kode selesai, AI pun memberikan penjelasan detailnya.


Selanjutnya, jika kita ingin menyesuaikan program, asisten kode AI memberi kita saran kode yang sesuai untuk menyesuaikan lebar dan tinggi.


Hasil evaluasi

Untuk mengevaluasi kinerja Llama3.1, Meta tidak hanya menyertakan 150 kumpulan data benchmark yang mencakup berbagai bahasa dalam pengujian, tetapi juga membandingkannya dalam skenario nyata.

Dalam berbagai tugas, 405B dapat bersaing dengan model sumber tertutup terkemuka seperti GPT-4, GPT-4o, dan Claude 3.5 Sonnet.


Model kecil 8B dan 70B juga memiliki kinerja yang baik pada model sumber tertutup dan sumber terbuka dengan jumlah parameter yang serupa.

Selain tugas konteks panjang, model 8B dan 70B mencapai SOTA dalam tugas umum, pengkodean, matematika, penalaran, penggunaan alat, dan berbagai bahasa.


Dalam evaluasi manusia, model Llama 3.1 405B setara dengan GPT-4, namun sedikit lebih buruk dibandingkan GPT-4o.

Namun dibandingkan dengan Claude 3.5 Sonnet, model besar 405B memiliki keunggulan, dengan tingkat kemenangan 24,9%.


Selain itu, dalam peringkat Scale, versi Llama 3.1 405B yang telah disempurnakan mengalahkan Claude 3.5 Sonnet dan GPT-4o dalam instruksi setelah evaluasi.

Dalam tugas matematika, 405B menempati peringkat kedua di belakang Claude 3.5 Soneta. Namun, Llama 3.1 mendapat skor yang relatif rendah dalam tugas pengkodean.


92 halaman laporan teknis yang sangat rinci

Tidak ada yang bisa melakukan open source selengkap Meta. Laporan teknis sepanjang 92 halaman juga dirilis hari ini.


Alamat makalah: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Makalah ini mengusulkan bahwa Llama 3.1, model dasar berkualitas tinggi, memiliki tiga faktor utama: data, skala, dan manajemen kompleksitas.

Dalam hal data, dibandingkan dengan generasi sebelumnya, jumlah total dan kualitas data di Llama 3.1 telah ditingkatkan, seperti pra-pemrosesan dan jalur manajemen yang lebih hati-hati untuk data pra-pelatihan, serta metode penjaminan kualitas dan penyaringan yang lebih ketat untuk pasca-pelatihan. data.

Llama 2 hanya melakukan pra-pelatihan pada data token 1,8T, sedangkan korpus pra-pelatihan multi-bahasa Llama 3.1 mencapai 15,6T token, meningkat lebih dari 8 kali lipat.

Dari segi skala, pelatihan Llama 3.1 menggunakan lebih dari 16.000 GPU NVIDIA H100, dan total jumlah penghitungan mencapai 3,8e25 FLOPS, hampir 50× dari Llama 2.

Untuk mencapai "peningkatan skala" dengan lebih baik, makalah ini secara khusus mengusulkan aspek "manajemen kompleksitas". Saat memilih arsitektur model dan algoritme, perhatian lebih perlu diberikan pada stabilitas dan skalabilitasnya.

Perlu dicatat bahwa Llama 3.1 tidak menggunakan arsitektur MoE paling populer, tetapi arsitektur khusus decoder Transformer yang padat. Hanya arsitektur Transformer asli yang telah dimodifikasi dan disesuaikan untuk memaksimalkan stabilitas pelatihan.

Praktik serupa mencakup penggunaan proses pasca-pelatihan sederhana seperti SFT, RS, dan DPO daripada algoritma pembelajaran penguatan yang lebih kompleks.

Mirip dengan banyak model besar, pengembangan Llama 3 terutama mencakup dua tahap: pra-pelatihan dan pasca-pelatihan.

Selama pra-pelatihan, "memprediksi token berikutnya" juga digunakan sebagai tujuan pelatihan. Pertama, jendela konteks diatur ke 8K, dan kemudian diperluas ke 128K selama tahap pra-pelatihan.

Fase pasca-pelatihan meningkatkan model melalui beberapa putaran umpan balik manusia yang berulang, secara signifikan meningkatkan kinerja pengkodean dan inferensi, serta mengintegrasikan kemampuan penggunaan alat.

Selain itu, makalah ini juga mencoba menggunakan tiga tahapan tambahan untuk menambahkan fungsi multi-modal seperti gambar, video, dan suara ke Llama 3.1:

- Pra-pelatihan encoder multi-modal: Encoder gambar dan ucapan dilatih secara terpisah. Data pra-pelatihan untuk yang pertama adalah pasangan gambar-teks, sedangkan yang terakhir menggunakan metode pengawasan mandiri untuk mencoba merekonstruksi bagian-bagian yang disamarkan dari gambar tersebut. pidato melalui bagian yang didiskritisasi.

- Adaptor visi: terdiri dari serangkaian lapisan perhatian silang yang memasukkan representasi dari pembuat enkode gambar ke dalam model bahasa yang telah dilatih sebelumnya. Berdasarkan gambar, makalah ini juga mencoba melatih adaptor video pada pasangan video-teks.

- Adaptor ucapan: menghubungkan pembuat enkode ucapan dan model bahasa, dan juga mengintegrasikan sistem "teks-ke-ucapan".


Sayangnya, fitur multi-modal yang disebutkan di atas masih dalam pengembangan dan oleh karena itu tidak disertakan dalam Llama 3.1 yang baru dirilis.

Arsitektur model

Llama 3.1 masih menggunakan Transformer padat standar, dan tidak ada perbedaan arsitektur yang signifikan dari Llama dan Llama 2. Peningkatan kinerja terutama berasal dari peningkatan kualitas data pelatihan, keragaman, dan perluasan skala.


Dibandingkan dengan Llama 3, arsitektur Llama 3.1 memiliki peningkatan sebagai berikut:

- Grouped Query Attention (GQA): Dengan 8 header nilai kunci, ini meningkatkan kecepatan inferensi dan mengurangi cache KV selama decoding

- Masker perhatian: Mencegah perhatian diri antara dokumen berbeda dalam urutan yang sama.Teknik ini memiliki efektivitas yang terbatas dalam pra-latihan standar, namun sangat penting ketika melanjutkan pra-latihan dalam rangkaian yang sangat panjang.

- Kosakata token 128K: termasuk 100K di tiktoken dan tambahan 28K untuk mendukung bahasa non-Inggris dengan lebih baik.Peningkatan rasio kompresi untuk bahasa Inggris dan non-Inggris dibandingkan dengan Llama 2

- Tetapkan hyperparameter RoPE θ ke 500.000: dukungan yang lebih baik untuk konteks yang panjang

Hyperparameter utama model ditunjukkan pada Tabel 3. Berdasarkan jumlah data dan daya komputasi pelatihan, ukuran model telah mencapai optimalisasi daya komputasi yang diungkapkan oleh Scaling Law.


Efisiensi paralel

Untuk melatih model 405B pada 16.000 GPU, ini sudah merupakan proyek besar hanya dengan mempertimbangkan paralelisme dan penanganan kesalahan.

Selain model itu sendiri, makalah ini juga menjelaskan skema paralelisasi yang digunakan dalam proses pelatihan, serta penyimpanan, jaringan, dan infrastruktur lainnya.

Pelatihan Llama 3.1 menggunakan paralelisme 4D (tensor + pipeline + konteks + data). Berdasarkan akurasi BF16, pemanfaatan GPU (MFU) adalah sekitar 38% hingga 41%.


Penanganan kesalahan pada cluster pelatihan Llama 3.1 juga sangat baik, mencapai lebih dari 90% waktu pelatihan efektif, namun ini tetap berarti bahwa selama total 54 hari pra-pelatihan, setidaknya ada satu gangguan setiap hari.

Makalah ini mencantumkan penyebab kesalahan dari 419 gangguan tak terduga secara rinci (Tabel 5), yang memiliki signifikansi referensi yang sangat penting untuk konstruksi cluster GPU di masa depan. Diantaranya, masalah yang dikonfirmasi atau diduga terkait dengan perangkat keras mencapai 78%.


Karena pengoperasian dan pemeliharaan otomatis cluster relatif selesai, meskipun terdapat banyak kegagalan, sebagian besar dapat ditangani secara otomatis. Selama keseluruhan proses, hanya tiga kegagalan yang memerlukan intervensi manual.

Meningkatkan kinerja kemampuan tertentu

kode

Untuk meningkatkan kemampuan pengkodean model, Meta menggunakan metode seperti melatih ahli pengkodean, menghasilkan data sintetis SFT, memandu peningkatan format melalui perintah sistem, dan membuat filter kualitas (menghapus sampel buruk dari data pelatihan).


Mengonversi kode Python (kiri) ke kode PHP (kanan) menggunakan Llama 3 untuk menambah kumpulan data SFT dengan bahasa pemrograman yang lebih luas


Tingkatkan kualitas kode melalui perbaikan sistem.Kiri: Tidak ada perintah sistem. Kanan: Ada perintah sistem.

multibahasa

Untuk meningkatkan kemampuan multibahasa Llama 3, Meta secara khusus melatih seorang ahli yang dapat menangani lebih banyak data multibahasa untuk memperoleh dan menghasilkan data penyempurnaan instruksi multibahasa berkualitas tinggi (seperti Jerman, Prancis, Italia, Portugis, Hindi (Inggris, Spanyol, dan Thailand) dan mengatasi tantangan spesifik dalam orientasi multibahasa.


penalaran matematis

Model pelatihan yang pandai dalam penalaran matematis menghadapi beberapa tantangan, seperti kurangnya petunjuk, kurangnya CoT nyata, langkah perantara yang salah, kebutuhan untuk mengajarkan model untuk menggunakan alat eksternal, perbedaan antara pelatihan dan inferensi, dll.

Untuk tujuan ini, Meta mengadopsi metode berikut: menyelesaikan masalah petunjuk yang tidak mencukupi, meningkatkan proses penalaran bertahap dalam data pelatihan, menyaring proses penalaran yang salah, menggabungkan penalaran kode dan teks, dan belajar dari umpan balik dan kesalahan.


konteks yang panjang

Pada tahap pra-pelatihan akhir, Meta memperluas panjang konteks Llama 3 dari 8 ribu token menjadi 128 ribu.

Dalam praktiknya, tim menemukan bahwa jika hanya data konteks pendek yang digunakan untuk SFT, kemampuan konteks panjang model akan menurun secara signifikan; dan membaca konteks panjang akan sangat membosankan dan memakan waktu, sehingga tidak praktis bagi manusia untuk memberi label pada data tersebut contoh.

Oleh karena itu, Meta memilih data sintetis untuk mengisi kesenjangan ini.

Dengan menggunakan versi awal Llama 3, mereka menghasilkan data sintetik berdasarkan kasus penggunaan konteks panjang yang utama: (beberapa putaran) menjawab pertanyaan, ringkasan dokumen panjang, inferensi basis kode.

Penggunaan alat

Meta melatih Llama 3 untuk berinteraksi dengan mesin pencari, juru bahasa Python, dan mesin perhitungan matematis.

Selama proses pengembangan, seiring dengan peningkatan bertahap Llama 3, Meta juga secara bertahap memperumit protokol anotasi manual. Mulailah dengan anotasi penggunaan alat satu putaran, lanjutkan ke penggunaan alat dalam percakapan, dan akhiri dengan anotasi penggunaan alat multi-langkah dan analisis data.


Llama 3 melakukan perencanaan multi-langkah, penalaran, dan pemanggilan alat untuk menyelesaikan tugas


Berdasarkan file yang disediakan, minta model untuk meringkas konten file, menemukan dan memperbaiki kesalahan, mengoptimalkan kode, melakukan analisis atau visualisasi data, dll.

nyata

Untuk masalah halusinasi, yang merupakan tantangan LLM yang diakui, Meta mengambil pendekatan yang mengutamakan halusinasi.

Prinsip yang mereka ikuti adalah bahwa setelah pelatihan, model harus "mengetahui apa yang diketahuinya" daripada menambahkan pengetahuan.

Kemampuan manuver

Untuk Llama 3, Meta meningkatkan kemampuan manuvernya melalui perintah sistem dengan instruksi bahasa alami, khususnya mengenai panjang respons, format, nada, dan persona/kepribadian.


"Anda adalah chatbot AI yang membantu dan ceria yang berfungsi sebagai asisten perencanaan makan untuk keluarga yang sibuk."

anggota tim

Tim Llama 3 bisa dibilang sangat besar, dengan hampir 220 anggota inti saja dan 312 kontributor lainnya.




Xiao Zha: AI open source adalah masa depan

Seperti yang kita ketahui bersama, Xiao Zha selalu menjadi pendukung setia AI open source.

Kali ini tidak hanya sesederhana merilis model baru dan terkuat, namun juga berjanji untuk mengedepankan AI open source.


Dalam blognya, Xiao Zha secara langsung mengambil pelajaran dari sejarah. Di masa lalu, perusahaan teknologi besar berinvestasi besar-besaran dalam mengembangkan versi Unix sumber tertutup.

Medan perang Unix berlangsung sengit, tetapi yang terakhir tertawa adalah Linux open source.


Linux pada awalnya disukai oleh para pengembang karena memungkinkan pengembang untuk memodifikasi kode sesuka hati dan lebih terjangkau.

Namun seiring berjalannya waktu, Unix menjadi lebih maju, lebih aman, dan memiliki lebih banyak fungsi yang didukung oleh ekosistem yang lebih luas dibandingkan Unix tertutup mana pun.

Saat ini, Linux adalah standar industri untuk komputasi awan dan sebagian besar sistem operasi perangkat seluler, dan semua orang mendapat manfaatnya.

Xiao Zha percaya bahwa lintasan pengembangan AI juga akan sama, dan akan menunjuk pada model sumber tertutup dari "beberapa perusahaan teknologi".


“Saat ini, beberapa perusahaan teknologi sedang mengembangkan model tertutup yang terkemuka, namun open source dengan cepat menutup kesenjangan tersebut.”

Keberanian Xiaozha untuk menyebutkan secara langsung tentu saja diperkuat oleh kekuatannya. Tahun lalu, Llama 2 masih tertinggal dari model generasi lama yang mutakhir.

Tahun ini, Llama 3 mampu bersaing dengan model raksasa lainnya dalam hal performa.

Llama 3.1 405B adalah model AI open source mutakhir pertama. Selain rasio biaya/kinerja yang jauh lebih baik dibandingkan model tertutup, keterbukaan model 405B menjadikannya pilihan terbaik untuk menyempurnakan dan menyaring model kecil.

Mengapa AI open source bagus untuk pengembang?

Bagi pengembang, ada lima manfaat utama jika tetap menggunakan model sumber terbuka:

Pertama, model sumber terbuka memungkinkan pengembang untuk secara bebas melatih, menyempurnakan, dan menyaring model mereka sendiri.

Kebutuhan setiap pengembang berbeda-beda, tugas pada perangkat dan tugas klasifikasi memerlukan model kecil, sedangkan tugas yang lebih kompleks memerlukan model besar.

Dengan memanfaatkan model sumber terbuka yang canggih, pengembang dapat melanjutkan pelatihan dengan data mereka sendiri, yang disaring hingga ukuran ideal.

Kedua, Anda dapat menghindari pembatasan oleh satu pemasok saja.

Pengembang tidak ingin bergantung pada model yang tidak dapat mereka jalankan dan kendalikan, dan mereka tidak ingin pemasok mengubah model, mengubah ketentuan penggunaan, atau bahkan menghentikan layanan sepenuhnya.

Dan open source memungkinkan model untuk dengan mudah dialihkan dan diterapkan, sehingga menciptakan ekosistem yang luas.

Ketiga, melindungi keamanan data.

Pengembang perlu memastikan keamanan data ketika menangani data sensitif, yang mengharuskan mereka tidak dapat mengirimkannya ke model sumber tertutup melalui API.

Diketahui bahwa perangkat lunak open source umumnya lebih aman karena proses pengembangannya lebih transparan.

Keempat, beroperasi secara efisien dan dengan biaya lebih rendah.

Biaya inferensi bagi pengembang yang menjalankan Llama 3.1 405B hanya setengah dari biaya GPT-4o, baik itu tugas inferensi sisi pengguna maupun offline.

Kelima, dalam jangka panjang, open source akan menjadi standar industri secara luas.

Faktanya, open source berkembang lebih cepat dibandingkan model open source, dan pengembang ingin dapat membangun sistem mereka pada arsitektur yang memiliki keunggulan jangka panjang.

Dalam pandangan Xiao Zha, peluncuran Llama 3.1 akan menjadi titik balik dalam industri, membuat open source semakin tidak dapat dihentikan.

Referensi:

https://ai.meta.com/blog/meta-llama-3-1/

https://llama.meta.com/

https://www.facebook.com/4/posts/10115716861061241/?rdid=VE0wPWaJDdF21j32