Dalam industri model besar, tidak ada open source yang “nyata” sama sekali?

2024-08-01

Penulis |.Zhou Xiaoxiao
Surel｜ [email protected]

Pasar model besar open source menjadi sangat hidup baru-baru ini. Pertama, Apple membuat DCLM model kecil 7 miliar parameter menjadi open source, dan kemudian Llama 3.1 dan Mistral Large 2 kelas berat menjadi open source satu demi satu melampaui Model SOTA sumber tertutup.

Namun perdebatan antara faksi open source dan close source belum menunjukkan tanda-tanda akan berhenti.

Di satu sisi, Meta mengatakan setelah rilis Llama 3.1: "Sekarang, kita sedang mengantarkan era baru yang dipimpin oleh open source." Di sisi lain, Sam Altman menulis artikel di "Washington Post", yang secara langsung menimbulkan kontradiksi antara sumber terbuka dan sumber tertutup ke tingkat negara dan kesadaran.

Pada Konferensi Kecerdasan Buatan Dunia beberapa waktu lalu, Robin Li secara blak-blakan menyatakan bahwa "open source sebenarnya adalah semacam pajak IQ" karena model sumber tertutup jelas lebih kuat dan memiliki biaya penalaran yang lebih rendah, yang sekali lagi memicu diskusi.

Belakangan, Fu Sheng juga mengutarakan pendapatnya. Ia yakin bahwa kedua kubu open source dan close source bersaing satu sama lain dan berkembang bersama. Dia juga membantah pandangan bahwa "open source sebenarnya adalah sejenis pajak IQ": "Model bahasa besar open source itu gratis, bagaimana cara mendapatkan pajak IQ, dan siapa yang memungut pajak?", "Jika perusahaan saat ini menggunakan model bahasa besar sumber tertutup berbayar, yang disebut 'pajak IQ', terutama biaya lisensi model dan biaya API yang sangat tinggi, yang menelan biaya ratusan juta per tahun, dan akhirnya dibeli kembali sebagai dekorasi, dan bahkan karyawan tidak dapat menggunakannya sama sekali (modelnya).”

Inti dari perdebatan ini melibatkan arah dan model pengembangan teknologi, yang mencerminkan pandangan dan posisi berbagai pemangku kepentingan yang berbeda. Sebelum kita berbicara tentang model bahasa besar open source dan close source, kita perlu memperjelas istilah "open source" dan "open source". sumber tertutup". Dua konsep dasar.

Istilah "sumber terbuka" berasal dari bidang perangkat lunak dan mengacu pada pembuatan kode sumber perangkat lunak yang terbuka untuk umum selama proses pengembangan, sehingga siapa pun dapat melihat, memodifikasi, dan mendistribusikannya.perangkat lunak sumber terbukaPengembangan perangkat lunak biasanya mengikuti prinsip kerja sama timbal balik dan produksi sejawat, mendorong peningkatan modul produksi, jalur komunikasi, dan komunitas interaktif. Perwakilan umum termasuk Linux dan Mozilla Firefox.

Perangkat lunak sumber tertutup (perangkat lunak berpemilik) Karena alasan komersial atau lainnya, kode sumber tidak diungkapkan dan hanya program yang dapat dibaca komputer (seperti format biner) yang disediakan. Kode sumber dimiliki dan dikendalikan hanya oleh pengembang. Perwakilan umumnya termasuk Windows dan Android.

Open source adalah model pengembangan perangkat lunak yang didasarkan pada keterbukaan, berbagi, dan kolaborasi. Hal ini mendorong semua orang untuk berpartisipasi dalam pengembangan dan peningkatan perangkat lunak dan mendorong kemajuan berkelanjutan dan penerapan teknologi secara luas.

Perangkat lunak yang dikembangkan dengan sumber tertutup kemungkinan besar merupakan produk yang stabil dan fokus, tetapi perangkat lunak sumber tertutup biasanya membutuhkan biaya, dan jika perangkat lunak tersebut memiliki bug atau fitur yang hilang, Anda harus menunggu pengembang memperbaiki masalahnya.

Mengenai model besar open source, industri belum mencapai konsensus yang jelas seperti perangkat lunak open source.

Model bahasa open source yang besar dan open source perangkat lunak memiliki konsep yang serupa. Keduanya didasarkan pada keterbukaan, berbagi dan kolaborasi, mendorong komunitas untuk berpartisipasi dalam pengembangan dan peningkatan, mendorong kemajuan teknologi dan meningkatkan transparansi.

Namun terdapat perbedaan yang signifikan dalam penerapan dan persyaratannya.

Perangkat lunak open source terutama ditujukan untuk aplikasi dan alat, dan open source memiliki persyaratan sumber daya yang lebih rendah, sedangkan open source model bahasa besar melibatkan sejumlah besar sumber daya komputasi dan data berkualitas tinggi, dan mungkin memiliki lebih banyak batasan penggunaan. Oleh karena itu, meskipun kedua open source bertujuan untuk mendorong inovasi dan difusi teknologi, model bahasa besar open source menghadapi lebih banyak kompleksitas dan bentuk kontribusi komunitas juga berbeda.

Robin Li juga menekankan perbedaan antara keduanya. Model open source tidak berarti kode sumber terbuka: "Model open source hanya bisa mendapatkan banyak parameter, dan Anda harus melakukan SFT (supervised fine-tuning) dan penyelarasan keamanan. Bahkan jika Anda mendapatkan kode sumber yang sesuai, Anda tidak bisa mendapatkannya." Mengetahui berapa banyak dan berapa proporsi data yang digunakan untuk melatih parameter ini tidak akan memungkinkan semua orang menambahkan bahan bakar ke dalam api. Mendapatkan hal-hal ini tidak akan memungkinkan Anda untuk berdiri di atas bahu para raksasa dan berkembang secara berulang-ulang.

Sumber terbuka model bahasa besar dengan proses penuh mencakup menjadikan seluruh proses pengembangan model, mulai dari pengumpulan data, desain model, pelatihan hingga penerapan, terbuka dan transparan. Pendekatan ini tidak hanya mencakup pengungkapan kumpulan data dan arsitektur model, namun juga mencakup berbagi kode dari proses pelatihan dan pelepasan bobot model yang telah dilatih sebelumnya.

Tahun lalu terjadi peningkatan besar dalam jumlah model bahasa besar, banyak yang mengaku sebagai open source, namun seberapa terbukakah model bahasa tersebut sebenarnya?

Andreas Liesenfeld, seorang peneliti kecerdasan buatan di Universitas Radboud di Belanda, dan ahli bahasa komputasi Mark Dingemanse juga menemukan bahwa meskipun istilah "sumber terbuka" digunakan secara luas, banyak model yang paling banter hanya berupa "bobot terbuka", dan sebagian besar hal lainnya tentang konstruksi sistem Semua aspek disembunyikan.

Misalnya, meskipun teknologi seperti Meta dan Microsoft memasarkan model bahasa besar mereka sebagai "sumber terbuka", mereka tidak mengungkapkan informasi penting terkait dengan teknologi yang mendasarinya. Yang mengejutkan mereka adalah kinerja perusahaan dan institusi AI dengan sumber daya lebih sedikit bahkan lebih terpuji.

Tim peneliti menganalisis serangkaian proyek model bahasa besar "sumber terbuka" yang populer dan mengevaluasi keterbukaan aktualnya dari berbagai aspek seperti kode, data, bobot, API, dan dokumentasi. Studi ini juga menggunakan ChatGPT OpenAI sebagai titik referensi untuk sumber tertutup, menyoroti keadaan sebenarnya dari proyek “sumber terbuka”.

✔ artinya terbuka, ~ artinya terbuka sebagian, dan X artinya tertutup

Hasilnya menunjukkan perbedaan yang signifikan antar proyek. Menurut peringkat ini, OLMo dari Allen Institute for AI adalah model yang paling open source, diikuti oleh BloomZ dari BigScience, keduanya dikembangkan oleh organisasi nirlaba.

Makalah tersebut menyatakan bahwa meskipun Llama dari Meta dan Gemma dari Google DeepMind mengklaim sebagai open source atau terbuka, mereka sebenarnya hanyalah bobot terbuka. Peneliti eksternal dapat mengakses dan menggunakan model yang telah dilatih sebelumnya, tetapi tidak dapat memeriksa atau menyesuaikan model, dan tidak tahu caranya model menargetkan tugas-tugas tertentu.

Rilisan terbaru LLaMA 3 dan Mistral Large 2 telah menarik banyak perhatian. Dalam hal keterbukaan model, LLaMA 3 memaparkan bobot model. Pengguna dapat mengakses dan menggunakan bobot model yang telah dilatih sebelumnya dan telah disesuaikan dengan instruksi. Selain itu, Meta juga menyediakan beberapa kode dasar untuk pra-pelatihan model dan penyempurnaan instruksi. namun kode pelatihan lengkap tidak diberikan, dan data pelatihan untuk LLaMA 3 tidak dipublikasikan. Namun kali ini LMeta menghadirkan laporan teknis setebal 93 halaman tentang LLaMA 3.1 405B.

Situasi Mistral Large 2 serupa. Ia mempertahankan tingkat keterbukaan yang tinggi dalam hal bobot model dan API, namun tingkat keterbukaan yang lebih rendah dalam hal kode lengkap dan data pelatihan. mengizinkan penggunaan penelitian dengan pembatasan penggunaan komersial.

Google mengatakan perusahaan itu "sangat tepat dalam bahasanya" ketika mendeskripsikan modelnya, dan mereka menyebut Gemma terbuka, bukan open source. “Konsep open source yang ada tidak selalu dapat diterapkan secara langsung pada sistem AI,”

Konteks penting dalam penelitian ini adalah Undang-Undang Kecerdasan Buatan Uni Eropa (UE), yang ketika undang-undang ini mulai berlaku, akan memberlakukan peraturan yang lebih longgar pada model-model yang diklasifikasikan sebagai terbuka, sehingga definisi tentang sumber terbuka mungkin menjadi lebih penting.

Satu-satunya cara untuk berinovasi, kata para peneliti, adalah dengan mengubah model, sehingga Anda memerlukan informasi yang cukup untuk membuat versi Anda sendiri. Tidak hanya itu, model juga harus diteliti dengan cermat. Misalnya, jika model dilatih pada sampel pengujian dalam jumlah besar, lulus pengujian tertentu mungkin bukan suatu pencapaian.

Mereka juga senang dengan banyaknya alternatif sumber terbuka yang bermunculan, dan ChatGPT sangat populer sehingga mudah untuk melupakan apa pun tentang data pelatihannya atau trik di balik layar lainnya. Ini adalah sebuah jebakan bagi mereka yang ingin lebih memahami model atau membangun aplikasi berdasarkan model tersebut, sementara alternatif sumber terbuka memungkinkan penelitian dasar yang kritis.

Silicon Star juga membuat statistik tentang situasi open source dari beberapa model bahasa open source besar dalam negeri:

Kita dapat melihat dari tabel bahwa, mirip dengan situasi di luar negeri, model open source yang lebih menyeluruh pada dasarnya dipimpin oleh lembaga penelitian. Hal ini terutama karena tujuan lembaga penelitian adalah untuk mendorong kemajuan penelitian ilmiah dan pengembangan industri, dan lebih dari itu cenderung membuka hasil penelitiannya.

Perusahaan komersial menggunakan keunggulan sumber daya mereka untuk mengembangkan model yang lebih kuat dan mendapatkan keunggulan dalam persaingan melalui strategi sumber terbuka yang tepat.

Dari GPT-3 hingga BERT, open source telah memberikan dorongan penting bagi ekosistem model besar.

Dengan mempublikasikan arsitektur dan metode pelatihannya, para peneliti dan pengembang dapat mengeksplorasi dan meningkatkan fondasi ini lebih jauh, sehingga menghasilkan teknologi dan aplikasi yang lebih mutakhir.

Munculnya model-model besar yang bersifat open source telah secara signifikan menurunkan ambang batas pengembangan. Pengembang dan usaha kecil dan menengah dapat memanfaatkan teknologi AI canggih ini tanpa harus membuat model dari awal, sehingga menghemat banyak waktu dan sumber daya. Hal ini memungkinkan lebih banyak proyek dan produk inovatif diimplementasikan dengan cepat, sehingga mendorong perkembangan seluruh industri. Pengembang secara aktif berbagi metode pengoptimalan dan kasus aplikasi pada platform sumber terbuka, yang juga mendorong kematangan dan penerapan teknologi.

Untuk pendidikan dan penelitian ilmiah, model bahasa open source yang besar menyediakan sumber daya yang berharga. Dengan mempelajari dan menggunakan model-model ini, pelajar dan pengembang pemula dapat dengan cepat menguasai teknologi AI yang canggih, memperpendek kurva pembelajaran, dan membawa inovasi baru ke dalam industri.

Namun, keterbukaan model bahasa berukuran besar bukanlah properti biner sederhana. Arsitektur sistem berbasis Transformer dan proses pelatihannya sangat kompleks dan sulit untuk diklasifikasikan sebagai terbuka atau tertutup. Model besar open source bukanlah label sederhana, tetapi lebih seperti spektrum, mulai dari open source penuh hingga open source sebagian, dengan derajat yang berbeda-beda.

Open source model bahasa besar adalah tugas yang kompleks dan teliti, dan tidak semua model harus open source.

Kita juga tidak boleh menuntut open source penuh dalam bentuk “penculikan moral”, karena ini melibatkan banyak pertimbangan teknologi, sumber daya dan keamanan, serta memerlukan keseimbangan antara keterbukaan dan keamanan, inovasi dan tanggung jawab. Seperti aspek teknologi lainnya, beragam cara berkontribusi akan membangun ekosistem teknologi yang lebih kaya.

Hubungan antara model sumber terbuka dan sumber tertutup dapat dibandingkan dengan koeksistensi perangkat lunak sumber terbuka dan sumber tertutup dalam industri perangkat lunak.

Model sumber terbuka mendorong penyebaran dan inovasi teknologi secara luas serta memberikan lebih banyak kemungkinan bagi para peneliti dan perusahaan, sedangkan model sumber tertutup mendorong peningkatan standar di seluruh industri. Persaingan yang sehat antara keduanya menginspirasi perbaikan berkelanjutan dan memberikan pilihan yang beragam kepada pengguna.

Sama seperti perangkat lunak sumber terbuka dan perangkat lunak berpemilik yang bersama-sama membentuk ekosistem perangkat lunak saat ini,Tidak ada pertentangan biner antara model besar open source dan close source. Koeksistensi keduanya merupakan kekuatan pendorong penting bagi kemajuan berkelanjutan teknologi AI dan memenuhi kebutuhan berbagai skenario aplikasi. Pada akhirnya, pengguna dan pasar akan menentukan pilihan yang sesuai bagi mereka.

berita

Dalam industri model besar, tidak ada open source yang “nyata” sama sekali?

Perkenalan

informasi kontak saya