berita

Apakah era model besar sudah berakhir?Bos besar Qi memperkirakan: Model AI mungkin perlu diperkecil sebelum dapat ditingkatkan skalanya

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Laporan Kebijaksanaan Baru

Editor: telinga

[Pengantar Kebijaksanaan Baru]Dengan munculnya model kecil, akankah “era model besar” berakhir?

"Small Model Week" telah berlalu, dan medan pertempuran terbaru untuk model kecil baru saja dibuka.

Minggu lalu, GPT-4o mini dan Mistral NeMo dirilis secara berurutan. Model kecil yang "berukuran kecil tetapi memiliki semua organ internal" telah menjadi arah baru yang sangat diperhatikan oleh para pemimpin industri.

Jadi, apakah model besar akan kehilangan dukungannya? Scaling Law akan menjadi tidak efektif?

Mantan peneliti OpenAI dan Tesla AI Andrej Karpathy baru saja memasuki pendidikan AI. "Teacher K" baru-baru ini menerbitkan tweet untuk memandu industri, mengungkapkan tren baru di balik peralihan raksasa teknologi ke penelitian dan pengembangan model kecil: persaingan model AI besar akan berbalik.

Ia memperkirakan model masa depan akan lebih kecil namun tetap lebih pintar.

Raksasa AI dan beberapa unicorn baru baru-baru ini merilis model kecerdasan buatan yang lebih kompak, lebih kuat, dan lebih terjangkau dibandingkan rekan-rekan mereka. Contoh terbaru adalah GPT-4o mini dari OpenAI.

Karpathy memperkirakan tren ini akan terus berlanjut. “Saya yakin kita akan melihat banyak model yang berpikir secara efisien dan andal, dan dalam ukuran yang sangat kecil,” tulisnya.

Model kecil: berdiri di atas bahu raksasa

Pada tahap awal pengembangan LLM, merupakan tren yang tidak dapat dihindari untuk memproses lebih banyak data dan menjadikan model lebih besar. Hal ini terutama didasarkan pada alasan berikut:

Pertama, kebutuhan berbasis data.

Hidup di era ledakan data, sejumlah besar data yang kaya dan beragam memerlukan model yang lebih canggih untuk diproses dan dipahami.

Model besar memiliki kemampuan untuk mengakomodasi dan memproses data dalam jumlah besar. Melalui pelatihan data berskala besar, mereka dapat menemukan pola dan hukum yang mendalam.

Kedua, peningkatan daya komputasi.

Kemajuan teknologi perangkat keras yang berkelanjutan dan pengembangan peralatan komputasi berkinerja tinggi seperti GPU memberikan dukungan daya komputasi yang kuat untuk pelatihan model besar. Memungkinkan untuk melatih model yang besar dan kompleks.

Selanjutnya, kejar kinerja dan akurasi yang lebih tinggi.

Model besar biasanya dapat menunjukkan kinerja luar biasa di berbagai bidang seperti pemahaman bahasa, pembuatan, dan pengenalan gambar.

Terakhir, kemampuan generalisasi lebih kuat.

Model besar dapat menangani masalah dan tugas baru yang belum pernah terlihat sebelumnya dengan lebih baik, dapat membuat tebakan dan jawaban yang masuk akal berdasarkan pengetahuan yang dipelajari sebelumnya, dan memiliki kemampuan generalisasi yang lebih kuat.

Ditambah dengan persaingan yang ketat di bidang AI, berbagai lembaga penelitian dan raksasa berkomitmen untuk mengembangkan model yang lebih besar dan lebih kuat untuk menunjukkan kekuatan teknis dan posisi terdepan mereka secara alami menjadi arah pengembangan umum LLM.

Karpathy juga mengaitkan skala model paling kuat saat ini dengan kompleksitas data pelatihan, menambahkan bahwa model bahasa berukuran besar unggul dalam hal memori, melebihi kemampuan memori manusia.

Dengan analogi, jika Anda harus mengikuti ujian buku tertutup pada minggu terakhir, ujian tersebut mengharuskan Anda melafalkan paragraf tertentu dari buku berdasarkan beberapa kata pertama.

Ini adalah tujuan dari pra-pelatihan model-model besar saat ini. Karpathy mengatakan, model besar saat ini ibarat ular rakus yang hanya ingin menelan semua data yang ada.

Mereka tidak hanya dapat melafalkan rangkaian algoritma hashing SHA untuk bilangan umum, tetapi juga dapat mengingat pengetahuan di semua bidang, besar dan kecil.

Namun cara belajar ini seperti menghafal segala sesuatu dari seluruh perpustakaan dan internet untuk ujian.

Tidak bisa dipungkiri bahwa mereka yang bisa mencapai kemampuan memori seperti ini adalah orang-orang jenius, namun pada akhirnya, hanya satu halaman yang digunakan saat ujian!

Bagi siswa berbakat seperti itu, sulit bagi LLM untuk berbuat lebih baik karena dalam proses data latih, demonstrasi berpikir dan pengetahuan “terjerat” bersama-sama.

Selain itu, di satu sisi, dari perspektif aplikasi praktis, model besar menghadapi biaya tinggi dan konsumsi sumber daya saat diterapkan dan dijalankan, termasuk sumber daya komputasi, sumber daya penyimpanan, dan konsumsi energi.

Model kecil lebih mudah diterapkan di berbagai perangkat dan skenario, memenuhi persyaratan kemudahan penggunaan dan konsumsi daya yang rendah.

Di sisi lain, dari perspektif kematangan teknologi, setelah sifat dan hukum masalah dieksplorasi dan dipahami sepenuhnya melalui model besar, pengetahuan dan pola tersebut dapat disempurnakan dan diterapkan pada desain dan optimalisasi model kecil.

Hal ini memungkinkan model kecil mengurangi skala dan biaya sambil mempertahankan performa yang sama atau bahkan lebih baik dibandingkan model besar.

Meski pengembangan model besar menemui hambatan dan model kecil lambat laun menjadi tren baru, Karpathy menekankan bahwa model besar tetap diperlukan, meski tidak dilatih secara efektif, namun model kecil merupakan kondensasi dari model besar.

Karpathy memperkirakan bahwa setiap model akan terus ditingkatkan, menghasilkan data pelatihan untuk model berikutnya, hingga terdapat "kumpulan pelatihan yang sempurna".

Bahkan model out-of-the-box seperti GPT-2, yang memiliki 1,5 miliar parameter, jika Anda melatih GPT-2 dengan set pelatihan yang sempurna ini, model tersebut dapat menjadi model yang sangat kuat dan cerdas menurut standar saat ini.

GPT-2 ini, yang dilatih dengan rangkaian pelatihan sempurna, mungkin mendapat skor sedikit lebih rendah, misalnya, tes Massive Multi-task Language Understanding (MMLU), yang mencakup 57 tugas, termasuk matematika dasar, sejarah AS, ilmu komputer, Hukum, dll., digunakan untuk mengevaluasi cakupan pengetahuan dasar dan kemampuan pemahaman model besar.

Namun di masa depan, model kecerdasan buatan yang lebih cerdas tidak akan bergantung pada volume; mereka akan mampu mengambil informasi dan memverifikasi fakta dengan lebih andal.

Ibarat seorang siswa berprestasi yang mengikuti ujian buku terbuka, meskipun tidak semua ilmunya dipahami secara menyeluruh, ia dapat menemukan jawaban yang benar dengan akurat.

Menurut laporan, proyek Strawberry OpenAI berfokus pada penyelesaian masalah ini.

"Melangsingkan" model besar yang "gembung".


Seperti yang dikatakan Karpathy, sebagian besar model yang sangat besar (seperti GPT-4) yang dilatih dengan data yang sangat besar sebenarnya digunakan untuk mengingat sejumlah besar detail yang tidak relevan, yaitu untuk menghafal informasi.

Hal ini terkait dengan tujuan prapelatihan model. Pada tahap prapelatihan, model diharuskan melafalkan isi berikut seakurat mungkin, yang setara dengan menghafal teks skor.

Meskipun model dapat mempelajari pengetahuan yang berulang, terkadang terdapat kesalahan dan bias dalam data, dan model harus mengingat semuanya terlebih dahulu sebelum menyempurnakannya.

Karpathy percaya bahwa jika terdapat kumpulan data pelatihan dengan kualitas lebih tinggi, model yang lebih kecil, lebih mumpuni, dan lebih mumpuni dapat dilatih.

Dengan bantuan model yang sangat besar, kumpulan data pelatihan berkualitas lebih tinggi dapat dibuat dan dibersihkan secara otomatis.

Mirip dengan GPT-4o mini, ia dilatih menggunakan data yang dibersihkan oleh GPT-4.

Pertama-tama buat modelnya lebih besar, lalu "perkecil" atas dasar ini. Ini mungkin merupakan tren baru dalam pengembangan model.

Untuk memberikan metafora yang jelas, model besar saat ini memiliki masalah dengan kumpulan data yang terlalu banyak dan terlalu gemuk. Setelah pembersihan data dan pelatihan ekstensif, model tersebut berubah menjadi model kecil dengan otot yang ramping.

Proses ini seperti evolusi langkah demi langkah, dan setiap generasi model akan membantu menghasilkan data pelatihan generasi berikutnya hingga akhirnya kita mendapatkan "kumpulan pelatihan yang sempurna".

CEO OpenAI Sam Altman juga membuat pernyataan serupa, menyatakan "akhir era" model AI besar pada awal April 2023.

Selain itu, semakin disadari bahwa kualitas data merupakan faktor kunci keberhasilan dalam pelatihan AI, baik itu data nyata maupun data sintetis.

Altman yakin pertanyaan kuncinya adalah bagaimana sistem AI dapat belajar lebih banyak dari lebih sedikit data.

Peneliti Microsoft membuat penilaian yang sama ketika mengembangkan model Phi. Peneliti Hugging Face AI juga setuju dengan upaya untuk menghasilkan kumpulan data berkualitas tinggi dan merilis kumpulan data pelatihan berkualitas tinggi.

Artinya, ekspansi buta tidak lagi menjadi satu-satunya tujuan teknis raksasa teknologi. Bahkan model kecil dan berkualitas tinggi pun bisa mendapatkan keuntungan dari data yang lebih banyak, lebih beragam, dan berkualitas lebih tinggi.

Kembali ke model yang lebih kecil dan efisien dapat dilihat sebagai tujuan dari tahap integrasi berikutnya, dan rilis model OpenAI dengan jelas menunjukkan arah pengembangan di masa depan.

Area komentar: benar, relevan, dan berdarah

Karpathy juga menyebutkan pendekatan serupa yang dilakukan Tesla pada jaringan mengemudi otonom.

Tesla memiliki sesuatu yang disebut "pelacak offline" yang menghasilkan data pelatihan yang lebih bersih dengan menjalankan model sebelumnya yang lebih lemah.

Begitu dia mendengar bahwa teknologi Tesla dikatakan sebagai yang terdepan saat ini, Musk segera bergegas ke area komentar:

Netizen di kolom komentar pun mengapresiasi kejelian Karpathy, dan saya setuju!

Untuk kecerdasan buatan umum di masa depan, model kecerdasan buatan yang lebih kecil dan lebih efisien dapat mendefinisikan kembali “kecerdasan” dalam kecerdasan buatan dan menantang asumsi bahwa “lebih besar lebih baik.”

Sebastian Raschka, penulis "Python Machine Learning", percaya bahwa ini seperti penyulingan pengetahuan, menyaring model kecil seperti Gemma-2 dari model 27B yang besar.

Beliau juga mengingatkan bahwa tes pilihan ganda seperti MMLU dapat menguji pengetahuan, namun tidak dapat sepenuhnya mencerminkan kemampuan sebenarnya.

Beberapa netizen juga sangat imajinatif. Jika model kecil berkinerja baik, maka ada spesialisasi di bidangnya, mengapa tidak menggunakan lebih banyak model kecil untuk menghasilkan jawaban satu per satu?

Panggil 10 asisten AI, lalu biarkan yang terpintar membuat ringkasan akhir. Ini hanyalah versi AI dari sebuah wadah pemikir.

Jadi, apakah AGI merupakan model besar yang sangat canggih, ataukah ia berasal dari kolaborasi banyak model kecil?