Microsoft dan NVIDIA bertaruh pada model kecil. Apakah model besar tidak lagi populer?

2024-08-26

Dalam pengembangan kecerdasan buatan, raksasa teknologi pernah berlomba-lomba mengembangkan model bahasa berskala besar, namun kini muncul tren baru: model bahasa kecil (SLM) secara bertahap bermunculan, menantang konsep masa lalu "lebih besar lebih baik".

Visual Cina

Pada tanggal 21 Agustus waktu setempat, Microsoft dan NVIDIA berturut-turut merilis model bahasa kecil terbaru-Phi-3.5-mini-instruct dan Mistral-NeMo- Minitron8B. Nilai jual utama dari kedua model ini adalah keduanya memberikan keseimbangan yang baik antara penggunaan sumber daya komputasi dan kinerja fungsional. Dalam beberapa hal, performanya bahkan dapat menyaingi model yang lebih besar.

Clem Delangue, CEO startup kecerdasan buatan Hugging Face, menunjukkan bahwa hingga 99% skenario penggunaan dapat diselesaikan oleh SLM dan memperkirakan bahwa tahun 2024 akan menjadi tahun SLM. Menurut statistik yang tidak lengkap, raksasa teknologi termasuk Meta, Microsoft, dan Google telah merilis 9 model kecil tahun ini.

Biaya pelatihan model besar meningkat

Munculnya SLM bukan suatu kebetulan, namun terkait erat dengan tantangan model besar (LLM) dalam hal peningkatan kinerja dan konsumsi sumber daya.

Perbandingan kinerja yang dirilis pada bulan April oleh startup AI Vellum dan Hugging Face menunjukkan bahwa kesenjangan kinerja antara LLM semakin dekat, terutama dalam tugas-tugas spesifik seperti pertanyaan pilihan ganda, penalaran dan masalah matematika, di mana perbedaan antara model teratas sangat besar. . Kecil. Misalnya, dalam pertanyaan pilihan ganda, Claude 3 Opus, GPT-4, dan Gemini Ultra semuanya mencapai akurasi lebih dari 83%, sedangkan dalam tugas inferensi, Claude3 Opus, GPT-4, dan Gemini 1.5Pro semuanya mencapai akurasi sebesar lebih dari 92%.

Gary Marcus, mantan kepala Uber AI, mengatakan: "Saya pikir semua orang akan mengatakan bahwa GPT-4 selangkah lebih maju dari GPT-3.5, namun tidak ada lompatan kualitatif selama lebih dari satu tahun sejak saat itu."

Dibandingkan dengan peningkatan kinerja yang terbatas, biaya pelatihan LLM terus meningkat. Melatih model ini memerlukan data dalam jumlah besar dan ratusan juta atau bahkan triliunan parameter, sehingga memerlukan konsumsi sumber daya yang sangat tinggi. Daya komputasi dan konsumsi energi yang dibutuhkan untuk melatih dan menjalankan LLM sangat besar, sehingga menyulitkan organisasi kecil atau individu untuk berpartisipasi dalam pengembangan inti LLM.

Badan Energi Internasional memperkirakan bahwa konsumsi listrik yang terkait dengan pusat data, mata uang kripto, dan kecerdasan buatan akan kira-kira setara dengan seluruh konsumsi listrik di Jepang pada tahun 2026.

CEO OpenAI Altman pernah mengatakan di sebuah acara MIT bahwa pelatihan GPT-4 akan menelan biaya setidaknya $100 juta, sementara CEO Anthropic Dario Amodei memperkirakan bahwa biaya pelatihan model tersebut dapat mencapai $100 miliar di masa depan.

Selain itu, kompleksitas alat dan teknik yang diperlukan untuk menggunakan LLM juga menambah kurva pembelajaran pengembang. Seluruh proses mulai dari pelatihan hingga penerapan memakan waktu lama, sehingga memperlambat pengembangan. Sebuah studi dari Universitas Cambridge menunjukkan bahwa perusahaan memerlukan waktu 90 hari atau lebih untuk menerapkan model pembelajaran mesin.

Masalah besar lainnya dengan LLM adalah bahwa ia rentan terhadap "ilusi" - yaitu, keluaran yang dihasilkan oleh model tampak masuk akal, namun sebenarnya salah. Hal ini karena LLM dilatih untuk memprediksi kata berikutnya yang paling mungkin berdasarkan pola data, bukan benar-benar memahami informasi. Akibatnya, LLM dengan percaya diri dapat menghasilkan pernyataan palsu, mengarang fakta, atau menggabungkan konsep yang tidak terkait dengan cara yang tidak masuk akal. Cara mendeteksi dan mengurangi "ilusi" ini merupakan tantangan berkelanjutan dalam mengembangkan model bahasa yang andal dan dapat dipercaya.

Model kecil mengurangi biaya

Kekhawatiran akan besarnya kebutuhan energi LLM, serta peluang pasar untuk menyediakan pilihan AI yang lebih beragam bagi perusahaan, telah menyebabkan perusahaan teknologi secara bertahap mengalihkan perhatian mereka ke SLM.

Wartawan "Daily Economic News" memperhatikan bahwa startup AI seperti Arcee, Sakana AI dan Hugging Face, serta raksasa teknologi, menarik investor dan pelanggan melalui SLM dan metode yang lebih ekonomis.

Sebelumnya, Google, Meta, OpenAI, dan Anthropic semuanya telah merilis model kecil yang lebih kompak dan fleksibel dibandingkan LLM andalan. Hal ini tidak hanya mengurangi biaya pengembangan dan penerapan, namun juga memberikan solusi yang lebih murah kepada pelanggan komersial. Mengingat meningkatnya kekhawatiran di kalangan investor mengenai tingginya biaya dan ketidakpastian keuntungan dari usaha AI, semakin banyak perusahaan teknologi yang mungkin memilih jalur ini. Bahkan Microsoft dan NVIDIA kini telah meluncurkan model kecil (SLM) mereka sendiri.

SLM adalah versi LLM yang disederhanakan dengan parameter yang lebih sedikit dan desain yang lebih sederhana, serta memerlukan lebih sedikit data dan waktu pelatihan - hanya beberapa menit atau jam. Hal ini membuat SLM lebih efisien dan mudah diterapkan pada perangkat kecil. Misalnya, teknologi ini dapat ditanamkan ke dalam ponsel tanpa menggunakan sumber daya superkomputer, sehingga mengurangi biaya dan meningkatkan daya tanggap secara signifikan.

Keuntungan utama lainnya dari SLM adalah spesialisasinya untuk aplikasi spesifik. SLM fokus pada tugas atau domain tertentu, yang membuatnya lebih efisien dalam aplikasi praktis. Misalnya, SLM sering kali mengungguli model tujuan umum dalam analisis sentimen, pengenalan entitas bernama, atau menjawab pertanyaan khusus domain. Penyesuaian ini memungkinkan bisnis membuat model yang memenuhi kebutuhan spesifik mereka secara efisien.

SLM juga kurang rentan terhadap “halusinasi” dalam domain tertentu karena mereka biasanya dilatih pada kumpulan data yang lebih sempit dan bertarget, yang membantu model mempelajari pola dan informasi yang paling relevan dengan tugasnya. Sifat SLM yang terfokus mengurangi kemungkinan menghasilkan keluaran yang tidak relevan, tidak terduga, atau tidak konsisten.

Meski ukurannya lebih kecil, performa SLM tidak kalah dengan model lebih besar dalam beberapa aspek. Instruksi mini Phi-3.5 terbaru dari Microsoft hanya memiliki 3,8 miliar parameter, tetapi kinerjanya lebih baik daripada model dengan parameter yang jauh lebih tinggi daripada Llama3.18B dan Mistral7B. Aaron Mueller, pakar penelitian model bahasa di Northeastern University (universitas riset swasta terkemuka yang berlokasi di Boston, Massachusetts, AS), menunjukkan bahwa memperluas jumlah parameter bukanlah satu-satunya cara untuk meningkatkan kinerja model dengan data berkualitas lebih tinggi juga menghasilkan hasil yang serupa.

CEO OpenAI Altman mengatakan pada sebuah acara di bulan April bahwa dia yakin kita berada di akhir era model raksasa dan "kita akan meningkatkan kinerja mereka dengan cara lain."

Namun, perlu dicatat bahwa meskipun spesialisasi SLM merupakan keuntungan besar, ia juga memiliki keterbatasan. Model-model ini mungkin berkinerja buruk di luar domain pelatihan spesifiknya, tidak memiliki basis pengetahuan yang luas, dan tidak mampu menghasilkan konten yang relevan pada berbagai topik dibandingkan dengan LLM. Keterbatasan ini mengharuskan pengguna untuk menerapkan beberapa SLM untuk mencakup area permintaan yang berbeda, sehingga mempersulit infrastruktur AI.

Dengan pesatnya perkembangan bidang AI, standar model kecil mungkin terus berubah. David Ha, salah satu pendiri dan CEO startup model kecil Sakana yang berbasis di Tokyo, mengatakan bahwa model AI yang tampak besar beberapa tahun lalu kini tampak "sederhana". “Ukuran selalu relatif,” kata David Ha.

berita ekonomi harian

Laporan/Umpan Balik

berita

Microsoft dan NVIDIA bertaruh pada model kecil. Apakah model besar tidak lagi populer?

Perkenalan

Informasi kontak saya