Di balik GPT-4o mini yang lebih kecil dan bertenaga, masa depan model AI tidak lagi lebih besar dan lebih baik

2024-07-27

minggu lalu Buka AI Lepaskan gerakan besar saat larut malam,GPT-4o Mini ini menendang GPT-3.5 Turbo keluar dari masa pensiunnya, dan bahkan melampaui GPT-4 di arena model besar LMSYS.

Minggu ini Meta dirilis Untuk model besar, jika ukuran eselon satu 405B masih diharapkan, maka versi baru ukuran 8B dan 70B menghadirkan lebih banyak kejutan.

Dan ini mungkin bukan akhir dari kompetisi model kecil, tetapi lebih mungkin merupakan titik awal yang baru.

Bukan berarti model besar tidak terjangkau, namun model kecil lebih hemat biaya

Di dunia AI yang luas, model kecil selalu memiliki legenda tersendiri.

Melihat dari luar, Mistral 7B yang laris tahun lalu dipuji sebagai "model 7B terbaik" segera setelah dirilis. Model ini mengalahkan model parameter 13B Llama 2 dalam berbagai tolok ukur evaluasi, dan mengunggulinya dalam penalaran, matematika, dan pembuatan kode .

Tahun ini Microsoft juga membuka sumber model besar parameter kecil yang paling kuat phi-3-mini. Meskipun jumlah parameternya hanya 3,8B, hasil evaluasi kinerja jauh melebihi tingkat skala parameter yang sama dan sebanding dengan model yang lebih besar seperti GPT-. 3.5 dan Soneta Claude-3.

Melihat ke dalam, Wall Intelligence meluncurkan MiniCPM, model bahasa side-to-side dengan hanya parameter 2B pada awal Februari. Model ini menggunakan ukuran yang lebih kecil untuk mencapai kinerja yang lebih kuat. Performanya melampaui model Prancis yang populer Mistral-7B, yang dikenal sebagai " Baja Kecil". senjata".

Belum lama ini, MiniCPM-Llama3-V2.5, yang hanya memiliki ukuran parameter 8B, juga mengungguli model yang lebih besar seperti GPT-4V dan Gemini Pro dalam hal performa komprehensif multimodal dan kemampuan OCR Tim AI Universitas Stanford.

Hingga minggu lalu, OpenAI, yang melakukan pengeboman pada larut malam, meluncurkan apa yang digambarkannya sebagai "model parameter kecil yang paling kuat dan hemat biaya" - GPT-4o mini, yang membawa perhatian semua orang kembali ke model kecil tersebut.

Sejak OpenAI menyeret dunia ke dalam imajinasi AI generatif, mulai dari konteks panjang, hingga parameter bergulir, hingga agen, dan sekarang hingga perang harga, pengembangan di dalam dan luar negeri selalu berkisar pada satu logika - untuk tetap berada di lapangan dengan bergerak menuju komersialisasi .Di meja kartu.

Oleh karena itu, di bidang opini publik, yang paling menarik perhatian adalah OpenAI yang melakukan pemotongan harga sepertinya sedang memasuki perang harga.

Banyak orang mungkin belum mengetahui dengan jelas harga GPT-4o mini. GPT-4o mini per 1 juta inputtoken Harganya 15 sen, dan harga per 1 juta token keluaran adalah 60 sen, 60% lebih murah dibandingkan GPT-3.5 Turbo.

Dengan kata lain, GPT-4o mini menghasilkan buku setebal 2.500 halaman hanya dengan 60 sen.

CEO OpenAI Sam Altman juga menyesalkan X yang dibandingkan dengan GPT-4o mini, model paling kuat dua tahun lalu tidak hanya memiliki kesenjangan kinerja yang besar, namun juga memiliki biaya penggunaan yang 100 kali lebih tinggi dibandingkan sekarang.

Meskipun perang harga untuk model besar menjadi semakin sengit, beberapa model kecil open source yang efisien dan ekonomis lebih mungkin menarik perhatian pasar. Lagi pula, bukan berarti model besar tidak dapat digunakan, namun model kecil lebih hemat biaya .

Di satu sisi, ketika GPU di seluruh dunia terjual habis atau bahkan kehabisan stok, model open source kecil dengan biaya pelatihan dan penerapan yang lebih rendah sudah cukup untuk secara bertahap mendapatkan keunggulan.

Misalnya, MiniCPM yang diluncurkan oleh Mianbi Intelligence dapat mencapai penurunan biaya inferensi seperti tebing dengan parameter yang lebih kecil, dan bahkan dapat mencapai inferensi CPU. Ini hanya memerlukan satu mesin untuk pelatihan parameter berkelanjutan dan kartu grafis untuk penyesuaian parameter juga merupakan perbaikan berkelanjutan.

Jika Anda adalah pengembang yang matang, Anda bahkan dapat melatih model vertikal di bidang hukum dengan membuat sendiri model kecil, dan biaya inferensi mungkin hanya seperseribu dari biaya penyempurnaan model besar.

Penerapan beberapa aplikasi "model kecil" di sisi terminal telah memungkinkan banyak produsen melihat awal keuntungan. Misalnya, Facewall Intelligence membantu Pengadilan Menengah Rakyat Shenzhen meluncurkan sistem uji coba yang dibantu kecerdasan buatan, yang membuktikan nilai teknologi tersebut bagi pasar.

Tentu saja, lebih tepat dikatakan bahwa perubahan yang akan mulai kita lihat bukanlah pergeseran dari model besar ke model kecil, namun pergeseran dari satu kategori model ke portofolio model, dengan pilihan model yang tepat bergantung pada model tersebut. pada kebutuhan spesifik organisasi, Kompleksitas tugas dan sumber daya yang tersedia.

Sebaliknya, model kecil lebih mudah diterapkan dan diintegrasikan pada perangkat seluler, sistem tertanam, atau lingkungan berdaya rendah.

Skala parameter model kecil relatif kecil. Dibandingkan dengan model besar, permintaan sumber daya komputasi (seperti daya komputasi AI, memori, dll.) lebih rendah, dan dapat berjalan lebih lancar pada perangkat sisi akhir yang terbatas. sumber daya. Selain itu, peralatan sisi akhir biasanya memiliki persyaratan yang lebih ekstrem dalam hal konsumsi energi, pembangkitan panas, dan masalah lainnya. Model kecil yang dirancang khusus dapat lebih beradaptasi dengan keterbatasan peralatan sisi akhir.

CEO Honor Zhao Ming mengatakan bahwa karena masalah daya komputasi AI di sisi klien, parameternya mungkin antara 1B dan 10B, dan model jaringan yang besarkomputasi awanKemampuannya bisa mencapai 10-100 miliar, atau bahkan lebih tinggi.

Ponsel berada di ruang yang sangat terbatas, bukan? Ini mendukung 7 miliar baterai terbatas, pembuangan panas terbatas, dan lingkungan penyimpanan terbatas. Jika Anda membayangkan ada begitu banyak kendala, itu pasti yang paling sulit.

Kami juga telah mengungkapkan pahlawan di balik layar yang bertanggung jawab mengoperasikan ponsel pintar Apple. Di antara mereka, model kecil 3B yang disempurnakan didedikasikan untuk tugas-tugas seperti ringkasan dan pemolesan Gemma-7B dan cocok untuk dijalankan di terminal ponsel.

Jadi kita melihat bahwa mantan guru OpenAI Andrej Karpathy baru-baru ini membuat penilaian bahwa persaingan dalam ukuran model akan menjadi "involusi terbalik", bukan semakin besar, tetapi siapa yang lebih kecil dan lebih fleksibel.

Mengapa model kecil bisa mengalahkan model besar dengan model kecil?

Prediksi Andrej Karpathy bukannya tidak berdasar.

Di era yang berpusat pada data ini, model dengan cepat menjadi lebih besar dan kompleks. Sebagian besar model yang sangat besar (seperti GPT-4) yang dilatih pada data yang sangat besar sebenarnya digunakan untuk mengingat sejumlah besar detail yang tidak relevan, yaitu menghafal informasi. di luar kepala.

Namun, model yang disempurnakan bahkan dapat "memenangkan yang besar dengan yang kecil" pada tugas-tugas tertentu, dan kegunaannya sebanding dengan banyak "model super besar".

CEO Hugging Face, Clem Delangue, juga menyarankan bahwa hingga 99% kasus penggunaan dapat diselesaikan dengan menggunakan model kecil, dan memperkirakan bahwa tahun 2024 akan menjadi tahun model bahasa kecil.

Sebelum menyelidiki alasannya, kita harus mempopulerkan terlebih dahulu beberapa ilmu pengetahuan.

Pada tahun 2020, OpenAI mengusulkan hukum terkenal dalam sebuah makalah: Hukum penskalaan, yang berarti seiring bertambahnya ukuran model, kinerjanya juga akan meningkat. Dengan diperkenalkannya model seperti GPT-4, keuntungan dari penskalaan hukum secara bertahap mulai terlihat.

Para peneliti dan insinyur di bidang AI sangat yakin bahwa dengan meningkatkan jumlah parameter model, kemampuan pembelajaran dan kemampuan generalisasi model dapat lebih ditingkatkan. Dengan cara ini, kita telah menyaksikan lompatan skala model dari miliaran parameter menjadi ratusan miliar, dan bahkan meningkat menuju model dengan triliunan parameter.

Dalam dunia AI, ukuran suatu model bukanlah satu-satunya kriteria untuk mengukur kecerdasannya.

Sebaliknya, model kecil yang dirancang dengan baik, dengan mengoptimalkan algoritme, meningkatkan kualitas data, dan mengadopsi teknologi kompresi canggih, sering kali dapat menunjukkan kinerja yang sebanding atau bahkan lebih baik daripada model besar pada tugas tertentu.

Strategi menggunakan jumlah kecil untuk mencapai hasil yang lebih besar menjadi tren baru di bidang AI.Diantaranya, meningkatkan kualitas data adalah salah satu cara bagi model kecil untuk memenangkan model besar.

Satish Jayanthi, CTO dan salah satu pendiri Coalesce, pernah menjelaskan peran data dalam model:

Jika ada pada abad ke-17 Magister Hukum , dan kami bertanya kepada ChatGPT apakah Bumi itu bulat atau datar, dan mereka menjawab bahwa Bumi itu datar, karena data yang kami berikan meyakinkannya bahwa memang demikian. Data yang kami berikan kepada LLM dan cara kami melatihnya akan secara langsung memengaruhi keluarannya.

Untuk menghasilkan hasil berkualitas tinggi, model bahasa besar perlu dilatih menggunakan data bertarget berkualitas tinggi untuk topik dan domain tertentu. Sama seperti siswa membutuhkan buku pelajaran yang berkualitas untuk dipelajari, LLM juga membutuhkan sumber data yang berkualitas.

Meninggalkan estetika kekerasan tradisional dalam bekerja keras untuk mencapai keajaiban, Liu Zhiyuan, seorang profesor tetap di Departemen Ilmu Komputer di Universitas Tsinghua dan kepala ilmuwan kecerdasan yang menghadap tembok, baru-baru ini mengusulkan undang-undang yang menghadap tembok di era besar model, artinya kepadatan pengetahuan model terus meningkat, rata-rata meningkat dua kali lipat setiap delapan bulan.

Diantaranya, kepadatan pengetahuan = kemampuan model/parameter model yang terlibat dalam perhitungan.

Liu Zhiyuan menjelaskan dengan gamblang bahwa jika Anda diberikan 100 soal tes IQ, skor Anda tidak hanya bergantung pada berapa banyak soal yang Anda jawab dengan benar, tetapi juga pada jumlah neuron yang Anda gunakan untuk menyelesaikan soal tersebut. Semakin banyak tugas yang Anda lakukan dengan lebih sedikit neuron, semakin tinggi IQ Anda.

Inilah gagasan inti yang disampaikan oleh kepadatan pengetahuan:

Ia memiliki dua elemen. Salah satu elemennya adalah kemampuan model ini. Elemen kedua adalah jumlah neuron yang dibutuhkan untuk kemampuan ini, atau konsumsi daya komputasi yang sesuai.

Dibandingkan dengan 175 miliar parameter GPT-3 yang dirilis oleh OpenAI pada tahun 2020, pada tahun 2024 OpenAI merilis MiniCPM-2.4B dengan performa yang sama tetapi hanya 2,4 miliar parameter seperti GPT-3, yang meningkatkan kepadatan pengetahuan sekitar 86 kali lipat.

Sebuah studi dari Universitas Toronto juga menunjukkan bahwa tidak semua data diperlukan, mengidentifikasi subset berkualitas tinggi dari kumpulan data besar yang lebih mudah untuk diproses dan menyimpan semua informasi dan keragaman dalam kumpulan data asli.

Meskipun hingga 95% data pelatihan dihapus, performa prediktif model dalam distribusi tertentu mungkin tidak terpengaruh secara signifikan.

Contoh terbaru tidak diragukan lagi adalah model besar Meta Llama 3.1.

Ketika Meta melatih Llama 3, ia memasukkan 15T token data pelatihan, tetapi Thomas Scialom, seorang peneliti Meta AI yang bertanggung jawab atas pekerjaan pasca-pelatihan Llama2 dan Llama3, mengatakan: Teks di Internet penuh dengan informasi yang tidak berguna, dan pelatihan berdasarkan pada informasi ini hanya membuang-buang sumber daya komputasi.

Llama 3 tidak memiliki jawaban yang ditulis manusia setelah pelatihannya... itu hanya memanfaatkan data sintetis murni Llama 2.

Selain itu, penyulingan pengetahuan juga merupakan salah satu metode penting “menaklukkan yang besar dengan yang kecil”.

Penyulingan pengetahuan mengacu pada penggunaan "model guru" yang besar dan kompleks untuk memandu pelatihan "model siswa" yang kecil dan sederhana, yang dapat mentransfer kinerja yang kuat dan kemampuan generalisasi yang unggul dari model besar ke model yang lebih ringan dan komputasional. lebih sedikit.

Setelah peluncuran Llama 3.1, CEO Meta Zuckerberg juga menyoroti pentingnya menyempurnakan dan menyaring model kecil dalam artikel panjangnya "AI Sumber Terbuka Adalah Jalan ke Depan".

Kita perlu melatih, menyempurnakan, dan menyaring model kita sendiri. Setiap organisasi memiliki kebutuhan berbeda yang paling baik dilayani dengan menggunakan model yang dilatih atau disesuaikan pada skala berbeda dan dengan data spesifik.

Sekarang Anda dapat mengambil model Llama yang canggih, terus melatihnya menggunakan data Anda sendiri, lalu menyaringnya ke ukuran model yang paling sesuai dengan kebutuhan Anda - tanpa kami atau orang lain dapat melihat data Anda.

Industri juga secara umum percaya bahwa Meta Llama 3.1 versi 8B dan 70B disuling dari cangkir ultra-besar. Oleh karena itu, kinerja keseluruhan telah ditingkatkan secara signifikan dan efisiensi model juga lebih tinggi.

Atau, pengoptimalan arsitektur model juga merupakan kuncinya. Misalnya, tujuan awal desain MobileNet adalah untuk menerapkan model pembelajaran mendalam yang efisien pada perangkat seluler.

Ini secara signifikan mengurangi jumlah parameter model melalui konvolusi yang dapat dipisahkan secara mendalam. Dibandingkan dengan ResNet, MobileNetV1 mengurangi jumlah parameter sekitar 8-9 kali lipat.

MobileNet secara komputasi lebih efisien karena berkurangnya jumlah parameter. Hal ini sangat penting terutama untuk lingkungan dengan sumber daya terbatas, seperti perangkat seluler, karena dapat secara signifikan mengurangi kebutuhan komputasi dan penyimpanan tanpa mengorbankan terlalu banyak kinerja.

Meskipun ada kemajuan di tingkat teknis, industri AI sendiri masih menghadapi tantangan investasi jangka panjang dan biaya tinggi, serta siklus pengembalian yang relatif panjang.

Menurut statistik tidak lengkap dari "Daily Economic News", hingga akhir April tahun ini, total sekitar 305 model besar telah diluncurkan di China, namun hingga 16 Mei, masih ada sekitar 165 model besar yang belum diluncurkan. pendaftaran selesai.

Pendiri Baidu Robin Li secara terbuka mengkritik bahwa keberadaan banyak model dasar saat ini hanya membuang-buang sumber daya, dan menyarankan agar sumber daya digunakan lebih banyak untuk menjajaki kemungkinan menggabungkan model dengan industri, dan untuk mengembangkan potensi aplikasi super berikutnya.

Ini juga merupakan masalah inti dalam industri AI saat ini, yaitu kontradiksi yang tidak proporsional antara peningkatan jumlah model dan penerapan aplikasi praktis.

Menghadapi tantangan ini, fokus industri secara bertahap beralih ke percepatan penerapan teknologi AI, dan model kecil dengan biaya penerapan rendah dan efisiensi lebih tinggi telah menjadi titik terobosan yang lebih cocok.

Beberapa model kecil yang fokus pada bidang tertentu juga mulai bermunculan, seperti model memasak besar dan model besar untuk live streaming. Meskipun nama-nama ini mungkin tampak sedikit menggertak, mereka berada di jalur yang benar.

Singkatnya, AI di masa depan tidak lagi menjadi satu kesatuan yang besar, namun akan lebih beragam dan personal. Munculnya model-model kecil merupakan cerminan dari tren ini. Kinerja luar biasa mereka dalam tugas-tugas tertentu membuktikan bahwa "kecil namun indah" juga dapat mendapatkan rasa hormat dan pengakuan.

Satu hal lagi

Jika Anda ingin menjalankan model tersebut terlebih dahulu di iPhone Anda, Anda sebaiknya mencoba Aplikasi iOS bernama “Hugging Chat” yang diluncurkan oleh Hugging Face.

Dengan mengunduh Aplikasi dengan akun App Store Magic dan Outer Zone, pengguna dapat mengakses dan menggunakan berbagai model sumber terbuka, termasuk namun tidak terbatas pada Phi 3, Mixtral, Command R+ dan model lainnya.

Pengingat hangat, untuk pengalaman dan kinerja yang lebih baik, disarankan untuk menggunakan iPhone versi Pro generasi terbaru.

berita

Di balik GPT-4o mini yang lebih kecil dan bertenaga, masa depan model AI tidak lagi lebih besar dan lebih baik

Perkenalan

informasi kontak saya