Arah model skala besar telah berubah, OpenAI dan Apple telah berbalik

Arah model berskala besar telah berubah, dan OpenAI Apple telah melakukan perubahan arah

2024-07-22

hal-hal cerdas
PengarangZeR0
Editor Mo Ying

AI generatif tampaknya memiliki pola yang tidak terlihat: sesekali, akan terjadi peristiwa "kecelakaan mobil" berskala besar yang mengejutkan.

Tahun ini saja, model Google Gemini 1.5 Pro dirilis, model generasi video OpenAI Sora diluncurkan, dan OpenAI GPT-4o dirilis di Konferensi Pengembang Google I/O, sehingga penonton di seluruh dunia dapat mencium persaingan yang kuat untuk hegemoni di antara model-model besar.

Jika semua kebetulan sebelumnya menunjukkan bahwa OpenAI sengaja mencegat Google, maka dalam empat hari minggu lalu, Hugging Face, OpenAI, Mistral, dan Apple berturut-turut merilis model ringan terkuat mereka, yang tentunya merupakan tren terbaru di industri AI.

Kini, model besar AI tidak lagi hanya soal balap"Lebih besar dan lebih kuat", dan berguling dengan keras"Lakukan hal-hal kecil dan lakukan hal-hal baik"。

Melampaui GPT-4o bukan lagi satu-satunya KPI. Model-model besar telah memasuki periode kritis untuk bersaing memperebutkan pasar. Untuk mengesankan pengguna, kita tidak hanya harus mengandalkan kekuatan teknis, tetapi juga membuktikan bahwa model kita sendiri lebih hemat biaya -efektif--Modelnya lebih kecil dengan performa yang sama, dan performanya lebih tinggi dengan parameter yang sama serta menghemat uang.。

▲ Model ringan yang baru dirilis GPT-4o mini dan Mistral NeMo minggu lalu sangat unggul dalam hal kinerja biaya (Sumber: Analisis Buatan)

Faktanya, tren teknologi "model besar yang diubah menjadi miniaturisasi" mulai muncul pada paruh kedua tahun lalu.

Pengubah permainan adalah dua perusahaan. Salah satunya adalah startup AI Perancis, Mistral AI. Pada bulan September tahun lalu, ia menggunakan model besar dengan 7 miliar parameter untuk mengalahkan Llama 2 dengan 13 miliar parameter. Ini mengejutkan semua orang dan menjadi terkenal di komunitas pengembang; Face the Wall Intelligence. Pada bulan Februari tahun ini Meluncurkan model sisi akhir MiniCPM yang lebih terkonsentrasi, mencapai kinerja melebihi Llama 2 13B dengan hanya 2,4 miliar parameter.

Kedua startup tersebut terkenal di komunitas pengembang, dan banyak model yang menduduki puncak daftar teratas open source. Secara khusus, Wall-Facing Intelligence, yang dikembangkan dari Natural Language Processing Laboratory Universitas Tsinghua, menyebabkan keributan tahun ini ketika model multi-modalnya "dikupas" oleh tim dari universitas ternama di Amerika Serikat karya orisinalnya telah diakui di kalangan akademis dalam dan luar negeri, membuat model AI Open source dalam negeri bangga akan dirinya sendiri.

Apple juga telah mulai meneliti model sisi terminal yang dapat beradaptasi lebih baik dengan ponsel sejak tahun lalu. OpenAI, yang telah mengikuti jalur ekspansi ekstensif dan penuh kekerasan, merupakan pendatang baru yang relatif mengejutkan. Peluncuran model ringan GPT-4o mini minggu lalu berarti saudara model besar tersebut mengambil inisiatif untuk mundur dari "altar" dan mulai mengikuti tren industri, mencoba menggunakan model yang lebih murah dan lebih mudah didapat untuk memanfaatkan pasar yang lebih luas.

Tahun 2024 akan menjadi tahun kritis bagi "miniaturisasi" model besar!

▲ Statistik tidak lengkap model bahasa umum ringan yang baru dirilis pada tahun 2024 hanya disertakan dalam model bahasa umum dengan jumlah parameter ≤8B yang dapat diterapkan di sisi perangkat, dan model multi-modal tidak disertakan (Sumber: Zhidongxi)

1. “Hukum Moore” di era model besar: hanya efisiensi yang dapat menghasilkan keberlanjutan

Saat ini, penelitian dan pengembangan model besar mengalami kelembaman:Sungguh keajaiban。

Pada tahun 2020, sebuah makalah oleh OpenAI memverifikasi bahwa ada korelasi kuat antara performa model dan skala. Selama Anda menerima lebih banyak data berkualitas tinggi dan melatih model yang lebih besar, Anda bisa mendapatkan performa yang lebih tinggi.

Mengikuti jalur yang sederhana namun efektif ini, dalam dua tahun terakhir, terdapat perlombaan global yang pesat untuk mengejar model yang lebih besar. Di sinilah letak bahaya tersembunyi dari hegemoni algoritmik. Hanya tim dengan dana dan daya komputasi yang cukup yang memiliki modal untuk mengikuti kompetisi dalam waktu yang lama.

Tahun lalu, CEO OpenAI Sam Altman mengungkapkan bahwa biaya pelatihan GPT-4 setidaknya sedikitUS$100 juta . Tanpa adanya model bisnis yang menghasilkan keuntungan tinggi, bahkan perusahaan teknologi besar yang berkantong tebal pun akan kesulitan untuk melakukan investasi jangka panjang, berapapun biayanya. Lingkungan ekologis tidak bisa membiarkan permainan yang menghabiskan uang tanpa dasar ini.

Kesenjangan kinerja antara model-model bahasa besar terkemuka semakin menyempit. Meski GPT-4o kokoh menempati peringkat pertama, namun selisih skor benchmark dengan Claude 3 Opus dan Gemini 1.5 Pro tetap tidak berubah. Dalam beberapa kemampuan, puluhan miliar model besar bahkan dapat mencapai performa yang lebih baik. Ukuran model bukan lagi satu-satunya faktor penentu yang memengaruhi performa.

Bukan berarti model besar teratas tidak menarik, namun model ringan lebih hemat biaya.

Gambar di bawah adalah bagan tren biaya inferensi AI yang dibagikan oleh insinyur AI Karina Ngugen di platform sosial pada akhir Maret tahun ini. Gambar tersebut dengan jelas menggambarkan hubungan antara kinerja model bahasa besar pada benchmark MMLU dan biayanya sejak tahun 2022: Lebih dari itu Seiring waktu, model bahasa memperoleh skor akurasi MMLU yang lebih tinggi, dan biaya terkait turun secara signifikan. Akurasi model baru ini mencapai sekitar 80%, sementara kinerja biaya jauh lebih rendah dibandingkan beberapa tahun yang lalu.

Dunia berubah dengan sangat cepat, dan dalam beberapa bulan terakhir telah muncul gelombang model ringan baru yang hemat biaya.

▲Model berukuran lebih kecil dapat mencapai performa luar biasa dengan biaya lebih rendah (Sumber: AI Tertanam)

"Persaingan untuk model bahasa berukuran besar semakin ketat - mundur!" Andrej Karpathy, pakar teknologi AI, bertaruh: "Kita akan melihat beberapa model yang sangat, sangat kecil 'berpikir' dengan sangat baik dan andal."

Kemampuan model parameter model yang terlibat dalam perhitungan = kepadatan pengetahuan , dimensi pengukuran ini dapat digunakan untuk merepresentasikan bahwa model dengan skala parameter yang sama dapat memiliki kecerdasan yang kuat. Model besar GPT-3 yang dirilis pada Juni 2020 memiliki 175 miliar parameter.Pada bulan Februari tahun ini, ukuran parameter model MiniCPM-2.4B cerdas yang menghadap ke dinding dan mencapai kinerja yang sama telah dikurangi menjadi 2,4 miliar, yang setara dengan peningkatan kepadatan pengetahuan sekitar86 kali。

Berdasarkan tren ini, Liu Zhiyuan, profesor tetap di Departemen Ilmu Komputer di Universitas Tsinghua dan kepala ilmuwan intelijen, baru-baru ini mengemukakan sudut pandang yang menarik:Era model besar memiliki "Hukum Moore" tersendiri。

secara khusus,Dengan pengembangan data, daya komputasi, dan algoritme yang terkoordinasi, kepadatan pengetahuan model-model besar terus meningkat, rata-rata meningkat dua kali lipat setiap delapan bulan.。

▲Dari perubahan daftar OpenCompass, kita dapat melihat bahwa parameter kecil dan model berperforma tinggi telah menjadi tren

Dengan meningkatkan kepadatan sirkuit pada chip, perangkat komputasi dengan daya komputasi yang sama akan berevolusi dari superkomputer yang dapat ditampung di beberapa ruangan menjadi ponsel yang dapat dibawa dalam saku. Perkembangan model besar selanjutnya akan mengikuti pola yang sama. Liu Zhiyuan menyebut undang-undang panduan yang ia usulkan sebagai "Hukum yang Menghadapi Tembok".

Jika tren ini terus berlanjut,Untuk melatih model dengan 100 miliar parameter, kemampuan model dengan 50 miliar parameter akan mampu dicapai dalam 8 bulan berikutnya, hanya dengan 25 miliar parameter.。

2. Kekuatan terbagi menjadi beberapa arah: perang harga sumber tertutup sedang berlangsung, dan sumber terbuka Tiongkok, Amerika Serikat, dan Eropa saling bersaing.

Pemain yang mengikuti kompetisi kelas ringan model besar dibagi menjadi banyak grup.

OpenAI, Google, dan Anthropic semuanya mengambil jalur sumber tertutup. Model andalan mereka seperti GPT-4o, Claude 3.5 Sonnet, dan Gemini 1.5 Pro mengontrol tingkat kinerja terkuat, dan skala parameter model ini mencapai ratusan miliar atau bahkan triliunan.

Model ringannya adalah versi sederhana dari model andalannya. Setelah peluncuran OpenAI minggu lalu, GPT-4o mini telah menjadi opsi paling hemat biaya di bawah 10 miliar di pasar berdasarkan kinerjanya yang melampaui Gemini Flash dan Claude Haiku. To C menggantikan GPT-3.5 untuk penggunaan gratis oleh pengguna, dan ToB menurunkan harga API secara tajam, membuat ambang batas untuk mengadopsi teknologi model besar menjadi lebih rendah.

Andriy Burkov, penulis "Machine Learning Engineering", menyimpulkan bahwa spesifikasi parameter GPT-4o mini adalah sekitar 7B berdasarkan harganya. CEO Intelijen yang menghadap ke dinding, Li Dahai berspekulasi bahwa GPT-4o mini adalah model "MoE yang luas" dengan sejumlah besar pakar, bukan model sisi perangkat. Model ini diposisikan sebagai model cloud yang hemat biaya untuk mengurangi industri secara signifikan biaya penerapan model besar.

Kamp model ringan open source bahkan lebih besar, dengan perwakilan pemain dari Tiongkok, Amerika Serikat, dan Eropa.

Alibaba domestik, Wall-Facing Intelligence, SenseTime, dan Shanghai Artificial Intelligence Laboratory semuanya memiliki beberapa model ringan yang bersifat open source.Diantaranya, model seri Qwen Alibaba sering digunakan dalam uji benchmark model ringan, dan model kecerdasan menghadap dinding seri MiniCPM juga merupakan contoh penggunaan parameter kecil untuk melompati model besar dalam hitungan detik, dan sangat dipuji di komunitas sumber terbuka.

Face Wall Intelligence adalah tim wirausaha yang berwawasan ke depan. Pada tahun 2020, mereka memimpin dalam mengambil rute model besar di Tiongkok. Mereka mulai mengeksplorasi cara menggunakan teknologi penyesuaian yang efisien untuk mengurangi biaya pelatihan Agen AI pada awal tahun lalu dan merilis lebih dari 100 miliar agen AI pada bulan Agustus. Modal model besar, menerapkan model besar dan teknologi agen untuk keuangan, pendidikan, urusan pemerintahan, terminal cerdas, dan skenario lainnya, merumuskan arah perangkat- kolaborasi cloud pada akhir tahun, dan kemudian secara intensif meluncurkan berbagai model sisi perangkat yang berefisiensi tinggi dan hemat energi pada tahun ini.

Dalam enam bulan terakhir, Wallface Intelligence telah merilis model dasar MiniCPM 2.4B dan MiniCPM 1.2B, model teks panjang MiniCPM-2B-128k, model multi-modal MiniCPM-V 2.0, dan MiniCPM- tingkat kinerja GPT-4V. Llama3-V 2.5. Model ahli hibrida MiniCPM-MoE-8x2B, dll. Sejauh ini, keseluruhan volume unduhan seri MiniCPM telah mencapai hampir 950.000, dengan 12.000 bintang.

Startup ini juga menerapkan model MiniCPM-S 1.2B yang lebih hemat energi melalui arsitektur sparse yang efisien: kepadatan pengetahuan mencapai 2,57 kali lipat dari model padat MiniCPM 1.2B pada skala yang sama dan 12,1 kali lipat dari Mistral-7B, sehingga dapat disimpulkan lebih lanjut "hukum yang menghadap ke dinding". Mempromosikan pengurangan biaya inferensi model besar secara signifikan.

▲ Model seri MiniCPM cerdas yang menghadap dinding dengan cepat melakukan iterasi dan meningkatkan kepadatan pengetahuan

Dalam kamp model sumber terbuka ringan di Amerika Serikat, perusahaan teknologi besar memiliki tingkat partisipasi yang tinggi, termasuk Meta, Microsoft, Google, Apple, Stability AI, dll., dan kisah "gelombang di belakang mengalahkan gelombang di depan" pantai" sering dipentaskan.

Hugging Face juga meluncurkan model SmolLM dengan spesifikasi tiga parameter minggu lalu: 135M, 360M, dan 1.7B. Dibandingkan dengan model dengan ukuran yang sama, kinerjanya sangat kompetitif. Versi 1.7B telah melampaui Microsoft Phi-1.5 dalam beberapa pengujian benchmark. , Google SelulerLLM-1.5B dan Alibaba Qwen2-1.5B.

Apple, yang terkenal "tertutup", adalah sekolah open source terkenal di bidang AI: mereka merilis model multi-modal Ferret pada bulan Oktober tahun lalu, pada bulan April tahun ini, mereka merilis empat pra-pelatihan OpenELM model dengan parameter berkisar antara 2,7 miliar hingga 30 miliar; dan Di antara model DCLM terbaru, kinerja versi 6.9B melebihi Mistral 7B, dan skor MMLU versi 1.4B melebihi SmolLM-1.7B.

▲Apple menggunakan DCLM-Baseline untuk melatih model (oranye), yang menunjukkan kinerja yang baik dibandingkan dengan model sumber tertutup (persilangan) serta kumpulan data dan model sumber terbuka lainnya (lingkaran)

Perwakilan pemain di Eropa tidak lain adalah model besar unicorn Perancis, Mistral AI.Ia baru saja merilis model cangkir kecil Mistral Nemo 12B minggu lalu, yang mendukung pemrosesan konteks 128k. Kinerjanya melebihi Google Gemma 2 9B dan Llama 2 8B. Kemampuan penalaran, pengetahuan dunia, dan pengkodeannya adalah yang terkuat di antara model sumber terbuka dengan skala yang sama .

Kemajuan ini menunjukkan potensi penerapan miniaturisasi model besar.

Clem Delangue, salah satu pendiri dan CEO Hugging Face, memperkirakan: “Model yang lebih kecil, lebih murah, lebih cepat, dan lebih personal akan mencakup 99% kasus penggunaan . Anda tidak memerlukan mobil Formula 1 senilai $1 juta untuk berkendara ke tempat kerja setiap hari, dan Anda tidak memerlukan chatbot nasabah bank untuk memberi tahu Anda arti hidup! "

3. Bagaimana Anda menjadi ahli penghemat uang di industri model besar?

Pemutaran ulang dan miniaturisasi model-model besar merupakan tren yang tak terelakkan bagi AI untuk memberikan manfaat bagi semua orang.

Tidak semua aplikasi memerlukan model besar yang paling kuat. Persaingan bisnis mempertimbangkan efektivitas biaya dan menekankan kualitas tinggi dan harga rendah. Skenario dan bisnis yang berbeda memiliki tuntutan yang sangat berbeda terhadap kualitas output dan efektivitas biaya.

Model berskala sangat besar akan menimbulkan biaya pembelajaran yang besar bagi pengembang, dan akan memerlukan banyak masalah mulai dari pelatihan hingga penerapan. Model yang lebih ramping dapat menurunkan rasio input-output dan menggunakan lebih sedikit dana, data, sumber daya perangkat keras, dan siklus pelatihan untuk membangun model yang kompetitif, sehingga mengurangi biaya infrastruktur, membantu meningkatkan aksesibilitas, dan mempercepat pengembangan model.

▲Menurut makalah Apple DataComp-LM, semakin sedikit parameter model, semakin sedikit daya komputasi dan waktu yang diperlukan untuk pelatihan.

Untuk aplikasi tertentu, model ringan memerlukan lebih sedikit data, sehingga model tersebut dapat lebih mudah disesuaikan untuk tugas tertentu guna mencapai performa dan efisiensi yang memenuhi kebutuhan Anda. Karena arsitekturnya yang ramping, model jenis ini memerlukan kapasitas penyimpanan dan daya komputasi yang lebih sedikit. Setelah mengoptimalkan desain untuk perangkat keras sisi akhir, model ini dapat dijalankan secara lokal di laptop, ponsel cerdas, atau perangkat kecil lainnya, dengan latensi rendah, akses mudah, dan perlindungan. . Keuntungan privasi dan keamanan memastikan bahwa data pribadi tidak akan dikirimkan secara eksternal.

Meskipun model ringan berperforma tinggi berukuran kecil, namun harus "Gunakan daya komputasi dan konsumsi energi yang terbatas untuk memadatkan pengetahuan menjadi model dengan parameter yang lebih kecil“Ambang batas teknisnya tidak rendah.

Proses pelatihannya adalahPertama menjadi lebih besar, lalu menjadi lebih kecil , menyaring esensi pengetahuan dari model besar yang kompleks. Misalnya, model multi-modal cangkir kecil Google Gemma-2 disempurnakan menggunakan pengetahuan model 27B.

Namun dalam hal rute teknis tertentu, pemain yang berbeda memiliki pendekatan yang berbeda.

Misalnya didata pelatihan Di sisi lain, Meta dengan bangga memberikan data pelatihan token Llama 3 15T. Microsoft, Apple, dll. fokus pada pengoptimalan kumpulan data pelatihan dan inovasi metode data. Microsoft Phi-3 hanya menggunakan 3,3T token, dan Apple DCLM 7B hanya menggunakan 2,6T token. Menurut makalah Apple DataComp-LM,Meningkatkan kumpulan data pelatihan dapat mencapai keseimbangan antara komputasi dan kinerja, sehingga mengurangi biaya pelatihan . Baru dirilis minggu lalu, Mistral NeMo mengompresi teks dan kode lebih efisien dibandingkan model sebelumnya dengan menggunakan tagger Tekken tingkat lanjut.

“Menjadi lebih kecil” masih membutuhkanInovasi arsitektur . Misalnya, model OpenELM Apple melakukan desain penyempurnaan hierarkis untuk kemacetan perangkat keras guna meningkatkan efisiensi pengoperasian di sisi ujung; model tipis efisien MiniCPM-S 1.2B yang menghadap ke dinding mencapai ketersebaran hampir 88%, memungkinkan lapisan tautan penuh ke The konsumsi berkurang menjadi 84%, dan kecepatan decoding 2,8 kali lebih tinggi dibandingkan model padat yang sesuai tanpa mengurangi kinerja.

▲Klasifikasi teknis untuk mewujudkan model bahasa besar yang hemat sumber daya (Sumber: makalah "Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models")

Model besar adalah proyek sistematis yang perlu dieksplorasi”ilmu kecerdasan buatan"Arah, ituMelalui iterasi berkelanjutan terhadap solusi teknis seperti algoritme, arsitektur, tata kelola data, dan fusi multi-modal, kita dapat melatih model dengan lebih andal, dapat diprediksi, dan dengan kualitas lebih tinggi., untuk terus meningkatkan kepadatan pengetahuan model besar.

Untuk melatih dan mengoptimalkan model dengan cepat, jalur produksi yang efisien perlu dibuat.Penting untuk membangun platform rangkaian alat proses lengkap dan membentuk strategi pelatihan model yang efisien dan terukur. . Misalnya, mekanisme sandbox model yang menghadap dinding mencapai pembentukan kemampuan model secara cepat dengan menggunakan model kecil untuk memprediksi kinerja model besar dan berbagi skema hyperparameter antara model besar dan kecil.

▲ Perbandingan aktual kecepatan decoding inferensi MiniCPM 1.2B dan MiniCPM-S 1.2B

Untuk mempercepat penggunaan model besar di terminal cerdas, Facewall Intelligence baru-baru ini telah membuka sumber perangkat model besar sisi klien pertama di industri, "MobileCPM", dan menyediakan tutorial bergaya pengasuh untuk membantu pengembang mengintegrasikan model besar ke dalam aplikasi dengan satu klik.

▲ Kumpulan alat model besar sisi terminal cerdas yang menghadap ke dinding "MobileCPM"

Tahun ini bertepatan dengan ledakan AI di sisi perangkat. Mulai dari raksasa chip seperti Intel, Nvidia, AMD, dan Qualcomm hingga produsen AI PC dan ponsel pintar besar, mereka semua mempromosikan beragam aplikasi AI di sisi perangkat. Produsen terminal telah mulai bekerja sama dengan produsen model umum untuk mempromosikan penerapan model ringan di berbagai perangkat sisi akhir.

Ketika kinerja chip sisi akhir menjadi lebih kuat dan kepadatan pengetahuan model meningkat, model yang dapat dijalankan secara lokal pada perangkat sisi akhir menjadi lebih besar dan lebih baik.Sekarang GPT-4V dapat berjalan di sisi terminal, prediksi Liu ZhiyuanDalam satu tahun ke depan, model level GPT-3.5 dapat dioperasikan di sisi perangkat, dan dalam dua tahun ke depan, model level GPT-4o dapat dioperasikan di sisi akhir.。

Kesimpulan: Mulailah kompetisi model besar yang tidak menghabiskan banyak uang

Dalam dunia teknologi, tren sejarah menjadi lebih kecil, lebih murah, dan lebih mudah digunakan selalu berulang. Di era mainframe, komputer adalah barang mewah kelas atas yang hanya dapat diakses oleh orang kaya dan elit. Memasuki era komputer mini, kemajuan teknologi telah menjadikan perangkat komputasi lebih portabel dan mudah digunakan, serta PC dan telepon seluler telah memasuki pekerjaan dan kehidupan sehari-hari masyarakat umum.

Sama seperti kita membutuhkan superkomputer dengan daya komputasi besar dan ponsel yang dapat dimasukkan ke dalam saku orang biasa, era AI generatif juga membutuhkan model besar yang sangat cerdas yang lebih dekat dengan pengguna, lebih hemat biaya, dan mampu memenuhi aplikasi ekonomi tertentu model permintaan.

OpenAI GPT-4o masih berada di puncak model AI besar yang paling kuat, namun tidak lagi terkalahkan seperti sebelumnya. Pada saat yang sama, model-model besar yang lebih kompak dan efisien menantang konsep "lebih besar lebih baik". Tren baru "menggunakan yang kecil untuk menjadi besar" diperkirakan akan mengubah cara pengembangan AI dan membuka kemungkinan-kemungkinan baru dalam penerapannya AI di lingkungan perusahaan dan konsumen.

Peralihan ke miniaturisasi menandai perubahan besar dalam industri AI. Kompetisi model besar mulai beralih dari fokus pada peningkatan kinerja menjadi fokus pada kebutuhan yang lebih detail di dunia nyata. Di tengah kegilaan ini, kekuatan sumber terbuka Tiongkok, yang diwakili oleh intelijen yang tidak dapat diakses, tumbuh dengan pesat melalui serangkaian inovasi teknologi, Tiongkok memverifikasi hukum kepadatan pengetahuan model-model besar dengan cara yang lebih layak secara ekonomi, dan pada akhirnya mendorong penggunaan teknologi tersebut. model besar dalam skenario aplikasi praktis.

berita

Arah model berskala besar telah berubah, dan OpenAI Apple telah melakukan perubahan arah

Perkenalan

informasi kontak saya