Jia Yangqing: Model berukuran besar kembali ke jalur lama CNN; Musk: Hal yang sama berlaku di Tesla

2024-08-01

Rumah itu berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Ukuran model Transformer yang besar berubah, dan ia kembali ke jalur lama CNN!

Melihat semua orang tertarik dengan LLaMA 3.1,Jia YangqingSentimen seperti itu.

Membandingkan perkembangan model berukuran besar dengan perkembangan CNN, kita dapat menemukan tren dan fenomena yang jelas:

Di era ImageNet, para peneliti dan praktisi teknis menyaksikan pertumbuhan pesat dalam ukuran parameter dan kemudian mulai beralih ke model yang lebih kecil dan lebih efisien.

Apakah ini terdengar sama dengan peningkatan parameter model GPT? Industri umumnya setuju dengan Hukum Penskalaan, dan kemudian muncul GPT-4o mini, Apple DCLM-7B, dan Google Gemma 2B?

Jia Yangqing berkata sambil tersenyum, "Ini dari era pra-model besar, dan banyak orang mungkin tidak mengingatnya dengan baik :)".

Selain itu, Jia Yangqing bukan satu-satunya yang merasakan hal ini.Master AI Kapasi juga berpendapat demikian：

Persaingan dalam model ukuran besar semakin meningkat…tetapi trennya justru berlawanan arah!
Model harus terlebih dahulu mengejar "yang lebih besar" sebelum mengejar "yang lebih kecil", karena kita memerlukan proses ini untuk membantu kita merekonstruksi data pelatihan ke dalam format sintetik yang ideal.

Ia bahkan bertaruh bahwa kita akan melihat model-model yang bagus dan dapat diandalkan untuk berpikir.

Dan skala parameternya sangat kecil.

Bahkan Musk berulang kali mengatakan di kolom komentar Kapasi:

Hal di atas mungkin bisa disebut "orang besar melihat hal yang sama".

Perluas dan bicaralah

Emosi Jia Yangqing dimulai dengan LLaMA 3.1, yang hanya bertahan di singgasana terkuat dalam waktu singkat.

Ini adalah pertama kalinya "model open source terkuat = model terkuat" direalisasikan. Tidak mengherankan, hal ini menarik banyak perhatian.

Namun, Jia Yangqing mengemukakan satu hal saat ini:

"Tapi saya pikir,Industri ini akan berkembang pesat dengan model vertikal kecil。”

Mengenai model vertikal kecil, Jia Yangqing juga menjelaskannya dengan sangat jelas, seperti model besar kecil dan menengah yang diwakili oleh Iynx dari Patrouns AI (model pendeteksi halusinasi perusahaan, yang melampaui GPT-4o dalam tugas halusinasi).

Jia Yangqing mengatakan bahwa dalam hal preferensi pribadi, dia secara pribadi sangat menyukai model 100 miliar parameter.

Namun kenyataannya, ia mengamati bahwa model besar dengan rentang parameter antara 7B dan 70B lebih mudah digunakan oleh semua orang:

Mereka lebih mudah untuk dihosting dan tidak memerlukan lalu lintas yang besar untuk mendapatkan keuntungan;
Selama Anda mengajukan pertanyaan yang jelas, Anda bisa mendapatkan kualitas hasil yang layak - bertentangan dengan beberapa keyakinan sebelumnya.

Pada saat yang sama, ia mendengar bahwa model OpenAI yang terbaru dan lebih cepat juga mulai menjadi lebih kecil dibandingkan model yang lebih besar dan "canggih".

"Jika pemahaman saya benar, maka ini jelas merupakan indikasi tren industri." Jia Yangqing secara langsung menyatakan sudut pandangnya, "yaitu, di dunia nyata, gunakan model yang dapat diterapkan, hemat biaya, dan tetap bertenaga."

Sejak saat itu, Jia Yangqing secara singkat memilah-milah sejarah perkembangan CNN.

Pertama-tama, ini adalah era kebangkitan CNN.

Mengambil AlexNet (2012) sebagai titik awal, periode pertumbuhan skala model sekitar tiga tahun dimulai.

VGGNet, yang muncul pada tahun 2014, merupakan model dengan kinerja dan skala yang sangat kuat.

Kedua, ada periode perampingan.

Pada tahun 2015, GoogleNet mengurangi ukuran model dari level "GB" menjadi "MB", yaitu berkurang 100 kali lipat, namun performa model tidak turun tajam karena hal ini, namun tetap mempertahankan performa yang baik.

Mengikuti tren serupa adalah model SqueezeNet yang diluncurkan pada tahun 2015.

Selama jangka waktu tertentu, fokus pembangunan adalah mengejar keseimbangan.

Studi selanjutnya, seperti ResNet (2015), ResNeXT (2016), dll., mempertahankan ukuran model yang moderat.

Perlu dicatat bahwa pengendalian ukuran model tidak menghasilkan pengurangan jumlah penghitungan - pada kenyataannya, setiap orang bersedia menginvestasikan lebih banyak sumber daya komputasi dan mengupayakan keadaan "parameter yang sama tetapi lebih efisien".

Yang terjadi selanjutnya adalah periode CNN menari di sampingnya.

Misalnya, MobileNet adalah upaya menarik yang diluncurkan oleh Google pada tahun 2017.

Yang menarik adalah ia hanya membutuhkan sedikit sumber daya namun memiliki kinerja luar biasa.

Baru minggu lalu, seseorang berkata kepada Jia Yangqing: "Wow~ kami masih menggunakan MobileNet karena dapat berjalan di perangkat dan memiliki fitur unggulan yang menyematkan generalisasi (Feature Embedding Generality)."

Terakhir, Jia Yangqing meminjam gambar dari "Survei tentang Jaringan Syaraf Konvolusional yang Efisien dan Akselerasi Perangkat Keras" oleh Ghimire dkk.:

Dan sekali lagi menanyakan pertanyaannya:

Akankah ukuran model besar mengikuti tren yang sama seperti era CNN?

Bagaimana pendapat warganet?

Faktanya, ada banyak contoh GPT-4o mini yang mengambil jalur pengembangan model besar, "tidak besar tapi kecil".

Ketika orang-orang tersebut di atas mengutarakan pandangan ini, beberapa orang langsung menganggukkan kepala dan memberikan contoh serupa lainnya untuk membuktikan bahwa mereka pernah melihat tren yang sama.

Seseorang segera mengikuti:

Saya punya contoh positif baru di sini! Gemma-2 menyaring pengetahuan model dengan ukuran parameter 27B menjadi versi yang lebih kecil.

Beberapa netizen mengatakan bahwa mengembangkan model yang lebih besar berarti "mengintensifkan" pelatihan model yang lebih kecil dan lebih vertikal kepada generasi berikutnya.

Proses berulang ini pada akhirnya menghasilkan apa yang disebut “rangkaian pelatihan sempurna”.

Dengan cara ini, model yang lebih kecil dan besar bisa sama pintarnya atau bahkan lebih pintar dari model besar saat ini dengan parameter yang sangat besar di bidang tertentu.

Pendeknya,Modelnya harus dibuat lebih besar terlebih dahulu sebelum bisa dibuat lebih kecil.

Kebanyakan orang yang mendiskusikan sudut pandang ini masih setuju dengan tren ini. Beberapa orang dengan blak-blakan mengatakan, "Ini adalah hal yang baik dan lebih praktis serta berguna daripada persaingan parameter 'Model saya lebih besar dari model Anda'."

Tapi tentu saja!

Menjelajahi bagian komentar online,Yang lain mengeluarkan suara berbeda.

Misalnya, teman ini meninggalkan pesan di bawah tweet Jia Yangqing:

Mistral Large (perusahaan di baliknya, Mistral AI), LLaMA 3.1 (perusahaan di baliknya, Meta) dan OpenAI, perusahaan dengan model paling kompetitif, semuanya mungkin sedang melatih model yang lebih besar saat ini.
Saya tidak melihat tren “terobosan teknologi dengan model yang lebih kecil”.

Menghadapi pertanyaan ini, Jia Yangqing segera menjawab.

Inilah yang dia katakan: "Itu benar! Ketika saya mengatakan bahwa model berukuran besar mungkin mengikuti jalur lama CNN, saya tidak bermaksud meminta semua orang untuk berhenti melatih model yang lebih besar."

Dia lebih lanjut menjelaskan bahwa maksud awal dari pernyataan ini adalah seiring dengan semakin banyaknya penerapan teknologi (termasuk CNN dan model-model besar), semua orang mulai semakin memperhatikan model-model yang lebih hemat biaya. "

Oleh karena itu, mungkin model kecil dan besar yang lebih efisien dapat mendefinisikan kembali “kecerdasan” AI dan menantang asumsi bahwa “lebih besar lebih baik”.

Apakah Anda setuju dengan pandangan ini?

Tautan referensi:
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497

berita