Informasi kontak saya
Surat[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mengchen berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI
Model kecil SOTA yang dapat dijalankan langsung di browser telah hadir, menang di level 200 juta, 500 juta, dan 2 miliar masing-masing, diproduksi oleh Huahuanlian.
Hanya ada dua rahasia:
Kepala Ilmuwan HuaqiangThomas Serigala, merangkum pengalaman tim dalam mengembangkan model kecil, memberikan perspektif baru, dan menarik perhatian industri:
Data sintetis saat ini hanya berguna di area tertentu,Jaringannya sangat besar dan beragam sehingga potensi data nyata belum sepenuhnya terealisasi.
Saat ini versi model 360M telah dirilis sebagai demo dan dapat dimainkan secara online (perhatikan lalu lintas).
Panggil GPU lokal untuk dijalankan di browser, termasuk bobot model dan UI front-end web, dan ini dilakukan dalam 400MB.
Filter data jaringan secara ketat, dan kinerja akan meroket
Untuk model kecil seri Microsoft Phi, diklaim setengah dari data sintetis digunakan dan efeknya sangat bagus, tetapi datanya tidak diungkapkan.
Komunitas open source tidak tahan lagi karena sangat sulit untuk ditanggung:
Buat kumpulan data sintetis berukuran besar untuk melakukan benchmarking dan menjadikannya sumber terbuka.
Selain itu, tim secara samar-samar mengisyaratkan bahwa langkah ini juga akan menguji rumor bahwa Microsoft melakukan kecurangan pada set pengujian, dan apakah hal ini dipertimbangkan.
Hugshuang dibangun menggunakan Mixtral-8-7B, model open source terbaik pada saat itu.25BData sintetis.
Model yang dilatih memiliki performa yang baik, tetapi masih berada di bawah level Phi-1 dan Phi-1.5.
Mereka mencoba membuat model besar yang menjelaskan berbagai topik di tingkat sekolah menengah, dan pada akhirnya hanya mendapat nilai buruk pada tes MMLU, karena MMLU adalah soal tingkat PhD.
Terobosan kinerja sesungguhnya datang dari tugas sampingan:
Selain menghasilkan data sintetis dari awal dengan model besar, cobalahFilter data jaringan dengan pemfilteran model besar。
Secara khusus, pengklasifikasi dikembangkan menggunakan anotasi yang dihasilkan oleh Llama3-70B-Struct.Simpan hanya halaman web yang paling mendidik dalam kumpulan data FineWeb。
Menggunakan data jaringan yang difilter secara ketat, kinerjanya meroket dan mengungguli semua model berukuran serupa di sebagian besar tolok ukur, termasuk Phi-1.5.
Tim Huahuanglian mengatakan hasil percobaan ini adalah“Pahit manis”s: Meskipun performa model sangat tinggi, hal ini juga menunjukkan bahwa data sintetis masih belum sebaik data sebenarnya.
Kemudian mereka menggunakan ide yang sama untuk memperluas dari bahasa alami ke kode, dan kumpulan data kode yang difilter juga terbukti sangat ampuh.
Meningkatkan skor benchmark HumanEval secara langsung dari sekitar 13% menjadi lebih dari 20%.
Dalam kumpulan data campuran akhir yang mereka buat, kumpulan data yang difilter dengan deduplikasi menyumbang sebagian besar, dan data sintetis murni Cosmopedia v2 hanya menyumbang 15%.
Kesimpulannya, apakah data sintetis masih berguna?
Tim percaya bahwa ini mungkin lebih masuk akal untuk bidang-bidang yang kekurangan data nyata, seperti penalaran dan matematika.
Bahkan model kecil pun memerlukan triliunan token untuk dilatih
Saat mereka semakin bersemangat dengan temuan dan hasil baru ini, seorang pekerja magang baru, Elie Bakouch, bergabung.
Meski saat itu ia masih magang, ia memang ahli dalam berbagai teknik pelatihan.
Dengan bantuan Elie, tim mengurangi ukuran model dari 1,7B menjadi 360M atau bahkan 170M, yang merupakan model standar GPT-1, GPT-2 dan BERT.
Penemuan penting kedua diperoleh selama proses ini: tidak seperti konsensus sebelumnya,Bahkan model kecil pun perlu dilatih dengan triliunan token, semakin lama semakin baik.
JugaAnil data(Anil data) juga terbukti efektif, yaitu mempertahankan kumpulan data khusus berkualitas tinggi untuk bagian terakhir pelatihan.
Seri model terakhir yang dirilis cocok untuk diterapkan di berbagai perangkat mulai dari ponsel cerdas hingga laptop. Model 1,7B terbesar, BF16, hanya menempati memori 3G dengan akurat.
Sebagai referensi, iPhone 15 versi entry-level juga memiliki 6G, dan ponsel Android memiliki lebih banyak lagi.
Meski model dasar yang dilatih kali ini sudah cukup baik, namun tim masih menemukan kendala.
Teknologi penyelarasan dan penyetelan masa lalu, seperti SFT, DPO, PPO, dll., sangat efektif untuk model besar, namun tidak ideal untuk model kecil.
Tim menganalisis bahwa kumpulan data penyelarasan berisi banyak konsep yang terlalu rumit untuk model kecil dan tidak memiliki tugas sederhana yang dirancang dengan baik.
Lubang baru berikutnya telah digali, dan tim yang tertarik dapat mulai mengerjakannya, dan mereka mungkin menjadi penyelamat model-model kecil.
Uji coba daring:
https://huggingface.co/spaces/HuggingFaceTB/instant-smollm
Tautan referensi:
[1]https://huggingface.co/blog/smollm
[2]https://x.com/Thom_Wolf/status/1825094850686906857