berita

OpenAI meluncurkan pertempuran berdarah dengan model kecil!DCLM Apple membuat debut yang kuat, mengalahkan open source penuh Mistral 7B

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Tao Zi Qiao Yang

[Pengantar Kebijaksanaan Baru] Apakah era model kecil sudah tiba? OpenAI memasuki medan pertempuran model kecil untuk pertama kalinya dengan GPT-4o mini. Mistral AI dan HuggingFace merilis model kecil satu demi satu pada minggu ini. Saat ini, Apple juga telah merilis model kecil DCLM 7 miliar parameter, yang kinerjanya mengungguli Mistral-7B.

Medan perang model kecil akan segera dimulai!

Setelah peluncuran GPT-4o mini dan Mistral NeMo, Apple juga ikut serta.

Model kecil DCLM berisi dua ukuran parameter - 7 miliar dan 1,4 miliar, dan bersifat open source saat dirilis. Parameter maksimum 7 miliar melebihi Mistral-7B, dan kinerjanya mendekati Llama 3 dan Gemma.


Menurut Vaishaal Shankar, seorang ilmuwan peneliti di tim ML Apple (juga merupakan pengembang DCLM), ini adalah model "sumber yang benar-benar terbuka" dengan kinerja terbaik hingga saat ini, yang tidak hanya memiliki bobot dan kode pelatihan, tetapi juga didasarkan pada open source. kumpulan data DCLM-Baseline.


Dibandingkan dengan performa model, model “sumber terbuka nyata” DCLM lebih menarik perhatian.

Sebaliknya, sebagian besar raksasa teknologi hanya terlibat dalam model sumber tertutup, atau "masih berpegang pada pipa dan menutupi setengah wajah mereka".


Selain itu, Shankar juga memperkirakan bahwa model pos pemeriksaan perantara dan status pengoptimal akan terus online di masa mendatang.


Mungkinkah ini adalah musim semi komunitas open source LLM?


Seri DCLM sepenuhnya open source

Saat ini, semua bobot model telah dirilis di HuggingFace, dan kartu model pada dasarnya mencakup informasi penting.


https://huggingface.co/apple/DCLM-7B

DCLM-7B juga mengadopsi arsitektur khusus dekoder dan menggunakan kerangka kerja PyTorch dan OpenLM untuk pra-pelatihan.

Kumpulan data dasar DCLM dari total 4T token berasal dari total 240T DCLM, dan model DCLM-7B selanjutnya menyaring 2,5T untuk pelatihan.


Panjang konteksnya adalah 2048, kurang dari panjang 8k Mistral 7B dan Gemma 2 9B.

Dalam hal performa, penulis langsung menggunakan rangkaian evaluasi LLM Foundry untuk menguji skor model pada 53 tugas benchmark.

Jika dibandingkan dengan model lain, selain skor MMLU, penulis juga menyesuaikan dua indikator - "akurasi inti" (core) dan "akurasi yang diperluas" (diperpanjang).

Yang pertama adalah rata-rata akurasi pusat dari 22 tugas termasuk HellaSwag dan ARC-E, sedangkan yang kedua mencakup seluruh 53 tugas.

Meskipun tidak menggunakan sebagian besar data, dibandingkan dengan model data terbuka lainnya dengan ukuran yang sama (bobot dan kumpulan data bersifat open source), DCLM mencapai performa terbaik di ketiga indikator.


Tiga kolom skor benchmark dari kiri ke kanan adalah: core, MMLU, extension

Dibandingkan dengan model SOTA MAP-Neo sebelumnya, akurasi tugas MMLU 5 tembakan DCLM-7B mencapai 63,7%, meningkat sebesar 6,6 poin persentase, sedangkan jumlah perhitungan yang diperlukan untuk pelatihan berkurang sebesar 40%.

Namun, jika dibandingkan dengan model dengan bobot sumber terbuka dan kumpulan data sumber tertutup, pengaruhnya kurang memuaskan.

Terdapat kesenjangan besar antara DCLM dan Phi-3 dalam berbagai indikator, dan skornya kira-kira setara dengan Mistral-7B-v0.3 atau Gemma 8B.


Para peneliti menemukan bahwa ketika pelatihan dengan tambahan 100 miliar data dari kumpulan data yang sama dan memperluas panjang konteks hingga 8k, skor model pada tolok ukur inti dan perluasan semakin meningkat, namun hasil MMLU tidak berubah.


Hasil ini sepenuhnya melebihi skor Mistral 7B-v0.3.

Selain itu, HuggingFace juga merilis versi penyempurnaan instruksi model 7B, yang mencapai peningkatan kinerja skala besar pada tugas penalaran matematis GSM8K, dengan skor melonjak dari aslinya 2,1 menjadi 52,5.


https://huggingface.co/apple/DCLM-7B-8k

Selain versi 7B, versi 1.4B juga online secara bersamaan. Ajaibnya, jumlah data pelatihan meningkat 0,1T dibandingkan versi 7B.


https://huggingface.co/TRI-ML/DCLM-1B

Dibandingkan dengan SmolLM HuggingFace yang baru dirilis, performa DCLM-1B jauh lebih baik, terutama skor MMLU 5-shot, yang 11,9% lebih tinggi dari SmolLM.

Tak hanya itu, skor MMLU DCLM-1B sebesar 41,9 juga lebih tinggi dibandingkan Qwen-1.5B sebesar 37,87 dan Phi-1.5B sebesar 35,90.


Model 7B tertinggal, namun model 1.4B menyusulnya. Seperti yang diharapkan, model kecil adalah spesialisasi Apple.

Perlu dicatat bahwa model 7B hanya tersedia di bawah Lisensi Kode Sampel Apple (ASCL), tetapi versi 1.4B dirilis di bawah Apache 2.0, memungkinkan penggunaan komersial, distribusi, dan modifikasi.

Sekarang kita berbicara tentang model seri DCLM yang dirilis kali ini, kita harus menyebutkan fondasi pentingnya - benchmark DataComp.


Alamat makalah: https://arxiv.org/pdf/2406.11794

Makalah DataComp pertama kali diterbitkan pada tanggal 17 Juni. Rekan penulis Jeffrey Li, Alex Fang dan rekan penulis akhir Vaishaal Shankar juga merupakan pengembang Apple DCLM.

Artikel tersebut tidak hanya menguraikan proses konstruksi kumpulan data, tetapi juga menyebutkan beberapa konten tentang model DCLM.

Vaishaal Shankar mengatakan bahwa versi terbaru dari makalah ini akan segera dirilis untuk memberikan rincian teknis lebih lanjut tentang pra-pelatihan model.

Dibandingkan dengan memodifikasi model untuk kumpulan data yang sama, ide DataComp adalah sebaliknya - model yang digunakan untuk evaluasi bersifat tetap, dan tugasnya adalah memfilter dan memproses data terbaik dari total kumpulan data 240T.

Dapat dikatakan bahwa pendekatan ini sangat konsisten dengan ide penelitian dan pengembangan raksasa teknologi - untuk kinerja LLM, data pra-pelatihan menjadi faktor yang lebih penting daripada arsitektur model dan bobot.

Lagi pula, rangkaian model "open source" seperti Llama, Gemma, dan Phi hanya merilis bobot dan tidak mempublikasikan data.

Hukum Penskalaan dan SLM diperlukan

Bagi raksasa teknologi AI, terkadang semakin besar modelnya, semakin baik.


Faktanya, selalu ada kekurangan model kecil di komunitas AI, seperti beberapa iterasi model seri Phi Microsoft, dan Gemma 2 7B yang baru saja diperbarui oleh Google pada akhir Juni.

Minggu ini, OpenAI tiba-tiba merilis GPT-4o mini, Mistral AI bekerja sama dengan Nvidia untuk merilis Mistral NeMo, SmoLLM HuggingFace dan model kecil lainnya dirilis, menambah semangat lagi di bidang model kecil.

Seperti yang dikatakan oleh seorang peneliti OpenAI, "Meskipun kami lebih memilih melatih model besar dibandingkan orang lain, OpenAI juga mengetahui cara melatih model kecil."


Model kecil memiliki keuntungan karena berbiaya rendah, cepat, dan lebih profesional. Model tersebut biasanya dilatih hanya dengan menggunakan sedikit data dan dirancang untuk tugas tertentu.

Membuat model besar menjadi lebih kecil dan kemudian memperluas skalanya mungkin menjadi salah satu tren perkembangan di masa depan.


Dua hari lalu, saat GPT-4o mini dirilis, Andrej Karpathy juga mengeluarkan tweet panjang yang mengungkapkan pandangan serupa.


Ia percaya bahwa persaingan dalam ukuran model akan "meningkat secara terbalik", tidak semakin besar, tetapi bersaing untuk melihat siapa yang lebih kecil dan lebih ringan.

Alasan mengapa LLM saat ini secara bertahap menjadi "raksasa" adalah karena proses pelatihannya masih sangat boros. Kami pada dasarnya meminta model untuk mengingat konten seluruh Internet (dan faktanya, kemampuan memori LLM cukup baik , dan kualitasnya lebih baik daripada Manusia jauh lebih baik).

Namun untuk model kecil, tujuan pelatihan telah berubah. Pertanyaan kuncinya adalah bagaimana sistem AI dapat belajar lebih banyak dari lebih sedikit data.

Kita perlu modelnya menjadi lebih besar terlebih dahulu, lalu menjadi lebih kecil, karena kita memerlukan "raksasa" untuk merekonstruksi dan membentuk data menjadi bentuk sintetik yang ideal, secara bertahap mendapatkan "kumpulan pelatihan sempurna", dan kemudian memasukkannya ke model kecil.

Musk pun setuju dengan pandangan ini. Tangga peningkatan model yang dijelaskan oleh Karpathy persis dengan jalur yang diambil Tesla dalam kenyataan.


Pada bulan April 2023, Sam Altman mengumumkan berakhirnya era model AI besar. Dalam wawancara baru-baru ini, dia juga menegaskan bahwa kualitas data merupakan faktor kunci keberhasilan pelatihan AI lebih lanjut.


Peneliti Microsoft membuat asumsi ini ketika mengembangkan model Phi. Peneliti AI di Hugging Face juga baru-baru ini mengkonfirmasi hipotesis ini dan merilis kumpulan data pelatihan berkualitas tinggi.

Dengan mengambil contoh GPT-4, biaya pengembangan dan penggunaan lebih dari satu triliun parameter melebihi US$100 juta.

Model kecil, seperti model yang dilatih secara khusus tentang kumpulan data legal, mungkin menggunakan kurang dari 10 miliar parameter dan biaya kurang dari $10 juta. Model ini menggunakan lebih sedikit daya komputasi untuk merespons setiap kueri, sehingga biayanya lebih rendah.

Nadella mengatakan bahwa seri model kecil Phi hanya berukuran 1/100 dari model gratis di belakang OpenAI, dan kinerjanya dalam banyak tugas hampir sama baiknya.


Selain itu, startup Google dan AI Mistral, Anthropic, dan Cohere juga merilis model yang lebih kecil tahun ini.

Pada bulan Juni, Apple mengumumkan peta jalan pengembangan AI-nya, berencana menggunakan model kecil sehingga perangkat lunak dapat berjalan sepenuhnya di ponsel, sehingga lebih cepat dan aman.

Untuk banyak tugas, seperti meringkas dokumen atau menghasilkan gambar, model berukuran besar bisa jadi berlebihan.

Illia Polosukhin, penulis di balik karya perintis Transformer, mengatakan bahwa menghitung 2+2 tidak memerlukan operasi kuadriliun.

Namun, raksasa teknologi belum menyerah pada model berukuran besar. Pada konferensi WWDC tahun ini, Apple mengumumkan integrasi ChatGPT ke dalam asisten Siri untuk melakukan tugas-tugas kompleks seperti menulis email.

Bagaimanapun, menuju AGI/ASI tertinggi, perluasan skala parameter berbanding lurus dengan pertumbuhan kecerdasan.


Referensi:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/