berita

Apple membuat model 7B menjadi sumber terbuka dan memberikan seluruh kumpulan data proses pelatihan sekaligus. Netizen berkata: Ini sangat berbeda dengan Apple.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Apple adalah perusahaan terbaru yang memasuki medan perang model besar open source, dan lebih terbuka dibandingkan perusahaan lain.

mulai tersediamodel 7B, tidak hanya efeknya yang samaLlama 3 8BIni cukup bagus, dan sekaligus open source.Semua proses dan sumber daya pelatihan



Anda tahu, belum lama ini, Elizabeth Gibney, editor majalah Nature,Menulis kritik

  • Banyak model AI yang diklaim sebagai open source sebenarnya tidak transparan dalam hal data dan metode pelatihan, serta tidak dapat memenuhi kebutuhan penelitian ilmiah yang sebenarnya.

Namun kali ini Apple benar-benar datang secara nyata! !

Bahkan ilmuwan NLP dan pencipta AutoAWQ berseru:

  • Apple merilis model yang mengalahkan Mistral 7B, tetapi yang lebih baik lagi adalah semuanya sepenuhnya open source,Termasuk kumpulan data pra-pelatihan



Hal ini juga menarik netizen untuk mengejek secara online:



Mengenai pentingnya open source ini, beberapa netizen yang antusias pun membantu merangkumnya:

  • Bagi siapa saja yang ingin melatih model dari awal atau menyempurnakan model yang sudah ada,proses pengelolaan dataItu harus dipelajari.



Tentu saja, selain OpenAI dan Apple, Mistral AI dan NVIDIA juga merilis model kecil berparameter 12B minggu lalu.

Pendiri HuggingFace berkata,"Pekan Model Kecil"yang akan datang!



gulungan! Terus bergulir! Lantas seberapa efektifkah model kecil yang dirilis Apple kali ini?

Efeknya dekat dengan Llama 3 8B

Mari kita tidak membicarakan betapa hebatnya hal itu. Mari kita lihat apa yang baru saja “dibuka” oleh direktur teknis Hugging Face.Konfigurasi dasar model

Singkatnya:

  • Model dasar 7B, digunakan pada kumpulan data terbukatoken 2,5Tmelakukan pelatihan
  • Terutama data bahasa Inggris, dengan2048jendela konteks token
  • Kumpulan data termasuk DCLM-BASELINE, StarCoder dan ProofPile2
  • Skor MMLU mendekati Llama 3 8B
  • Pelatihan menggunakan kerangka PyTorch dan OpenLM



Secara khusus, tim peneliti pertama kali mengusulkan model bahasaTolok ukur baru untuk perbandingan data—DCLM.

Tolok ukur ini diusulkan karena tim menemukan:

  • dari kumpulan data yang lebih besar dengan model pembelajaran mesin (ML).Filter dan pilih data berkualitas tinggi secara otomatis, mungkin menjadi kunci untuk membangun rangkaian pelatihan berkualitas tinggi.

Oleh karena itu, tim menggunakan DCLM untuk merancang kumpulan data berkualitas tinggi guna meningkatkan kinerja model, terutama dalam domain multimodal.

ItuIde ideSederhana saja: gunakan kerangka kerja standar untuk melakukan eksperimen, termasuk arsitektur model tetap, kode pelatihan, hyperparameter, dan evaluasi, dan terakhir temukan strategi perselisihan data mana yang terbaik untuk melatih model berperforma tinggi.



Berdasarkan gagasan di atas, tim membangun aKumpulan data berkualitas tinggi DCLM-BASELINE, dan menggunakannya untuk melatih model parameter 7B-DCLM-7B dari awal.



Apa kinerja spesifik DCLM-7B?

Hasilnya menunjukkan bahwa itu adalah 5-shot pada benchmark MMLUTingkat akurasi mencapai 64%, sebanding dengan Mistral-7B-v0.3 (63%) dan Llama 3 8B (66%); dan kinerja rata-rata pada 53 tugas pemahaman bahasa alami juga sebanding dengan Llama 3 8B, sedangkan komputasi yang diperlukan Jumlahnya hanya 1 /6 dari yang terakhir.



Dibandingkan dengan model lain dengan ukuran yang sama, skor MMLU DCLM-7B melampaui Mistral-7B dan mendekati Llama 3 8B.



Akhirnya, untukUji pengaruh kumpulan data baru, beberapa orang dalam menggunakan llm.c Kapasi untuk melatih GPT-2 1.5B untuk membandingkan dua kumpulan data DCLM-Baseline dan FineWeb-Edu.



Hasilnya menunjukkan bahwa DCLM-Baseline tercapaiskor rata-rata yang lebih tinggi, dan berkinerja lebih baik pada tugas-tugas seperti ARC (penalaran masalah ilmiah siswa sekolah dasar), HellaSwag (penalaran akal sehat), dan MMLU.



Model “kecil” menjadi tren baru

Kembali ke masa awal, model “kecil” menjadi tren baru belakangan ini.

Pertama, HuggingFace meluncurkan rangkaian model kecil“SmolLM”, yang mencakup model 135M, 360M, dan 1,7B.



Mereka mengungguli model berukuran serupa pada berbagai inferensi dan tolok ukur akal sehat.



Lalu tiba-tiba OpenAI dirilisGPT-4o kecil, tidak hanya kemampuannya yang mendekati GPT-4, tetapi harganya pun turun signifikan.



Hanya di GPT-4o miniDirilis pada hari yang sama, Mistral AI dan NVIDIA merilis model kecil parameter 12B——Mistral Nemo

Dalam hal kinerja secara keseluruhan, Mistral NeMo mengalahkan Gemma 2 9B dan Llama 3 8B dalam beberapa tes benchmark.



Jadi, mengapa semua orang mulai meluncurkan model kecil?

Alasannya mungkin seperti yang diingatkan oleh pendiri smol AI. Meski modelnya menjadi lebih kecil, padahal kemampuannya serupa, modelnya kecilMengurangi biaya secara signifikan



Seperti gambar yang dia berikan, model kecil yang diwakili oleh GPT-4o mini umumnya lebih murah dibandingkan model di sebelah kanan.



Sehubungan dengan itu, saya menunggu orang-orang yang makan melon menjadi seperti:



Jadi, kamu lebih suka yang mana?