Bagaimana cara membuat model open source yang dapat mengalahkan GPT-4o? Semua tentang Llama 3.1 405B tertulis di paper

Bagaimana cara membuat model open source yang dapat mengalahkan GPT-4o? Segala sesuatu tentang Llama 3.1 405B tertulis di makalah

2024-07-24

Laporan Jantung Mesin

Departemen Editorial Jantung Mesin

Setelah terjadi "kebocoran yang tidak disengaja" dua hari sebelumnya, Llama 3.1 akhirnya resmi dirilis tadi malam.

Llama 3.1 memperluas panjang konteks hingga 128K dan memiliki tiga versi: 8B, 70B, dan 405B, sekali lagi meningkatkan standar kompetitif untuk trek model besar.

Bagi komunitas AI, signifikansi terpenting dari Llama 3.1 405B adalah menyegarkan batas atas kemampuan model dasar open source. Pejabat Meta mengatakan bahwa dalam serangkaian tugas, kinerjanya sebanding dengan model tertutup terbaik model sumber.

Tabel di bawah ini menunjukkan performa model Seri Llama 3 saat ini pada tolok ukur utama. Terlihat bahwa performa model 405B sangat mirip dengan GPT-4o.

Pada saat yang sama, Meta menerbitkan makalah "The Llama 3 Herd of Models", yang mengungkap detail penelitian model seri Llama 3 sejauh ini.

Alamat makalah: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

Selanjutnya, mari kita lihat isi makalahnya.

Sorotan kertas Llama3

1. Setelah pra-pelatihan menggunakan panjang konteks 8K, Llama 3.1 405B menggunakan panjang konteks 128K untuk pelatihan berkelanjutan dan mendukung penggunaan berbagai bahasa dan alat.

2. Dibandingkan dengan model Llama sebelumnya, Meta telah memperkuat jalur Kurasi data pra-pemrosesan dan pra-pelatihan, serta metode penjaminan kualitas dan pemfilteran data pasca-pelatihan.

Meta percaya bahwa ada tiga pendorong utama untuk pengembangan model dasar berkualitas tinggi: data, skala, dan manajemen kompleksitas.

Pertama, dibandingkan dengan versi Llama sebelumnya, Meta meningkatkan data yang digunakan untuk pra-pelatihan dan pasca-pelatihan baik secara kuantitas maupun kualitas. Meta Llama 3 telah dilatih sebelumnya pada korpus sekitar 15 triliun token multibahasa, dibandingkan dengan Llama 2 yang hanya menggunakan 1,8 triliun token.

Skala model yang dilatih kali ini jauh lebih besar dibandingkan model Llama sebelumnya: model bahasa andalan menggunakan operasi floating-point (FLOP) 3,8 × 10²⁵ untuk prapelatihan, yang hampir 50 kali lebih besar daripada versi terbesar Llama 2 .

Berdasarkan hukum Penskalaan, berdasarkan anggaran pelatihan Meta, model andalan saat ini sudah mendekati ukuran komputasi yang optimal, namun waktu pelatihan Meta untuk model yang lebih kecil telah jauh melebihi durasi optimal komputasi. Hasilnya menunjukkan bahwa model yang lebih kecil ini mengungguli model komputasi optimal untuk anggaran inferensi yang sama. Pada fase pasca pelatihan, Meta menggunakan model andalan 405B untuk lebih meningkatkan kualitas model yang lebih kecil seperti model 70B dan 8B.

3. Untuk mendukung inferensi produksi massal model 405B, Meta mengkuantisasi 16-bit (BF16) menjadi 8-bit (FP8), sehingga mengurangi kebutuhan komputasi dan memungkinkan model dijalankan pada satu node server.

4. Pra-pelatihan 405B pada token 15,6T (3,8x10²⁵ FLOP) merupakan tantangan besar. Meta mengoptimalkan seluruh tumpukan pelatihan dan menggunakan lebih dari 16K GPU H100.

Seperti yang dikatakan oleh pendiri PyTorch dan Meta Distinguished Engineer Soumith Chintala, makalah Llama3 mengungkap banyak detail keren, salah satunya adalah pembangunan infrastruktur.

5. Pasca pelatihan, Meta meningkatkan model Obrolan melalui beberapa putaran penyelarasan, termasuk penyempurnaan terawasi (SFT), pengambilan sampel penolakan, dan pengoptimalan preferensi langsung. Sebagian besar sampel SFT dihasilkan dari data sintetis.

Para peneliti membuat beberapa pilihan dalam desain untuk memaksimalkan skalabilitas proses pengembangan model. Misalnya, arsitektur model Transformer padat standar dipilih dengan hanya sedikit penyesuaian, bukan campuran model ahli untuk memaksimalkan stabilitas pelatihan. Demikian pula, prosedur pasca-pelatihan yang relatif sederhana diadopsi, berdasarkan pada penyempurnaan yang diawasi (SFT), pengambilan sampel penolakan (RS), dan optimalisasi preferensi langsung (DPO), daripada algoritma pembelajaran penguatan yang lebih kompleks, yang cenderung kurang stabil. dan Ekstensi yang lebih sulit.

6. Sebagai bagian dari proses pengembangan Llama 3, tim Meta juga mengembangkan ekstensi multi-modal model untuk memungkinkan pengenalan gambar, pengenalan video, dan pemahaman ucapan. Model-model ini masih dalam pengembangan aktif dan belum siap untuk dirilis, namun makalah ini menyajikan hasil percobaan awal dengan model multimodal ini.

7. Meta telah memperbarui lisensinya untuk memungkinkan pengembang menggunakan keluaran model Llama untuk menyempurnakan model lainnya.

Di akhir tulisan ini, kami juga melihat daftar panjang kontributor:

Rangkaian faktor inilah yang akhirnya menciptakan seri Llama 3 saat ini.

Tentu saja, bagi developer awam, cara memanfaatkan model skala 405B merupakan sebuah tantangan dan membutuhkan banyak sumber daya komputasi dan keahlian.

Setelah peluncuran, ekosistem Llama 3.1 telah siap, dengan lebih dari 25 mitra menawarkan layanan yang bekerja dengan model terbaru, antara lain Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud, dan Snowflake.

Untuk rincian teknis lebih lanjut, silakan merujuk ke kertas aslinya.

berita

Bagaimana cara membuat model open source yang dapat mengalahkan GPT-4o? Segala sesuatu tentang Llama 3.1 405B tertulis di makalah

Perkenalan

informasi kontak saya