berita

Momen ChatGPT untuk model besar open source?Llama 3 405B yang sangat dinanti akan segera dirilis

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Llama 3 405B yang telah lama ditunggu-tunggu, yang semula dijadwalkan akan dirilis pada tanggal 23, akan segera hadir.

Sebagai model teratas dalam seri Llama 3, versi 405B memiliki 405 miliar parameter dan merupakan salah satu model open source terbesar hingga saat ini.

Tadi malam, META tiba-tiba membocorkan data evaluasi Llama 3.1-405B. Beberapa netizen memperkirakan versi Llama 3.1-70B mungkin akan dirilis pada waktu yang bersamaan, karena "(model yang dibocorkan sebelumnya) adalah tradisi lama META. . Model Llama tahun lalu Melakukannya sekali."

Beberapa analis percaya bahwa Llama 3 405B bukan sekadar peningkatan kemampuan kecerdasan buatan untuk AI open source, “ini adalah sebuah potensiObrolanGPTmomen,” di mana AI tercanggih benar-benar didemokratisasi dan diserahkan langsung ke tangan pengembang.

Tiga prediksi untuk pengumuman Llama 3 405B mendatang

Beberapa analis memperkirakan hal-hal penting dari pengumuman Llama 3 405B mendatang dari tiga perspektif: kualitas data, ekosistem model, dan solusi API.

Pertama, Llama 3 405B mungkin merevolusi kualitas data untuk model khusus.

Bagi pengembang yang berfokus pada pembuatan model AI profesional, tantangan jangka panjangnya adalah memperoleh data pelatihan berkualitas tinggi. Model ahli yang lebih kecil (parameter 1-10B) sering kali menggunakan teknik distilasi untuk menambah kumpulan data pelatihannya dengan keluaran model yang lebih besar.Namun, menggunakanBuka AIData dari raksasa sumber tertutup seperti Google Cloud sangat dibatasi sehingga membatasi aplikasi komersial.

Llama 3 405B muncul. Sebagai raksasa open source yang menyaingi kekuatan model berpemilik, ini memberikan landasan baru bagi pengembang untuk membuat kumpulan data yang kaya dan tidak terbatas. Ini berarti pengembang bebas menggunakan hasil sulingan Llama 3 405B untuk melatih model khusus, sehingga secara signifikan mempercepat siklus inovasi dan penerapan di bidang profesional. Harapkan lonjakan dalam pengembangan model berkinerja tinggi dan disempurnakan yang kuat dan etis sumber terbuka.

Kedua, Llama 3 405B akan membentuk ekosistem model baru: dari model dasar hingga kombinasi ahli

Peluncuran Llama 3 405B dapat mendefinisikan kembali arsitektur sistem AI. Ukuran model yang besar (405 miliar parameter) mungkin berarti solusi yang dapat diterapkan untuk semua, namun kekuatan sebenarnya terletak pada integrasinya dengan sistem model hierarki. Pendekatan ini akan sangat berguna bagi pengembang yang bekerja dengan AI pada skala berbeda.

Harapkan peralihan ke ekosistem model yang lebih dinamis, dengan Llama 3 405B bertindak sebagai tulang punggung, didukung oleh model berukuran kecil dan menengah. Sistem ini mungkin menggunakan teknik seperti decoding spekulatif, di mana model yang tidak terlalu rumit menangani sebagian besar pemrosesan, memanggil model 405B hanya jika diperlukan untuk verifikasi dan koreksi kesalahan. Hal ini tidak hanya memaksimalkan efisiensi, namun juga membuka jalan baru untuk mengoptimalkan sumber daya komputasi dan waktu respons dalam aplikasi real-time, terutama ketika dijalankan pada RDU SambaNova yang dioptimalkan untuk tugas-tugas ini.

Terakhir, Llama 3 405B bersaing untuk mendapatkan API paling efisien

Dengan kekuatan yang besar, terdapat pula tanggung jawab yang besar – dan untuk Llama 3 405B, penerapannya merupakan tantangan besar. Pengembang dan organisasi perlu berhati-hati mengenai kompleksitas model dan persyaratan operasional. Akan ada persaingan di antara penyedia cloud AI untuk menyediakan solusi API yang paling efisien dan hemat biaya untuk menerapkan Llama 3 405B.

Situasi ini memberi pengembang peluang unik untuk berinteraksi dengan platform berbeda dan membandingkan cara berbagai API menangani model sebesar itu.Pemenang dalam bidang ini adalah mereka yang dapat menyediakan API yang tidak hanya mengelola beban komputasi secara efektif, namun tidak mengorbankan akurasi model atau meningkatkan secara tidak proporsional.Jejak Karbon

Singkatnya, Llama 3 405B bukan sekadar alat dalam persenjataan AI; ini adalah perubahan mendasar menuju pengembangan AI yang terbuka, terukur, dan efisien. Para analis percaya bahwa baik mereka menyempurnakan model khusus, membangun sistem AI yang kompleks, atau mengoptimalkan strategi penerapan, kehadiran Llama 3 405B akan membuka cakrawala baru bagi pengguna.

Bagaimana pendapat warganet?

Netizen memposting di subreddit LocalLLaMA dan berbagi informasi tentang Meta Llama 3.1 dengan 405 miliar parameter. Dilihat dari hasil model AI ini di beberapa benchmark utama AI, kinerjanya melampaui pemimpin saat ini, yaitu OpenAIGPT-4o, menandai pertama kalinya model sumber terbuka dapat mengalahkan sumber tertutup yang canggih saat iniMagister HukumModel.

Seperti yang ditunjukkan dalam benchmark, Meta Llama 3.1 mengungguli GPT-4o dalam beberapa pengujian seperti GSM8K, Hellaswag, boolq, MMLU-humanities, MMLU-other, MMLU-stem dan winograd. Namun, mengungguli GPT-4o di HumanEval dan MMLU-. sosial Dari segi ilmu pengetahuan, tertinggal dari GPT-4o.

Ethan Mollick, profesor di Wharton School, Universitas Pennsylvania, menulis:

Jika statistik ini benar, dapat dikatakan bahwa model Al teratas akan tersedia untuk semua orang secara gratis mulai minggu ini.

Pemerintah, organisasi, dan perusahaan di setiap negara di dunia dapat menggunakan kemampuan AI yang sama seperti negara lainnya. Ini akan menyenangkan.

Beberapa netizen merangkum beberapa highlight dari model Llama 3.1:

Model ini menggunakan 15T+ token dari sumber publik untuk pelatihan, dan batas waktu untuk data pra-pelatihan adalah Desember 2023;

Data penyempurnaan mencakup kumpulan data penyempurnaan instruksi yang tersedia untuk umum (tidak seperti Llama 3) dan 15 juta sampel sintetis;

Model ini mendukung berbagai bahasa, termasuk Inggris, Prancis, Jerman, Hindi, Italia, Portugis, Spanyol, dan Thailand.

Beberapa netizen mengatakan bahwa ini adalah pertama kalinya model open source melampaui model sumber tertutup seperti GPT4o dan Claude Sonnet 3.5 dan mencapai SOTA pada berbagai benchmark.