berita

amd merilis model bahasa kecil ai pertamanya: 690 miliar token, kecepatan decoding spekulatif meningkat 3,88 kali lipat

2024-10-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

berita teknologi kuai pada 1 oktober,amd merilis model bahasa kecil (slm) pertamanya yang diberi nama "amd-135m".

dibandingkan dengan model bahasa besar (llm) yang semakin besar, model ini lebih kecil, lebih fleksibel, dan lebih bertarget, serta sangat cocok untuk diterapkan di perusahaan swasta dan profesional.

model kecil amd-135 milik keluarga llama dan memiliki dua versi:

salah satunya adalah tipe dasar "amd-llama-135m”, dengan sebanyak670 miliar token dilatih selama enam hari pada delapan akselerator instinct mim250 64gb.

yang kedua adalah perpanjangan "kode amd-llama-135m”, dengan bab tambahan yang khusus berfokus pada pemrograman20 miliar token, dilatih pada perangkat keras yang sama selama empat hari.

proses pembuatan dan penerapan

ini menggunakan metode yang disebut"penguraian kode spekulatif"metode ini menghasilkan beberapa kandidat token dalam satu penerusan melalui model draf yang lebih kecil, dan kemudian mengirimkannya ke model target yang lebih besar dan lebih akurat untuk verifikasi atau koreksi.

cara ini dapat menghasilkan beberapa token secara bersamaan tanpa mempengaruhi kinerja dan juga dapat mengurangi penggunaan memori. namun, karena transaksi data lebih banyak, konsumsi daya juga akan meningkat.

amd juga menggunakan kode amd-llama-135m sebagai model rancangan codellama-7b untuk menguji kinerja dengan atau tanpa decoding spekulatif.

misalnya saja pada akselerator mi250 performanya bisa ditingkatkan hingga sekitar 2,8 kali lipat, pada cpu ryzen ai bisa ditingkatkan hingga sekitar 3,88 kali lipat, dan pada npu ryzen ai bisa ditingkatkan hingga sekitar 2,98 kali lipat. .

decoding spekulatif

kode pelatihan, kumpulan data, dan sumber daya lain dari model kecil amd-135m telah bersifat open source dan mengikuti apache 2.0.

menurut amd,kinerjanya pada dasarnya setara atau sedikit lebih unggul dari model kecil open source lainnya, misalnya hellaswag, sciq, arc-easy dan tugas lainnya melebihi llama-68m dan llama-160m, sedangkan hellaswag, winogrande, sciq, mmlu, arc-easy dan tugas lainnya pada dasarnya mirip dengan gtp2-124mn dan opt-125m.