berita

Terungkap! Dokumen setebal 47 halaman yang membongkar kecerdasan Apple, mulai dari arsitektur dan data hingga pelatihan dan pengoptimalan

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Laporan Jantung Mesin

Departemen Editorial Jantung Mesin

Pada Konferensi Pengembang Sedunia 2024, Apple meluncurkan Apple Intelligence, sistem cerdas baru yang dipersonalisasi yang dapat memberikan layanan cerdas praktis, mencakup iPhone, iPad, dan Mac, dan terintegrasi secara mendalam di iOS 18, iPadOS 18, dan macOS Sequoia.

Cook pernah mengatakan bahwa Apple Intelligence merupakan babak baru dalam inovasi Apple dan akan mengubah cara pengguna menggunakan produk. Dia menekankan bahwa pendekatan unik Apple menggabungkan kecerdasan buatan generatif dan informasi pribadi pengguna untuk memberikan layanan cerdas yang benar-benar berguna. Selain itu, Apple Intelligence memberikan akses informasi yang sepenuhnya pribadi dan aman, membantu pengguna mencapai hal yang paling penting bagi mereka. Ini adalah pengalaman AI yang unik bagi Apple.

Kini, lebih dari sebulan telah berlalu sejak pengumuman resmi Apple Intelligence. Teknologi ini akhirnya diterapkan pada perangkat pintar, dan dokumen teknis terkait akhirnya dirilis.

Sebelumnya, pengguna iPhone 15 Pro atau iPhone 15 Pro Max dapat mengunduh iOS 18.1 development beta dan merasakan fungsi Apple Intelligence.

Dengan dirilisnya laporan teknis setebal 47 halaman ini, kita dapat memahami lebih dalam tentang senjata rahasia di balik Intelijen Apple.



Alamat laporan: https://machinelearning.apple.com/papers/apple_intelligence_foundation_lingual_models.pdf

Laporan tersebut merinci dua model –AFM pada perangkat, AFM adalah singkatan dari Apple Foundation Model, yang merupakan model bahasa dengan sekitar 3 miliar parameter, serta model bahasa berbasis server yang lebih besarserver AFM, dapat melakukan tugas-tugas khusus secara efisien, akurat dan bertanggung jawab (Gambar 1).

Kedua model dasar ini ada sebagai bagian dari rangkaian model generatif Apple yang lebih besar.



Struktur dan pelatihan

Model dasar AFM adalah model dekoder padat yang dibangun berdasarkan arsitektur Transformer dan mengadopsi desain berikut:

Matriks penyematan input/output bersama untuk mengurangi penggunaan memori untuk parameter.

Gunakan RMSNorm untuk pra-normalisasi guna meningkatkan stabilitas pelatihan.

Normalisasi kueri/kunci untuk meningkatkan stabilitas pelatihan.

Grouped Query Attention (GQA) dengan 8 header nilai kunci untuk mengurangi jejak memori cache KV.

SwiGLU diaktifkan untuk meningkatkan efisiensi.

Penyematan posisi Tali, frekuensi dasar (frekuensi dasar) diatur ke 500k untuk mendukung konteks panjang.



Proses pra-pelatihan AFM memainkan peran penting dalam mengembangkan model bahasa berkinerja tinggi untuk mendukung berbagai fitur Apple Intelligence. Tim peneliti berfokus pada efisiensi dan kualitas data untuk mencapai pengalaman pengguna ujung ke ujung yang berkualitas tinggi.

Dalam hal pasca-pelatihan, tim peneliti menemukan bahwa peningkatan pasca-pelatihan secara umum dapat meningkatkan kinerja semua fungsi Apple Intelligence karena model akan memiliki kemampuan yang lebih kuat untuk mengikuti instruksi, bernalar, dan menulis.

Untuk memastikan bahwa fungsi-fungsi model ini konsisten dengan komitmen Apple untuk melindungi privasi pengguna dan prinsip-prinsip AI yang Bertanggung Jawab Apple, pekerjaan pasca-pelatihan mencakup serangkaian pengumpulan dan pembuatan data, penyesuaian instruksi, dan inovasi penyelarasan. Proses pasca pelatihan terdiri dari dua tahap: supervisi fine-tuning (SFT) dan pembelajaran penguatan dari umpan balik manusia (RLHF). Tim peneliti mengusulkan dua algoritma pasca-pelatihan baru: (1) algoritma fine-tuning sampling penolakan dengan komite guru (iTeC), dan (2) algoritma RLHF untuk iterasi pembelajaran penguatan dengan optimasi kebijakan mirror-descent ( optimasi kebijakan mirror descending ) dan penaksir keuntungan hanya satu kali (MDLOO), yang secara signifikan meningkatkan kualitas model.

Fitur Intelijen Apple

Model dasar dirancang khusus untuk Apple Intelligence, sistem intelijen pribadi yang mendukung iPhone, iPad, dan Mac.

Apple menemukan bahwa mereka dapat meningkatkan kinerja model kecil ke tingkat terbaik di kelasnya dengan menyempurnakannya untuk tugas-tugas tertentu. Selain itu, mereka mengembangkan arsitektur berdasarkan adaptor yang dapat ditukar secara runtime untuk memungkinkan model dasar tunggal dalam lusinan tugas semacam itu. Gambar 2 menunjukkan gambaran umum tingkat tinggi.



arsitektur adaptor

Apple menggunakan adaptor LoRA untuk menyempurnakan model untuk tugas tertentu. Untuk setiap tugas, para peneliti menyesuaikan semua matriks proyeksi linier di lapisan perhatian mandiri AFM dan lapisan yang terhubung sepenuhnya di jaringan umpan maju titik. Hanya dengan menyempurnakan adaptor, parameter asli model dasar yang telah dilatih sebelumnya tetap tidak berubah, sehingga pengetahuan umum tentang model dapat dipertahankan sambil menyesuaikan adaptor untuk mendukung tugas tertentu.

Mengukur

Untuk memasukkan AFM ke dalam perangkat edge dengan anggaran memori terbatas dan mengurangi biaya inferensi, teknik kuantisasi perlu dipertimbangkan. Penelitian sebelumnya menemukan bahwa model terkuantisasi 4-bit mengalami kerugian yang sangat kecil dibandingkan dengan floating point mentah 32/16-bit.

Untuk mencapai keseimbangan terbaik antara kapasitas model dan kinerja inferensi, Apple mengembangkan metode kuantisasi canggih dan kerangka kerja yang memanfaatkan adaptor pemulihan akurasi. Hal ini memungkinkan model untuk mencapai kuantisasi yang hampir lossless ketika bobot rata-rata setiap bobot kurang dari 4 bit, dan memberikan pemilihan skema kuantisasi yang fleksibel.

metode

Setelah pasca pelatihan, model dikompresi dan dikuantisasi untuk mendapatkan bobot rata-rata di bawah 4 bit. Model kuantitatif biasanya menunjukkan penurunan kualitas yang moderat. Oleh karena itu, Apple tidak akan menggunakan model terkuantisasi secara langsung untuk pengembangan fitur, tetapi akan melampirkan serangkaian adaptor LoRA yang efisien parameter untuk pemulihan kualitas.

Perlu diperhatikan bahwa adaptor pemulihan akurasi pelatihan memiliki sampel yang efisien dan dapat dianggap sebagai versi mini dari model dasar pelatihan. Pada fase pra-pelatihan adaptor, hanya sekitar 10 miliar token (sekitar 0,15% dari pelatihan model dasar) yang diperlukan untuk sepenuhnya memulihkan kemampuan model terkuantisasi.

Karena adaptor aplikasi akan disempurnakan dari adaptor pemulihan akurasi ini, adaptor tersebut tidak dikenakan penggunaan memori tambahan atau biaya inferensi. Mengenai ukuran adaptor, Apple menemukan bahwa peringkat adaptor 16 memberikan trade-off terbaik antara kapasitas model dan kinerja inferensi.

Namun, untuk fleksibilitas, Apple menyediakan serangkaian adaptor pemulihan akurasi dengan peringkat berbeda {8, 16, 32} untuk dipilih oleh tim aplikasi.

kuantisasi presisi campuran

Sambungan sisa ada untuk setiap blok transformator dan setiap lapisan di AFM. Oleh karena itu, kecil kemungkinannya semua lapisan memiliki kepentingan yang sama. Mengikuti intuisi ini, Apple semakin mengurangi penggunaan memori dengan mendorong lapisan tertentu untuk menggunakan kuantisasi 2-bit (defaultnya adalah 4-bit). Rata-rata, AFM pada perangkat hanya dapat mengompresi hingga sekitar 3,5 bit per berat (bpw) tanpa kehilangan kualitas yang signifikan.

Evaluasi

Tim peneliti menggunakan alat evaluasi dan tolok ukur open source umum untuk mengevaluasi model AFM yang telah dilatih sebelumnya. Tabel 2 menunjukkan hasil AFM-on-device dan AFM-server pada HELM MMLU v1.5.0.



Tolok ukur ini menunjukkan bahwa model terlatih AFM memiliki kemampuan bahasa dan inferensi yang kuat, memberikan landasan yang kuat untuk pasca-pelatihan dan penyempurnaan fitur.





Hasil perbandingan AFM dengan model open source (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) dan model komersial (GPT3.5 dan GPT-4) ditunjukkan pada Gambar 3 di bawah. Model AFM lebih disukai oleh evaluator manusia dibandingkan model lainnya. Secara khusus, dibandingkan dengan Phi-3-mini, AFM pada perangkat mencapai tingkat kemenangan sebesar 47,7% meskipun ukuran modelnya 25% lebih kecil, bahkan lebih baik daripada baseline kuat open source Gemma-7B dan Mistral-7B.



Untuk mengukur kemampuan model dalam menghasilkan respons yang mengikuti petunjuk dalam petunjuknya, tim peneliti mengevaluasi AFM-on-device dan AFM-server pada benchmark IFEval.



Seperti yang ditunjukkan pada Gambar 5, server AFM mencapai akurasi keseluruhan terbaik, lebih baik daripada Gemini-1.5-Pro-Preview-0514 dan GPT-4.



Apple membandingkan AFM dengan beberapa model terbaik serta model sumber terbuka yang lebih kecil. Seperti yang ditunjukkan pada Gambar 6, AFM pada perangkat dapat mencapai kinerja yang setara atau lebih baik dibandingkan dengan Gemma-7B dan Mistral-7B. Performa server AFM jauh lebih baik dibandingkan DBRX-Instruct dan GPT3.5, dan sebanding dengan GPT4.



Gambar 7 membandingkan kinerja AFM pasca pelatihan pada tolok ukur matematika. Ditemukan bahwa kinerja AFM pada perangkat secara signifikan lebih baik daripada Mistral-7B dan Gemma-7B, meskipun ukurannya kurang dari setengahnya.



Gambar di bawah menunjukkan penilai manusia yang menilai kualitas adaptor AFM pada perangkat, Phi-3-mini, Llama-3-8B, dan Gemma-7B pada tugas ringkasan. Gambar 8 menunjukkan bahwa adaptor AFM pada perangkat secara umum mengungguli model lainnya.



AI yang bertanggung jawab

Apple Intelligence dikembangkan dan dirancang dengan mempertimbangkan privasi pengguna.

Gambar 9 merangkum tingkat pelanggaran yang diberikan oleh penilai manusia pada berbagai model, semakin rendah semakin baik. Baik AFM-on-device maupun AFM-server kuat terhadap permintaan yang berlawanan, dengan tingkat pelanggaran yang jauh lebih rendah dibandingkan model sumber terbuka dan komersial.



Gambar 10 menunjukkan bahwa model AFM lebih disukai oleh human rater dibandingkan model lainnya.