Bagaimana Apple Intelligence dikembangkan?Tafsir terlengkap ada di sini

2024-07-31

Ditulis oleh |.Ma Xuewei

Siri akhirnya bertransformasi menjadi "AI Siri", dan Apple Intelligence yang sangat dinantikan telah hadir.

Dengan peluncuran Apple Intelligence untuk iOS 18, iPadOS 18, dan macOS Sequoia, Apple juga merilis laporan teknis pada model besarnya, mengumumkan sejumlah besar detail teknis, yang menarik perhatian besar dari industri.

Menurut laporan, Apple Intelligence berisi beberapa model generatif berkinerja tinggi yang cepat, efisien, dirancang untuk tugas sehari-hari pengguna, dan dapat langsung beradaptasi dengan aktivitas pengguna saat ini. Model dasar yang dibangun dalam Apple Intelligence telah dioptimalkan untuk pengalaman pengguna seperti menulis dan memoles teks, memprioritaskan dan meringkas notifikasi, membuat gambar menarik untuk percakapan dengan keluarga dan teman, dan mengambil tindakan dalam aplikasi untuk menyederhanakan Interaksi lintas aplikasi.

Dalam laporan teknis, tim Apple merinci bagaimana dua model—model bahasa AFM (Apple Foundation Model) dengan sekitar 3 miliar parameter, dan model bahasa server AFM berbasis server yang lebih besar—dibangun dan diadaptasi agar berfungsi tugas profesional secara efisien dan akurat.

Gambar |. Ikhtisar model AFM

Kedua model dasar ini adalah bagian dari rangkaian model generatif yang lebih besar yang dibuat oleh Apple untuk mendukung pengguna dan pengembang; ini mencakup model pemrograman berdasarkan model bahasa AFM untuk membangun kecerdasan dalam Xcode, dan model difusi untuk membantu Pengguna mengekspresikan diri mereka secara visual, seperti pada aplikasi perpesanan.

Bagaimana kinerja AFM?

AFM menjalani evaluasi yang ketat selama proses pengembangan, dan hasil evaluasi menunjukkan bahwa model tersebut bekerja dengan baik dalam pra-pelatihan, pasca-pelatihan, dan tugas-tugas tertentu, serta sejalan dengan nilai-nilai inti Apple dan prinsip-prinsip AI yang bertanggung jawab.

1. Evaluasi pra-pelatihan

Tim Apple menggunakan tolok ukur evaluasi publik seperti HELM MMLU, HELMLite, dan OpenLLM untuk mengevaluasi pemahaman bahasa dan kemampuan penalaran model AFM. Hasilnya menunjukkan bahwa model AFM mencapai hasil yang sangat baik pada berbagai indikator evaluasi, menunjukkan kemampuan pemahaman dan penalaran bahasa yang kuat, dan meletakkan dasar untuk penerapan tugas spesifik dan pasca-pelatihan berikutnya.

2. Evaluasi pasca pelatihan

Tim Apple menggabungkan penilaian manusia dan tolok ukur penilaian otomatis untuk mengevaluasi kemampuan umum dan kemampuan khusus model AFM, seperti mengikuti instruksi, penggunaan alat, dan penulisan.Hasil evaluasinya adalah sebagai berikut:

Evaluasi manusia:Model AFM sebanding atau lebih baik daripada model open source dan komersial lainnya dalam berbagai tugas, menunjukkan bahwa model tersebut dapat memahami dan mengikuti instruksi kompleks serta menghasilkan teks berkualitas tinggi.

Gambar |. Membandingkan model AFM dengan model sumber terbuka dan model komersial lainnya, penilai manusia lebih memilih model AFM.

Tim peneliti mengevaluasi MAIA pada paradigma deskripsi neuron. Studi tersebut menunjukkan bahwa MAIA mencapai efek deskripsi yang sangat baik pada model nyata dan kumpulan data neuron sintetik, dengan kemampuan prediktif yang lebih baik daripada metode dasar dan sebanding dengan pakar manusia.

Penilaian kepatuhan instruksi:Model AFM mencapai hasil luar biasa pada tolok ukur seperti IFEval dan AlpacaEval 2.0 LC, yang menunjukkan bahwa model tersebut dapat memahami dan mengikuti instruksi secara efektif.

Gambar |. Perbandingan kemampuan kepatuhan instruksi model AFM dan model terkait, diukur menggunakan IFEval.

Penilaian penggunaan alat:Model AFM mencapai akurasi terbaik secara keseluruhan pada benchmark Berkeley Function Calling Leaderboard, yang menunjukkan bahwa model tersebut dapat menggunakan alat tersebut secara efektif.

Gambar |. Server AFM mencapai akurasi keseluruhan terbaik, lebih baik daripada Gemini-1.5-Pro-Preview-0514 dan GPT-4.

Penilaian Menulis:Model AFM berkinerja baik pada peringkasan internal dan tolok ukur penulisan, menunjukkan kemampuan model dalam menghasilkan teks yang lancar dan berkualitas tinggi.

Gambar |. AFM dibandingkan dengan beberapa model yang paling menonjol serta model open source skala kecil. Dibandingkan dengan Gemma-7B dan Mistral-7B, AFM pada perangkat dapat mencapai kinerja yang setara atau lebih baik. Server AFM secara signifikan mengungguli arahan dbrx dan sebanding dengan GPT-3.5 dan GPT-4.

Penilaian Matematika:Model AFM telah mencapai hasil yang sangat baik pada benchmark seperti GSM8K dan MATH, yang menunjukkan bahwa model tersebut dapat memecahkan masalah matematika secara efektif.

Gambar |. Tim peneliti membandingkan kinerja AFM pada benchmark matematika setelah pelatihan, termasuk GSM8K dan matematika. Performa AFM pada perangkat secara signifikan lebih baik dibandingkan Mistral-7B dan Gemma-7B.

Selain itu, tim peneliti melakukan evaluasi tugas khusus dan penilaian keselamatan model tersebut. Mereka menggunakan evaluasi manusia dan tolok ukur evaluasi tugas tertentu untuk mengevaluasi kinerja model AFM pada tugas tertentu, seperti ringkasan email, ringkasan pesan, dan ringkasan pemberitahuan. Berdasarkan hasil evaluasi, performa model AFM dalam ringkasan email, ringkasan pesan, dan ringkasan notifikasi lebih baik dibandingkan model lainnya dalam banyak aspek, seperti akurasi, kelengkapan, dan keterbacaan.

Dalam hal keamanan, tim peneliti menggunakan kumpulan data permusuhan dan evaluasi manusia untuk mengevaluasi ketahanan model AFM terhadap konten berbahaya dan topik sensitif. Hasil evaluasi menunjukkan bahwa model AFM menunjukkan ketahanan yang baik terhadap data permusuhan dan topik sensitif, serta menghindari respons yang merugikan atau tidak pantas sampai batas tertentu.

Bagaimana AFM “dipraktikkan”?

Arsitektur

Seperti kebanyakan model arus utama, model AFM didasarkan pada Transformator arsitektur, tetapi juga menggunakan beberapa pilihan desain khusus untuk meningkatkan efisiensi dan kinerja.Komponen utamanya adalah sebagai berikut:

Modul Transformer: AFM menggunakan modul Transformer standar, termasuk mekanisme perhatian multi-kepala dan feedforwardJaringan Syaraf。
Matriks penyematan input/output bersama: Desain ini mengurangi jumlah parameter model dan meningkatkan efisiensi memori.
Prenormalisasi dan RMSNorm: Teknik ini meningkatkan stabilitas pelatihan dan membantu model mempelajari pola yang lebih kompleks.
Normalisasi kueri/kunci: Teknik ini semakin meningkatkan stabilitas pelatihan.
Grouped Query Attention (GQA): Mekanisme GQA mengurangi penggunaan memori dan meningkatkan efisiensi komputasi.
Fungsi aktivasi SwiGLU: Fungsi aktivasi ini meningkatkan efisiensi model.
Penyematan posisi RoPE: Mekanisme RoPE mendukung pengkodean teks panjang dan meningkatkan kemampuan model untuk mewakili konteks.

Gambar |. AFM-on-device memiliki 3072 parameter dan cocok untuk inferensi pada perangkat. Ini menggunakan 26 lapisan Transformer, setiap lapisan berisi 128 header, 8 header kueri/kunci, dan 24 header kueri.

pra-pelatihan

Proses pra-pelatihan model AFM dirancang untuk melatih model bahasa yang canggih untuk mendukung berbagai fungsi sistem Intelijen Apple. Model AFM dilatih pada cluster Cloud TPU menggunakan kerangka kerja AXLearn, yang mendukung pelatihan model skala besar dan panjang urutan, serta memberikan pelatihan dan kinerja inferensi yang efisien.

Kumpulan data pra-pelatihan AFM terdiri dari beberapa jenis data berkualitas tinggi, termasuk:

Konten web: informasi yang tersedia untuk umum dirayapi menggunakan Applebot dan disaring.
Kumpulan data berlisensi: Kumpulan data berkualitas tinggi yang diperoleh dari penerbit yang menyediakan beragam data teks panjang.
Kode: Data kode sumber terbuka yang diperoleh dari GitHub, mencakup berbagai bahasa pemrograman.
Matematika: Data web yang berisi konten matematika seperti soal matematika, forum, blog, tutorial, dan seminar.
Kumpulan data publik: Kumpulan data yang tersedia untuk umum yang telah dievaluasi dan disaring.

Pra-pelatihan AFM dibagi menjadi tiga tahap:

Tahap inti: Gunakan kumpulan data terbesar untuk pelatihan. Tujuan utamanya adalah mempelajari pengetahuan dan pola bahasa dasar.
Tahap berkelanjutan: Berdasarkan tahap inti, kode dan data matematika ditambahkan, dan bobot data halaman web dikurangi untuk lebih memperluas cakupan pengetahuan model.
Tahap perluasan konteks: Berdasarkan tahap berkelanjutan, panjang urutan yang lebih panjang dan data teks panjang sintetik digunakan untuk meningkatkan kemampuan pemrosesan model untuk teks yang panjang.

pasca pelatihan

AFM memperoleh kemampuan pemahaman bahasa yang kuat dalam fase pra-pelatihan, namun untuk menerapkannya pada tugas-tugas tertentu, seperti ringkasan email, ringkasan pesan, dan ringkasan pemberitahuan, diperlukan pasca-pelatihan.termasuk:

Penyempurnaan yang diawasi (SFT):
- Pengumpulan data: Gunakan data yang dianotasi manusia dan data sintetis untuk memastikan kualitas data beragam dan mencakup berbagai skenario penggunaan bahasa alami.
- Pencampuran data: Pilih dan gabungkan data manusia dan data sintetis dengan cermat untuk membentuk campuran data berkualitas tinggi.
- Metode penyempurnaan: Gunakan adaptor LoRA untuk menyempurnakan model, hanya menyesuaikan parameter adaptor, dan mempertahankan pengetahuan umum tentang model.
Pembelajaran penguatan berdasarkan umpan balik manusia (RLHF):
- Model penghargaan: Latih model penghargaan menggunakan data preferensi manusia dan evaluasi kualitas respons model.
- Komite Pengajaran Iteratif (iTeC): Meningkatkan model secara berulang menggunakan algoritme pengoptimalan preferensi ganda, termasuk pengambilan sampel penolakan, pengoptimalan preferensi langsung, dan pembelajaran penguatan online.
- Algoritme RLHF online (MDLOO): Gunakan pengoptimalan kebijakan Mirror Descent dan penaksir keuntungan Leave-One-Out untuk memaksimalkan imbalan dan meningkatkan kualitas model.

Keuntungan pasca pelatihan:

Peningkatan kualitas model: Pasca pelatihan secara signifikan meningkatkan kualitas dan performa model AFM, sehingga membuatnya berfungsi dengan baik pada tugas tertentu.
Mematuhi nilai-nilai inti Apple dan prinsip-prinsip AI yang bertanggung jawab: Proses pasca pelatihan sepenuhnya mempertimbangkan kualitas data, keamanan, dan pemfilteran konten berbahaya untuk memastikan bahwa model tersebut mematuhi nilai-nilai inti Apple dan prinsip-prinsip AI yang bertanggung jawab.
Skalabilitas: Metode pasca-pelatihan dapat diskalakan ke tugas-tugas lain, memungkinkan model AFM mendukung lebih banyak fitur Apple Intelligence.

Optimasi inferensi

AFM tidak hanya harus memiliki kemampuan pemahaman bahasa yang kuat, namun juga harus mampu berjalan secara efisien di perangkat seperti iPhone, iPad, dan Mac, serta Private Cloud Compute di server silikon Apple. Untuk mencapai tujuan ini, Apple telah mengembangkan serangkaian teknik pengoptimalan untuk memastikan model AFM berjalan secara efisien pada tugas tertentu sambil menjaga kualitas model secara keseluruhan.

Pengoptimalan:

Kuantisasi model: Gunakan teknologi kuantisasi 4-bit untuk mengkuantisasi model AFM, sehingga secara signifikan mengurangi ukuran model dan biaya inferensi.
Adaptor pemulihan akurasi: Gunakan adaptor LoRA untuk memulihkan keakuratan model terkuantisasi sehingga mendekati performa model tidak terkuantisasi.
Kuantisasi presisi campuran: Kuantisasi setiap lapisan model menggunakan presisi kuantisasi 4-bit dan 2-bit untuk lebih mengurangi penggunaan memori sekaligus menjaga kualitas model.
Analisis model interaktif: Gunakan alat Talaria untuk menganalisis latensi dan konsumsi daya model, memandu pemilihan kecepatan bit, dan mengoptimalkan kinerja model.
Adaptor yang dapat diganti pada waktu proses: Gunakan adaptor LoRA untuk menyempurnakan model Anda sehingga dapat disesuaikan dengan tugas tertentu sambil mempertahankan pengetahuan umum tentang model tersebut.

Ringkasan email kasus pengoptimalan:

Pengumpulan data: Mengumpulkan data masukan yang berisi kutipan email, pesan, dan notifikasi serta melakukan pembersihan dan deduplikasi data.
Pembuatan ringkasan sintetis: Gunakan server AFM untuk menghasilkan ringkasan sintetis yang memenuhi persyaratan produk, dan gunakan aturan dan model untuk memfilter guna memastikan kualitas data.
Injeksi petunjuk: Tambahkan ringkasan yang dihasilkan oleh server AFM ke data pelatihan untuk membantu model perangkat AFM lebih memahami dan menghasilkan ringkasan.

Selain itu, Apple Intelligence mengikuti serangkaian prinsip AI yang bertanggung jawab, termasuk memberdayakan pengguna, mewakili pengguna, desain yang cermat, dan melindungi privasi. Dalam laporan teknis, Apple membantah tuduhan bahwa mereka menggunakan metode yang dipertanyakan secara etis untuk melatih model tertentu, dengan menegaskan kembali bahwa mereka tidak menggunakan data pengguna pribadi dan sebaliknya menggunakan kombinasi data yang tersedia untuk umum dan berlisensi untuk tujuan Intelijen Apple. Mereka menekankan bahwa data pelatihan model AFM diperoleh dengan cara yang "bertanggung jawab".

berita

Bagaimana Apple Intelligence dikembangkan?Tafsir terlengkap ada di sini

Bagaimana kinerja AFM?

Bagaimana AFM “dipraktikkan”?

Perkenalan

informasi kontak saya