AI Apple secara mengejutkan diluncurkan di iPhone, tetapi versi Siri yang berevolusi tidak memiliki ChatGPT! Laporan teknis setebal 47 halaman mengungkapkan model

AI Apple secara mengejutkan diluncurkan di iPhone, tetapi versi Siri yang berevolusi tidak memiliki ChatGPT! Laporan teknis setebal 47 halaman mengungkapkan model yang dikembangkan sendiri

2024-07-31

Laporan Kebijaksanaan Baru

Editor: Departemen Editorial

[Pengantar Kebijaksanaan Baru] Pagi ini, semua pengembang dikejutkan oleh versi beta iOS 18.1 yang tiba-tiba! Tanpa diduga, Apple AI kini dapat digunakan untuk pengguna awal, dan sejumlah besar ulasan membanjiri seluruh Internet. Yang lebih mengejutkan lagi adalah laporan teknis setebal 47 halaman tentang model dasar di balik AI Apple juga tersedia secara online.

Pagi-pagi sekali, versi pratinjau pertama "Apple AI" yang telah lama ditunggu-tunggu secara resmi diberikan kepada pengembang!

Kemampuan terbaru Apple AI disematkan pada tiga sistem utama iOS 18.1, iPadOS 18.1, dan macOS Sequoia 15.1.

Pengguna gelombang pertama yang mendapatkan versi beta iOS 18.1 sudah bersorak kegirangan, dan gelombang demi gelombang berbagi pengujian sebenarnya tersebar di seluruh jaringan.

Versi pratinjau terbaru berisi banyak kejutan (versi pratinjau cepat):

Siri Baru: Menyala dengan lembut di tepi layar saat dibangunkan; berkomunikasi dengan pengguna dengan beralih antara teks dan suara; dapat memahami perintah bahkan ketika speaker tersandung; juga dapat menjawab pertanyaan tentang pemecahan masalah produk Apple
Alat Penulisan: Anda dapat menulis ulang, mengoreksi, dan meringkas teks dalam skenario apa pun. (Memo, dokumen, dan aplikasi pihak ketiga semuanya dapat diterima)
Mode Fokus (Kurangi Interupsi): Hanya menampilkan notifikasi yang ingin Anda lihat segera
Fitur foto: Cari foto menggunakan bahasa alami dan buat video
Hasilkan ringkasan AI untuk email, pesan, dan transkripsi pesan suara

Selain itu, ada beberapa fitur yang menurut Apple akan diluncurkan tahun depan, antara lain integrasi ChatGPT, pembuatan gambar/Emoji, pembersihan foto otomatis, dan Siri super canggih dengan kesadaran layar.

Omong-omong, saat ini versi iOS 18.1 beta (termasuk iPadOS dan macOS) hanya tersedia di Amerika Serikat dan belum diluncurkan di Tiongkok.

Selain itu, hanya iPhone 15 Pro dan iPhone 15 Pro Max di antara ponsel yang mendukung sistem baru ini.

Menurut pengenalan sistem, versi beta iOS18.1 menempati total ruang memori 15,44 GB, dimana kapasitas sistem iOS adalah 12,58 GB, sedangkan Apple AI hanya menempati 2,86 GB.

Pasalnya, model yang digunakan Apple pada perangkat sisi akhir hanya memiliki 3 miliar parameter.

Pengenalan model yang lebih mendetail semuanya tersembunyi dalam laporan teknis AI Apple yang baru dirilis.

Makalah sepanjang 48 halaman ini mencakup desain dan evaluasi LLM Apple, termasuk arsitektur, manajemen data, resep pra-pelatihan dan pasca-pelatihan, pengoptimalan, adaptasi fungsional, dan hasil evaluasi.

Alamat makalah: https://machinelearning.apple.com/papers/apple_intelligence_foundation_lingual_models.pdf

Secara khusus, Apple telah mengembangkan dua model bahasa dasar baru, yang menjadi inti Apple AI:

Salah satunya adalah model sisi akhir AFM-on-device, yang memiliki sekitar 3 miliar parameter. Setelah dioptimalkan, model ini dapat berjalan di iPhone dan perangkat terminal lainnya, dengan efisiensi dan daya tanggap yang lebih tinggi.

Yang lainnya adalah model parameter yang lebih besar yang dapat berjalan di server cloud Apple, yang disebut server AFM, yang dirancang untuk tugas-tugas intensif dan menggunakan sistem komputasi awan pribadi (Private Cloud Compute) untuk melindungi data pengguna.

Saya masih ingat bahwa pada konferensi WWDC bulan lalu, Cook mengumumkan kepada dunia tentang fungsi AI Apple yang canggih, yang memberikan peningkatan yang luar biasa pada keluarga Apple.

Seluruh Internet menganggap AI sudah tidak bagus lagi, dan kita masih harus melihat AI Apple.

Secara umum, Apple biasanya merilis sistem utama iOS18 terlebih dahulu.

Namun saya tidak menyangka kali ini Apple akan mengirimkan versi beta ke pengembang gelombang pertama dalam waktu sesingkat itu.

Dalam hal ini, laporan terbaru Bloomberg menunjukkan bahwa Apple melanggar ritme rilis perangkat lunak biasanya karena AI Apple masih memerlukan lebih banyak waktu pengujian.

Saya bertanya-tanya, benua baru apa yang ditemukan oleh para pengadopsi awal?

Tes sebenarnya oleh netizen

Blogger teknologi Apple Brandon Butch langsung membuat video penjelasan yang menunjukkan fungsi Apple AI terlengkap di iOS 18.1 versi beta.

Tidak peduli seberapa kerasnya Anda, itu akan selalu lembut dan manis.

Dia mengatakan bahwa Apple AI membantunya menemukan cara yang lebih baik untuk mengungkapkan apa yang ingin dia katakan.

Di antarmuka pesan, tulis apa yang ingin Anda katakan di kotak masukan.

Kemudian pilih semuanya dan klik tombol Apple AI untuk menggunakan "ramah" di alat tulis. AI akan segera membuat nada paragraf ini lebih bijaksana.

Mari kita lihat lagi netizen lain yang secara khusus menulis kata makian, yang jauh lebih nyaman setelah AI menulis ulang.

Koreksi kesalahan tata bahasa

Selain itu, Butch berseru bahwa Grammarly telah dimatikan, dan ini adalah AI Apple yang sebenarnya.

Lihat saja bagian berikut ini. Informatif salah ejaannya, huruf pertamanya tidak menggunakan huruf kapital, dan menurut Anda apa yang harus diakhiri dengan tanda tanya, bukan titik.

Terlihat bahwa Apple AI telah memperbaiki segalanya untuk Anda.

Ada juga kemampuan AI Apple dalam email yang membuat orang tergila-gila mendengarnya.

Ini juga mendukung kemampuan alat penulisan dalam memo dan pesan, termasuk mengoreksi, menulis ulang, dll.

Ringkasan email akan ditampilkan di bagian atas.

Efek animasi alat penulisan AI Apple "sangat Apple". Dibandingkan dengan padatnya aliran token saat model merespons, semuanya terlihat begitu mulus.

Siri baru, respons super lancar

Melihat efek tepi layar saat menelepon Siri, saya harus mengatakan bahwa Apple paling tahu desainnya.

Mari kita lihat Siri versi iPad.

Seorang insinyur AI di Humane dan mantan insinyur Apple menguji Siri dan memujinya, dengan mengatakan bahwa AI Apple sangat, sangat cepat.

Bangunkan Siri dan tanyakan berapa tinggi Menara Eiffel? Di mana letaknya?

Ngomong-ngomong, izinkan saya menyampaikan beberapa berita terkini tentang Olimpiade Paris dan cara menonton acara Olimpiade.

Dalam waktu singkat, Apple AI punya jawabannya.

Ringkasan transkripsi AI, konten ponsel penting tidak takut hilang

Selain itu, Apple AI juga dapat membantu Anda mentranskripsikan panggilan telepon menjadi catatan dan mencatat apa yang Anda bicarakan.

Jika tombol rekam ditekan, nada akan diputar untuk pihak penelepon dan pihak yang dipanggil, yang menandakan bahwa panggilan tersebut akan direkam.

Setelah perekaman selesai, Anda dapat langsung masuk ke jendela pop-up notifikasi untuk melihat konten rekaman.

mode fokus

Gunakan Apple AI untuk menganalisis konten notifikasi secara otomatis dan mendeteksi notifikasi penting!

Notifikasi dari orang-orang penting akan disematkan di bagian bawah layar.

Pencarian foto, banyak keluhan

Tentu saja, alasan mengapa iOS 18.1 diluncurkan pertama kali adalah untuk memungkinkan pengembang menguji lebih lanjut, menemukan masalah yang dilaporkan, dan meningkatkan kemampuan AI Apple dengan lebih baik.

Tidak, ketika seorang blogger YouTube menguji fungsi foto, dia menemukan bahwa Siri masih "terbelakang mental".

Blogger pertama kali bertanya, "Siri tunjukkan foto-foto dari perjalanan Thanksgiving tahun 2022." Siri menjawab: Berapa kali aplikasi Kesehatan dibuka....

Kemudian, dia mengulangi pertanyaannya lagi, "Siri, temukan foto tentang Thanksgiving di foto."

Lucunya, Siri mencari banyak gambar terkait Thanksgiving langsung dari internet.

Ketika dia bertanya lagi, "Siri, tunjukkan foto-foto perjalanan saya ke Taiwan," Siri mendengarkan kata-kata asli sebagai kata kunci dan mencari "Perjalanan Saya ke Twaiwan" dari Internet.

Lalu dia terus bertanya, dan Siri masih bingung.

Blogger yang keras kepala, Siri yang rusak, saya tidak bisa menahan tawa...

Seperti disebutkan di awal, kemampuan untuk menginstal Apple AI ke perangkat terminal didasarkan pada model dasar yang dikembangkan sendiri oleh tim, yang bersinar terang.

Revolusi AI iPhone: 3 miliar parameter di saku Anda

Secara khusus, AFM adalah model padat khusus dekoder yang didasarkan pada arsitektur Transformer.

Ide desainnya adalah sebagai berikut:

Matriks penyematan input/output bersama untuk mengurangi penggunaan memori parameter
Gunakan pra-normalisasi RMSNorm untuk meningkatkan stabilitas pelatihan
Normalisasi kueri/kunci untuk meningkatkan stabilitas pelatihan
Grouped Query Attention (GQA) dengan 8 header nilai kunci untuk mengurangi jejak memori cache KV
Aktivasi SwiGLU lebih efisien
Penyematan lokasi RoPE dengan frekuensi dasar 500k, mendukung konteks panjang

arsitektur adaptor

Dengan menggunakan adaptor LoRA, model dasar Apple dapat secara dinamis berspesialisasi dengan cepat berdasarkan tugas saat ini.

Modul jaringan saraf kecil ini dapat dipasang ke berbagai lapisan model dasar dan digunakan untuk menyempurnakan model untuk tugas tertentu.

Untuk memfasilitasi pelatihan adaptor, Apple juga telah menciptakan infrastruktur efisien yang memungkinkan adaptor ditambahkan, dilatih ulang, diuji, dan diterapkan dengan cepat ketika model dasar atau data pelatihan diperbarui atau fitur baru diperlukan.

optimasi

Karena kebutuhan untuk memenuhi penggunaan sehari-hari pengguna, tim mengadopsi berbagai teknik pengoptimalan dan kuantifikasi untuk mengurangi penggunaan memori, latensi, dan konsumsi daya secara signifikan sambil menjaga kualitas model.

metode

Pada fase pasca-pelatihan, Apple mengompresi dan mengkuantisasi model menjadi rata-rata kurang dari 4 bit per bobot.

Model terkuantisasi biasanya mengalami penurunan kualitas pada tingkat tertentu. Oleh karena itu, tim R&D tidak secara langsung menyerahkan model kuantitatif kepada tim aplikasi untuk pengembangan fungsional, namun melampirkan seperangkat adaptor LoRA yang efisien parameter untuk memulihkan kualitas model.

Setiap tim produk kemudian menyempurnakan adaptor LoRA spesifik fiturnya dengan menginisialisasi bobot adaptor dari adaptor pemulihan akurasi sambil menjaga model dasar terkuantisasi tidak berubah.

Perlu diperhatikan bahwa adaptor pemulihan akurasi pelatihan memiliki sampel yang efisien dan dapat dianggap sebagai versi mini dari model dasar pelatihan.

Diantaranya, pada tahap pra-pelatihan adaptor, hanya sekitar 10 miliar token (sekitar 0,15% dari pelatihan model dasar) yang diperlukan untuk sepenuhnya memulihkan kemampuan model terkuantisasi.

Karena adaptor aplikasi akan disempurnakan dari adaptor pemulihan presisi ini, adaptor tersebut tidak akan dikenakan penggunaan memori tambahan atau biaya inferensi.

Mengenai ukuran adaptor, tim menemukan bahwa adaptor dengan peringkat 16 memberikan keseimbangan terbaik antara kapasitas model dan kinerja inferensi.

Namun, untuk memberikan lebih banyak fleksibilitas, Apple menyediakan serangkaian adaptor pemulihan presisi dengan tingkatan berbeda untuk dipilih oleh tim aplikasi.

Mengukur

Manfaat lain yang dibawa oleh adaptor pemulihan presisi adalah memungkinkan pemilihan skema kuantisasi yang lebih fleksibel.

Di masa lalu, ketika mengkuantisasi model bahasa yang besar, merupakan hal yang umum untuk memecah bobot menjadi bagian-bagian kecil, menormalkan setiap bagian dengan nilai absolut maksimum yang sesuai untuk menyaring outlier, dan kemudian menerapkan algoritma kuantisasi berdasarkan bagian.

Meskipun ukuran blok yang lebih besar mengurangi jumlah bit efektif per bobot dan meningkatkan throughput, kerugian kuantisasi juga meningkat. Untuk menyeimbangkan trade-off ini, ukuran blok biasanya diatur ke nilai yang lebih kecil, seperti 64 atau 32.

Namun dalam percobaan Apple, tim menemukan bahwa adaptor pemulihan akurasi dapat secara signifikan meningkatkan keunggulan Pareto dalam trade-off ini.

Untuk skema kuantisasi yang lebih agresif, lebih banyak kesalahan yang dapat diperbaiki. Hasilnya, Apple dapat menggunakan skema kuantisasi yang efisien untuk AFM tanpa khawatir kehilangan kapasitas model.

kuantisasi presisi campuran

Ada sambungan sisa di setiap blok Transformer dan di setiap lapisan AFM. Oleh karena itu, kecil kemungkinannya semua lapisan memiliki kepentingan yang sama.

Berdasarkan intuisi ini, Apple semakin mengurangi penggunaan memori dengan mendorong lapisan tertentu ke kuantisasi 2-bit (defaultnya adalah 4-bit).

Rata-rata, model pada perangkat AFM dapat dikompresi hingga sekitar 3,5 bit per berat (bpw) tanpa kehilangan kualitas yang signifikan.

Dalam produksinya, Apple memilih menggunakan 3,7bpw karena sudah memenuhi kebutuhan memori.

hasil evaluasi

pra-pelatihan

Tabel 2 menunjukkan hasil AFM-on-device dan AFM-server pada HELM MMLU v1.5.0 yang menguji 5 sampel soal pilihan ganda pada 57 subjek.

Tabel 3 dan 4 menunjukkan hasil server AFM pada benchmark HuggingFace OpenLLM dengan peringkat V1 dan HELM-Lite v1.5.0.

Dapat dilihat bahwa model pra-pelatihan AFM memiliki kemampuan bahasa dan penalaran yang kuat, sehingga memberikan landasan yang kuat untuk pasca-pelatihan dan penyempurnaan fitur.

pasca pelatihan penilaian manusia

Untuk skenario aplikasi AI Apple, evaluasi manusia lebih dekat dengan pengalaman pengguna.

Untuk menilai kemampuan umum model, tim mengumpulkan 1.393 petunjuk yang komprehensif.

Petunjuknya mencakup semua dan mencakup berbagai kategori dan tingkat kesulitan, termasuk: Penalaran Analitik, Brainstorming, Chatbots, Klasifikasi, Menjawab Pertanyaan Tertutup, Pengodean, Ekstraksi, Penalaran Matematika, Menjawab Pertanyaan Terbuka, Menulis Ulang, Keamanan, Meringkas, dan menulis.

Gambar 3 menunjukkan perbandingan AFM dengan model open source (Phi-3, Gemma-1.1, Llama-3, Mistral, DBRX-Instruct) dan model komersial (GPT-3.5 dan GPT-4).

Ditemukan bahwa penilai manusia lebih menyukai model AFM dibandingkan model pesaing.

Secara khusus, meskipun ukuran model AFM pada perangkat 25% lebih kecil, tingkat kemenangannya adalah 47,7% dibandingkan dengan Phi-3-mini, bahkan melebihi garis dasar open source yang kuat Gemma-7B dan Mistral- dengan lebih dari dua kali lipat ukuran model. jumlah parameter.

Dibandingkan dengan model sumber tertutup, server AFM juga menunjukkan daya saing tertentu, dengan tingkat kemenangan lebih dari 50% dan tingkat seri 27,4% dibandingkan GPT-3.5.

Ikuti instruksi

Mengikuti instruksi (IF) adalah kemampuan inti yang sangat diharapkan oleh tim Apple untuk model bahasa, karena petunjuk atau instruksi di dunia nyata sering kali rumit.

Di sini, tim menggunakan tolok ukur IFEval publik untuk mengevaluasi apakah model bahasa besar dapat mengikuti instruksi dalam prompt secara akurat saat menghasilkan respons. Hal ini sering kali mencakup persyaratan khusus untuk panjang, format, dan isi tanggapan.

Seperti yang ditunjukkan pada Gambar 4, AFM-on-device dan AFM-server bekerja dengan baik dalam akurasi tingkat perintah dan tingkat prompt.

Selain itu, tim Apple juga melakukan benchmark model AFM pada benchmark AlpacaEval 2.0 LC untuk mengukur kemampuan mengikuti instruksi umum, dan hasilnya menunjukkan bahwa modelnya sangat kompetitif.

Penggunaan alat

Dalam skenario penggunaan alat, setelah model menerima permintaan pengguna dan daftar alat potensial beserta deskripsinya, model dapat memilih untuk memanggil alat tertentu dengan memberikan keluaran terstruktur dan menentukan nama alat serta nilai parameter.

Tim mengevaluasi model pada benchmark Berkeley Function Calling Leaderboard publik menggunakan metrik AST dengan dukungan asli untuk pemanggilan fungsi.

Seperti yang ditunjukkan pada Gambar 5, server AFM memiliki kinerja terbaik dalam akurasi keseluruhan, melampaui Gemini-1.5-Pro-Preview-0514 dan GPT-4.

menulis

Menulis adalah salah satu kemampuan terpenting model bahasa besar, karena mendukung berbagai aplikasi hilir seperti mengubah nada, menulis ulang, dan meringkas.

Tim mengevaluasi kemampuan menulis AFM dalam ringkasan internal dan tes benchmark menulis. Dan mengikuti pendekatan LLM sebagai juri, instruksi pemberian skor dirancang untuk setiap ringkasan dan tugas penulisan, dan GPT-4 Turbo diminta untuk memberi skor pada respons model pada skala 1 hingga 10.

Seperti yang ditunjukkan pada Gambar 6, AFM pada perangkat menunjukkan kinerja yang sebanding atau lebih baik dibandingkan dengan Gemma-7B dan Mistral-7B. Server AFM secara signifikan lebih baik daripada DBRX-Instruct dan GPT-3.5, dan bahkan sebanding dengan GPT-4.

Perlu dicatat bahwa ada beberapa keterbatasan dan bias dalam menggunakan penilaian LLM, seperti bias panjang.

matematika

Pada Gambar 7, tim membandingkan kinerja AFM dengan tolok ukur matematika.

Diantaranya, para peneliti menggunakan tip CoT 8-shot untuk GSM8K dan tip CoT 4-shot untuk MATEMATIKA.

Hasilnya menunjukkan bahwa AFM pada perangkat secara signifikan mengungguli Mistral-7B dan Gemma-7B bahkan pada ukuran kurang dari setengah keduanya.

Fungsi ringkasan

Tim produk mengembangkan serangkaian pedoman, metrik, dan kriteria penilaian khusus yang disesuaikan untuk ringkasan email, pesan, dan pemberitahuan guna mengevaluasi kualitas ringkasan, menggunakan berbagai kumpulan data sumber terbuka, berlisensi, dan eksklusif.

Ringkasan tersebut diklasifikasikan sebagai "Buruk" jika ada subdimensi yang diberi peringkat "Buruk" berdasarkan spesifikasi produk yang telah ditentukan sebelumnya. Demikian pula suatu ringkasan diklasifikasikan “baik” hanya jika seluruh subdimensi dinilai “baik”.

Gambar 8 menunjukkan bahwa kinerja keseluruhan adaptor AFM-on-device+ lebih baik daripada Phi-3-mini, Llama-3-8B, dan Gemma-7B.

menilai keamanan

Gambar 9 menunjukkan hasil evaluasi manusia yang meninjau pelanggaran model. Semakin rendah nilainya, semakin baik.

Dapat dilihat bahwa AFM-on-device dan AFM-server menunjukkan ketahanan yang kuat dalam menangani permintaan yang bersifat permusuhan, dan tingkat pelanggaran jauh lebih rendah dibandingkan model open source dan komersial.

Gambar 10 menunjukkan preferensi peninjau manusia terhadap perintah penilaian keamanan.

Model AFM sekali lagi memenangkan putaran ini karena dapat memberikan respons yang lebih aman dan bermanfaat.

Gambar di atas adalah gambaran sekilas tentang model AI Apple.

Kapan semua orang bisa menggunakan kemampuan AI Apple?

Setiap tahun, Apple meluncurkan produk baru di konferensi musim gugur, dan versi awal iOS 18 akan diluncurkan bersamaan dengan iPhone 16.

Namun, semua orang harus menunggu hingga Oktober untuk merasakannya.

Referensi:

https://machinelearning.apple.com/papers/apple_intelligence_foundation_bahasa_models.pdf

https://x.com/BrandonButch/status/1817982978540404776

berita

AI Apple secara mengejutkan diluncurkan di iPhone, tetapi versi Siri yang berevolusi tidak memiliki ChatGPT! Laporan teknis setebal 47 halaman mengungkapkan model yang dikembangkan sendiri

Perkenalan

informasi kontak saya