ニュース

iPhoneにAppleのAIが衝撃的に搭載されるが、進化版SiriにはChatGPTが搭載されていない! 47ページの技術レポートで自社開発モデルが明らかに

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者:編集部

【新しい知恵の紹介】今朝、すべての開発者は、iOS 18.1 の突然のベータ版に驚きました。思いがけず、Apple AI はアーリーアダプターでも利用できるようになり、インターネット全体に大量のレビューが溢れかえりました。さらに驚くべきことは、Apple の AI の背後にある基本モデルに関する 47 ページの技術レポートもオンラインで公開されていることです。

早朝、待望の「Apple AI」の最初のプレビュー版が開発者に正式にプッシュされました!


Apple AI の最新機能は、iOS 18.1、iPadOS 18.1、macOS Sequoia 15.1 の 3 つの主要システムに組み込まれています。

iOS 18.1 のベータ版を入手した最初のユーザーはすでに歓声を上げており、次から次へと実際のテスト共有の波がネットワーク全体に広がりました。


最新のプレビュー バージョンには、多くの驚きが含まれています (クイック プレビュー バージョン)。

  • 新しい Siri: 起動すると画面の端が柔らかく点灯し、テキストと音声を切り替えてユーザーと通信します。スピーカーがつまずいてもコマンドを理解でき、Apple 製品のトラブルシューティングについての質問にも答えることができます。

  • ライティングツール: あらゆるシナリオでテキストを書き直し、校正し、要約することができます。 (メモ、文書、サードパーティ製アプリはすべて使用可能です)

  • フォーカス モード (中断を減らす): すぐに確認する必要がある通知のみを表示します。

  • 写真の機能: 自然言語を使用して写真を検索し、ビデオを作成します

  • 電子メール、メッセージ、ボイスメールの文字起こしの AI 概要を生成


さらに、Apple が来年リリースすると発表している機能には、ChatGPT の統合、画像/絵文字の生成、自動写真クリーニング、画面認識機能を備えた超強力な Siri などがあります。

ちなみに、現時点ではiOS 18.1ベータ版(iPadOS、macOSを含む)は米国のみで提供されており、中国ではまだ提供されていない。

また、携帯電話の中で新システムをサポートしているのはiPhone 15 ProとiPhone 15 Pro Maxのみです。



システムの紹介によると、iOS18.1ベータ版は合計15.44GBのメモリ空間を占有し、このうちiOSシステム容量は12.58GBですが、Apple AIは2.86GBのみを占有します。

これは、Apple がエンドサイド デバイスで使用するモデルには 30 億個のパラメータしかないためです。


このモデルのより詳細な紹介は、新しくリリースされた Apple AI 技術レポートにすべて隠されています。

48 ページにわたるこの論文では、アーキテクチャ、データ管理、トレーニング前およびトレーニング後のレシピ、最適化、機能適応、評価結果など、Apple の LLM の設計と評価について説明しています。


論文のアドレス: https://machinelearning.apple.com/papers/apple_intelligence_foundation_ language_models.pdf

具体的には、Apple は Apple AI の中核を形成する 2 つの新しい基本言語モデルを開発しました。

1 つはエンドサイド モデルの AFM-on-device で、最適化後は約 30 億のパラメータがあり、より高い効率と応答性で iPhone やその他の端末デバイス上で実行できます。

もう 1 つは、AFM サーバーと呼ばれる Apple のクラウド サーバーで実行できる、より大きなパラメータ モデルです。これは、集中的なタスク向けに設計されており、プライベート クラウド コンピューティング (Private Cloud Compute) システムを使用してユーザー データを保護します。


先月のWWDCカンファレンスで、クック氏がAppleのAIの強力な機能を世界に向けて発表し、それによってAppleのファミリーバケツに壮大なアップグレードが与えられたことを今でも覚えています。

インターネット全体が、AI はもはやまったく良くないと考えており、私たちは依然として Apple AI を検討する必要があります。


一般的に、Apple は通常、iOS18 メインシステムを最初にリリースします。

しかし、今回 Apple がこれほど短期間で最初の開発者にベータ版を提供するとは予想していませんでした。

これに関連して、ブルームバーグの最新レポートは、Apple AI にはまだテスト時間が必要なため、Apple が通常のソフトウェア リリース リズムを破ったと指摘しました。


最初のアーリーアダプターたちはどのような新しい大陸を発見したのでしょうか?

ネチズンによる実際のテスト

Apple テクノロジーブロガーの Brandon Butch 氏は、iOS 18.1 ベータ版の最も包括的な Apple AI 機能を示すビデオ解説をすぐに作成しました。


どんなに厳しくても、いつも優しくて優しい。

彼は、Apple AI が、自分の言いたいことを表現するより良い方法を見つけるのに役立った、と語った。


メッセージ インターフェイスで、入力ボックスに言いたいことを書きます。

次に、それらをすべて選択し、[Apple AI] ボタンをクリックして、ライティング ツールで「フレンドリー」を使用すると、AI がこの段落のトーンをすぐにより巧妙にします。


AIが書き換えた後、より快適になった呪いの言葉を具体的に書いた別のネチズンをもう一度見てみましょう。


文法のタイプミスの修正

さらにブッチは「グラマーリーは殺された、これが本物のApple AIだ」と叫んだ。


次の文章を見てください。情報のスペルが間違っています。最初の文字が大文字になっていません。ピリオドではなく疑問符で終わるべきだと思います。

Apple AI がすべてを修正したことがわかります。


電子メールにも Apple の AI 機能があり、それを聞くと人々は夢中になります。


また、校正やリライトなど、メモやメッセージの書き込みツールの機能もサポートしています。


メールの概要が上部に表示されます。


Apple の AI ライティング ツールのアニメーション効果は「非常に Apple」です。モデルが応答するときのトークンの流れと比べると、すべてが非常にスムーズに見えます。



真新しい Siri、非常にスムーズな応答

Siri を呼び出したときの画面のエッジ効果を見ると、Apple がデザインを最もよく知っていると言わざるを得ません。



iPad版のSiriを見てみましょう。


Humane の AI エンジニアと元 Apple エンジニアは Siri をテストし、Apple の AI は非常に高速であると称賛しました。


Siri を起こして、エッフェル塔の高さを尋ねてください。それはどこにありますか?


さて、パリオリンピックとオリンピック競技の観戦方法に関する最近のニュースをいくつか紹介しましょう。

Apple AI はすぐに答えを見つけました。


AI 文字起こしの概要、重要な電話内容を見逃す心配はありません

さらに、Apple AI は、電話での通話をメモに書き起こし、話した内容を記録することもできます。


録音ボタンを押すと、発信側と着信側の両方にトーンが鳴り、通話が録音されることを示します。


録音が完了したら、通知ポップアップ ウィンドウに直接入って録音内容を表示できます。


フォーカスモード

Apple AI を使用して通知内容を自動的に分析し、重要な通知を検出します。


重要な人からの通知は画面の下部に固定されます。


写真検索、苦情多数

もちろん、iOS 18.1 が最初にリリースされた理由は、開発者がより多くのテストを行い、報告された問題を発見し、Apple の AI 機能をより良く改善できるようにするためです。

いいえ、YouTube ブロガーが写真機能をテストしていたとき、Siri が依然として「精神薄弱」であることに気づきました。


ブロガーは最初に、「Siri に 2022 年の感謝祭旅行の写真を見せて」と尋ねました。 Siri は次のように答えました: ヘルスケア アプリを開いた回数...

それから彼はもう一度質問を繰り返しました、「Siri、感謝祭に関する写真を写真から探して」。


面白いことに、Siri は感謝祭に関連した大量の画像をインターネットから直接検索しました。

彼が再び「Siri、台湾への旅行の写真を見せて」と尋ねると、Siriは元の言葉をキーワードとして聞き、インターネットから「台湾への旅行」を検索しました。

それから彼は質問を続けましたが、Siri はまだ混乱していました。

頑固なブロガー、壊れたSiri、思わず笑ってしまいます...

冒頭でも述べたように、Apple AIを端末に搭載できる機能は、チームが自社開発した基本モデルをベースにしており、キラリと光る。

iPhone の AI 革命: 30 億のパラメーターがポケットに

具体的には、AFM は、Transformer アーキテクチャに基づくデコーダ専用の高密度モデルです。


その設計思想は次のとおりです。

  • パラメータのメモリ使用量を削減するための共有入出力埋め込み行列

  • RMSNorm の事前正規化を使用してトレーニングの安定性を向上させる

  • トレーニングの安定性を向上させるためのクエリ/キーの正規化

  • KV キャッシュのメモリ フットプリントを削減する 8 つのキーと値のヘッダーを備えたグループ化クエリ アテンション (GQA)

  • より効率的な SwiGLU アクティベーション

  • 500k の基本周波数による RoPE 位置埋め込み、長いコンテキストをサポート


アダプターのアーキテクチャ

LoRA アダプターを使用すると、Apple の基本モデルは、現在のタスクに基づいて動的に動的に特化できます。

これらの小さなニューラル ネットワーク モジュールは、基本モデルのさまざまな層に接続して、特定のタスクに合わせてモデルを微調整するために使用できます。

アダプターのトレーニングを容易にするために、Apple は、基盤となるモデルやトレーニング データが更新された場合、または新しい機能が必要になった場合に、アダプターを迅速に追加、再トレーニング、テスト、展開できる効率的なインフラストラクチャも作成しました。

最適化

ユーザーの日常的な使用に応える必要があるため、チームはモデルの品質を維持しながらメモリ使用量、遅延、電力消費を大幅に削減するために、さまざまな最適化お​​よび定量化手法を採用しました。


方法

トレーニング後の段階で、Apple はモデルを重みあたり平均 4 ビット未満に圧縮および量子化しました。

量子化されたモデルは通常、ある程度の品質の低下を被ります。したがって、研究開発チームは機能開発のために定量モデルをアプリケーション チームに直接引き渡すのではなく、パラメータ効率の高い LoRA アダプターのセットを接続してモデルの品質を復元します。

次に、各製品チームは、量子化された基本モデルを変更せずに、精度回復アダプターからアダプターの重みを初期化することで、機能固有の LoRA アダプターを微調整します。

トレーニング精度回復アダプターはサンプル効率が高く、トレーニング基本モデルのミニバージョンとみなすことができることは注目に値します。

このうち、アダプターの事前トレーニング段階では、量子化モデルの能力を完全に復元するために必要なトークンはわずか約 100 億トークン (基本モデルのトレーニングの約 0.15%) です。

アプリケーション アダプターはこれらの精度回復アダプターから微調整されるため、追加のメモリ使用量や推論コストは発生しません。

アダプターのサイズに関して、チームはランク 16 のアダプターがモデルの容量と推論パフォーマンスの最適なバランスを提供することを発見しました。

ただし、より柔軟性を提供するために、Apple はアプリケーション チームが選択できるさまざまなランクの精度回復アダプターのセットを提供しています。

定量化する

精度回復アダプターによってもたらされるもう 1 つの利点は、量子化スキームをより柔軟に選択できることです。

以前は、大規模な言語モデルを量子化する場合、重みを小さなチャンクに分割し、対応する最大絶対値で各チャンクを正規化して外れ値をフィルタリングしてから、チャンク ベースで量子化アルゴリズムを適用するのが一般的でした。

ブロック サイズが大きくなると、重みあたりの有効ビット数が減り、スループットが向上しますが、量子化損失も増加します。このトレードオフのバランスをとるために、通常、ブロック サイズは 64 や 32 などの小さい値に設定されます。

しかし、Apple の実験でチームは、精度回復アダプターがこのトレードオフのパレート フロントを大幅に改善できることを発見しました。

より積極的な量子化スキームでは、より多くのエラーが回復されます。その結果、Apple はモデル容量の損失を心配することなく、AFM に効率的な量子化スキームを使用できるようになりました。

混合精度量子化

各 Transformer ブロックと AFM の各層には残りの接続があります。したがって、すべてのレイヤーが同じ重要性を持つとは考えられません。

この直感に基づいて、Apple は特定のレイヤーを 2 ビット量子化 (デフォルトは 4 ビット) にプッシュすることでメモリ使用量をさらに削減しました。

平均して、AFM デバイス上のモデルは、品質を大幅に損なうことなく、重量あたり約 3.5 ビット (bpw) まで圧縮できます。

実稼働環境では、Apple は 3.7bpw を使用することを選択します。これは、これがすでにメモリ要件を満たしているためです。

評価結果

事前トレーニング

表 2 は、57 人の被験者の 5 サンプルの多肢選択式質問をテストした、HELM MMLU v1.5.0 上のデバイス上の AFM と AFM サーバーの結果を示しています。


表 3 と表 4 は、それぞれ HuggingFace OpenLLM ランキング V1 および HELM-Lite v1.5.0 ベンチマークでの AFM サーバーの結果を示しています。



AFM 事前トレーニング モデルには強力な言語機能と推論機能があり、そのため、ポストトレーニングと機能の微調整のための強固な基盤が提供されることがわかります。

トレーニング後の 人間の評価

Apple AI アプリケーションのシナリオでは、人間による評価がユーザー エクスペリエンスに近くなります。

モデルの一般的な機能を評価するために、チームは 1,393 個のヒントの包括的なセットを収集しました。

プロンプトは包括的であり、分析推論、ブレインストーミング、チャットボット、分類、クローズドクエスチョン回答、コーディング、抽出、数学的推論、オープンクエスチョン回答、書き換え、セキュリティ、要約と書き込みなど、さまざまなカテゴリと難易度レベルをカバーしています。

図 3 は、AFM とオープンソース モデル (Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct) および商用モデル (GPT-3.5 および GPT-4) との比較を示しています。


人間の評価者は競合モデルよりも AFM モデルを好むことがわかりました。

特に、AFM-on-device のモデル サイズは 25% 小さいにもかかわらず、その勝率は Phi-3-mini と比較して 47.7% であり、オープンソースの強力なベースラインである Gemma-7B および Mistral- の 2 倍以上を上回っています。パラメータの数。

クローズドソース モデルと比較して、AFM サーバーは GPT-3.5 に対して 50% 以上の勝率と 27.4% の引き分け率を示し、一定の競争力も示しました。

指示に従ってください

命令追従 (IF) は、実際のプロンプトや命令は複雑な場合が多いため、Apple チームが言語モデルに大きな期待を寄せている中核的な機能です。

ここでチームは、パブリック IFEval ベンチマークを使用して、大規模な言語モデルが応答生成時にプロンプ​​ト内の指示に正確に従うことができるかどうかを評価しました。これらには、応答の長さ、形式、内容に関する特定の要件が含まれることがよくあります。

図 4 に示すように、AFM-on-device と AFM-server は、コマンド レベルとプロンプト レベルの精度の両方で良好なパフォーマンスを示します。


さらに、Apple チームは、一般的な命令追従機能を測定するために、AlpacaEval 2.0 LC ベンチマークで AFM モデルのベンチマークも行い、その結果、そのモデルが非常に競争力があることが示されました。

ツールの使用法

ツール使用シナリオでは、モデルがユーザー リクエストと説明付きの潜在的なツールのリストを受け取った後、構造化された出力を提供し、ツール名とパラメーター値を指定することにより、特定のツールを呼び出すことを選択できます。

チームは、関数呼び出しのネイティブ サポートを備えた AST メトリクスを使用して、公開されている Berkeley Function Calling Leaderboard ベンチマークでモデルを評価しました。

図 5 に示すように、AFM サーバーは全体的な精度において最高のパフォーマンスを示し、Gemini-1.5-Pro-Preview-0514 および GPT-4 を上回っています。


書き込み

書き込みは、口調の変更、書き換え、要約などのさまざまな下流アプリケーションをサポートするため、大規模言語モデルの最も重要な機能の 1 つです。

チームは、内部サマリーとベンチマーク テストの作成で AFM のライティング スキルを評価します。そして、LLM-as-a-judge アプローチに従って、各要約タスクと筆記タスクに対して採点指示が設計され、GPT-4 Turbo はモデルの応答を 1 から 10 のスケールで採点するように求められました。

図 6 に示すように、AFM オンデバイスは、Gemma-7B および Mistral-7B と比較して同等以上のパフォーマンスを示します。 AFM サーバーは、DBRX-Instruct や GPT-3.5 よりも大幅に優れており、GPT-4 にも匹敵します。

LLM スコアリングの使用には、長さのバイアスなど、いくつかの制限とバイアスがあることに注意してください。


数学

図 7 では、チームは AFM のパフォーマンスを数学的ベンチマークで比較しています。

その中で、研究者らはGSM8Kには8ショットCoTチップを、MATHには4ショットCoTチップを使用しました。

結果は、AFM-on-device が、Mistral-7B および Gemma-7B の半分以下のサイズであっても、大幅に優れていることを示しています。


サマリー機能

製品チームは、さまざまなオープンソース、ライセンス供与された独自のデータセットを使用して、電子メール、メッセージ、通知の要約に関するカスタマイズされた一連のガイドライン、指標、および要約の品質を評価するための特殊なスコアリング基準を開発しました。

事前定義された製品仕様に基づいてサブディメンションが「不良」と評価された場合、サマリーは「不良」として分類されます。同様に、すべてのサブディメンションが「良好」と評価された場合にのみ、サマリーは「良好」として分類されます。

図 8 は、AFM-on-device+ アダプターの全体的なパフォーマンスが Phi-3-mini、Llama-3-8B、Gemma-7B よりも優れていることを示しています。


安全性を評価する

図 9 は、モデル違反に対する人間のレビュー担当者の評価結果を示しています。値が低いほど優れています。

AFM-on-device と AFM-server は、敵対的なプロンプトに対処する際に強力な堅牢性を示し、違反率はオープンソースおよび商用モデルよりも大幅に低いことがわかります。


図 10 は、セキュリティ評価プロンプトに対する人間のレビュー担当者の好みを示しています。

AFM モデルは、より安全で有用な対応を提供できるため、再びラウンドで勝利を収めました。


上記は、Apple の AI モデルの重要な概要です。

Apple の AI 機能を誰もが使えるようになるのはいつですか?

毎年、Appleは秋のカンファレンスで新製品を発表しますが、iOS 18の初期バージョンはiPhone 16と同時に発売されます。


ただし、誰もがそれを体験するには10月まで待たなければなりません。

参考文献:

https://machinelearning.apple.com/papers/apple_intelligence_foundation_ language_models.pdf

https://x.com/BrandonButch/status/1817982978540404776