Apple Intelligenceはどのように開発されていますか?最も完全な解釈はここにあります

2024-07-31

馬雪偉著

Siri はついに「AI Siri」に変身し、待望の Apple Intelligence が登場しました。

iOS 18、iPadOS 18、macOS Sequoia 向けの Apple Intelligence のリリースに伴い、Apple は自社の大型モデルに関する技術レポートもリリースし、多数の技術的詳細を発表し、業界から大きな注目を集めました。

レポートによると、Apple Intelligence には、高速かつ効率的で、ユーザーの日常業務に合わせて設計され、ユーザーの現在のアクティビティに即座に適応できる複数の高性能生成モデルが含まれています。 Apple Intelligence に組み込まれた基本モデルは、テキストの作成と洗練、通知の優先順位付けと要約、家族や友人との会話用の興味深い画像の作成、アプリ間のインタラクションを合理化するためのアプリ内アクションの実行などのユーザーエクスペリエンスに合わせてすでに最適化されています。

Apple チームは技術レポートの中で、これらのモデルのうち 2 つ、つまり約 30 億のパラメータを持つ言語モデル AFM (Apple Foundation Model) と、より大規模なサーバーベースの AFM サーバー言語モデルがどのように構築され、実行に適応されたかを詳しく説明しました。専門的な仕事を効率的かつ正確に行うことができます。

図 | AFM モデルの概要

これら 2 つの基本モデルは、ユーザーと開発者をサポートするために Apple によって作成された生成モデルの大きなファミリーの一部です。これには、Xcode でインテリジェンスを構築するための AFM 言語モデルに基づくプログラミングモデルと、ユーザーが視覚的に表現するのを支援する拡散モデルが含まれます。メッセージングアプリケーションなど。

AFMはどのように機能しますか?

AFM は開発プロセス中に厳格な評価を受け、その評価結果では、モデルがトレーニング前、トレーニング後、特定のタスクで良好にパフォーマンスし、Apple の中核的価値観と責任ある AI 原則に沿っていることがわかりました。

1. トレーニング前評価

Apple チームは、HELM MMLU、HELMLite、OpenLLM などの公開評価ベンチマークを使用して、AFM モデルの言語理解および推論機能を評価しました。結果は、AFM モデルが複数の評価指標で優れた結果を達成し、強力な言語理解と推論能力を実証し、その後のトレーニング後のアプリケーションや特定のタスクへの応用の基礎を築いたことを示しています。

2. 研修後の評価

Apple チームは、人間による評価と自動評価のベンチマークを組み合わせて、AFM モデルの一般的な機能と、指示への従うこと、ツールの使用、書き込みなどの特定の機能を評価しました。評価結果は以下の通りです。

人間の評価:AFM モデルは、複数のタスクに関して他のオープンソースモデルや商用モデルと同等かそれ以上であり、このモデルが複雑な指示を理解して従い、高品質のテキストを生成できることを示しています。

図 | AFM モデルを他のオープンソースモデルおよび商用モデルと比較すると、人間の評価者は AFM モデルを好みます。

研究チームはニューロン記述パラダイムに基づいて MAIA を評価し、MAIA が実際のモデルと合成ニューロンデータセットの両方で優れた記述効果を達成し、ベースライン手法よりも優れ、人間の専門家に匹敵する予測能力を備えていることを示しました。

指示遵守の評価:AFM モデルは、IFEval や AlpacaEval 2.0 LC などのベンチマークで優れた結果を達成し、モデルが指示を効果的に理解して従うことができることを実証しました。

図 | IFEval を使用して測定された、AFM モデルと関連モデルの命令準拠能力の比較。値が大きいほど、能力が優れています。

ツールの使用状況の評価:AFM モデルは、Berkeley Function Calling Leaderboard ベンチマークで最高の総合精度を達成しました。これは、モデルがツールを効果的に使用できることを示しています。

図 | AFM サーバーは、Gemini-1.5-Pro-Preview-0514 および GPT-4 よりも優れた最高の全体精度を実現します。

ライティング評価:AFM モデルは内部要約とライティングベンチマークで良好なパフォーマンスを示し、流暢で高品質のテキストを生成するモデルの能力を実証しました。

図 | AFM をいくつかの最も著名なモデルおよび小規模なオープンソースモデルと比較しました。 Gemma-7B および Mistral-7B と比較して、AFM-on-device は同等以上のパフォーマンスを達成できます。 AFM サーバーは dbrx ディレクティブを大幅に上回り、GPT-3.5 および GPT-4 に匹敵します。

数学の評価:AFM モデルは、GSM8K や MATH などのベンチマークで優れた結果を達成しており、このモデルが数学的問題を効果的に解決できることを示しています。

図 | 研究チームは、GSM8K と数学を含むトレーニング後の数学的ベンチマークで AFM のパフォーマンスを比較しました。 AFM-on-device のパフォーマンスは、Mistral-7B や Gemma-7B よりも大幅に優れています。

さらに、研究チームはモデルのタスク固有の評価と安全性評価を実施しました。彼らは人間による評価とタスク固有の評価ベンチマークを使用して、電子メールの要約、メッセージの要約、通知の要約などの特定のタスクにおける AFM モデルのパフォーマンスを評価しました。評価結果によると、電子メールの概要、メッセージの概要、通知の概要における AFM モデルのパフォーマンスは、正確性、完全性、読みやすさなどの多くの側面で他のモデルよりも優れています。

セキュリティの観点から、研究チームは敵対的なデータセットと人による評価を使用して、有害なコンテンツや機密トピックに対する AFM モデルの耐性を評価しました。評価結果は、AFM モデルが敵対的なデータや機密性の高いトピックに対して優れた耐性を示し、有害または不適切な応答をある程度回避することを示しています。

AFMはどのように「実践」されるのでしょうか？

建築

ほとんどの主流モデルと同様に、AFM モデルは以下に基づいています。変成器アーキテクチャだけでなく、効率とパフォーマンスを向上させるためにいくつかの特定の設計選択も採用しています。主なコンポーネントは次のとおりです。

トランスフォーマーモジュール: AFM は、マルチヘッドアテンションメカニズムとフィードフォワードを含む標準のトランスフォーマーモジュールを使用します。ニューラルネットワーク。
共有入出力埋め込み行列: この設計により、モデルパラメーターの数が減り、メモリ効率が向上します。
事前正規化と RMSNorm: これらの手法はトレーニングの安定性を向上させ、モデルがより複雑なパターンを学習するのに役立ちます。
クエリ/キーの正規化: この技術により、トレーニングの安定性がさらに向上します。
グループ化クエリアテンション (GQA): GQA メカニズムはメモリ使用量を削減し、計算効率を向上させます。
SwiGLU アクティベーション関数: このアクティベーション関数はモデルの効率を向上させます。
RoPE 位置埋め込み: RoPE メカニズムは長いテキストのエンコードをサポートし、コンテキストを表現するモデルの能力を向上させます。

図 | AFM-on-device には 3072 個のパラメータがあり、デバイスでの推論に適しています。 26 の Transformer レイヤーを使用しており、各レイヤーには 128 のヘッダー、8 つのクエリ/キーヘッダー、および 24 のクエリヘッダーが含まれています。

事前トレーニング

AFM モデルの事前トレーニングプロセスは、Apple Intelligence システムのさまざまな機能をサポートする強力な言語モデルをトレーニングするように設計されています。 AFM モデルは、AXLearn フレームワークを使用して Cloud TPU クラスタ上でトレーニングされます。これは、大規模なモデルとシーケンス長のトレーニングをサポートし、効率的なトレーニングと推論のパフォーマンスを提供します。

AFM 事前トレーニングデータセットは、次のような複数のタイプの高品質データで構成されます。

Web コンテンツ: Applebot を使用してクロールされ、フィルタリングされた公開情報。
ライセンス付きデータセット: 多様な長文データを提供する発行者から取得した高品質のデータセット。
コード: GitHub から取得した、複数のプログラミング言語をカバーするオープンソースコードデータ。
数学: 数学の質問、フォーラム、ブログ、チュートリアル、セミナーなどの数学コンテンツを含む Web データ。
パブリックデータセット: 評価およびスクリーニングされた、公的に利用可能なデータセット。

AFM の事前トレーニングは 3 つの段階に分かれています。

中核段階: 最大のデータセットをトレーニングに使用します。主な目標は、基本的な言語の知識とパターンを学習することです。
連続ステージ: コアステージに基づいて、コードと数学的データが追加され、Web ページデータの重みが軽減されて、モデルの知識範囲がさらに拡大されます。
コンテキスト拡張ステージ: 連続ステージに基づいて、長いテキストに対するモデルの処理能力を向上させるために、より長いシーケンス長と合成長いテキストデータが使用されます。

トレーニング後の

AFM はトレーニング前の段階で強力な言語理解能力を獲得しますが、それをメールの要約、メッセージの要約、通知の要約などの特定のタスクに適用するには、トレーニング後のトレーニングが必要です。含む：

教師あり微調整 (SFT):
- データ収集: 人間が注釈を付けたデータと合成データを使用して、データ品質が多様であり、さまざまな自然言語使用シナリオをカバーできるようにします。
- データブレンディング: 人間のデータと合成データを慎重に選択して組み合わせて、高品質のデータブレンドを形成します。
- 微調整方法: LoRA アダプターを使用してモデルを微調整し、アダプターパラメーターのみを調整し、モデルの一般的な知識を保持します。
人間のフィードバックに基づく強化学習 (RLHF):
- 報酬モデル: 人間の嗜好データを使用して報酬モデルをトレーニングし、モデルの応答の品質を評価します。
- Iterative Teaching Committee (iTeC): 拒絶サンプリング、直接優先最適化、オンライン強化学習などの複数の優先最適化アルゴリズムを使用してモデルを反復的に改善します。
- オンライン RLHF アルゴリズム (MDLOO): ミラーディセントポリシーの最適化と Leave-One-Out 利点推定器を使用して、報酬を最大化し、モデルの品質を向上させます。

トレーニング後の利点:

モデルの品質の向上: ポストトレーニングにより、AFM モデルの品質とパフォーマンスが大幅に向上し、特定のタスクで適切に実行できるようになります。
Apple のコアバリューと責任ある AI 原則に準拠する: トレーニング後のプロセスでは、データ品質、セキュリティ、有害なコンテンツのフィルタリングが十分に考慮され、モデルが Apple のコアバリューと責任ある AI 原則に準拠していることが保証されます。
スケーラビリティ: トレーニング後のメソッドは他のタスクにも拡張可能で、AFM モデルがより多くの Apple Intelligence 機能をサポートできるようになります。

推論の最適化

AFM は強力な言語理解機能を備えている必要があるだけでなく、iPhone、iPad、Mac などのデバイスや Apple シリコンサーバー上のプライベートクラウドコンピューティング上で効率的に実行できる必要もあります。この目標を達成するために、Apple はモデル全体の品質を維持しながら、AFM モデルが特定のタスクで効率的に実行されることを保証する一連の最適化手法を開発しました。

最適化：

モデルの量子化: 4 ビットの量子化テクノロジーを使用して AFM モデルを量子化し、モデルのサイズと推論コストを大幅に削減します。
精度回復アダプター: LoRA アダプターを使用して、量子化モデルの精度を復元し、量子化されていないモデルのパフォーマンスに近づけます。
混合精度量子化: 4 ビットおよび 2 ビットの量子化精度を使用してモデルの各レイヤーを量子化し、モデルの品質を維持しながらメモリ使用量をさらに削減します。
インタラクティブなモデル分析: Talaria ツールを使用して、モデルの遅延と消費電力を分析し、ビットレートの選択をガイドし、モデルのパフォーマンスを最適化します。
実行時に交換可能なアダプター: LoRA アダプターを使用してモデルを微調整し、モデルの一般的な知識を維持しながら特定のタスクに合わせて調整できるようにします。

最適化ケースメールの概要:

データ収集: 電子メール、メッセージ、通知の抜粋を含む入力データを収集し、データのクリーニングと重複排除を実行します。
合成サマリーの生成: AFM サーバーを使用して製品要件を満たす合成サマリーを生成し、フィルター処理のルールとモデルを使用してデータ品質を確保します。
ヒント注入: AFM サーバーによって生成された要約をトレーニングデータに追加して、AFM デバイスモデルがより深く理解し、要約を生成できるようにします。

さらに、Apple Intelligence は、ユーザーの権限付与、ユーザーの代表、慎重な設計、プライバシーの保護など、一連の責任ある AI 原則に従っています。 Appleは技術報告書の中で、特定のモデルをトレーニングするために倫理的に問題のある方法を使用しているという非難に反論し、ユーザーのプライベートデータは使用しておらず、代わりにAppleインテリジェンスの目的で公開されているデータとライセンスされたデータを組み合わせて使用していると繰り返した。彼らは、AFM モデルのトレーニングデータが「責任ある」方法で取得されたことを強調しました。

ニュース

Apple Intelligenceはどのように開発されていますか?最も完全な解釈はここにあります

AFMはどのように機能しますか?

AFMはどのように「実践」されるのでしょうか？

導入

私の連絡先情報