ニュース

apple の秋のカンファレンスを前に、apple intelligence パノラマの詳細なレビュー

2024-09-06

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

tencent technology 著者 guo xiaojing wu bin

ビデオプランナー ウー・ビン

編集者 鄭科軍

apple の記者会見の前に、私たちは apple intelligence のパノラマを整理しました

今年 6 月の wwdc24 (apple worldwide developers conference) で、apple は独自の apple ai を定義するために人工知能 (ai) の同音異義語幹を使用して「apple intelligence」という言葉を初めて聞きました。 appleはこれまで、機械学習関連の機能について語る際に「ai」という用語の使用を避けていた。

今日に至るまで、apple の秋のカンファレンスの最新の招待状には、「ai」の記載はありませんが、さまざまな「ai」の特徴が明らかにされています。

注: 左側は apple の 2024 年秋の新製品発表カンファレンスの招待状、右側は wwdc24 の招待状です。

たとえば、招待状のテーマは「ハイライト モーメント」で、メイン カラーと apple ロゴの周りのカラフルなハローは、wwdc24 の招待状のメイン カラーと非常に一致しています。

キャプション: siri の新しいアイコン、siri を起動した後の iphone の表示効果

そしてsiriの色も変わっており、siriを起動した後の新しいロゴや配色が以前のsiriとは全く異なっていることがわかります。

凡例: 2023 apple autumn conference、wwdc23 招待状、古い siri ロゴ、配色の明らかな違いがわかります

秋のカンファレンスの招待状に含まれる ai 関連要素の分析を支援してくれるように ai 製品に依頼したところ、次のように言われました。

グラフィックデザインに関しては、ロゴはappleの古典的な輪郭を囲む線で構成されており、そのダイナミックな感覚はaiのインテリジェントなインタラクション体験をシミュレートしているのかもしれません。

色調: 招待状のロゴには、青、紫、オレンジ、ピンクなどのネオン トーンが使用されており、豊かな色の組み合わせは ai の生成芸術に非常に似ており、これらの色自体が ai の機能やアプリケーション シナリオに関連している可能性があります。 apple 製品の関連機能には相関関係があります。

視覚的な関連性: 招待状と siri 間の視覚的な関連性は、apple 製品における ai テクノロジーの中核的な位置を暗示している可能性があり、siri が将来的にさらにアップグレードおよび最適化されて、他の ai 機能とより適切に統合され、よりスマートで便利なサービスをユーザーに提供する可能性があることを示唆しています。 ;

aiについて言及していないことから、名前にさえ「ai」という同音異義語が含まれており、招待状の色さえも「ai」と一致している必要があります。明らかに、これらのデザインは偶然ではなく、apple は apple intelligence が今秋のリリースでも目玉となることをほのめかしています。

では、apple intelligence の強みとは何でしょうか?この記事では、次の問題について詳しく説明します。

簡単な紹介: 入手可能な情報に基づく apple intelligence の全体像はどのようなものですか?

進捗状況のレビュー: apple intelligence は 6 月から 8 月にかけてどのように進捗していますか?

推測: どのような apple intelligence が間もなく登場するでしょうか?

深く考える:apple の「ai」によって、未来のエコシステムはどう進化するのか?

ファクトシート: 完全にプライベートで安全

wwdc24 では、クック氏の次のスピーチが非常に重要です。

「発売を嬉しく思いますapple のイノベーションの新たな章。アップルインテリジェンスユーザーの製品の使い方が変わります——そして私たちの製品がユーザーに何ができるのか、当社独自のアプローチ生成的な ai とユーザーのニーズを組み合わせて、実際のサービスを提供します有用な知性。できる完全にプライベートで安全な方法その情報にアクセスして、ユーザーが自分にとって最も重要なことを行えるようにします。これはappleだけが提供できるaiユーザーがそれができることを体験するのが待ちきれません。 」

この文章には 3 つの重要なポイントがあります (青で強調表示されているキーワードに注目してください)。

1. 生成 ai とユーザーのニーズを組み合わせる役に立つ知的

2.はい個性的appleだけが提供できるaiです

3、完全にプライベートで安全方法

これを実行したい場合は、解決する必要がありますすべてのデバイス側 ai が直面する 4 つの主要な問題:

第一に、有用性: 製造ニーズではなくユーザーのニーズに完全に適合し、対話方法も考慮します。

2 番目に、セキュリティ: モデルはローカルで実行する必要があります。

3 番目にスムーズさ: ローカルのハードウェアで処理できない問題については、クラウド上のより大きなモデルを使用して対処します。

4番目、セキュリティと完全なプライバシー:クラウドモデルを使用すると、携帯電話上の大量の個人情報が漏洩する危険があります

繰り返し言及されているセキュリティとプライバシーは、apple がユーザーに提供したいサービスの最大の前提条件であることは明らかです。

apple が登場するまで、これほど完全なソリューションを提案したメーカーは存在しなかったと言えます。

では、apple はそれについてどう考えているのでしょうか? apple intelligence のパノラマを見て、ai における apple の全体的なロジックを垣間見てみましょう。

キャプション: apple intelligence パノラマ、tencent technology による翻訳

パーソナルインテリジェンスシステム層は、ユーザーに馴染みのある最上位のアプリケーション層とappleが自社開発したチップ層を接続します。

パーソナル インテリジェンス システム層は、apple intelligence の中核となる構造と言えます。これはいくつかの部分に分かれていると考えることができます。

最初の部分は afm-on-device (apple fondation model エンドサイド モデル) です。これは 30 億パラメータのモデルであり、エンドサイド ai の最も重要な部分です。プライバシーとセキュリティに対する要件が高いため、クライアント側モデルをローカルで実行することが最優先され、クラウドに送信できるのは実行できないことだけです。

しかし、デバイス側のモデルには、性能、パラメータ量、メモリ、消費電力というあり得ない三角形があり、これは各メーカーにとって最も悩ましい問題でもあります。

優れたパフォーマンスには多数のパラメータが必要です。パラメータの数が多いと、メモリ使用量が多くなり、電力消費が大きくなり、パフォーマンスに影響を与える可能性があります。では、これら3つのバランスをどのようにとるべきでしょうか?

appleの計画は次のとおりです。

低ビットパレット化: このテクノロジーは、高解像度の写真を圧縮するのと同じようにモデルを軽量化し、携帯電話上で多くのスペースを占有しません。

lora アダプター: これらのガジェットを使用すると、さまざまな形に組み立てることができるレゴ ブロックと同様に、モデルが必要に応じて新しいスキルを迅速に学習できるようになります。

talaria ツール: このツールは、モデルのエネルギー消費を監視および調整して、過剰な電力を消費しないようにするのに役立ちます。

グループ化されたクエリ アテンション: タグを使用して書籍をすばやく検索するのと同じように、モデルが重要な情報にすばやく焦点を当てることができます。

語彙の共有: 語彙を共有することで、全員が単語を調べるために辞書を使用するのと同じように、メモリの使用量が削減され、スペースが節約されます。

簡単に言えば、これらの最適化テクノロジーにより、afm-on-device は次のことを可能にします。電力を節約し、迅速に応答しながら、スマートさを維持します

最大のハイライトは、lora アダプター (low-rank adaptation アダプター) です。これは、機械学習モデル、特に大規模な言語モデルや生成モデルを最適化するために使用される技術ツールです。「概要メッセージ」や​​「」などの特別なウィジェットを追加するようなものです。 「電子メールに返信」を使用すると、モデルはこれらの特定のタスクをより適切に実行できるようになります。

ビデオ: lora アダプターの動作図

これにより、30億のパラメータを用いて、70億以上の規模の他の主流モデルと同等の性能を実現することができる(apple公式による評価結果)。

talaria ツールは、他の技術 (グループ化されたクエリ アテンション、共有入出力語彙、低ビット量子化、ハイブリッド構成戦略、アクティベーション量子化および埋め込み量子化など) と組み合わせることで、約 0.6 ミリ秒の速度を達成できます。 iphone 15 pro では遅延、1 秒あたり 30 トークンの生成速度を実現し、パフォーマンス要件を満たしながら、携帯電話の電力とメモリの負荷も軽減できます。

しかしそれでも、apple 関係者によると、apple intelligence を実行するには、iphone 15 pro の最小限の構成が依然として必要です。さらに、tencent technology の理解によれば、apple intelligence の実行をサポートするには少なくとも 8g のメモリが必要です。

したがって、現段階では、30億パラメータを持つデバイス側モデルの能力が、iphoneやmacのローカルai頭脳が解決できる問題の上限となります。

したがって、複雑な計算は引き続きクラウドに送信し、より大きなパラメーターを備えたモデルを通じて処理する必要があります。

これは、apple intelligence の 2 番目に重要なコンポーネントであるクラウド モデル (afm サーバー) です。

ここで、オーケストレーション層の役割は、コマンダーと同様に、ユーザーのニーズをクライアント側で解決する必要があるか、クラウドにアップロードする必要があるかを決定することであることを付け加えておく必要があります。 apple はここで手動介入を一切行わず、独自のアルゴリズムに完全に依存して、ユーザーが自分のデータがデバイスにのみ配置されているかどうかを判断できません。

apple は、クラウド モデルの具体的なパラメータを明らかにしていません。大規模なモデルから抽出されたクライアント側モデルとは異なり、最初からトレーニングされます。同時に、エンドサイド モデルに共通するいくつかの高度なトレーニング方法が使用されます。

このクラウド モデルの最も重要な特徴は、cook が次の記事で述べたことを実現することです。“完全にプライベートで安全”、プライベート クラウド コンピューティング (pcc) を通じて保護を提供します。

いったいどうしてそんなに秘密主義なのでしょうか?ここにはプロのテクニックがたくさんあります。プロセス全体を簡単に再現してみましょう。

ユーザーがリクエストを開始します。たとえば、携帯電話で siri に「子供を学校に迎えに行くまで何時に会社の会議に間に合うようにすればよいですか?」と尋ねます。

安全なカプセル化: 電話機は要求をただちに暗号化して、pcc だけが復号化できる「秘密パッケージ」に入れます。

送信されたシークレット: この「シークレット パッケージ」は、安全なシークレット チャネルを介して pcc に送信されます。この通路は暗証番号がかかったトンネルのようなもので、暗証番号を知っている人だけが通過することができます。

pcc は復号化して処理します: パッケージを受け取った後、pcc は独自のスーパー ブレイン (強力な ai モデル) を使用してリクエストを理解し、答えを見つけます。このプロセス中、pcc はさまざまなテクノロジーを使用して、データが漏洩したり悪用されたりしないようにします。

データは使い切るとすぐに削除されます。pcc は答えを見つけると、黒板の文字を水で消すのと同じように、一時的に保存されたすべてのデータを即座に削除し、痕跡を残しません。

返される結果: pcc は回答を再暗号化し、安全なチャネル経由で電話に送り返します。電話のロックを解除すれば、結論に到達できます。

つまり、pcc はユーザーに代わってニーズを暗号化し、秘密チャネルで処理するために ai に渡し、処理後に削除します。では、pcc はユーザーデータの漏洩や悪用を確実に防ぐためにどのようなテクノロジーを使用しているのでしょうか?

鮮明ではありますが完全に厳密ではない比喩を使用して理解すると、pcc は特別に設計された保管庫のようなもので、たとえ保管庫に入ることができたとしても、特定の貴重品がさまざまな場所にランダムに保管されているため、どこに置かれているかを見つけるのは困難です。 「標的増殖」技術として知られています。

また、金庫の扉や鍵は非常に強力で認証された従業員(つまりpccノード)のみが開けることができ、扉を開けるたびに特殊な鍵(暗号化技術)が必要となります。 1回限りの使用で、使用後は無効になるため、誰かがキーを盗んでもドアを開けることはできません。

最も重要なことは、たとえ金庫室に入ることができたとしても、貴重品は取り出して見られた後、痕跡を残さずにすぐに元に戻され、施錠されるため、たとえ誰かが以前の場所を見つけたくても不可能であるということです。 。

現在、このレイヤーごとのセキュリティ計画を実装する条件を備えているのは apple だけです。

ここで、apple intelligence の 3 番目に重要な部分、つまり自社開発のチップ層について言及する必要があります。これらの安全なサーバーには、apple が自社開発したチップ m2 ultra が使用されています。

これらのチップは強力な暗号化機能を提供し、複雑な暗号化アルゴリズムを実行して、送信および処理中のデータのセキュリティを確保できます。また、secure enclave などのさまざまなハードウェア セキュリティ機能も統合されています。secure enclave は、暗号化キーや機密操作を安全に処理するための専用の分離されたハードウェア領域であり、サーバー レベルでもユーザー データを確実に保護します。

さらに、このチップはセキュア ブート テクノロジーをサポートしており、サーバーが apple 署名のソフトウェアのみを実行できるようにし、システム起動時にマルウェアが読み込まれるのを防ぎます。

iphone の a シリーズ チップであれ、mac の m シリーズ チップであれ、それらは apple によって完全に自社開発されました。これは、これらのチップが生まれた瞬間から apple システムと統合されており、パフォーマンス、消費電力、セキュリティなどの面で apple intelligence を完全にサポートしていることを意味します。これは他のメーカーにはまったくない利点です。

これら 3 つの特徴は、apple のインテリジェンスの中核全体を構成します。ローカルで実行されるクライアント側モデルと特定の機能を備えた一連の基本モデル、プライベート クラウド コンピューティング サービスを通じて提供されるクラウド モデル、および強力な自社開発チップ層です。

ここで、openai はどこにあるのかと疑問に思うかもしれません。 apple intelligenceの基本モデルにopenaiが使われているという噂はありませんでしたか?

apple は、openai との協力に関する多くの詳細を発表していません。現在の結果から判断すると、chatgpt は独立した app の形でシステムにプリインストールされているわけではありません。apple は、chatgpt をシステムに統合するためのアプリケーション プログラム インターフェイスを提供しているだけです。 , apple と google 検索の連携と同様に、openai はより高い権限を取得しません。

このプロセスにおいて、ユーザーは openai のサービスを使用するかどうかを積極的に選択する権利を有します。データが openai に引き渡された後、apple はその後のデータのセキュリティについて責任を負いません。

さらに、海外メディアの報道によると、openaiだけがパートナーとなるわけではなく、appleはgoogleとも大型モデル関連の協力について協議しているという。したがって、openai は apple intelligence エコシステムのパートナーの 1 つとなる必要があります。

注: iphone への gpt の組み込みに関する apple の公式図

進捗在庫:6月から8月まで、

apple インテリジェンスはどうなっていますか?

このような基本的なサポートにより、ユーザーは製品の機能を十分に体験することができます。

まず、6 月の wwdc24 で発表された apple intelligence の具体的な機能を確認してみましょう。機能は次のカテゴリに分類できます。

ライティング ツールは、校正、スタイルに応じたコンテンツの書き直し、テキスト コンテンツの要約などに役立ちます。

画像生成(画像プレイグラウンド)は、プロンプトの言葉に基づいて面白くて楽しい画像を生成します

genmoji は興味深いパーソナライズされた絵文字を生成します

より高度な siri では、対話がより自然で、よりパーソナライズされ、システムとより深く統合されています。

ちょうどこの 8 月に、北米の開発者があなたはすでに、対象となる apple ハードウェア デバイスを使用して、apple intelligence の機能の一部を体験し始めています。

既存の機能はwwdc24で発表された時よりも詳細になっているが、全体的な機能としては基本的にテキスト補助(文章作成、要約、メール返信など)、画像生成(写真加工、源文字)、通話録音・整理などとなっている。以下は、公開情報に基づく tencent technology の不完全な統計に基づく機能リストです。

テキスト処理関連の機能が最も急速に進歩していることがわかります。

マルチモーダル処理に関しては、写真検索や通話録音など、純粋にエンド側の部分がオンラインになっているようですが、画像生成機能はまだオンラインになっていません。クラウドの機能を活用する必要があるマルチモーダルな機能はまだ準備ができていないようです。

フォーカス モードや優先度の重要な通知など、システムに単純に統合されている機能はすべて純粋にエンドサイドで処理され、すでに起動されている必要があります。 siri の新しい ui 特殊効果などのシンプルな機能がリリースされました。

ただし、音声コマンドを通じて異なるアプリ間で転送できる、システムと深く統合された待望の siri アップグレードと、サードパーティの openai 大型モデル gpt の統合はまだ開始されていません。 appleの公式ウェブサイトによると、他の言語(英語以外)やソフトウェアプラットフォームの機能などへのアップデートは来年中に完了する予定だという。

進捗バーを見ると、apple が wwdc24 で行った約束の約 30% しか完了していないと推定されます。

ただし、ユーザーがそれを使用したい場合は、非常に厳しい前提条件があります。使用するデバイスは、iphone 15 pro、iphone 15 pro max、または m1 チップ以降の ipad および mac の後継モデルでなければなりません。また、siri とデバイスの言語を英語 (米国) に設定する必要があります。

注: apple の公式 web サイトでは、apple のスマートデバイスを体験するためのハードウェアおよびシステム条件を発表しています

今年の秋の新製品発表会では、

一番楽しみにしていることは何ですか?

apple intelligence のプロトタイプは形成されましたが、すべての apple ユーザーがそれを使用できるようになるにはまだ時間がかかります。

あなたの製品が apple が提示したハードウェア、言語、地域の要件を満たしている場合、秋に初めて apple intelligence と会うことができます。もちろん、9月の新製品発表ではない可能性があるが、海外メディアの報道によれば10月になるはずだ。

apple intelligenceに加えて、今秋の新製品発表会ではiphone 16に搭載されるa18チップも期待できます。

現在報道されているニュースによると、appleはa18チップにm4と同じtsmc n3eプロセスを使用する予定昨年の a17 pro で使用された n3b プロセスと比較して、n3e にはエネルギー効率の向上において大きな利点があります。

n3eプロセスとは何ですか?

携帯電話チップの内部アップグレードに相当しますが、家(基本ユニット)のサイズは変わりませんが、道路(回路)と設備(トランジスタ)が再設計され、エリア全体(チップ)がより高速に動作します。効率的に。これは都市交通をスムーズにし、住民の電気使用量を減らすようなものです。したがって、このプロセスを使用した a18 チップにより、ユーザーは携帯電話の応答が速くなり、バッテリーが長持ちし、同時に複数のタスクをよりスムーズに処理できるようになります。

a18 soc の npu が大幅にアップグレードされ、全体的な演算能力が m4 の 38tops よりも高くなるという噂があります。

これは、次期 iphone 16 の npu コンピューティング能力がすでに apple の最高のデスクトップ システムに匹敵することを意味します。 apple intelligenceのメモリ閾値に対応するため、iphone 16では本体の動作メモリも初めて8gbに増加します。

メモリから消費電力、計算能力に至るまで、apple intelligence を考慮して設計されているようです。

昨年 apple が発売した a17 pro の npu コンピューティング能力は 35 tops であり、a18 はそれを上回るだけです

明らかに、今年 9 月以降、apple が発売する今後のすべてのハードウェア製品は apple intelligence を積極的に採用することになります。

iphone、mac、ipadに限らず、apple watch、homepod、vision proなどの製品も、将来的にはappleのai戦略の一部となる可能性がある。

wwdc24 で、apple の上級副社長 craig は、apple ai の迅速かつ関連性の高い使用シナリオをデモンストレーションしました。つまり、一時的な会議時間の変更通知が受信され、siri は、当初参加したかった子供たちのアクティビティにまだ追いつくことができるかどうか尋ねられました。

彼は siri と会話を続け、モバイル アプリは電子メール、カレンダー、地図などの複数のアプリ間をスムーズに移動しました。結局、何も指を動かすことなく、彼の電話は彼に合理的​​な提案を与えました。

これは、将来の ai エンドサイドデバイスの理想的な状態かもしれません。コマンド 1 つで、必要なアプリを自動的に呼び出し、目的のタスクを完了することができます。

このデモシーンでは、siri が呼び出すアプリはすべて apple の公式アプリであることがわかります。つまり、siri は「家族」を動員して協力して何かを行っています。この場合、システム、アーキテクチャ、インターフェース、すべてが問題ではなく、利益配分などの問題も発生しません。

もっと空想的なことを言うと、おそらく将来的には、siri は命令語を必要とせず、常にバックグラウンドで会話を待ち、本当の友達のように、人々がコミュニケーションをとっているときにさえ口を挟むことができるようになるでしょう。

アップルインテリジェンス

私たちは環境王であり続けることができるでしょうか?

apple は、最も抵抗の少ない方法を使用して、将来の理想的な ai 携帯電話インタラクション方法を実証しました。しかし、それが独自のアプリではない場合でも、アプリ内のデータを自由に活用できるでしょうか?

apple intelligenceの公式紹介ページには「標準のuiフレームワークやapi、開発キットを使えば、開発するアプリにもこれらのai機能を簡単に持たせることができます。」という一文があります。

開発者は、wwdc24 ワークショップで、わずか 3 ~ 4 行のコードで ai 機能をアプリに統合できることを確認することもできます。

ここには 2 つの情報があります。サードパーティのアプリケーションが ai に参加することを歓迎すること、そして apple は開発者が apple intelligence を最も簡単な方法で使用できるようにするためのすべてのキットとツールを準備することです。これは確かにおいしい「前菜」です。

しかし、apple intelligence にアクセスしたい場合、アプリはその「データ」を引き渡し、apple エコシステムの小さなメンバーになる必要があります。これは本当に簡単ですか?

apple にとって、この記事の冒頭にある技術的な進歩は最も単純な問題ですが、環境上の困難は apple の前にある大きな山です。

携帯電話でのやり取りが実際にクレイグ氏が実証したとおりであれば、apple が唯一の入り口を持つ「王様」となり、siri は王様の周りで唯一の「非常に強力な」人物となり、どのアプリを「王様」にするかを決定する責任を持つことになるでしょう。ユーザーにアクセスしたいだけではありませんか?

その場合、appleはあらゆる種類のスーパーアプリの世界になるでしょう。

給付金の配分は誰が決めるのでしょうか?かつてスーパーアプリによって確立されたビジネスモデルは、一夜にしてaiによって一掃されるだろうか?これらの疑問はまだ私たちが考えるのを待っています。

最後に書きます

siri にはジョブズ氏のロマンチックな夢が宿っています。siri company の創設者の 1 人であるダグ・キトラウス氏は、ジョブズ氏との接触について、かつてジョブズ氏と自宅で「3 時間おしゃべりした」と語っています。ジョブズは人工知能の将来に対するビジョンに満ちていて、「siri は最終的には宇宙にその痕跡を残すだろう」と siri の創設メンバーを説得しました。

キャプション: siri 創設者の 1 人、ダグ・キトラウス

しかし、siriがリリースされた翌日、スティーブ・ジョブズはこのaiの夢と「長年さまよっていた」siriを残してこの世を去りました。

現在、cook 氏は apple intelligence を活用して siri に再びスポットライトを当てようとしていますが、その夢は違うかもしれません。

今日のappleは、技術的リーダーシップを維持し、効果的な防御を行い、株価が圧力にさらされないようにし、ai時代のスーパーアプリケーションが具体化するまで待ってから行動を起こすかどうかを検討するという現実主義に満ちています。

しかし、誰もが ai 電話や aipc を楽しみにしている一方で、ストーリーを完全に書き換える、さらに驚くべき ai ネイティブのハードウェア製品が登場するかもしれません。

参考文献:

apple のオンデバイスおよびサーバー基盤モデルの紹介 - apple 機械学習研究

apple インテリジェンス - apple developer

iphone、ipad、mac 向け apple intelligence のご紹介 - apple

ブログ - プライベート クラウド コンピューティング: クラウドにおける ai プライバシーの新たなフロンティア - apple security research

https://mrmad.com.tw/ios-18-new-function