ニュース

個人データを悪用する学習とは対照的です。中国科学院などが「多段階エラー最小化」手法を発表 | ACM MM2024

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


新しい知恵のレポート

編集者: LRST とても眠いです

【新しい知恵の紹介】研究者は、個人データをマルチモーダル対比学習モデルによる悪用から保護するために、マルチモーダル学習不可能サンプルを生成するための新しいマルチステップエラー最小化 (MEM) 方法を提案しています。画像ノイズとテキスト トリガーを最適化することで、MEM 手法は効果的にモデルを誤解させ、プライベート データの学習能力を低下させ、異なるモデル間の強力な移行性を実証します。

マルチモーダル対比学習 (CLIP など) は、インターネットから収集した何百万もの画像とキャプションのペアから学習することにより、ゼロショット分類で大きな進歩を遂げました。

ただし、この依存はプライバシーのリスクをもたらします。ハッカーがモデルのトレーニングに画像テキスト データを許可なく悪用する可能性があり、そのデータには個人情報やプライバシーに関わる機密情報が含まれる可能性があります。

最近の研究では、トレーニング画像に知覚できない摂動を追加することで学習不可能な例を生成することで、保護付きのショートカットを確立できることが提案されています。

ただし、これらの方法はシングルモーダル分類タスク用に設計されており、マルチモーダル対比学習ではまだ研究されていません。この論文では、まず、画像とキャプションのペアに対する既存の手法のパフォーマンスを評価することで、このコンテキストを調査します。このシナリオではラベルがないため、以前の手法は効果的にマルチモーダル データに一般化できず、ショートカットを確立する効果が限られています。

この論文では、マルチモーダルな学習不可能なサンプルを生成するための新しい最適化プロセスであるマルチステップ誤差最小化 (MEM) を提案します。画像ノイズと追加のテキスト トリガーを最適化するためにエラー最小化 (EM) フレームワークを拡張することで、最適化スペースを拡大し、ノイズ特徴とテキスト トリガーの間のショートカットを学習するようにモデルを効果的に誤解させます。


論文リンク: https://arxiv.org/abs/2407.16307

コードリンク: https://github.com/thinwayliu/Multimodal-Unlearnable-Examples

具体的には、投影勾配降下法を採用してノイズ最小化問題を解決し、HotFlip 法を使用して勾配を近似し、単語を置換して最適なテキスト トリガーを見つけます。

多数の実験によりこの方法の有効性が証明されており、保護後の検索結果はランダム推測のほぼ半分であり、異なるモデル間での転送可能性が高くなります。この作品の論文とコードはオープンソースです。

研究の背景

近年、マルチモーダル学習の台頭により、研究者はテキスト、画像、音声などの複数のデータ型を組み合わせたモデルに強い関心を持っています。

中でも、マルチモーダル対比学習は、CLIP や ALIGN などのモデルで、コントラスト損失トレーニングを使用して画像とテキストの相関性を強化し、それによって手動の注釈の必要性を減らし、画像における利点を実証する重要な方法となっています。分類、生成などのタスクの可能性。

ただし、これらのモデルのトレーニングは、CC12M、YFCC100M、LAION5B などの公的に利用可能なデータセットから取得されることが多い大量のマルチモーダル データに依存していますが、これらのデータセットはまだ不十分であり、大量の機密の個人情報が含まれている可能性があります。プライバシー侵害に関する懸念を引き起こします。

マルチモーダルな対比学習に関連するプライバシー リスクに対処するために、マルチモーダルな学習不可能なサンプルを生成することに焦点を当てたシナリオを検討します。このシナリオでは、代表的なマルチモーダル データセットとして画像とテキストのペアに焦点を当てます。ユーザーは、顔、名前、電話番号、住所などの個人識別情報を含むテキスト付きの個人写真を Facebook などのソーシャル メディア プラットフォームで共有することが多いと考えられます。

現在、ハッカーは、図 1 の左半分に示すように、このような画像とテキストのペアをインターネットから大量に収集し、マルチモーダル対比学習手法を使用して大規模なモデルをトレーニングまたは微調整しようとしています。

これらのモデルはユーザーの個人情報や顔の特徴を誤ってキャプチャし、プライバシー漏洩の可能性をもたらします。プロテクターは、マルチモーダル データに学習不可能な方法を実装することで、これらの機密データの不正利用を防ぐことを目的としています。これらの方法により、図 1 の右半分に示すように、そのようなマルチモーダルな学習不可能なサンプルでトレーニングされたモデルはユーザーのプライベートな特徴にアクセスできなくなりますが、画像やテキストを投稿した後のユーザーの社会的インタラクションは妨げられません。


図 1: Facebook への投稿により個人情報が誤って公開される可能性があります (左) が、マルチモーダルな学習不可能なサンプルを使用してデータを保護し、未承認のモデルがプライベート機能にアクセスするのを防ぐことができます (右)

モチベーション

最近の研究は、学習不可能な例を通じて画像分類におけるデータの不正使用を防止することに焦点を当てています。これらの方法は、可用性攻撃または無差別ポイズニング攻撃とも呼ばれる微妙な摂動をデータに適用することで、モデルによる画像特徴の学習を妨げます。

これは主にエージェントレス モデル攻撃とエージェントベース モデル攻撃に分けられ、エージェントレス モデル攻撃はピクセル レベルでノイズを生成しますが、エージェントベース モデル攻撃はエージェント モデルを通じて機能レベルのノイズを生成します。

ただし、分類のためのすべてのエージェントフリー モデル手法は、マルチモーダル シナリオで画像ノイズを生成できません。これらの手法は、特定のカテゴリに関連する画像の一連の特定のノイズ パターンを見つけることを目的としている一方で、画像とテキストのペアにはラベルがないためです。データ。

したがって、適用できるのはエージェント モデル ベースの方法のみであり、2 つの典型的な方法を拡張して、学習不可能なマルチモーダル サンプル (EM および UAP) を生成します。

誤差最小化ノイズ (EM) 法:


Untargeted Adversarial Perturbation (UAP) メソッド:


EM と UAP は画像と字幕のペアに適用できますが、特に UAP では効率的な保護を実現できません。画像分類からマルチモーダル対比学習まで、これらの手法の有効性が低下する理由を調査します。

画像分類では、図 2(a) に示すように、EM と UAP は同じラベルを持つ画像を特徴空間に収束するように最適化します。これにより、モデルはこれらの追加ノイズを容易に捕捉し、ラベルとの相関関係を学習できるようになります。


図 2: 従来の分類とマルチモーダル対照学習におけるさまざまな方法の比較。画像を表し、対になっているタイトルです。青色の領域は、学習不可能なサンプルでトレーニングされたモデルの予想される決定境界です。

しかし、マルチモーダル対比学習では、EM および UAP 手法を効果的に適用するために、最適化された画像ノイズの方向がテキストの特徴に関連している必要があり、その結果、画像の特徴がこれらの特徴に近づくか遠ざかることになります。 。

ただし、テキスト特徴の異なるペアが画像とテキストのデータセット内に広く分散している可能性があります。図 2(b) および (c) に示すように、分類とは異なり、モデルが字幕と EM および UAP によって生成されるノイズとの相関関係を捉えることはより困難です。

図 2(c) では、UAP の学習決定空間がより複雑であるため、その保護効果は良好ではありません。

方法


図 3: 多段階エラー最小化手法 (MEM) のフレームワーク

画像とテキストのペアが分散しているため、プロキシ モデルベースの方法では依然として効果的な保護を実現できません。直観的な強化戦略は、画像とテキストを同時に最適化して、より大きな最適化空間を取得し、特徴空間内の異なるペアへの収束を促進することです。

したがって、図 2(d) に示すように、画像セットとテキスト セットの最適化された特徴表現は同様の分布を示し、モデルがショートカットを学習しやすくなります。

この目的を達成するために、EM 手法を基本フレームワークとして採用し、テキスト タスクに対する敵対的攻撃の設定に続いて、コントラスト損失を最小限に抑えるために字幕の前に短いテキスト トリガーを追加することを提案します。私たちの方法は、EM の複数ステップのプロセスと同様に、3 レベルの反復最適化問題として概念化できます。

具体的には、ノイズ δ とテキスト トリガー t を順番に最適化し、最適化された画像 I + δ と最適化されたテキスト T ⊕ t の間のコントラスト損失を低減します。ここで、 ⊕ は、クリーン テキスト T をさまざまな位置に挿入できるトリガーを表します。

わかりやすくするために、この記事ではテキストの先頭にテキスト トリガーを追加することにします。したがって、マルチステップエラー最小化 (MEM) 手法は次のように定式化できます。


上記の問題は、EM の手法を参照して繰り返し最適化されます。投影勾配降下法 (PGD) は、式 1 のノイズ最小化問題を解決するために使用されます。

特に、きれいな字幕へのノイズの過剰適合を軽減するために、きれいな字幕をバッチでスクランブルし、正しく一致するテキスト トリガーを追加することで、字幕を強化します。したがって、意味的に正しくない字幕に直面した場合、この生成されたノイズは、部分的な字幕ではなく、テキストのトリガーに集中する可能性があります。したがって、次の反復公式に従って最適な δ を取得できます。

テキスト トリガーの最小化問題では、すべての入力の前に単語「the」または「a」を繰り返すことによってトリガー シーケンスが最初に初期化されます。

さらに、テキストトリガーはHotFlipに基づいて最適化されており、マークを置き換える効果はグラデーションで近似されています。各トリガー トークンの埋め込みを更新して、現在のトークンの埋め込み周りの CLIP 損失の一次テイラー近似を最小限に抑えることで、次のようになります。


最後に、ビーム検索を使用して、候補タグのセット内の各最適なテキスト トリガーを検索できます。上の方程式から上位 k 個の候補を考慮し、フリップフロップの各位置で前から後ろに検索し、現在のバッチの損失を使用して各バンドルをスコア付けします。

私たちは Wallace らのアプローチに従い、効率的な計算のために小さなバンドル サイズを使用します。図 3 には、MEM を使用してマルチモーダルな学習不可能なサンプルを生成するためのフレームワークが示されています。

実験効果

効果的な保護


表 1: さまざまなデータセットに対していくつかの方法で生成された学習不可能なサンプルの有効性の比較

表 1 は、さまざまなデータセットでの検索結果を示しています。明らかに、UAP はマルチモーダル データに対してほとんど保護を提供しませんが、EM はある程度の保護を示します。

ただし、当社の MEM はマルチモーダル データに対して常に強力な保護を提供し、検索パフォーマンスをランダムな推測のほぼ半分に低下させます。特に MEM-5 は、テキスト トリガーが長いため、ハッカー モデルのパフォーマンスを低下させる効果が MEM-3 よりも大きくなりました。

図 4 は、さまざまな方法で生成された学習不可能なサンプルとクリーンなテスト セットでの取得 Medr でのトレーニングのトレーニング損失減少曲線を示しています。 (a) からわかるように、EM は通常のトレーニングよりも損失の低下が速くなりますが、私たちの手法 MEM-3 および MEM-5 は最初のエポックでの損失が小さく、これはモデルがショートカットを迅速に学習できることを示しています。

(b) から、すべてのモデルの Medr はランダムに推測した場合よりも低いことがわかりますが、学習不可能なサンプルで訓練されたモデルは最も速く学習を停止し、最悪の検索結果に達し、エポックがさらに良くなるにつれて増加しません。上記の観察結果は、表 1 の結果と一致しています。


図 4: トレーニング損失とテスト指標 Medr の曲線変化記録

モデル間の移植性


表 2: さまざまなモデル アーキテクチャ上の ResNet50 モデルに基づく MEM-3 メソッドによって生成された学習不可能なサンプルの転送可能性

データ保護は完全なブラックボックス設定であり、保護者はハッカー モデルのアーキテクチャを認識していないと想定しています。したがって、ResNet50 プロキシ モデルで生成された MEM のパフォーマンスを、ResNet101 や ViT などのさまざまなハッキング モデルで評価します。結果を表2に示す。これらのサンプルは異なるモデル間で正常に転送でき、CLIP モデルのパフォーマンスが低下する可能性があることがわかりました。

視覚的分析


図 5: アテンション マップの視覚化: クリーン データと学習不可能なサンプルに関する 4 つのモデルをさまざまな方法で比較

図 5 は、さまざまな方法で生成されたクリーン データと学習不可能なサンプルでトレーニングされたモデルのアテンション ヒートマップを示しています。画像の場合は Grad-CAM を使用してモデルの注意を視覚化し、テキストの場合は統合グラデーションを使用して注意を視覚化します。色が明るいほど、モデルの注目度が高くなります。

図 5(1)、(2)、(3) のモデルではすべて、字幕に関連する中央領域に焦点を当てていることに注意してください。

ただし、図 5(4) の MEM-3 によって生成されたサンプルでトレーニングされたモデルは、ノイズ特徴のみを学習するため、クリーンな画像を正確に識別できません。また、テキストでは、最初の 3 つのモデルは「ガラス」というキーワードに焦点を当てていますが、後者のモデルは最初の 3 つの単語に焦点を当てています。これは、MEM-3 が常にノイズと最初の 3 つの単語を最適化しているためと考えられます。ショートカットを作成するためのトリガー。

これらの視覚化結果は、EM と UAP はマルチモーダル データの保護に効果的ではないのに対し、MEM は非常に効果的であることを示しています。


図 6: クリーン モデルおよび汚染モデルの下でクリーンなサンプルと MEM-3 に最適化された学習不可能なサンプルの t-SNE 可視化

図 6 では、正常モデルでのクリーンなサンプルの特徴分布と、ポイズンモデルで MEM3 によって最適化された学習不可能なサンプルの特徴分布を視覚化します。画像の特徴を表すために三角形を使用し、テキストの特徴を表すために円を使用します。同じ色は、データセット内の 5 つの同一だが変換された画像と、それらに対応する異なる説明を表します。

(a) から、クリーンなモデルでは、同じ画像とテキストが内部でクラスター化されており、対応する画像とテキストのペアが互いに近いことがわかります。

ただし、(b) では、同じ画像とテキストが分岐しており、画像とテキストのペアのみが近接しています。これは、私たちの方法がモデルを効果的に促進して、ノイズとテキストトリガーの間のショートカットを学習させることを示しています。

ケーススタディ: 顔のプライバシー保護

私たちは、ソーシャル メディア プラットフォーム上の個人の顔画像や名前などの関連情報を保護するという現実世界のシナリオに MEM ノイズを適用するケース スタディを実施しました。

私たちは、インターネットから収集した 200 人の個人の 58,797 枚の画像を含む大規模な現実世界の顔データセットである PubFig データベースを使用して実験を実施しました。検索評価では、各有名人の写真を 1 枚ランダムにテスト セットとして選択し、残りのすべての画像をトレーニングに使用します。

現実的な微調整のために、名前を変更し、字幕生成用にその名前に関連するテキスト テンプレートのセットを提供しました。その後、MEM を使用して学習不可能なサンプルを生成し、さまざまなハッキング モデルを使用してそれらを評価します。結果を表3に示す。

MEM は、これらの微調整されたモデルが顔と名前の特徴間の相関関係を学習することを妨げ、その結果、テスト セットでの正確な人物の検索が妨げられます。


表 3: さまざまな事前トレーニング済みモデルでの ResNet50 微調整によって生成された学習不可能なサンプルの保護効果

結論

この論文では、特に画像とテキストのペアに焦点を当てて、マルチモーダルな学習不可能なサンプルを生成して、マルチモーダルな対比学習による悪用を防ぐ、マルチモーダルなデータ保護について検討します。私たちは以前の分類方法をこのコンテキストに拡張し、モダリティの増加とデータの散在による限界を明らかにしました。

これらの発見を踏まえて、EM フレームワークに基づいたマルチステップエラー最小化 (MEM) と呼ばれる新しい生成方法を紹介します。 MEM は、ノイズとテキスト トリガーの間のショートカットを効果的に確立し、異なるハッキング モデル間の転送可能性を実証します。

さらに、さまざまな可視化ツールを使用してアプローチの有効性を検証します。私たちの研究は、音声とテキストのペアや音声と画像のペアなど、他のモダリティのペアにも適用できると期待される新しい方向性を切り開きます。

著者について

この記事の著者は、情報技術研究所、中国科学院、南洋理工大学、シンガポール国立大学、中山大学の出身者です。著者リスト: Liu Xinwei、Jia Xiaojun、Xunyuan、Liang Siyuan、Cao Xiaochun。

このうち、筆頭著者のLiu Xinwei氏は中国科学院情報技術研究所の博士課程の学生である。責任著者は中山大学の曹暁春教授と南洋理工大学の博士研究員賈暁君である。

参考文献:

https://scst.sysu.edu.cn/members/caoxiaochun.html

https://jiaxiaojunqaq.github.io