소식

개인정보를 남용하는 대조학습! 중국과학원 등, '다단계 오류 최소화' 방식 ACM MM2024 발표 |

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

Editor: LRST 너무 졸려

[새로운 지혜 소개] 연구자들은 다중 모드 대조 학습 모델에 의한 개인 데이터 남용을 방지하기 위해 다중 모드 비학습성 샘플을 생성하기 위한 새로운 다단계 오류 최소화(MEM) 방법을 제안합니다. MEM 방법은 이미지 노이즈와 텍스트 트리거를 최적화함으로써 모델을 효과적으로 오도하여 개인 데이터에 대한 학습 능력을 감소시키고 다른 모델 간의 강력한 전송 가능성을 보여줍니다.

CLIP과 같은 다중 모드 대조 학습은 인터넷에서 스크랩한 수백만 개의 이미지-캡션 쌍을 학습하여 제로샷 분류에서 상당한 진전을 이루었습니다.

그러나 이러한 의존은 해커가 승인 없이 모델 훈련을 위해 이미지-텍스트 데이터를 악용할 수 있기 때문에 개인 정보 보호 위험을 초래합니다. 여기에는 개인 정보 및 개인 정보 보호에 민감한 정보가 포함될 수 있습니다.

최근 연구에서는 훈련 이미지에 눈에 띄지 않는 교란을 추가하여 학습할 수 없는 예제를 생성함으로써 보호 기능을 갖춘 지름길을 설정할 수 있다고 제안합니다.

그러나 이러한 방법은 단일 모달 분류 작업을 위해 설계되었으며 다중 모달 대조 학습에서는 아직 연구가 부족합니다. 이 문서에서는 먼저 이미지-캡션 쌍에 대한 기존 방법의 성능을 평가하여 이러한 맥락을 탐구합니다. 이전 방법은 이 시나리오에서 레이블이 부족하여 다중 모달 데이터를 효과적으로 일반화할 수 없고 바로가기 설정에 효율성이 제한되어 있습니다.

본 논문에서는 학습 불가능한 다중 모드 샘플을 생성하기 위한 새로운 최적화 프로세스인 MEM(Multi-step Error Minimization)을 제안합니다. EM(오류 최소화) 프레임워크를 확장하여 이미지 노이즈 및 추가 텍스트 트리거를 최적화함으로써 최적화 공간을 확대하고 노이즈 기능과 텍스트 트리거 사이의 지름길을 학습하도록 모델을 효과적으로 오도합니다.


논문 링크: https://arxiv.org/abs/2407.16307

코드 링크: https://github.com/thinwayliu/Multimodal-Unlearnable-Examples

구체적으로, 잡음 최소화 문제를 해결하기 위해 투영된 경사 하강법을 채택하고, 최적의 텍스트 트리거를 찾기 위해 경사를 근사화하고 단어를 대체하는 HotFlip 방법을 사용합니다.

수많은 실험을 통해 이 방법의 효율성이 입증되었으며, 보호 후 검색 결과는 무작위 추측의 거의 절반에 달하며, 서로 다른 모델 간에 높은 전송 가능성을 제공합니다. 이 작업의 논문과 코드는 오픈 소스입니다.

연구배경

최근 몇 년 동안 다중 모드 학습이 증가하면서 연구자들은 텍스트, 이미지, 오디오와 같은 여러 데이터 유형을 결합하는 모델에 큰 관심을 갖게 되었습니다.

그 중에서 다중 모드 대조 학습은 이 분야에서 중요한 방법이 되었습니다. CLIP 및 ALIGN과 같은 모델은 대조 손실 훈련을 사용하여 이미지와 텍스트 간의 상관 관계를 향상시켜 수동 주석의 필요성을 줄이고 이미지의 장점을 보여줍니다. 분류, 생성과 같은 작업의 잠재력.

그러나 이러한 모델의 훈련은 CC12M, YFCC100M 및 LAION5B와 같은 공개적으로 사용 가능한 데이터 세트에서 나오는 대량의 다중 모드 데이터에 의존합니다. 그러나 이러한 데이터 세트는 여전히 불충분할 수 있으며 민감한 개인 정보가 많이 포함될 수 있습니다. 개인정보 침해에 대한 우려를 불러일으키고 있습니다.

다중 모드 대조 학습과 관련된 개인 정보 보호 위험을 처리하기 위해 다중 모드 비학습성 샘플 생성에 초점을 맞춘 시나리오를 고려합니다. 이 시나리오에서는 대표적인 다중 모드 데이터세트로서 이미지-텍스트 쌍에 중점을 둡니다. 사용자는 얼굴, 이름, 전화번호, 주소와 같은 일부 개인 식별 정보를 포함하여 Facebook과 같은 소셜 미디어 플랫폼에서 텍스트와 함께 개인 사진을 공유하는 경우가 많다고 가정됩니다.

현재 해커들은 그림 1의 왼쪽 절반에 표시된 것처럼 인터넷에서 이러한 이미지-텍스트 쌍을 대량 수집하고 다중 모드 대조 학습 기술을 사용하여 대형 모델을 훈련하거나 미세 조정하려고 합니다.

이러한 모델은 사용자의 개인 정보와 얼굴 특징을 실수로 캡처하여 개인 정보 유출 가능성이 있습니다. 보호자는 다중 모드 데이터에 대해 학습 불가능한 방법을 구현하여 이러한 민감한 데이터가 무단으로 악용되는 것을 방지하는 것을 목표로 합니다. 이러한 방법을 사용하면 그림 1의 오른쪽 절반에 표시된 것처럼 이미지와 텍스트를 게시한 후 사용자의 사회적 상호 작용을 방해하지 않으면서 다중 모드 학습 불가능한 샘플에 대해 훈련된 모델에서 사용자의 개인 기능에 액세스할 수 없게 됩니다.


그림 1: Facebook 게시물은 실수로 개인 정보를 공개할 수 있지만(왼쪽), 다중 모드 비학습성 샘플을 사용하여 승인되지 않은 모델이 개인 기능에 액세스하는 것을 방지함으로써 데이터를 보호할 수 있습니다(오른쪽).

동기 부여

최근 연구는 학습 불가능한 예시를 통해 이미지 분류에서 데이터의 무단 사용을 방지하는 데 중점을 두고 있습니다. 이러한 방법은 가용성 공격 또는 무차별 중독 공격이라고도 알려진 데이터에 미묘한 교란을 적용하여 모델이 이미지 특징을 학습하는 것을 방해합니다.

주로 에이전트 없는 모델 공격과 에이전트 기반 모델 공격으로 나누어지며, 에이전트 없는 모델 공격은 픽셀 수준에서 노이즈를 생성하고, 에이전트 기반 모델 공격은 에이전트 모델을 통해 기능 수준의 노이즈를 생성합니다.

그러나 분류를 위한 모든 에이전트 없는 모델 방법은 다중 모달 시나리오에서 이미지 노이즈를 생성하지 못합니다. 왜냐하면 이러한 방법은 특정 카테고리와 관련된 이미지에 대한 일련의 특정 노이즈 패턴을 찾는 것을 목표로 하기 때문입니다. 반면 이미지-텍스트 쌍에는 레이블이 없습니다. 자료.

따라서 에이전트 모델 기반 방법만 적용할 수 있으며 학습 불가능한 다중 모드 예제(EM 및 UAP)를 생성하기 위해 두 가지 일반적인 방법을 확장합니다.

오류 최소화 노이즈(EM) 방법:


UAP(Untargeted Adversarial Perturbation) 방법:


EM과 UAP는 이미지-자막 쌍에 적용될 수 있지만 효율적인 보호, 특히 UAP를 달성하지 못합니다. 우리는 이미지 분류에서 다중 모드 대조 학습에 이르기까지 이러한 방법의 효율성이 감소하는 이유를 탐구합니다.

이미지 분류에서 EM과 UAP는 동일한 레이블이 있는 이미지를 최적화하여 특징 공간에 수렴하므로 그림 2(a)에 표시된 것처럼 모델이 이러한 추가 노이즈를 쉽게 캡처하고 레이블과의 상관 관계를 학습할 수 있습니다.


그림 2: 기존 분류 및 다중 모드 대조 학습의 다양한 방법 비교. 이미지를 나타내며 쌍을 이루는 제목입니다.파란색 영역은 학습 불가능한 샘플에 대해 훈련된 모델의 예상 결정 경계입니다.

그러나 다중 모드 대조 학습에서 EM 및 UAP 방법을 효과적으로 적용하려면 최적화된 이미지 노이즈의 방향이 텍스트의 특징과 관련되어야 하며, 이미지 특징이 이러한 특징에 가까워지거나 멀어지게 됩니다. .

그러나 이미지-텍스트 데이터세트에는 서로 다른 텍스트 특징 쌍이 널리 분산되어 있을 수 있습니다. 그림 2(b)와 (c)에서 볼 수 있듯이 분류와 달리 모델이 EM과 UAP에 의해 생성된 자막과 노이즈 간의 상관 관계를 포착하는 것이 더 어렵습니다.

그림 2(c)에서 UAP의 학습 결정 공간은 더 복잡하므로 보호 효과가 좋지 않습니다.

방법


그림 3: 다단계 오류 최소화 방법(MEM)의 프레임워크

이미지-텍스트 쌍의 분산으로 인해 프록시 모델 기반 방법은 여전히 ​​효과적인 보호를 달성할 수 없습니다. 직관적인 향상 전략은 이미지와 텍스트를 동시에 최적화하여 더 큰 최적화 공간을 얻고 기능 공간의 서로 다른 쌍에 대한 수렴을 촉진하는 것입니다.

따라서 이미지와 텍스트 세트의 최적화된 특징 표현은 유사한 분포를 나타내므로 그림 2(d)와 같이 모델이 지름길을 쉽게 학습할 수 있습니다.

이를 위해 우리는 EM 방식을 기본 프레임워크로 삼고 텍스트 작업에 대한 적대적 공격 설정에 따라 대비 손실을 최소화하기 위해 자막 앞에 짧은 텍스트 트리거를 추가할 것을 제안합니다. 우리의 방법은 EM의 다단계 프로세스와 유사한 3단계 반복 최적화 문제로 개념화될 수 있습니다.

구체적으로 우리는 최적화된 이미지 I + δ와 최적화된 텍스트 T ⊕ t 사이의 대비 손실을 줄이기 위해 노이즈 δ와 텍스트 트리거 t를 순차적으로 최적화합니다. 여기서 ⊕는 깨끗한 텍스트 T를 다른 위치에 삽입할 수 있는 트리거를 나타냅니다.

단순화를 위해 이 문서에서는 텍스트 시작 부분에 텍스트 트리거를 추가하기로 선택했습니다. 따라서 다단계 오류 최소화(MEM) 방법은 다음과 같이 공식화될 수 있습니다.


위의 문제는 EM의 방법을 참조하여 반복적으로 최적화됩니다. Eq.의 잡음 최소화 문제를 해결하기 위해 PGD(Projected Gradient Descent)가 사용됩니다.

특히, 깨끗한 자막에 대한 노이즈의 과적합을 완화하기 위해 깨끗한 자막을 일괄적으로 스크램블하고 올바르게 일치하는 텍스트 트리거를 추가하여 이를 개선합니다. 따라서 의미상 잘못된 자막에 직면했을 때 생성된 노이즈는 부분 자막보다는 텍스트 트리거에 더 집중할 수 있습니다. 따라서 다음 반복 공식에 따라 최적의 δ를 얻을 수 있습니다.

텍스트 트리거 최소화 문제의 경우 모든 입력 앞에 "the" 또는 "a"라는 단어를 반복하여 트리거 시퀀스가 ​​먼저 초기화됩니다.

또한 텍스트 트리거는 HotFlip을 기반으로 최적화되었으며 마크 교체 효과는 그라데이션에 근접합니다. 현재 토큰 임베딩에 대한 CLIP 손실의 1차 Taylor 근사를 최소화하기 위해 각 트리거 토큰의 임베딩을 업데이트하면 다음과 같습니다.


마지막으로 빔 검색을 사용하여 후보 태그 세트에서 각 최적의 텍스트 트리거를 검색할 수 있습니다. 위 방정식에서 상위 k개 후보를 고려하고 플립플롭의 각 위치에서 앞에서 뒤로 검색하고 현재 배치의 손실을 사용하여 각 번들의 점수를 매깁니다.

우리는 Wallace et al.의 접근 방식을 따르고 효율적인 계산을 위해 작은 번들 크기를 사용합니다. 그림 3에서는 MEM을 사용하여 다중 모드 학습 불가능한 샘플을 생성하기 위한 프레임워크를 볼 수 있습니다.

실험적 효과

효과적인 보호


표 1: 다양한 데이터 세트에 대한 여러 방법으로 생성된 학습 불가능한 샘플의 효율성 비교

표 1은 다양한 데이터 세트에 대한 검색 결과를 보여줍니다. 분명히 UAP는 다중 모드 데이터에 대해 거의 보호 기능을 제공하지 않는 반면 EM은 어느 정도 보호 기능을 제공합니다.

그러나 당사의 MEM은 항상 다중 모드 데이터에 대한 강력한 보호 기능을 제공하여 검색 성능을 무작위 추측의 거의 절반으로 줄입니다. 특히 MEM-5는 텍스트 트리거가 길어서 MEM-3보다 해커 모델 성능을 저하시키는 효과가 더 컸습니다.

그림 4는 다양한 방법으로 생성된 학습 불가능한 샘플에 대한 학습 및 깨끗한 테스트 세트에서 Medr 검색에 대한 학습 손실 감소 곡선을 보여줍니다. (a)에서 EM이 일반 훈련보다 손실 감소를 더 빠르게 만들지만, 우리의 방법인 MEM-3 및 MEM-5는 첫 번째 에포크에서 손실이 더 적다는 것을 알 수 있습니다. 이는 모델이 지름길을 빠르게 학습할 수 있음을 보여줍니다.

(b)에서 우리는 모든 모델의 Medr이 무작위로 추측할 때보다 낮다는 것을 알 수 있지만, 학습 불가능한 샘플에 대해 훈련된 모델은 가장 빠르게 학습을 중단하고 최악의 검색 결과에 도달하며 epoch가 증가함에 따라 증가하지 않습니다. 위의 관찰은 표 1의 결과와 일치합니다.


그림 4: 훈련 손실 및 테스트 지표 Medr의 곡선 변화 기록

모델 간 이식성


표 2: 다양한 모델 아키텍처의 ResNet50 모델을 기반으로 하는 MEM-3 방법으로 생성된 학습 불가능한 샘플의 전송 가능성

우리는 데이터 보호가 보호자가 해커 모델의 아키텍처를 인식하지 못하는 완전한 블랙박스 설정이라고 가정합니다. 따라서 우리는 ResNet101 및 ViT를 포함한 다양한 해킹 모델에서 ResNet50 프록시 모델에서 생성된 MEM의 성능을 평가합니다. 결과를 표 2에 나타내었다. 우리는 이러한 샘플이 서로 다른 모델 간에 성공적으로 전송될 수 있으며 CLIP 모델의 성능을 저하시킬 수 있음을 발견했습니다.

시각적 분석


그림 5: 어텐션 맵 시각화: 깨끗한 데이터와 학습 불가능한 샘플에 대한 4가지 모델을 다양한 방법으로 비교

그림 5는 다양한 방법으로 생성된 클린 데이터와 학습 불가능한 샘플에 대해 훈련된 모델의 주의 히트맵을 보여줍니다. 이미지의 경우 Grad-CAM을 사용하여 모델의 주의를 시각화하고, 텍스트의 경우 통합 그라데이션을 사용하여 주의를 시각화합니다. 색상이 밝을수록 모델의 주목도가 높아집니다.

그림 5(1), (2), (3)의 모델은 모두 자막과 관련된 중앙 영역에 초점을 맞추고 있다는 점에 주목할 필요가 있습니다.

그러나 그림 5(4)의 MEM-3에서 생성된 샘플에 대해 훈련된 모델은 노이즈 특징만 학습하기 때문에 깨끗한 이미지를 정확하게 식별할 수 없습니다. 또한 텍스트에서 처음 세 개의 모델은 키워드 "glass"에 초점을 맞추고 후자의 모델은 처음 세 단어에 초점을 맞춥니다. 이는 MEM-3이 항상 노이즈와 처음 세 단어에 대해 최적화하기 때문일 수 있습니다. 바로가기를 생성하는 트리거입니다.

이러한 시각화 결과는 EM과 UAP가 다중 모드 데이터를 보호하는 데 효과적이지 않은 반면 MEM은 상당히 효과적이라는 것을 보여줍니다.


그림 6: 깨끗한 모델과 중독된 모델에서 깨끗한 샘플과 MEM-3 최적화된 학습 불가능한 샘플의 t-SNE 시각화

그림 6에서는 정규 모델에서 깨끗한 샘플의 특징 분포와 오염된 모델에서 MEM3에 의해 최적화된 학습 불가능한 샘플의 특징 분포를 시각화합니다. 우리는 삼각형을 사용하여 이미지 특징을 나타내고, 원을 사용하여 텍스트 특징을 나타내며, 동일한 색상은 데이터세트에 있는 동일하지만 변환된 5개의 이미지와 그에 상응하는 서로 다른 설명을 나타냅니다.

(a)에서 우리는 클린 모델에서 동일한 이미지와 텍스트가 내부적으로 함께 클러스터링되고 해당 이미지-텍스트 쌍이 서로 가깝다는 것을 관찰할 수 있습니다.

그러나 (b)에서는 동일한 이미지와 텍스트가 발산하고, 이미지와 텍스트 쌍만이 서로 근접해 있다. 이는 우리의 방법이 노이즈와 텍스트 트리거 사이의 지름길을 학습하기 위해 모델을 효과적으로 촉진한다는 것을 보여줍니다.

사례 연구: 얼굴 개인 정보 보호

우리는 MEM 노이즈를 실제 시나리오에 적용하여 소셜 미디어 플랫폼에서 개인 얼굴 이미지와 이름과 같은 관련 정보를 보호하는 사례 연구를 수행했습니다.

우리는 인터넷에서 수집한 200명의 개인 이미지 58,797개를 포함하는 대규모 실제 얼굴 데이터세트인 PubFig 데이터베이스를 사용하여 실험을 수행했습니다. 검색 평가를 위해 각 유명인의 사진 한 장을 무작위로 테스트 세트로 선택하고 나머지 이미지는 모두 훈련에 사용합니다.

현실적인 미세 조정을 위해 이름을 변경하고 자막 생성을 위해 해당 이름과 관련된 텍스트 템플릿 세트를 제공했습니다. 그 후, 우리는 MEM을 사용하여 학습 불가능한 샘플을 생성하고 다양한 해킹 모델을 사용하여 이를 평가합니다. 결과를 표 3에 나타내었다.

MEM은 이러한 미세 조정된 모델이 얼굴과 이름 특징 간의 상관 관계를 학습하는 것을 방지하여 테스트 세트에서 정확한 사람 검색을 방해합니다.


표 3: 다양한 사전 훈련된 모델에서 ResNet50 미세 조정으로 생성된 학습 불가능한 샘플의 보호 효과

결론

본 논문에서는 다중 모드 대조 학습에 의한 악용을 방지하기 위해 다중 모드 학습 불가능한 샘플을 생성하는 이미지-텍스트 쌍에 특히 초점을 맞춰 다중 모드 데이터 보호를 살펴봅니다. 우리는 이전 분류 방법을 이 맥락으로 확장하여 양식 증가와 분산된 데이터로 인한 한계를 드러냈습니다.

이러한 발견을 바탕으로 우리는 EM 프레임워크를 기반으로 하는 다단계 오류 최소화(MEM)라는 새로운 생성 방법을 소개합니다. MEM은 노이즈와 텍스트 트리거 간의 지름길을 효과적으로 설정하고 다양한 해킹 모델 간의 전송 가능성을 보여줍니다.

또한 다양한 시각화 도구를 사용하여 접근 방식의 효율성을 검증합니다. 우리의 작업은 오디오-텍스트 및 오디오-이미지 쌍과 같은 다른 양식 쌍에 적용될 것으로 예상되는 새로운 방향을 제시합니다.

작가에 대해

이 기사의 저자는 정보기술연구소, 중국과학원, 난양기술대학교, 싱가포르국립대학교, 쑨원대학교 출신입니다. 저자 목록: Liu Xinwei, Jia Xiaojun, Xunyuan, Liang Siyuan, Cao Xiaochun.

그 중 제1저자인 류신웨이(Liu Xinwei)는 중국과학원 정보기술연구소 박사과정 학생이다. 교신저자는 Sun Yat-sen University의 Cao Xiaochun 교수와 Nanyang Technological University의 박사후 연구원 Jia Xiaojun입니다.

참고자료:

https://scst.sysu.edu.cn/members/caoxiaochun.html

https://jiaxiaojunqaq.github.io