소식

Zhejiang University Li Xi 팀: 표현 이해를 참조하는 새로운 방법인 ScanFormer는 거친 것에서 미세한 것까지 중복을 제거합니다.

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

본 논문의 저자는 모두 저장대학교 Li Xi 교수팀입니다. 논문의 제1저자는 박사과정 학생인 Su Wei이고, 교신저자는 Li Xi 교수(IET Fellow, National Distinguished Young Scholar)입니다. 최근 몇 년 동안 Li Xi 교수팀은 권위 있는 국제 저널(예: TPAMI, IJCV 등)과 최고의 국제 학술 컨퍼런스(ICCV, CVPR, ECCV 등)에 180편 이상의 CV/AIGC 관련 연구 작품을 발표했습니다. 국내외 유명 대학 및 과학 연구 기관과 협력해 왔습니다.

기본적인 시각적 언어 작업인 REC(Reference Expression Comprehension)는 자연어 설명을 기반으로 이미지에서 참조 대상을 찾습니다. REC 모델은 일반적으로 시각적 특징, 텍스트 특징 및 교차 모달 특징 특징 상호 작용 및 향상을 추출하는 데 사용되는 시각적 인코더, 텍스트 인코더 및 교차 모달 상호 작용의 세 부분으로 구성됩니다.

대부분의 최근 연구는 작업 정확도를 높이기 위해 효율적인 교차 모드 상호 작용 모듈을 설계하는 데 중점을 두고 있으며 시각적 인코더에 대한 탐색은 부족합니다. 일반적인 접근 방식은 ResNet, DarkNet, Swin Transformer 또는 ViT 등과 같은 분류 및 감지 작업에 대해 사전 훈련된 특징 추출기를 사용하는 것입니다. 이러한 모델은 이미지의 모든 공간 위치를 탐색하여 슬라이딩 윈도우 또는 분할된 패치 방식으로 특징을 추출합니다. 해당 모델의 계산 복잡성은 이미지 해상도에 따라 급격히 증가하며 이는 Transformer 기반 모델에서 더욱 분명합니다.

이미지의 공간적 중복성 특성으로 인해 정보 내용이 낮은 배경 영역과 이미지의 참조 표현과 관련 없는 영역이 많이 있습니다. 이러한 영역에서 동일한 방식으로 특징을 추출하면 계산 복잡도가 증가하지만 그렇지 않습니다. 효과적인 특징 추출에 기여하지 않습니다. 보다 효율적인 방법은 이미지 영역의 텍스트 관련성과 내용 풍부도를 미리 예측하고, 텍스트 관련 전경 영역에서 특징을 완전히 추출하고, 배경 영역에서 특징을 대략적으로 추출하는 것입니다. 지역적 예측을 위해 보다 직관적인 방법은 이미지 피라미드를 사용하여 피라미드 상단의 거친 이미지에서 배경 영역을 미리 식별한 다음 점차적으로 고해상도의 세밀한 전경 영역을 추가하는 것입니다.

위의 분석을 바탕으로 우리는 제안했습니다.대략적인 반복 인식 프레임워크인 ScanFormer, 저해상도의 거친 이미지부터 시작하여 이미지 피라미드에서 레이어별로 스캔하고 표현을 참조하는 관련 없는/배경 영역을 점차적으로 필터링하여 계산 낭비를 줄여 모델이 전경/작업 관련 영역에 더 집중할 수 있도록 합니다. .



  • 논문 제목: ScanFormer: 반복 스캔을 통한 표현 이해 참조
  • 논문 링크: https://arxiv.org/pdf/2406.18048

방법 소개

1. 대략적인 반복 인식 프레임워크

구조를 단순화하기 위해 텍스트와 시각적 양식을 통합하고 다양한 작업에 대한 깊이 차원을 따라 Encoder1과 Encoder2의 두 부분으로 나누는 ViLT [1] 모델을 채택했습니다.

먼저 텍스트 특징을 추출하여 KV 캐시에 저장한 다음 이미지 피라미드를 구성하고 각 반복마다 현재 스케일에서 선택된 패치가 입력되고 다음 단계를 예측하는 데 Encoder1이 사용됩니다. 각 패치에 해당합니다. 하나의 스케일에서 세밀한 패치를 선택합니다. 특히, 모델이 거친 전체 이미지 정보를 얻을 수 있도록 최상위 이미지의 모든 패치를 선택합니다. Encoder2는 특징을 추가로 추출하고 현재 스케일의 [cls] 토큰을 기반으로 이 스케일의 경계 상자를 예측합니다.

동시에 Encoder1과 Encoder2의 중간 기능은 후속 표준 사용을 용이하게 하기 위해 KV 캐시에 저장됩니다. 규모가 증가함에 따라 세분화된 기능이 도입되고 위치 예측이 더욱 정확해지며 관련 없는 패치는 대부분 삭제되어 많은 계산을 절약합니다.

또한 각 스케일 내의 패치는 이전 스케일의 모든 패치와 텍스트 기능에 주의를 기울여 양방향 주의를 기울입니다. 규모에 따른 이러한 인과적 관심은 계산 요구 사항을 더욱 줄일 수 있습니다.



2. 동적 패치 선택

각 패치의 선택은 이전 스케일에 의해 생성된 선택 요소에 따라 결정됩니다. 적용 위치에는 두 가지 옵션이 있습니다. 하나는 인코더의 각 레이어의 모든 헤드에 사용됩니다. H 헤드는 업데이트를 위한 효과적인 그래디언트 정보를 얻기가 어렵기 때문에 학습된 선택 요소는 인코더의 입력, 즉 패치 임베딩으로 직접 사용되는 것이 이상적이지 않습니다. 이 위치에서 사용하면 배우기가 더 쉽습니다. 마지막으로 이 솔루션도 채택되었습니다.

또한, 입력 패치 임베딩을 0으로 설정하더라도 MHSA와 FFN의 존재로 인해 후속 레이어의 패치 기능은 여전히 ​​0이 아닌 상태가 되어 다른 패치의 기능에 영향을 미치게 된다는 점에 유의해야 합니다. 다행스럽게도 토큰 시퀀스에 동일한 토큰이 많이 있을 경우 MHSA 계산이 단순화되고 실제 추론 가속이 달성될 수 있습니다. 또한, 본 글에서는 모델의 유연성을 높이기 위해 패치 임베딩을 직접 0으로 설정하지 않고 학습 가능한 상수 토큰으로 대체합니다.

따라서 패치 선택 문제는 패치 교체 문제로 변환됩니다. 패치 선택 프로세스는 지속적인 토큰 교체와 토큰 병합의 두 단계로 나눌 수 있습니다. 선택되지 않은 패치는 동일한 상수 토큰으로 대체됩니다. 이러한 선택되지 않은 토큰은 동일하므로 스케일 내적 어텐션 계산 방법에 따라 이러한 토큰을 하나의 토큰으로 결합하고 전체 수를 곱할 수 있으며 이는 차원을 더하는 것과 동일하므로 내적 어텐션 방법은 다음과 같습니다. 변경 사항이 없습니다. 일반적인 가속 방법을 계속 사용할 수 있습니다.



실험 결과

이 방법은 RefCOCO, RefCOCO+, RefCOCOg 및 ReferItGame의 네 가지 데이터 세트에서 최첨단과 유사한 성능을 달성합니다. 대규모 데이터 세트에 대한 사전 훈련과 특정 데이터 세트에 대한 미세 조정을 통해 모델의 성능이 더욱 크게 향상되고 MDETR[2] 및 OFA[3]와 같은 사전 훈련된 모델과 유사한 결과를 얻을 수 있습니다.





추론 속도 측면에서 제안한 방법은 높은 작업 정확도를 보장하면서 실시간 추론 속도를 달성합니다.



또한 실험부분에서는 모델의 패치 선택과 각 scale(scale1, scale2)에서의 위치결정 정확도 분포에 대한 통계도 작성하였다.

왼쪽 그림과 같이 scale이 증가함에 따라 세밀한 이미지 특징이 추가되고 모델 정확도가 점차 향상됩니다. 따라서 포지셔닝 정확도가 요구 사항을 충족할 때 조기 종료 메커니즘을 추가하여 고해상도 이미지에 대한 추가 계산을 피하고 샘플을 기반으로 적절한 해상도를 적응적으로 선택하는 효과를 달성할 수 있습니다. 본 논문에서도 IoU, GIoU, 불확실성 등의 예측 분기를 추가하고 조기 종료 지표를 반환하는 등 몇 가지 사전 시도를 했지만, 그 효과가 적절하고 정확한 조기 종료 지표를 어떻게 설계할 필요가 없는 것으로 나타났습니다. 계속해서 탐색했다.

오른쪽 그림은 다양한 규모의 패치 선택 상황을 보여줍니다. 선택한 패치는 상대적으로 작은 비율을 차지하며 대부분의 패치를 제거할 수 있으므로 컴퓨팅 리소스를 효과적으로 절약할 수 있습니다. 각 샘플(이미지 + 참조 표현)에 대해 실제로 선택된 패치의 수는 전체의 약 65%로 상대적으로 적습니다.



마지막으로 실험 부분에서는 스케일이 증가함에 따라(빨간색 → 녹색 → 파란색) 모델의 위치 정확도가 점차 향상되는 모습을 보여줍니다. 또한, 선택된 패치로부터 재구성된 영상에 따르면, 모델은 배경 영역에 대한 대략적인 정보에만 주의를 기울이고, 해당 전경 영역에 대해서는 모델이 세밀한 세부 정보에만 주의를 기울이는 것을 알 수 있습니다. 정보.



관련 문헌:

[1].Kim W, Son B, Kim I. Vilt: 합성곱이나 영역 감독이 없는 비전 및 언어 변환기 [C]//기계 학습 국제 컨퍼런스. PMLR, 2021: 5583-5594.

[2].Kamath A, Singh M, LeCun Y, et al. 엔드투엔드 멀티모달 이해를 위한 Mdetr 변조 감지 [C]//IEEE/CVF 컴퓨터 비전 국제 컨퍼런스 회의록. 2021: 1780-1790.

[3].Wang P, Yang A, Men R, et al. Ofa: 간단한 시퀀스 대 시퀀스 학습 프레임워크를 통해 아키텍처, 작업 및 모달리티 통합 [C]//기계 학습 국제 컨퍼런스. PMLR, 2022: 23318-23340.