2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
프롬프트 단어만 사용하면 다중 모드 대형 모델이 장면 속 캐릭터 간의 관계를 더 잘 이해할 수 있습니다.
북경대학교는 최근 CMMP(Conditional Multi-Modal Prompt) 방법을 제안했습니다.프롬프트 워드엔지니어링 기술지역 수준의 캐릭터 상호 작용 관계를 이해하기 위해 다중 모드 대형 모델을 가르칩니다.
이 과정에서 가장 어려운 부분은 모델이 인식하도록 가르치는 것입니다.보이지 않는 캐릭터 상호작용 유형。
아시다시피, 대부분의 기존 연구는 폐쇄된 환경에 초점을 맞추고 있습니다. 일단 현실에 가까운 개방형 환경이 되면 모델은 혼란스러워질 것입니다.
예를 들어, 아래 그림에서 이전 감지기는 보이는 카테고리와 보이지 않는 카테고리의 균형을 맞추는 데 어려움을 겪었습니다.결과적으로 더 낮은 조화 평균이 발생함, 보이지 않는 카테고리에서는 실적이 더 나쁩니다.
이에 비해 CMMP 방법은 이러한 균형 문제를 효과적으로 해결하고 성능을 크게 향상시키며, 보이지 않는 범주에 대한 새로운 최첨단 성능을 확립합니다.
CMMP 방법이 보이지 않는 카테고리를 어떻게 해결하는지에 대해,한마디:
시각적 공간 단서는 보이지 않는 사람-객체 상호 작용 개념을 식별하는 데 도움이 되고 조건부 단서 학습을 통해 보이지 않는 범주에 대한 일반화를 개선하기 위해 특징 추출 프로세스에 사용됩니다.
요약하면, CMMP 방법은 다중 모드 대형 모델을 미세 조정하여 이를 만들기 위한 새로운 패러다임을 제공합니다.일반화된지역별 캐릭터 상호작용 관계 감지 기능.
위 연구는 북경 대학교 왕쉬안 컴퓨터 기술 연구소(Wangxuan Institute of Computer Technology)에서 나온 것이며, 관련 논문은 ECCV 2024 최고 컨퍼런스에서 승인되었습니다.
제로 샘플 인간 상호 작용 감지를 위한 새로운 프레임워크
팀은 CMMP를 사용하여 제로 샘플 HOI(Human-Object Interaction) 탐지를 위한 새로운 프레임워크를 제안했습니다.
특히 CMMP는 제로 샘플 인간 상호 작용을 감지합니다.두 개의 하위 작업으로 나누어짐:
그런 다음 각 하위 작업에 대해별도로 제안시각적 신호와 텍스트 신호를 분리하여 이들 간의 종속성을 제거하고 오류 전파를 완화합니다.
조건부 시각적 단서(Pv)는 인스턴스 수준의 시각적 우선 순위(Cins) 및 상호 작용의 전역 공간 패턴(Cgsp)에 의해 제한되는 공간 및 상호 작용 인식에 대한 지식을 이미지 인코더에 주입하는 데 사용됩니다. 조건부 언어 단서(PL)는 정규화 손실을 통해 인간이 설계한 단서(CL)에 의해 제한됩니다.
상호작용 인식을 위한 시각적 특징 추출
팀이 채택한 다중 모드 모델의 이미지 인코더는 처음에 대규모 이미지-텍스트 쌍에 대한 대조 학습 사전 학습(CLIP)을 통해 학습되었으며 그 능력은 이미지 수준의 1차 의미를 이해하는 것으로 제한될 수 있습니다.
이미지 인코더가 이미지에서 인간의 모든 상호 작용을 구별할 수 있도록 팀은 인간의 상호 작용 관계 감지 작업에 맞게 사용자 정의된 정보를 이해할 수 있도록 다양한 세부사항에 대한 사전 지식을 조건부 시각적 단서에 통합할 것을 제안했습니다.지역적 2차 의미론。
구체적으로 연구자들은인스턴스 수준 정보를 사전 지식으로 활용조건부 시각적 단서를 통합합니다.
입력 이미지가 주어지면 먼저 사전 훈련된 객체 감지기를 사용하여 경계 상자, 신뢰도 점수, 감지된 인스턴스의 의미론적 인코딩을 포함한 모든 인스턴스 수준 사전 지식을 얻습니다.
또한 각 인스턴스가 잠재적인 상호 작용 개체를 인식하도록 장려하기 위해 팀은 훈련 세트의 상호 작용에 대한 전역 공간 패턴을 인스턴스 수준 시각적 사전과 결합했습니다.
구체적으로, 주석이 달린 각 상호 작용하는 사람 쌍에 대해 연구자들은먼저 일변량 및 이진 공간 특징을 계산합니다.
이어서 K-평균 클러스터링 알고리즘을 사용하여 클러스터 중심을 결정하고 이를 상호 작용하는 문자 쌍의 대표적인 공간 패턴으로 사용합니다.
전역 공간 상호 작용 패턴은 보이는 인간 상호 작용 개념과 보이지 않는 인간 상호 작용 개념 간의 상호 작용을 이해하기 위한 다리로서 범주 독립적인 표현 공간 구성을 제공합니다.
마지막으로 연구원들은 경량 어댑터를 통해 결합된 지식을 이미지 인코더에 통합했습니다.
일반화 가능한 상호작용 분류
인간 상호 작용 감지를 위한 작업별 표현을 학습하는 동시에 CLIP에 대한 일반화 가능한 일반 지식을 유지하기 위해 팀은 다음을 채택했습니다.일관성 제약 조건을 갖춘 언어 인식 프롬프트 학습。
이 제약 조건은 보이는 카테고리와 보이지 않는 카테고리의 학습된 프로토타입이 합리적인 분리 경계를 유지하고 서로 과도하게 벗어나지 않도록 보장합니다.
구체적으로, 각 행동 범주에 대해 연구자들은처음 사용수동으로 설계된 프롬프트가 형식을 지정합니다. 학습 가능한 문맥 단어를 활용하여 보이는 범주와 보이지 않는 범주의 의미를 연결하는 역할을 합니다.
카테고리의 최종 표현은 학습 가능한 문맥 단어를 위 문장의 단어 벡터와 연결한 후 텍스트 인코더를 통해 전달하여 얻습니다.
다중 모드 모델 텍스트 인코더 자체가 학습한 특징 공간을 더욱 활용하고 보이지 않는 카테고리에 대한 일반화 능력을 향상시키기 위해 연구진은 제안했습니다.휴먼 디자인 활용 팁학습 가능한 언어 단서의 특징 공간을 안내합니다.
이러한 제약은 보이는 카테고리와 보이지 않는 카테고리의 프로토타입이 합리적인 분리 경계를 유지하고 서로 너무 많이 벗어나지 않도록 보장합니다.
팀 지원정규화 대 학습 손실기능 표현과 인위적으로 설계된 언어 단서의 기능 표현 간의 차이를 줄입니다.
CMMP 교육
상호작용 인식 기능 맵과 사전 훈련된 객체 감지기에 의해 추출된 사람과 객체의 경계 상자를 기반으로 팀은 먼저 ROI-Pooling을 적용하여 다양한 영역의 기능을 추출했습니다.
그런 다음 서로 다른 영역에서 추출된 특징을 융합하고 상호작용 분류기를 통해 최종 상호작용 클래스 예측을 수행합니다.
전체 모델은 대화형 분류 훈련에서 초점 손실을 사용하고 언어 정규화 손실도 적용합니다.
실험 결과
결과 검증 단계에서 팀은 다음을 사용했습니다.인간 상호작용 탐지에 일반적으로 사용되는 데이터 세트인 HICO-DET, 600개의 문자 상호작용 카테고리는 80개의 객체 카테고리와 117개의 동사 카테고리로 구성됩니다.
모델의 제로 샘플 성능을 검증하기 위해 연구진은 HICO-DET를 평가했습니다.5개의 제로 샘플 설정。
기존 방법과의 공정한 비교를 위해 연구합니다.ViT-B/16이 기본적으로 사용됩니다.백본 네트워크로.
아래 표에서 볼 수 있듯이 실험 결과는 CMMP가 모든 제로 샘플 설정에서 잘 작동함을 보여줍니다.모두가 보이지 않는 수업에서 최고의 성적을 거두었습니다.이는 조건부 다중 모드 단서를 도입하는 효과를 입증합니다.
각 유형별 표에 나와 있듯이마지막 줄이 보여요, ViT-L/14 백본을 활용하여 CLIP4HOI의 FLOP와 일치하도록 CMMP를 확장함으로써 새로운 방법은 모든 파티션에서 최고의 성능을 달성합니다.
이는 팀의 모델이 시각적 특징의 공간 관계 추출과 대화형 분류를 위한 프로토타입 학습에 탁월한 능력을 가지고 있음을 보여줍니다.
게다가, 이전 방법들은 보이는 카테고리와 보이지 않는 카테고리 사이에 심각한 성능 차이를 보여 일반화 능력이 부족함을 나타냅니다.
본 연구의 모델은 이러한 문제를 크게 완화할 수 있으며,일반화하다이전에 볼 수 없었던 상호 작용 범주에 도달할 수 있는 높은 잠재력은 제약 조건이 있는 다중 모드 단서의 효과를 확인합니다.
자세한 내용은 원본 논문을 참조하시기 바랍니다.