2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
상하이 자오퉁 대학교 왕더취안(Wang Dequan) 연구 그룹 제공
Qubits 공개 계정 QbitAI
상하이자오퉁대학교 왕더취안(Wang Dequan) 교수 연구팀은 최근 연구에서 이런 질문을 제기했다.
이런 상황을 상상해 보십시오. 유치원에 다니는 한 어린이가 호랑이 사진을 들고 "이 고양이는 정말 귀엽네요. 암컷 고양이인가요?"라고 묻습니다.
"예" 또는 "아니요"라고 직접 대답할 수는 없지만 먼저 이 질문의 "모순"을 지적하십시오.이 사진은 고양이가 아니라 호랑이예요。
그러나 대형 모델이 어떻게 반응할지에 대한 체계적인 연구는 이전에 거의 없었습니다.
"명령 충돌"을 감지할 수 없는 AI 모델은 "답이 없어야 할 질문"에 대한 결과를 생성하고, 생성된 결과가 충돌의 어느 쪽에 치우쳐 있더라도 잠재적인 재앙을 초래하고 AI에 영향을 미칠 수 있다는 것을 알아야 합니다. 보안 및 Superalignment (수퍼 정렬).
이번 최신 연구에서 팀은 제안했습니다.다중 모드 벤치마크——모순된 명령어 세트, 혁신적인 디자인을 선보였습니다.자동 데이터세트 생성 프레임워크, 명명됨자동 생성。
팀은 다중 모드 대형 모델이 모순된 사용자 지시를 탐지하는 데 매우 부족하다는 것을 발견하여 제안했습니다.인지 각성 유도 방법(CAP)은 외부 세계의 인지 능력을 주입하여 모순 탐지 능력을 향상시킵니다.
이 논문은 올해 10월 제18회 컴퓨터 비전에 관한 유럽 회의(ECCV)에서 발표될 예정입니다.
현재 다중 모드 대형 모델은 과학 연구 및 응용 분야에서 큰 진전을 이루었습니다. 텍스트, 이미지 등 다양한 유형의 데이터를 처리할 수 있어 인간의 인지 능력과 유사한 능력을 보여준다.
팀은 이러한 모델의 성공이 다소 "복종적"일지라도 인간의 지시를 밀접하게 따를 수 있도록 하는 광범위한 연구 및 개발 작업에 기인한다고 믿습니다.
또한 이러한 모델은 긴 컨텍스트에서 특히 유용합니다. Claude 3 및 Gemini 1.5 Pro와 같은 다중 모드 대형 모델은 강력한 기능을 보여주었습니다. Claude 3 시리즈 모델은 200K 토큰의 컨텍스트 창을 제공하고 Gemini 1.5 Pro의 표준 컨텍스트 창 크기는 128K이며 비공개 미리 보기 단계에서 100만 토큰에 도달할 수도 있습니다.
이러한 발전을 통해 다중 모드 대형 모델이 복잡한 작업을 잘 처리하고 장기적인 상호 작용에 대한 인간의 요구를 충족할 수 있습니다.
그러나 다중 모드 상호 작용이 심화되고 컨텍스트 길이가 증가함에 따라 모순되는 사용자 지침 문제가 점점 더 두드러지고 있습니다.
아래에 표시된 것처럼 사용자(예: 어린이 또는 언어 초보자)가 이러한 모델을 사용할 때 잠재적인 다중 모드 충돌을 인식하지 못하는 경우가 많습니다.
동시에, 대화 차례가 늘어나고 컨텍스트 창이 확장되면서 사용자가 모든 세부 사항을 기억하기 어려워지고 지시 사항 간의 충돌이 발생합니다.
또한 양식의 수가 증가함에 따라 양식 간의 충돌도 발생할 수 있습니다. 이러한 모델에 자기 인식과 모순을 식별하는 능력이 부족하면 성능이 저하됩니다.
이러한 문제를 해결하기 위해 이 기사의 연구팀은 다중 모드 벤치마크 테스트를 제안했습니다.모순된 명령어 세트”(자체 모순 지침, SCI)는 충돌하는 지침을 감지하는 다중 모드 대형 모델의 능력을 평가하는 데 사용됩니다.
SCI에는 다음이 포함됩니다.20,000개의 충돌하는 명령그리고8개 작업, 균등하게 분포언어 - 언어그리고시각적-언어적두 가지 패러다임으로.
다이어그램의 상단 부분에 있는 언어-언어 패러다임은 디자인 규칙의 충돌, 개체 속성의 충돌, 배타적 지시어, 금지된 어휘 등 컨텍스트와 지시어 간의 충돌을 포함합니다.
그림의 아래쪽 부분에서 시각적 언어 패러다임은 OCR 텍스트 인식 충돌, 다이어그램 충돌, 기하학적 충돌 및 의미 충돌과 같은 다중 모드 충돌을 다룹니다. 8개 작업 중 의미론적 충돌만 다른 데이터세트(ImageNet)와 관련됩니다.
구체적인 예를 들자면, 의미 충돌을 구성할 때 연구자는 먼저 그림을 기반으로 해당 텍스트를 생성한 다음 텍스트의 주요 의미 정보를 유사하지만 다른 새로운 의미로 대체합니다.
아래 사진에서 작가는 '타조'라는 그림의 의미적 의미에 대해 "그림이 타조의 크기를 묘사하고 있는가?"라는 질문을 덧붙인다.
그 후, 이 질문 텍스트 "타조"의 주요 의미는 "키위"로 대체되었습니다. 이러한 방식으로 모순된 다중 모드 명령 쌍이 구성됩니다.
전체 SCI 구축 과정에서 저자는 혁신적인 자동 데이터 세트 생성 프레임워크를 설계했습니다.자동 생성。
프로그램과 대규모 언어 모델을 통해 다중 모드 루프를 구축합니다. 프레임워크는 프로그램과 대규모 언어 모델을 활용하여 자동화된 데이터 세트 생성을 가능하게 합니다.
AutoCreate는 여러 작업 관련 시드 데이터로 시작하여 시드 풀을 유지합니다. 각 주기 내에서 AutoCreate에는 두 가지 분기가 포함됩니다.언어 부문(왼쪽) 그리고시각적 분기(오른쪽). 각 브랜치는 제너레이터와 데코레이터로 구성됩니다.
마지막으로 클리너는 기준을 충족하지 않는 데이터를 제외합니다. 인간 전문가의 품질 검사를 통과한 후 이 데이터는 다음 라운드에서 사용하기 위해 시드 풀로 다시 공급됩니다.
AutoCreate는 SCI 데이터 세트의 구성 속도와 콘텐츠 폭을 크게 향상시킵니다.
연구진은 SCI 데이터 세트를 사용하여 모순된 지침을 처리하는 데 있어 대규모 모델의 성능을 종합적으로 평가했습니다.
실험 결과에 따르면 현재 대형 모델은 모순된 지침에 직면할 때 특정 결함을 보이는 경우가 많습니다.
정보와 지식을 처리할 수 있지만지시의 합리성을 평가하는 능력 부족, 연구팀이 "인지" 능력이라고 부르는 것입니다.
이러한 결함은 자기 인식 부족과 지침의 불일치를 인식할 수 없는 데서 비롯됩니다.
따라서 연구진은 ''라는 간단한 드롭인 프롬프트 방법을 제안했습니다.인지 각성 팁”(인지적 각성 촉진, CAP)。
입력의 CAP 전달간단한 알림 추가, 외부 세계에서 인지 능력을 주입할 수 있어 대형 모델의 모순 탐지 능력이 향상되며 기본적으로 부정적인 영향은 없습니다.
이 발견은 현재의 다중 모드 대형 모델이 복잡한 지시 충돌을 더 잘 처리하기 위해 더 많은 자기 인식과 인지 능력이 필요함을 시사합니다.
더 자세한 내용을 알고 싶다면 관심 있는 어린이는 원본 논문을 확인하세요.
논문의 첫 번째 저자는 Shanghai Jiao Tong University의 박사 과정 후보자입니다.가오진。
그의 연구 관심 분야에는 컴퓨터 비전, 다중 모드 대형 모델, 인공 지능을 활용한 생명 과학 등이 있습니다.
논문의 교신저자는 Shanghai Jiao Tong University의 종신 조교수이자 박사 지도교수입니다.왕더취안, 그는 University of California, Berkeley에서 학사 및 박사 학위를 취득하고 Trevor Darrell 교수 밑에서 공부했습니다.
그의 연구 작업은 CVPR, ICCV, ECCV, ICLR, ICML, ICRA, IROS 등과 같은 최고의 국제 학회에 게재되었습니다. 그의 논문은 지난 5년 동안 Google Scholar에서 10,000회 이상 인용되었으며 H- 지수 20.
논문 링크: https://arxiv.org/abs/2408.01091
프로젝트 링크: https://selfcontradiction.github.io/