칭화대학교는 다중 모드 평가 출시에 앞장서고 있습니다. MultiTrust: GPT-4는 얼마나 신뢰할 수 있나요?

2024-07-24

AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

이번 연구는 칭화대학교 주쥔(Zhu Jun) 교수가 이끄는 기초이론 혁신팀이 주도했다. 오랫동안 우리 팀은 인공 지능 개발의 현재 병목 현상 문제에 집중하고 독창적인 인공 지능 이론과 핵심 기술을 탐구해 왔으며 적대적 보안 이론 및 지능형 알고리즘 방법에 대한 연구에서 국제 선두 수준에 있습니다. 또한, 데이터 활용 효율성 등 기본적인 공통 이슈에 대해 딥러닝의 적대적 견고성과 효율성에 대한 심도 있는 연구를 수행했습니다. 관련 연구로 Wu Wenjun 인공지능 자연과학상 1등상 수상, 100개 이상의 CCF Class A 논문 게재, 오픈 소스 ARES 역습 공격 및 방어 알고리즘 플랫폼 개발(https://github.com/thu-ml/ares) , 그리고 일부 특허 제품을 실현했습니다. 학습과 연구를 실제 응용 프로그램으로 전환합니다.

GPT-4o로 대표되는 MLLM(Multimodal Large Language Model)은 언어, 이미지 등 다양한 양식에서 뛰어난 성능으로 많은 주목을 받아왔습니다. 일상 업무에서 사용자의 오른팔 보조자가 되었을 뿐만 아니라 자율주행, 의료 진단 등 주요 응용 분야에도 점차 침투하며 기술 혁명을 일으키고 있습니다.

그러나 다중 모드 대형 모델은 안전하고 신뢰할 수 있습니까?

그림 1 적대적 공격 GPT-4o의 예

그림 1에서 볼 수 있듯이 GPT-4o는 적대적 공격을 통해 이미지 픽셀을 수정하여 싱가포르의 머라이언 동상을 파리의 에펠탑 또는 런던의 빅벤으로 잘못 식별했습니다. 이러한 오류 대상의 내용은 모델 애플리케이션의 안전한 경계를 넘어서도 마음대로 사용자 정의할 수 있습니다.

그림 2 Claude3 탈옥 예시

탈옥 공격 시나리오에서 Claude는 텍스트 형식의 악성 요청을 성공적으로 거부했지만, 사용자가 추가로 관련 없는 단색 사진을 입력하면 모델은 사용자의 요청에 따라 거짓 뉴스를 출력합니다. 이는 대규모 다중 모드 모델이 대규모 언어 모델보다 더 많은 위험과 과제를 안고 있음을 의미합니다.

이 두 가지 예 외에도 다중 모드 대형 모델에는 환상, 편견, 개인 정보 유출과 같은 다양한 보안 위협이나 사회적 위험이 있으며 이는 실제 응용 프로그램의 신뢰성과 신뢰성에 심각한 영향을 미칩니다. 이러한 취약점 문제는 우연히 발생합니까, 아니면 널리 퍼져 있습니까? 다양한 다중 모드 대형 모델의 신뢰성에는 어떤 차이가 있으며, 그 출처는 어디입니까?

최근 Tsinghua University, Beihang University, Shanghai Jiao Tong University 및 Ruilai Intelligence의 연구원들은 공동으로 100페이지 분량의 기사를 작성하고 MultiTrust라는 포괄적인 벤치마크를 발표했습니다. 이는 처음으로 여러 분야의 주류 다중 모드 대형 모델의 신뢰성을 종합적으로 평가합니다. 다양한 잠재적인 보안 위험을 입증하고 다중 모드 대형 모델의 다음 개발에 영감을 줍니다.

논문 제목: 다중 모드 대형 언어 모델의 신뢰성 벤치마킹: 종합 연구

논문 링크: https://arxiv.org/pdf/2406.07057

프로젝트 홈페이지: https://multi-trust.github.io/

코드 저장소: https://github.com/thu-ml/MMTrustEval

MultiTrust 벤치마크 프레임워크

MultiTrust는 기존 대형 모델 평가 작업에서 신뢰성, 안전성, 견고성, 공정성, 개인 정보 보호의 5가지 신뢰성 평가 차원을 추출하고 2차 분류를 수행하며 목표 방식으로 작업, 지표 및 데이터 세트를 구성하여 제공합니다. 종합적인 평가.

그림 4MultiTrust 프레임워크 다이어그램

10가지 신뢰할 수 있는 평가 하위 차원에 초점을 맞춘 MultiTrust는 순수 텍스트 작업과 다중 모드 작업에 걸쳐 차별 및 생성 작업을 다루는 32개의 다양한 작업 시나리오를 구축했습니다. 작업에 해당하는 데이터 세트는 공개된 텍스트 또는 이미지 데이터 세트를 기반으로 변환 및 적용될 뿐만 아니라, 수동 수집 또는 알고리즘 합성을 통해 좀 더 복잡하고 까다로운 데이터가 구성됩니다.

그림 5 MultiTrust 작업 목록

대형 언어 모델(LLM)의 신뢰할 수 있는 평가와 달리 MLLM의 다중 모드 기능은 더욱 다양하고 복잡한 위험 시나리오와 가능성을 제공합니다. 체계적인 평가를 더 잘 수행하기 위해 MultiTrust 벤치마크는 전통적인 행동 평가 차원에서 시작할 뿐만 아니라 다중 모드 위험과 교차 모드 영향이라는 두 가지 평가 관점을 혁신적으로 도입하여 새로운 모드로 인해 발생하는 새로운 문제를 포괄적으로 다루고 있습니다. . 새로운 도전.

그림 6 다중 모드 위험 및 교차 모드 영향의 위험 다이어그램

특히 다중 모드 위험은 모델이 시각적으로 잘못된 정보를 처리할 때 발생할 수 있는 잘못된 답변, 안전 문제와 관련된 다중 모드 추론의 잘못된 판단 등 다중 모드 시나리오에서 발생하는 새로운 위험을 나타냅니다. 모델은 사진 속 알코올을 정확하게 식별할 수 있지만, 추가 추론을 통해 일부 모델은 알코올을 세팔로스포린 약물과 공유할 때 발생할 수 있는 잠재적 위험을 인식하지 못합니다.

그림 7 모델은 보안 문제와 관련된 추론에서 잘못된 판단을 내립니다.

교차 양식 영향은 원래 양식의 신뢰성에 대한 새로운 양식 추가의 영향을 나타냅니다. 예를 들어, 관련 없는 이미지의 입력은 일반 텍스트 장면에서 대규모 언어 모델 백본 네트워크의 신뢰할 수 있는 동작을 변경하여 더 많은 결과를 가져올 수 있습니다. 예측 불가능성. 대형 언어 모델의 신뢰성 평가에 흔히 사용되는 탈옥 공격이나 상황별 개인 정보 유출 작업에서 텍스트와 아무런 관련이 없는 그림을 모델에 제공하면 원래의 보안 행위가 파괴될 수 있다(그림 2).

결과 분석 및 주요 결론

그림 8 실시간으로 업데이트되는 신뢰도 목록(일부)

연구원들은 정기적으로 업데이트되는 다중 모드 대형 모델 신뢰성 목록을 유지하고 GPT-4o 및 Claude3.5와 같은 최신 모델을 추가했습니다. 전반적으로 폐쇄 소스 상용 모델은 신뢰할 수 있는 주류 오픈 소스 모델보다 더 안전합니다. 그 중 신뢰도에서는 OpenAI의 GPT-4와 Anthropic의 Claude가 가장 높았고, 보안 정렬을 추가한 Microsoft Phi-3는 오픈소스 모델 중에서 가장 높은 순위를 기록했지만 여전히 폐쇄소스 모델과는 일정한 격차가 있습니다.

GPT-4, Claude, Gemini와 같은 상용 모델에서는 보안 및 신뢰성을 위해 많은 강화 기술을 구현했지만 여전히 일부 보안 및 신뢰성 위험이 있습니다. 예를 들어, 적대적 공격, 다중 모드 탈옥 공격 등에 여전히 취약성을 보여 사용자 경험과 신뢰를 크게 방해합니다.

그림 9 Gemini는 다중 모드 탈옥 공격에서 위험한 콘텐츠를 출력합니다.

주류 일반 목록에 있는 많은 오픈 소스 모델의 점수는 GPT-4와 동일하거나 그보다 더 높지만 신뢰 수준 테스트에서는 이러한 모델이 여전히 다양한 측면에서 약점과 취약성을 보여줍니다. 예를 들어 훈련 단계에서 일반 기능(예: OCR)을 강조하면 탈옥된 텍스트와 민감한 정보를 이미지 입력에 삽입하는 것이 더 위협적인 위험 원인이 됩니다.

저자들은 교차 모드 효과에 대한 실험 결과를 바탕으로 다중 모드 훈련과 추론이 대규모 언어 모델의 안전한 정렬 메커니즘을 약화시킨다는 사실을 발견했습니다. 많은 다중 모드 대형 모델은 정렬된 대형 언어 모델을 백본 네트워크로 사용하고 다중 모드 훈련 프로세스 중에 미세 조정합니다. 결과는 이들 모델이 여전히 큰 보안 취약성과 확실한 위험을 안고 있음을 보여줍니다. 동시에 여러 순수 텍스트 신뢰성 평가 작업에서 추론 중에 이미지를 도입하면 모델의 신뢰할 수 있는 동작에 영향과 간섭이 발생합니다.

그림 10 이미지를 도입한 후 모델은 텍스트의 비공개 내용을 유출하는 경향이 더 커졌습니다.

실험 결과에 따르면 다중 모드 대형 모델의 신뢰성과 일반 성능 사이에는 일정한 상관 관계가 있지만 신뢰성 평가 차원에 따라 모델 성능에는 여전히 차이가 있습니다. GPT-4V의 도움으로 생성된 미세 조정 데이터 세트, 환각에 대한 RLHF 등과 같은 현재 일반적인 다중 모드 대형 모델 관련 알고리즘은 모델의 신뢰성을 완전히 향상시키기에 충분하지 않습니다. 기존 결론은 또한 다중 모드 대형 모델이 대형 언어 모델과 다른 고유한 과제를 가지고 있으며 추가 개선을 위해 혁신적이고 효율적인 알고리즘이 필요하다는 것을 보여줍니다.

자세한 결과와 분석은 논문을 참조하세요.

미래의 방향

연구 결과에 따르면 대규모 다중 모드 모델의 신뢰성을 높이려면 연구자의 특별한 주의가 필요합니다. 대규모 언어 모델 정렬 솔루션, 다양한 훈련 데이터 및 시나리오, RAG(Retrieval Enhanced Generation) 및 Constitutional AI(Constitutional AI)와 같은 패러다임을 활용하면 어느 정도 개선에 도움이 될 수 있습니다. 그러나 다중 모드 대형 모델의 신뢰성 향상은 이보다 더 중요합니다. 양식 간의 정렬과 시각적 인코더의 견고성도 중요한 영향을 미치는 요소입니다. 또한, 동적 환경에서 지속적인 평가와 최적화를 통해 실제 응용 분야에서 모델의 성능을 향상시키는 것도 앞으로 중요한 방향입니다.

MultiTrust 벤치마크 출시와 함께 연구팀은 다중 모드 대형 모델 신뢰성 평가 툴킷 MMTrustEval도 출시했습니다. 모델 통합 및 평가 모듈성 특성은 다중 모드 대형 모델의 신뢰성 연구를 위한 중요한 도구를 제공합니다. 이 작업과 툴킷을 기반으로 팀은 대형 모델에 대한 신뢰할 수 있는 연구를 촉진하기 위해 다중 모드 대형 모델 보안 관련 데이터 및 알고리즘 대회[1,2]를 조직했습니다. 앞으로도 지속적인 기술 발전에 따라 다중 모드 대형 모델은 더 많은 분야에서 잠재력을 발휘할 것이지만, 신뢰성 문제는 여전히 지속적인 관심과 심층적인 연구가 필요합니다.

[1] CCDM2024 다중 모드 대형 언어 모델 레드팀 보안 챌린지 http://116.112.3.114:8081/sfds-v1-html/main

[2] 제3회 파저우 알고리즘 공모전 - 멀티모달 대형 모델 알고리즘 보안 강화 기술 https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

소식

칭화대학교는 다중 모드 평가 출시에 앞장서고 있습니다. MultiTrust: GPT-4는 얼마나 신뢰할 수 있나요?

소개

내 연락처 정보