2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]
이 기사의 첫 번째 저자인 Chen Qiguang은 현재 하얼빈 공과대학 시얼 연구소에서 공부하고 있습니다. 그의 주요 연구 방향에는 대형 모델 사고 체인, 교차 언어 대형 모델 등이 포함됩니다.
지난 몇 년 동안 LLM(대형 언어 모델)은 NLP(자연어 처리) 분야에서 획기적인 발전을 이루었습니다. 이러한 모델은 복잡한 맥락을 이해할 수 있을 뿐만 아니라 일관되고 논리적으로 엄격한 텍스트를 생성할 수도 있습니다.
그러나 과학과 기술의 발전과 응용 시나리오의 다양화로 인해 단일 텍스트 형식의 기능은 더 이상 현대적인 요구를 충족할 수 없습니다. 사람들은 보다 복잡한 작업과 시나리오에 대처하기 위해 여러 모달 정보(예: 이미지, 비디오, 오디오 등)를 처리하고 이해할 수 있는 지능형 시스템을 점점 더 기대하고 있습니다. 연구자들은 보다 복잡하고 다양한 작업 요구 사항에 대처하기 위해 텍스트 CoT의 기능을 다중 모드 사고 연쇄 추론 분야로 확장하려는 시도를 시작했습니다.
다중 모드 사고 사슬에 대한 초기 연구 중 하나는 시각적 정보와 언어적 정보를 결합하여 다중 모드 사고 사슬(MCoT) 연구를 촉진하는 ScienceQA 벤치마크입니다. ScienceQA 데이터 세트의 출현으로 연구자들은 통합 프레임워크에서 다중 모드 모델의 사고 사슬 추론 기능을 평가할 수 있습니다.
또한 Zhang et al.[2]의 연구는 MCoT의 성능을 새로운 최고 수준으로 끌어올려 ScienceQA 데이터 세트에 대한 모델 성능이 인간 수준(93%>88%)을 초과하게 만들었습니다. 그러나 현재의 다중 모드 사고 체인 연구가 실제로 모든 문제를 해결합니까? ScienceQA 등의 벤치마크 테스트 결과가 계속해서 갱신되고 있는데, 다중모달 추론의 문제가 해결되었다고 볼 수 있을까요?
심층 분석을 통해 연구원들은 현재의 다중 모드 사고 체인 벤치마크에 여전히 심각한 문제가 있어 모델의 실제 기능을 과대평가한다는 사실을 발견했습니다. 현재의 다중 모드 사고 체인 벤치마크는 여전히 다음과 같은 세 가지 심각한 문제에 직면해 있습니다.시각적 모달 추론 누락、단일 단계 시각적 모달 추론만 가능게다가불충분한 지역 적용 범위。
이러한 문제는 다중 모드 사고 체인 분야의 발전을 심각하게 제한합니다. 이에 연구진은 새로운 벤치마크를 제안했다.
(Multi-Domain Multi-step Multi-modal Chain-of-Thought)은 위의 문제를 해결하고 다중 도메인, 다단계 및 다중 모드 사고 체인의 발전을 촉진하는 것을 목표로 합니다. 또한 연구원들은 풍부한 다중 모달 추론 설정 및 방법과 관련된 포괄적인 평가를 수행했습니다.
연구원들은 또한 현재의 대규모 다중 모드 모델이
이전의 전통적인 다중 모드 사고 체인 벤치마크에서 뛰어난 성능을 발휘했음에도 불구하고 성능에는 엄청난 성능 결함이 있습니다. 궁극적으로 연구팀은 희망한다.
이는 귀중한 자원이 될 수 있으며 다중 분야, 다중 단계 및 다중 모드 사고 체인에 대한 연구를 위한 획기적인 기반을 제공할 수 있습니다.
목록 주소: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html
논문 주소: https://arxiv.org/abs/2405.16473
코드 주소: https://github.com/LightChen233/M3CoT
동기 부여
MCoT 연구 분야의 상당한 진전에도 불구하고 기존 벤치마크에는 여전히 많은 단점이 있습니다.
1.시각적 모달 추론 누락: 모델은 종종 텍스트 형식만을 기반으로 추론과 답변을 생성할 수 있는데, 이는 다중 모드 CoT 모델의 기능을 실제로 반영하지 않습니다.
2.단일 단계 시각적 모달 추론: 예를 들어, 그림 속 '깃털'을 한 번만 보면 바로 답을 얻을 수 있습니다. 실제 응용 분야에서는 다단계 추론이 더 일반적이고 필요하며, 모델은 포괄적인 추론을 수행하기 위해 추론 프로세스 중에 다중 모달 정보를 여러 번 동적으로 결합해야 합니다.
3.도메인 누락: 사고 체인의 경우 상식 추론과 수학적 추론이 이 분야의 중요한 구성 요소이지만 기존 벤치마크에서는 상식, 수학 등 중요한 영역을 다루지 않아 다중 모드 CoT 기능에 대한 포괄적인 평가가 제한됩니다.
위의 문제를 해결하기 위해 연구원들은 새로운 벤치마크를 개발했습니다.
, 다중 분야, 다중 단계 및 다중 모드 사고 체인의 연구 개발을 촉진하기를 희망합니다.
데이터 구축 과정
건설에는 다음과 같은 네 가지 주요 단계가 포함됩니다.
다중 모드 대형 언어 모델 평가 결과 스트리밍
연구원들은 Kosmos-2, InstructBLIP, LLaVA-V1.5, CogVLM, Gemini 및 GPT4V를 포함한 여러 대규모 시각적 언어 모델(VLLM)에 대한 광범위한 실험을 수행했습니다. 연구자들은 또한 직접 샘플 제출, 사고 사슬 프롬프트(CoT)[3], 설명 프롬프트(Desp-CoT)[4] 및 장면 다이어그램 사고 사슬 프롬프트 전략(CCoT)[5]과 같은 몇 가지 프롬프트 전략을 탐색했습니다.
분석하다
탐구하다
이를 바탕으로 연구자들은 일반적으로 사용되는 다양한 다중 모드 방법과 설정을 추가로 탐색하여 효과적으로 문제를 해결할 수 있는지 탐색했습니다.
문제가 있습니다.
도구 사용 탐색
다중 모달 추론에서는 도구 사용이 모델 성능을 향상시키는 효과적인 전략으로 간주됩니다. 연구원들은 HuggingGPT, VisualChatGPT, IdealGPT 및 Chameleon과 같은 모델을 포함하여 실험에서 여러 도구의 사용을 평가했습니다.
다중 모드 도구를 사용하여 대규모 모델에 텍스트를 입력합니다.
성능 저하: 실험 결과에 따르면 이러한 도구는 단일 모달 작업에서는 잘 작동하지만
벤치마크에서는 여전히 상당한 성능 차이가 있습니다. 예를 들어 HuggingGPT는 복잡한 다단계 추론 작업을 처리할 때 시각적 정보의 효과적인 활용이 부족하여 상대적으로 성능이 떨어집니다. 또한 VisualChatGPT와 IdealGPT도 다중 모드 상호 작용이 필요한 작업을 처리할 때 기대치를 충족하지 못했습니다. 이러한 결과는 현재 도구 사용 프레임워크가 다중 모드 정보를 더 잘 통합하고 활용하기 위해 추가 개선이 필요함을 시사합니다.
상황별 학습 탐구
명령 미세 조정 탐색
결론 및 전망
참고자료:
[1] Lu et al. 설명 배우기: 다중 모드 추론을 통해
과학 질의응답을 위한 사고 사슬. NeurIPS 2022 논문집에서.
[2] Zhang et al. 다중 모드 지식 그래프를 통한 다중 모드 추론. ACL 2024.
[3] Kojima et al. 대규모 언어 모델은 제로샷 추론기입니다. 2022년 NeurIPS 논문에서.
[4] Wu et al. 복잡한 시각-언어 추론 과제에서 사고 사슬의 역할. Arxiv 2023.
[5] Mitra et al. 대규모 다중 모달 모델을 위한 구성적 사고 사슬 프롬프트. CVPR 2024.