내 연락처 정보
우편메소피아@프로톤메일.com
2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]
Diao Haiwen은 Dalian Technology University of Technology의 박사 과정 학생이고 그의 지도교수는 Lu Huchuan 교수입니다. 현재 Wang Xinlong 박사의 지도 하에 베이징 Zhiyuan 인공 지능 연구소에서 인턴으로 일하고 있습니다. 그의 연구 관심 분야는 시각과 언어, 대형 모델의 효율적인 전달, 다중 모드 대형 모델 등입니다. 공동 저자인 Cui Yufeng은 베이항 대학교를 졸업하고 베이징 Zhiyuan 인공 지능 연구소 비전 센터의 알고리즘 연구원입니다. 그의 연구 관심 분야는 다중 모드 모델, 생성 모델 및 컴퓨터 비전이며, 그의 주요 작업에는 Emu 시리즈가 포함됩니다.
최근에는 멀티모달 대형 모델에 대한 연구가 본격화되고 있으며 업계에서는 이에 대한 투자도 점점 늘어나고 있다. 해외에서는 GPT-4o(OpenAI), Gemini(Google), Phi-3V(Microsoft), Claude-3V(Anthropic), Grok-1.5V(xAI) 등 핫 모델이 출시되었습니다. 동시에 국내 GLM-4V(Wisdom Spectrum AI), Step-1.5V(Step Star), Emu2(Beijing Zhiyuan), Intern-VL(Shanghai AI Laboratory), Qwen-VL(Alibaba) 등의 모델은 활짝 피어서.
현재의 시각적 언어 모델(VLM)은 일반적으로 시각적 특징을 추출하기 위해 시각적 인코더(Vision Encoder, VE)에 의존하고, 그런 다음 처리 및 응답을 위해 사용자 지침을 대규모 언어 모델(LLM)과 결합합니다. 시각적 인코더와 대규모 언어 모델 훈련 분리. 이러한 분리로 인해 시각적 인코더는 제한된 이미지 해상도 및 종횡비 및 강력한 시각적 의미 사전과 같은 대규모 언어 모델과 인터페이스할 때 시각적 유도 편향 문제를 도입하게 됩니다. 시각적 인코더의 용량이 계속 확장됨에 따라 시각적 신호 처리에서 다중 모드 대형 모델의 배포 효율성도 크게 제한됩니다. 또한 시각적 인코더 및 대규모 언어 모델의 최적 용량 구성을 찾는 방법이 점점 더 복잡해지고 어려워지고 있습니다.
이러한 배경에서 몇 가지 최첨단 아이디어가 빠르게 등장했습니다.
Adept AI는 2023년 말 Fuyu 시리즈 모델을 출시하고 관련 시도를 했지만 훈련 전략, 데이터 리소스, 장비 정보를 공개하지 않았습니다. 동시에 공개 시각적 텍스트 평가 지표에서 Fuyu 모델과 주류 알고리즘 사이에는 상당한 성능 차이가 있습니다. 같은 기간 동안 우리가 수행한 일부 파일럿 실험에서는 사전 훈련 데이터의 규모가 대규모로 증가하더라도 인코더가 없는 기본 다중 모드 대형 모델은 여전히 느린 수렴 속도 및 성능 저하와 같은 까다로운 문제에 직면하고 있음을 보여주었습니다.
이러한 과제에 대응하여 Zhiyuan Research Institute의 비전 팀은 Dalian University of Technology 및 Peking University와 같은 국내 대학과 협력하여 차세대 코더 프리 시각적 언어 모델 EVE를 출시했습니다. 세련된 훈련 전략과 추가적인 시각적 감독을 통해 EVE는 시각적 언어 표현, 정렬 및 추론을 통합된 순수 디코더 아키텍처에 통합합니다. 공개적으로 사용 가능한 데이터를 사용하여 EVE는 여러 시각적 언어 벤치마크에서 우수한 성능을 발휘하며 유사한 용량의 주류 인코더 기반 다중 모드 방법과 경쟁하고 동료 Fuyu-8B보다 훨씬 뛰어난 성능을 발휘합니다. EVE는 순수 디코더를 위한 기본 다중 모드 아키텍처 개발을 위한 투명하고 효율적인 경로를 제공하기 위해 제안되었습니다.
1. 기술적 특징
2. 모델 구조
첫째, Vicuna-7B 언어 모델을 통해 초기화되어 풍부한 언어 지식과 강력한 지시 추종 능력을 갖췄습니다. 이를 기반으로 심층 비주얼 인코더가 제거되고 경량 비주얼 인코딩 레이어가 구성되며 이미지 입력이 효율적이고 무손실 인코딩되어 사용자 언어 명령과 함께 통합 디코더에 입력됩니다. 또한, 시각적 정렬 계층은 일반 시각적 인코더와의 특징 정렬을 수행하여 세밀한 시각적 정보 인코딩 및 표현을 향상시킵니다.
2.1 패치 임베딩 레이어
2.2 패치 정렬 레이어
3. 훈련 전략
4. 정량분석
EVE 모델은 여러 시각적 언어 벤치마크에서 유사한 Fuyu-8B 모델보다 훨씬 뛰어난 성능을 발휘하며 다양한 주류 인코더 기반 시각적 언어 모델과 동등한 성능을 발휘합니다. 그러나 훈련을 위해 많은 양의 시각적 언어 데이터를 사용하기 때문에 특정 지시에 정확하게 응답하는 데 어려움이 있으며 일부 벤치마크 테스트에서 성능을 향상시킬 필요가 있습니다. 흥미로운 점은 효율적인 훈련 전략을 통해 인코더 없는 EVE가 인코더 기반 시각적 언어 모델에 필적하는 성능을 달성하여 주류 모델의 용량 일치 문제인 입력 크기 유연성, 배포 효율성 및 양식 문제를 근본적으로 해결할 수 있다는 것입니다.
언어 구조의 단순화, 풍부한 지식의 손실 등의 문제가 발생하기 쉬운 인코더가 있는 모델과 비교하여 EVE는 데이터 크기가 증가함에 따라 점진적이고 안정적인 성능 향상을 보여 점차 인코더 기반 모델의 성능 수준에 접근합니다. 이는 통합 네트워크에서 시각적 및 언어 양식을 인코딩하고 정렬하는 것이 더 어렵기 때문에 인코더가 없는 모델은 인코더가 있는 모델에 비해 과적합이 덜 발생하기 때문일 수 있습니다.
5. 동료들은 어떻게 생각하나요?
엔비디아의 알리 하타미자데(Ali Hatamizadeh) 수석연구원은 “EVE는 참신하다”며 “복잡한 평가 기준 구축과 진보적인 시각적 언어 모델 개선과는 다른 새로운 내러티브를 제안하려는 시도”라고 말했다.
Google Deepmind의 수석 연구원인 Armand Joulin은 순수한 디코더 시각적 언어 모델을 구축하는 것이 흥미롭다고 말했습니다.
Apple 기계 학습 엔지니어 Prince Canuma는 EVE 아키텍처가 매우 흥미롭고 MLX VLM 프로젝트 세트에 추가되는 좋은 요소라고 말했습니다.
6.향후 전망
인코더가 없는 기본 시각적 언어 모델인 EVE는 현재 고무적인 결과를 얻었습니다. 이 경로에는 향후 탐색할 가치가 있는 몇 가지 흥미로운 방향이 있습니다.