소식

시각적 인코더를 포기한 이 "네이티브 버전" 다중 모드 대형 모델은 주류 방법과도 비슷합니다.

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

Diao Haiwen은 Dalian Technology University of Technology의 박사 과정 학생이고 그의 지도교수는 Lu Huchuan 교수입니다. 현재 Wang Xinlong 박사의 지도 하에 베이징 Zhiyuan 인공 지능 연구소에서 인턴으로 일하고 있습니다. 그의 연구 관심 분야는 시각과 언어, 대형 모델의 효율적인 전달, 다중 모드 대형 모델 등입니다. 공동 저자인 Cui Yufeng은 베이항 대학교를 졸업하고 베이징 Zhiyuan 인공 지능 연구소 비전 센터의 알고리즘 연구원입니다. 그의 연구 관심 분야는 다중 모드 모델, 생성 모델 및 컴퓨터 비전이며, 그의 주요 작업에는 Emu 시리즈가 포함됩니다.

최근에는 멀티모달 대형 모델에 대한 연구가 본격화되고 있으며 업계에서는 이에 대한 투자도 점점 늘어나고 있다. 해외에서는 GPT-4o(OpenAI), Gemini(Google), Phi-3V(Microsoft), Claude-3V(Anthropic), Grok-1.5V(xAI) 등 핫 모델이 출시되었습니다. 동시에 국내 GLM-4V(Wisdom Spectrum AI), Step-1.5V(Step Star), Emu2(Beijing Zhiyuan), Intern-VL(Shanghai AI Laboratory), Qwen-VL(Alibaba) 등의 모델은 활짝 피어서.

현재의 시각적 언어 모델(VLM)은 일반적으로 시각적 특징을 추출하기 위해 시각적 인코더(Vision Encoder, VE)에 의존하고, 그런 다음 처리 및 응답을 위해 사용자 지침을 대규모 언어 모델(LLM)과 결합합니다. 시각적 인코더와 대규모 언어 모델 훈련 분리. 이러한 분리로 인해 시각적 인코더는 제한된 이미지 해상도 및 종횡비 및 강력한 시각적 의미 사전과 같은 대규모 언어 모델과 인터페이스할 때 시각적 유도 편향 문제를 도입하게 됩니다. 시각적 인코더의 용량이 계속 확장됨에 따라 시각적 신호 처리에서 다중 모드 대형 모델의 배포 효율성도 크게 제한됩니다. 또한 시각적 인코더 및 대규모 언어 모델의 최적 용량 구성을 찾는 방법이 점점 더 복잡해지고 어려워지고 있습니다.

이러한 배경에서 몇 가지 최첨단 아이디어가 빠르게 등장했습니다.

  • 시각적 인코더를 제거할 수 있습니까? 즉, 시각적 인코더 없이 대규모 기본 다중 모드 모델을 직접 구축할 수 있습니까?
  • 시각적 인코더 없이 대규모 언어 모델을 기본 다중 모드 대규모 모델로 효율적이고 원활하게 발전시키는 방법은 무엇입니까?
  • 인코더가 없는 기본 다중 모드 프레임워크와 주류 인코더 기반 다중 모드 패러다임 사이의 성능 격차를 해소하는 방법은 무엇입니까?

Adept AI는 2023년 말 Fuyu 시리즈 모델을 출시하고 관련 시도를 했지만 훈련 전략, 데이터 리소스, 장비 정보를 공개하지 않았습니다. 동시에 공개 시각적 텍스트 평가 지표에서 Fuyu 모델과 주류 알고리즘 사이에는 상당한 성능 차이가 있습니다. 같은 기간 동안 우리가 수행한 일부 파일럿 실험에서는 사전 훈련 데이터의 규모가 대규모로 증가하더라도 인코더가 없는 기본 다중 모드 대형 모델은 여전히 ​​느린 수렴 속도 및 성능 저하와 같은 까다로운 문제에 직면하고 있음을 보여주었습니다.

이러한 과제에 대응하여 Zhiyuan Research Institute의 비전 팀은 Dalian University of Technology 및 Peking University와 같은 국내 대학과 협력하여 차세대 코더 프리 시각적 언어 모델 EVE를 출시했습니다. 세련된 훈련 전략과 추가적인 시각적 감독을 통해 EVE는 시각적 언어 표현, 정렬 및 추론을 통합된 순수 디코더 아키텍처에 통합합니다. 공개적으로 사용 가능한 데이터를 사용하여 EVE는 여러 시각적 언어 벤치마크에서 우수한 성능을 발휘하며 유사한 용량의 주류 인코더 기반 다중 모드 방법과 경쟁하고 동료 Fuyu-8B보다 훨씬 뛰어난 성능을 발휘합니다. EVE는 순수 디코더를 위한 기본 다중 모드 아키텍처 개발을 위한 투명하고 효율적인 경로를 제공하기 위해 제안되었습니다.





  • 논문 주소: https://arxiv.org/abs/2406.11832
  • 프로젝트 코드: https://github.com/baaivision/EVE
  • 모델 주소: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. 기술적 특징

  • 기본 시각적 언어 모델: 주류 다중 모드 모델의 고정 패러다임을 깨고 시각적 인코더를 제거하며 모든 이미지 종횡비를 처리할 수 있습니다. 여러 시각적 언어 벤치마크에서 동일한 유형의 Fuyu-8B 모델보다 훨씬 우수하며 주류 시각적 인코더 기반 시각적 언어 아키텍처에 가깝습니다.
  • 낮은 데이터 및 교육 비용: EVE 모델의 사전 교육은 OpenImages, SAM 및 LAION의 공개 데이터만 선별했으며 665,000개의 LLaVA 지침 데이터와 추가 120만 개의 시각적 대화 데이터를 활용하여 각각 일반 버전과 고급 버전을 구축했습니다. EVE-7B 버전. 훈련은 2개의 8-A100(40G) 노드에서 완료하는 데 약 9일이 걸리거나 4개의 8-A100 노드에서 5일이 소요됩니다.
  • 투명하고 효율적인 탐색: EVE는 네이티브 시각 언어 모델에 대한 효율적이고 투명하며 실용적인 경로를 탐색하여 미래 멀티모달을 위한 차세대 순수 디코더 시각 언어 모델 아키텍처 개발을 위한 새로운 아이디어와 귀중한 경험을 제공합니다. 모델의 탐색을 위한 새로운 방향이 열립니다.

2. 모델 구조



첫째, Vicuna-7B 언어 모델을 통해 초기화되어 풍부한 언어 지식과 강력한 지시 추종 능력을 갖췄습니다. 이를 기반으로 심층 비주얼 인코더가 제거되고 경량 비주얼 인코딩 레이어가 구성되며 이미지 입력이 효율적이고 무손실 인코딩되어 사용자 언어 명령과 함께 통합 디코더에 입력됩니다. 또한, 시각적 정렬 계층은 일반 시각적 인코더와의 특징 정렬을 수행하여 세밀한 시각적 정보 인코딩 및 표현을 향상시킵니다.



2.1 패치 임베딩 레이어

  • 먼저 단일 컨볼루셔널 레이어를 사용하여 이미지의 2D 특징 맵을 얻은 다음 평균 풀링 레이어를 통해 다운샘플링을 수행합니다.
  • 교차 주의 모듈(CA1)을 사용하여 제한된 수용 필드에서 상호 작용하여 각 패치의 로컬 기능을 향상시킵니다.
  • <CLS> 토큰을 사용하고 이를 교차 주의 모듈(CA2)과 결합하여 각 후속 패치 기능에 대한 전역 정보를 제공합니다.
  • 네트워크가 이미지의 2차원 공간 구조를 이해하는 데 도움이 되도록 학습 가능한 <SPL> 토큰이 각 패치 특징선 끝에 삽입됩니다.

2.2 패치 정렬 레이어

  • 유효한 패치의 2D 모양을 기록합니다. <CLS>/
  • 토큰을 생성하고 적응형 풀링 레이어를 사용하여 원래의 2차원 모양으로 복원합니다.
  • 계층적 교차 주의 모듈(CA3)을 통해 다층 네트워크 시각적 기능이 통합되어 시각적 인코더 출력과 세밀한 정렬을 달성합니다.

3. 훈련 전략



  • 대규모 언어 모델에 의해 안내되는 사전 훈련 단계: 시각과 언어 사이의 초기 연결을 설정하여 이후의 안정적이고 효율적인 대규모 사전 훈련을 위한 기반을 마련합니다.
  • 생성적 사전 훈련 단계: 시각적 언어 콘텐츠를 이해하는 모델의 능력을 더욱 향상시키고 순수 언어 모델에서 다중 모드 모델로의 원활한 전환을 달성합니다.
  • 감독된 미세 조정 단계: 언어 지침을 따르고 대화 패턴을 학습하는 모델의 능력을 더욱 표준화하여 다양한 시각적 언어 벤치마크의 요구 사항을 충족합니다.



  • 사전 훈련 단계에서는 SA-1B, OpenImages 및 LAION의 공개 데이터 3,300만 개를 선별했으며, 448×448보다 높은 해상도의 이미지 샘플만 유지했습니다. 특히 LAION 이미지의 높은 중복성 문제를 해결하기 위해 EVA-CLIP으로 추출된 이미지 특징에 대해 K-means 클러스터링을 적용하여 50,000개의 클러스터를 생성하고 각 클러스터 이미지에 가장 가까운 300개의 이미지를 선택하여 최종적으로 선정하였다. 1,500만 개의 LAION 이미지 샘플을 선정했습니다. 이후 Emu2(17B) 및 LLaVA-1.5(13B)를 사용하여 고품질 이미지 설명이 재생성됩니다.
  • 감독된 미세 조정 단계에서는 LLaVA-mix-665K 미세 조정 데이터 세트를 사용하여 EVE-7B의 표준 버전과 AI2D, Synthdog, DVQA, ChartQA, DocVQA, Vision-Flan과 같은 혼합 데이터 세트를 훈련합니다. 및 Bunny-695K가 통합되어 EVE-7B의 고해상도 버전을 훈련합니다.

4. 정량분석



EVE 모델은 여러 시각적 언어 벤치마크에서 유사한 Fuyu-8B 모델보다 훨씬 뛰어난 성능을 발휘하며 다양한 주류 인코더 기반 시각적 언어 모델과 동등한 성능을 발휘합니다. 그러나 훈련을 위해 많은 양의 시각적 언어 데이터를 사용하기 때문에 특정 지시에 정확하게 응답하는 데 어려움이 있으며 일부 벤치마크 테스트에서 성능을 향상시킬 필요가 있습니다. 흥미로운 점은 효율적인 훈련 전략을 통해 인코더 없는 EVE가 인코더 기반 시각적 언어 모델에 필적하는 성능을 달성하여 주류 모델의 용량 일치 문제인 입력 크기 유연성, 배포 효율성 및 양식 문제를 근본적으로 해결할 수 있다는 것입니다.



언어 구조의 단순화, 풍부한 지식의 손실 등의 문제가 발생하기 쉬운 인코더가 있는 모델과 비교하여 EVE는 데이터 크기가 증가함에 따라 점진적이고 안정적인 성능 향상을 보여 점차 인코더 기반 모델의 성능 수준에 접근합니다. 이는 통합 네트워크에서 시각적 및 언어 양식을 인코딩하고 정렬하는 것이 더 어렵기 때문에 인코더가 없는 모델은 인코더가 있는 모델에 비해 과적합이 덜 발생하기 때문일 수 있습니다.

5. 동료들은 어떻게 생각하나요?

엔비디아의 알리 하타미자데(Ali Hatamizadeh) 수석연구원은 “EVE는 참신하다”며 “복잡한 평가 기준 구축과 진보적인 시각적 언어 모델 개선과는 다른 새로운 내러티브를 제안하려는 시도”라고 말했다.



Google Deepmind의 수석 연구원인 Armand Joulin은 순수한 디코더 시각적 언어 모델을 구축하는 것이 흥미롭다고 말했습니다.



Apple 기계 학습 엔지니어 Prince Canuma는 EVE 아키텍처가 매우 흥미롭고 MLX VLM 프로젝트 세트에 추가되는 좋은 요소라고 말했습니다.



6.향후 전망

인코더가 없는 기본 시각적 언어 모델인 EVE는 현재 고무적인 결과를 얻었습니다. 이 경로에는 향후 탐색할 가치가 있는 몇 가지 흥미로운 방향이 있습니다.

  • 추가 성능 개선: 실험 결과, 시각적 언어 데이터만 사용한 사전 학습은 모델의 언어 능력을 크게 감소시켰지만(SQA 점수는 65.3%에서 63.0%로 감소) 모델의 다중 모드 성능이 점차 향상되는 것으로 나타났습니다. 이는 대규모 언어 모델이 업데이트될 때 내부적으로 언어 지식에 대한 치명적인 망각이 있음을 나타냅니다. 시각적 양식과 언어 양식 간의 간섭을 줄이기 위해 순수 언어 사전 학습 데이터를 적절하게 통합하거나 전문가 혼합(MoE) 전략을 사용하는 것이 좋습니다.
  • 인코더 없는 아키텍처의 비전: 고품질 데이터를 사용한 적절한 전략과 교육을 통해 인코더 없는 시각적 언어 모델은 인코더가 있는 모델과 경쟁할 수 있습니다. 그렇다면 동일한 모델 용량과 대규모 훈련 데이터에서 둘의 성능은 어떻습니까? 우리는 모델 용량과 훈련 데이터 양을 확장함으로써 인코더 없는 아키텍처가 인코더 기반 아키텍처에 도달하거나 심지어 능가할 수 있다고 추측합니다. 전자는 이미지를 거의 무손실로 입력하고 시각적 인코더의 선험적 편견을 피하기 때문입니다.
  • 기본 다중 모드 모델 구축: EVE는 기본 다중 모드 모델을 효율적이고 안정적으로 구성하는 방법을 완벽하게 보여 주며, 이는 더 많은 양식(예: 오디오, 비디오, 열화상, 깊이 등)을 통합할 수 있는 투명하고 실행 가능한 방법을 열어줍니다. 앞으로는. 핵심 아이디어는 대규모 통합 교육을 도입하기 전에 동결된 대규모 언어 모델을 통해 이러한 양식을 사전 정렬하고 감독을 위해 해당 단일 모달 인코더 및 언어 개념 정렬을 활용하는 것입니다.