소식

OpenAI의 오픈 소스 GPT-4o를 기다리지 말고 오픈 소스 버전 VITA를 기다리십시오.

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



기계 심장 보고서

머신하트 편집부

오픈소스 분야에서 또 반가운 소식이 들려왔습니다.

대형 언어 모델(LLM)은 상당한 발전을 겪었고, 최근에는 놀라운 다중 모드 기능을 보여주는 다중 모드 대형 언어 모델(MLLM)의 붐도 목격했습니다.

특히 GPT-4o의 등장은 MLLM 분야의 발전을 크게 촉진시켰다. 그러나 이들 모델에 대응하는 오픈소스 모델은 현저히 부족하다. 이 분야를 더욱 발전시키기 위한 오픈 소스 커뮤니티의 긴급한 필요성은 아무리 강조해도 지나치지 않습니다.

이 기사에서 Tencent Youtu Lab 및 기타 기관의 연구원들은 비디오, 이미지, 텍스트 및 오디오 형식을 동시에 처리하고 분석할 수 있는 최초의 오픈 소스 MLLM(다중 모드 대형 언어 모델)인 VITA를 제안합니다. 동시에 고급 다중 모드 대화형 경험을 제공합니다.

연구원들은 Mixtral 8×7B를 언어 기반으로 사용한 다음 중국어 어휘를 확장하고 이중 언어 지침을 미세 조정했습니다. 또한 연구진은 다중 모드 정렬과 지시 미세 조정의 2단계 다중 작업 학습을 통해 언어 모델에 시각 및 청각 기능을 추가로 부여했습니다.

VITA는 단일 모드 및 다중 모드 벤치마크에서 뛰어난 성능을 입증한 것처럼 강력한 다중 언어, 시각 및 오디오 이해 기능을 보여줍니다.

기본 기능 외에도 이 연구는 자연스러운 다중 모드 인간-컴퓨터 상호 작용 경험을 향상시키는 데에도 큰 진전을 이루었습니다. 우리가 아는 한, 이는 MLLM에서 깨어나지 않은 상호작용과 오디오 중단을 활용한 최초의 연구입니다. 또한 연구원들은 다양한 상호 작용 시나리오를 인식하기 위해 추가 상태 토큰과 해당 교육 데이터 및 전략을 설계했습니다.

VITA는 이중 접근 방식을 사용하여 배포됩니다. 한 모델은 사용자 쿼리에 대한 응답을 생성하고 다른 모델은 지속적으로 환경 입력을 추적합니다. 이는 VITA에 인상적인 인간-컴퓨터 상호 작용 기능을 제공합니다.

VITA는 오픈 소스 커뮤니티가 다중 모드 이해와 상호 작용의 원활한 통합을 탐색하는 첫 번째 단계입니다. 비공개 소스에 더 가까워지기 위해 VITA에 대해 수행해야 할 작업이 여전히 많이 있지만, 이 연구에서는 VITA의 선구자 역할이 후속 연구의 초석이 될 수 있기를 바랍니다.



  • 논문 주소: https://arxiv.org/pdf/2408.05211
  • 페이퍼 홈페이지: https://vita-home.github.io/
  • 논문 제목: VITA: 오픈 소스 인터랙티브 옴니 멀티모달 LLM을 향하여



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2 b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

위 영상에서 사용자는 VITA와 장벽 없이 소통할 수 있습니다. 사용자가 입고 있는 흰색 티셔츠를 본 후, 수학 문제를 질문하면 어떤 색상의 바지를 입어야 하는지 알려주고, 에서 문제 유형을 볼 수 있습니다. 실시간으로 추론하고, 다른 사람과 대화할 때 VITA는 도중에 사용자가 통신하지 않는다는 것을 알기 때문에 방해하지 않습니다. VITA 출력의 경우 실시간으로 대화를 중단하고 다른 주제를 시작할 수도 있습니다.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2 b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

이 영상에서 사용자는 비스킷을 들고 VITA에게 무엇을 먹고 있는지 묻습니다. VITA는 비스킷을 먹고 있다고 말하며 비스킷이 우유나 차와 함께 먹으면 더 맛있다고 제안합니다.

운동할 때 채팅 파트너 역할을 해보세요:



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2 b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

참고: 위 동영상은 실시간으로 1배속으로 재생되며 가속은 적용되지 않았습니다.

사용자가 제공한 순서도를 기반으로 VITA는 코드를 작성할 수 있습니다.



사진을 제공하면 VITA는 사진 내용을 기반으로 질문에 답할 수도 있습니다.



동영상을 시청하고 질문에 답할 수도 있습니다. 사용자가 "강아지의 움직임을 자세히 설명해주세요"라고 질문하면 VITA도 정확한 답변을 제공할 수 있습니다.



방법 소개

그림 3에 표시된 것처럼 VITA의 전체 교육 프로세스는 LLM 명령어 미세 조정, 다중 모드 정렬 및 다중 모드 명령어 미세 조정의 세 단계로 구성됩니다.



LLM 명령어 미세 조정

Mixtral 8x7B의 성능은 최고의 오픈 소스 LLM 중 하나이므로 본 연구의 기초로 사용되었습니다. 그러나 연구자들은 공식 Mixtral 모델이 중국어를 이해하는 능력이 제한적이라는 점을 관찰했습니다. 이중 언어(중국어 및 영어) 이해 기능을 주입하기 위해 연구에서는 중국어 어휘를 기본 모델로 확장하여 어휘를 32,000에서 51,747로 늘렸습니다. 어휘를 확장한 후 연구원들은 500만 개의 합성 이중 언어 코퍼스를 사용하여 일반 텍스트 지침을 미세 조정했습니다.

다중 모드 정렬

텍스트와 다른 양식 사이의 표현 격차를 해소하여 다중 모드 이해를 위한 기반을 마련합니다. 시각적 커넥터는 시각적 정렬 단계에서만 훈련됩니다. 표 1은 일반 텍스트 부분을 제외하고 사용된 훈련 데이터를 요약합니다.



시각적 양식

첫 번째는 시각적 인코더입니다. 연구원들은 시각적 인코더로 InternViT-300M-448px를 사용했는데, 이는 448×448 해상도의 이미지를 입력으로 취하고 시각적 커넥터를 간단한 2계층 MLP로 사용한 후 256개의 토큰을 생성했습니다. 고해상도 이미지 입력을 위해 연구자들은 동적 패치 전략을 사용하여 로컬 세부 정보를 캡처합니다.

비디오는 이미지의 특별한 사용 사례로 간주됩니다. 비디오 길이가 4초보다 짧으면 초당 4프레임이 균일하게 샘플링됩니다. 비디오 길이가 4초에서 16초 사이인 경우 매초마다 한 프레임이 샘플링됩니다. 16초보다 긴 비디오의 경우 16프레임이 균일하게 샘플링됩니다.

두 번째는 시각적 정렬입니다. 우리는 시각적 정렬 단계에서만 시각적 커넥터를 훈련했으며 이 단계에서는 오디오 질문을 사용하지 않았습니다.

마지막으로 데이터 계단식(data cascading)이 있습니다. 일반 텍스트 데이터와 이미지 데이터의 경우, 이 연구는 그림 4와 같이 컨텍스트 길이를 6K 토큰으로 연결하는 것을 목표로 합니다. 비디오 데이터가 연결되지 않는다는 점은 주목할 가치가 있습니다.



서로 다른 데이터를 계단식으로 연결하면 다음과 같은 두 가지 이점이 있습니다.

  • 더 긴 컨텍스트 길이를 지원하므로 단일 이미지 질문 상호 작용에서 여러 이미지 질문 상호 작용으로 확장할 수 있으므로 입력 형식이 더욱 유연해지고 컨텍스트 길이가 확장됩니다.
  • 비디오 프레임에는 일반적으로 많은 수의 시각적 토큰이 포함되어 있으므로 계산 효율성이 향상됩니다. 이미지-질문 쌍을 연결함으로써 이 연구는 훈련 배치에서 균형 잡힌 토큰 수를 유지할 수 있으므로 계산 효율성이 향상됩니다.

또한, 이 연구에서는 계단식 데이터를 사용하여 훈련한 모델이 원시 데이터를 사용하여 훈련한 모델과 비슷하게 수행된다는 사실을 발견했습니다.

오디오 양식

한쪽에는 오디오 인코더가 있습니다. 입력 오디오는 처음에 Mel 필터 블록을 통해 처리됩니다. Mel 필터 블록은 오디오 신호를 멜 주파수 범위 내의 개별 주파수 대역으로 분해하여 인간의 비선형적인 사운드 인식을 모방합니다. 그 후, 연구원들은 총 3억 4100만 개의 매개변수를 포함하는 4×CNN 다운샘플링 레이어와 24레이어 변환기를 사용하여 입력 특징을 처리했습니다. 또한 오디오 텍스트 모달 커넥터로 간단한 2계층 MLP를 사용합니다. 마지막으로 오디오 입력 2초마다 25개의 토큰으로 인코딩됩니다.

또 다른 측면은 오디오 정렬입니다. 정렬 작업을 위해 연구진은 자동 음성 인식(ASR)을 활용했습니다. 데이터 세트에는 Wenetspeech(주로 중국어 작업에 초점을 맞춘 10,000시간 이상의 다중 도메인 음성 인식 데이터 포함)와 Gigaspeech(10,000시간 이상의 고품질 오디오 데이터 포함, 대부분 영어 음성 인식 작업에 중점을 두고 있음)가 포함됩니다. 오디오 자막 작업을 위해 연구원들은 해당 오디오 자막과 함께 400k 오디오 클립이 포함된 Wavcaps의 AudioSet SL 하위 집합을 사용했습니다. 정렬 프로세스 중에 오디오 인코더와 커넥터가 모두 훈련됩니다.

다중 모드 명령 미세 조정

이 연구에서는 텍스트든 오디오든 지침을 따르는 능력을 향상시키기 위해 모델을 조정했습니다.

데이터 구축. 명령어 튜닝 단계의 데이터 소스는 표 1의 정렬 단계의 데이터 소스와 동일하지만 본 연구에서는 다음과 같은 개선 사항을 적용했습니다.

질문은 무작위로(약 절반) 오디오 버전(GPT-SoVITS6과 같은 TTS 기술 사용)으로 대체되어 오디오 쿼리에 대한 모델의 이해와 지침을 따르는 능력을 향상시키는 것을 목표로 합니다.

표 2에 표시된 것처럼 다양한 유형의 데이터 간의 충돌을 피하기 위해 다양한 시스템 프롬프트를 설정합니다. 예를 들어, 일부 질문은 시각적 정보를 기반으로 답변하거나 모델 자체 지식을 기반으로 답변할 수 있어 충돌이 발생할 수 있습니다. 또한 이미지 데이터도 다중 프레임 비디오 데이터와 유사하게 패치되어 모델에 혼란을 줄 수 있습니다. 시스템 프롬프트는 다양한 데이터 유형을 명시적으로 구분하므로 보다 직관적으로 이해하는 데 도움이 됩니다.



Non-wake-up 상호 작용과 오디오 중단 상호 작용이라는 두 가지 상호 작용 기능을 구현하기 위해 본 연구에서는 그림 1과 같이 두 개의 VITA 모델이 동시에 배포되는 이중 배포 프레임워크를 제안합니다.



일반적으로 생성 모델은 사용자 쿼리에 응답합니다. 동시에 모니터링 모델은 생성 과정에서 환경 소리를 감지합니다. 쿼리가 아닌 사용자의 음성은 무시하지만, 쿼리 오디오가 인식되면 모델 생성 진행을 중지합니다. 그런 다음 모니터링 모델은 기록 컨텍스트를 통합하고 최신 사용자 쿼리에 응답하며 생성 및 모니터링 모델의 ID가 전환됩니다.



실험적 평가

언어 성능. 언어 모델 훈련 과정의 효율성을 검증하기 위해 연구원들은 C-EVAL, AGIEVAL, MMLU 및 GSM8K라는 네 가지 데이터 세트를 사용했습니다. 이러한 데이터 세트는 일반적인 객관식 질문, 다분야 퀴즈 질문, 수학적 및 논리적 추론 작업을 포함하여 중국어와 영어 상황을 모두 다루는 다양한 시나리오를 다룹니다.

아래 표 3의 결과는 이 기사의 훈련이 중국어 평가 세트(C-EVAL 및 AGIEVAL)에서 언어 모델의 능력을 크게 향상시키는 동시에 영어 관련 벤치마크(MMLU) 및 수학적 추론이 향상되었습니다(GSM8K).



오디오 성능. 모델이 학습한 음성 표현의 견고성을 검증하기 위해 연구원들은 Wenetspeech와 Librispeech라는 두 가지 데이터 세트에 대한 테스트를 수행했습니다.

그중 Wenetspeech에는 test_net과 test_meeting이라는 두 가지 평가 지표가 있습니다. 전자의 데이터 소스가 훈련 데이터와 더 일치하므로 후자가 더 쉽습니다. Librispeech는 모델의 보유 데이터 세트로서 보이지 않는 데이터 세트에 대한 모델의 일반화 능력을 평가합니다. "dev"로 시작하는 것이 검증 세트이고, "test"로 시작하는 것이 4개의 평가 세트입니다. 는 테스트 세트입니다. "Clean"은 덜 어려운 세트를 나타내고 "other"는 더 어려운 세트를 나타냅니다.

아래 표 4의 결과에서 볼 수 있듯이 VITA는 ASR 벤치마크 테스트에서 매우 좋은 결과를 얻었습니다.



다중 모드 성능. 다중 모드 기능을 평가하기 위해 연구에서는 MME, OCRBench, HallusionBench 및 Video-MME를 포함한 4가지 벤치마크에서 VITA를 평가했습니다. 결과는 그림 5에 나와 있습니다.

이미지 이해 측면에서는 VITA가 이미지 전용 오픈소스 모델인 LLaVA-Next보다 우수하고, 비공개 소스 모델인 Gemini 1.5 Pro에 가깝습니다.

비디오 이해 측면에서 VITA는 오픈 소스 비디오 모델인 Video-CCAM을 능가합니다. VITA와 비디오 전용 LLaVA-Next-Video 사이에는 차이가 있지만 VITA가 더 넓은 범위의 형식을 지원하고 상호 작용을 우선시한다는 점을 고려하면 이는 허용 가능한 수준입니다.

마지막으로, 오픈 소스 모델과 독점 모델 사이의 비디오 이해 기능에는 여전히 큰 격차가 있다는 점은 주목할 가치가 있습니다.