소식

2시간짜리 영화를 4초만에 감상해보세요! Alibaba, 범용 다중 모드 대형 모델 mPLUG-Owl3 오픈 소스 출시 |

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

2시간짜리 영화를 4초만에 감상한 후, 알리바바 팀의 새로운 성과가 공식적으로 공개되었습니다——

발표범용 다중 모드 대형 모델 mPLUG-Owl3, 특히 여러 장의 사진과 긴 비디오를 이해하는 데 사용됩니다.



구체적으로 LLaVA-Next-Interleave를 벤치마크로 삼은 mPLUG-Owl3첫 번째 토큰 지연 시간이 6배 단축되었습니다., 단일 A100으로 모델링할 수 있는 이미지 수가 8배 증가하여사진 400장, 실제 테스트에 따르면 2시간짜리 영화를 4초 안에 볼 수 있습니다.

즉, 모델의 추론 효율성이 크게 향상됐다.

그리고모델 정확도를 희생하지 않고

mPLUG-Owl3은 또한 단일 이미지, 다중 이미지 및 비디오 필드를 포함하여 다중 모드 대형 모델과 관련된 다양한 시나리오에서 많은 벤치마크를 달성했습니다.소타



논문의 저자는 다음과 같습니다.알리바바 mPLUG 팀, 그들은 다중 모드 대형 모델 기반에 깊이 관여해 왔으며 그 전에는 다음도 제안했습니다.

  • 효율적인 다중 모드 기반 mPLUG 시리즈
  • 모듈형 멀티모달 대형 언어 모델 베이스 mPLUG-Owl 시리즈
  • 문서 이해 기반 mPLUG-DocOwl 시리즈

이번 mPLUG-Owl3 릴리스에는 어떤 블랙 기술이 담겨 있는지 살펴보겠습니다.

게임플레이 잠금 해제

팀은 mPLUG-Owl3의 몇 가지 일반적인 용도를 시연했습니다.

다중 모드 검색 향상

일반적으로 모델이 검색 시스템을 통해 학습하지 못한 지식을 보완하는 것이 일반적인 관행입니다. 이를 위해서는 모델이 들어오는 다중 모드 지식을 정확하게 이해하고 이를 사용하여 질문에 답해야 합니다.

다음 예에서 mPLUG-Owl3은 검색된 지식을 기반으로 올바르게 응답할 수 있을 뿐만 아니라 이를 제공할 수도 있습니다.판단은 어떤 지식에 근거하나요?, 상세한 판단 근거를 제공합니다. 이는 개발 및 디버깅을 위한 다운스트림 R&D 인력에게 매우 친숙합니다.

검색부분: 다음은 결정을 내리기 위해 검색된 여러 가지 다중 모드 지식입니다.

질문하기: 위 네 장의 개 사진을 관찰한 결과, 그림 5의 개를 분류할 수 있나요? 이유를 제시하세요.

답변: 네 장의 개 사진을 관찰한 결과, 그림 5의 개는 아이리쉬 테리어로 분류될 수 있습니다. 그림 1의 개는 아이리시 테리어로 묘사되고, 그림 5의 개는 그림 1의 개와 비슷한 신체적 특성을 가지고 있습니다…



다중 그래프 추론

이런 상황은 살아가면서 종종 발생합니다——

많은 사용자가 하나의 사진을 중심으로 대화를 나누는 것뿐만 아니라 사용자가 여러 가지 자료를 가지고 있을 수도 있으며, 모델은 서로 다른 자료에 포함된 콘텐츠 간의 관계를 올바르게 이해할 수 있어야 합니다.

아래 예에서 mPLUG-Owl3은 두 이미지에서 보는 것과 두 이미지에 대한 추론을 통해 언어 모델의 상식 지식을 활성화할 수 있습니다.

질문하기: 왼쪽의 동물은 오른쪽의 환경에서 살아남을 수 있을까요? 답변과 설명이 필요합니다.

답변(정답은 녹색으로 표시) : 일반적인 생각은 환경이 너무 추워서 살아남지 못한다는 것입니다.



또 다른 예에서, mPLUG-Owl3은 두 그림 사이의 스타일 차이를 감지할 수 있을 뿐만 아니라 두 그림의 캐릭터가 서로 다른 스타일을 가지고 있지만 실제로는 동일한 캐릭터라는 것을 인식할 수 있습니다.

처음 질문: 이미지에는 어떤 예술 스타일이 묘사되어 있으며 어떻게 다른가요?

답변: 첫 번째 사진은 픽셀 스타일, 두 번째 사진은 카툰 스타일... (이유 제시)

두 번째 질문: 두 그림에는 누가 등장하나요? 그들의 특징은 무엇입니까?

답변: 두 그림 모두 카우보이 모자를 쓴 남자가 등장하는데, 그는 두 가지 다른 스타일로 그려져 있다.



긴 영상 이해

매우 긴 동영상을 시청하는 것은 대부분의 최신 모델이 완벽하게 완료할 수 없는 작업입니다. Agent 프레임워크 기반에서는 응답 속도를 보장하기 어렵습니다.

mPLUG-Owl3은 2시간짜리 영화를 볼 수 있으며,4초 안에 사용자 질문에 답변 시작

사용자가 영화의 시작, 중간, 끝 부분에서 매우 상세한 클립에 대해 질문하더라도 mPLUG-Owl3는 유창하게 대답할 수 있습니다.



어떻게 했나요?

기존 모델과 달리 mPLUG-Owl3시각적 시퀀스를 언어 모델의 텍스트 시퀀스에 미리 연결할 필요가 없습니다.

즉, 입력되는 내용(수십 장의 사진 또는 몇 시간의 비디오)에 관계없이 언어 모델 시퀀스 용량을 차지하지 않으므로 긴 시각적 시퀀스로 인한 막대한 계산 오버헤드와 비디오 메모리 사용량을 방지할 수 있습니다.

누군가는 시각적 정보가 어떻게 언어 모델에 통합되는지 물을 수 있습니다.



이를 달성하기 위해 팀은 다음을 제안했습니다.경량 Hyper Attention 모듈이는 텍스트만 모델링할 수 있는 기존 변환기 블록을 그래픽 및 텍스트 기능 상호 작용과 텍스트 모델링을 모두 수행할 수 있는 새 모듈로 확장할 수 있습니다.



언어 모델 전반에 걸쳐 드물게 확산됨4Transformer Block, mPLUG-Owl3은 매우 적은 비용으로 LLM을 멀티모달 LLM으로 업그레이드할 수 있습니다.

시각적 인코더에서 시각적 특징을 추출한 후 간단한 선형 매핑을 통해 차원을 언어 모델의 차원에 정렬합니다.

결과적으로 시각적 특징은 Transformer Block의 4개 레이어에 있는 텍스트와만 상호 작용합니다. 시각적 토큰은 압축되지 않았으므로 세분화된 정보가 보존될 수 있습니다.

아래를 살펴보세요Hyper Attention은 어떻게 설계되었나요?

언어 모델이 시각적 특징을 인식할 수 있도록 Hyper Attention은교차 주의Operation에서는 시각적 특징을 Key와 Value로 사용하고 언어모델의 Hidden State를 Query로 사용하여 시각적 특징을 추출한다.

최근 몇 년 동안 Flamingo 및 IDEFICS와 같은 다른 연구에서는 다중 모드 융합을 위해 Cross-Attention을 사용하는 것을 고려했지만 이러한 노력은 좋은 성능을 달성하지 못했습니다.

mPLUG-Owl3에 대한 기술 보고서에서 팀은Flamingo의 디자인 비교, Hyper Attention을 더 자세히 설명하기 위해주요 기술 포인트



우선 Hyper Attention은 Cross-Attention 및 Self-Attention 캐스케이드 설계를 채택하지 않고 Self-Attention 블록에 내장됩니다.

장점은 추가로 도입되는 새로운 매개변수의 수를 크게 줄여 모델 훈련을 더 쉽게 만들고 훈련 및 추론 효율성을 더욱 향상시킬 수 있다는 것입니다.

두 번째, Hyper Attention 선택공유 언어 모델을 위한 LayerNormLayerNorm의 분포 출력은 Attention 계층에서 훈련된 안정적인 분포이기 때문에 이 계층을 공유하는 것은 새로 도입된 Cross-Attention의 안정적인 학습에 중요합니다.

실제로 Hyper Attention은 공유 쿼리를 사용하여 시각적 기능과 상호 작용하고 Adaptive Gate를 통해 두 기능을 통합하는 병렬 Cross-Attention 및 Self-Attention 전략을 채택합니다.

이를 통해 쿼리는 자체 의미에 따라 관련 시각적 기능을 선택적으로 선택할 수 있습니다.

팀 검색, 이미지원래 컨텍스트의 텍스트에 대한 상대적 위치모델이 다중 모드 입력을 더 잘 이해하는 것이 매우 중요합니다.

이 속성을 모델링하기 위해 그들은 시각적 키에 대한 위치 정보를 모델링하기 위해 MI-Rope를 인코딩하는 다중 모드 인터리브 회전 위치를 도입했습니다.

구체적으로 그들은 원본 텍스트에 있는 각 그림의 위치 정보를 미리 기록하고 이 위치를 사용하여 해당 Rope 임베딩을 계산했으며 동일한 그림의 각 패치는 이 임베딩을 공유했습니다.

게다가 Cross-Attention도 하고 있어요.어텐션 마스크 출시, 원래 컨텍스트에서 그림 앞의 텍스트는 후속 그림에 해당하는 기능을 볼 수 없습니다.

요약하자면, Hyper Attention의 이러한 설계 포인트는 mPLUG-Owl3의 효율성을 더욱 향상시켰으며 여전히 최고 수준의 다중 모드 기능을 가질 수 있도록 보장했습니다.



실험 결과

mPLUG-Owl3은 다양한 데이터 세트에 대한 실험을 수행하여대부분의 단일 이미지 다중 모드 벤치마크모두 SOTA 결과를 얻을 수 있으며 많은 테스트에서 모델 크기가 더 큰 모델을 능가할 수도 있습니다.



동시에,다중 영상 평가에서는mPLUG-Owl3은 다중 이미지 장면에 특별히 최적화된 LLAVA-Next-Interleave 및 Mantis도 능가했습니다.



또한 LongVideoBench(52.1점)에서는 특화된 평가 모델이긴 동영상 이해하기목록에서 기존 모델을 능가합니다.



R&D팀도 흥미로운 제안을 내놨다.긴 시각적 시퀀스 평가 방법

우리 모두 알고 있듯이 실제 인간-컴퓨터 상호 작용 시나리오에서 모든 사진이 사용자 문제를 해결하는 것은 아닙니다. 역사적 맥락은 문제와 관련 없는 다중 모드 콘텐츠로 가득 차게 되며 이 현상은 더욱 심각해집니다.

긴 시각적 시퀀스 입력에 대한 모델 성능을 평가하려면간섭 방지 능력, 그들은 MMBench-dev를 기반으로 구축했습니다.새로운 평가 데이터 세트

각 MMBench 사이클 평가 샘플마다 관련 없는 그림을 도입하고 그림의 순서를 어지럽히는 방식으로 원본 그림에 대해 질문을 하여 모델이 올바르고 안정적으로 반응할 수 있는지 확인합니다. (동일 문제에 대해 옵션 순서가 다른 4개의 샘플과 간섭 그림이 구성되며, 모두 정답일 경우 정답은 1개만 기록됩니다.)

실험은 입력 이미지 개수에 따라 여러 레벨로 나누어집니다.

Qwen-VL 및 mPLUG-Owl2와 같은 다중 그래프 훈련이 없는 모델은 빠르게 실패하는 것을 볼 수 있습니다.



여러 이미지로 학습된 LLAVA-Next-Interleave 및 Mantis는 처음에는 mPLUG-Owl3과 유사한 감쇠 곡선을 유지할 수 있지만 이미지 수가 많아질수록50이 규모에서는 이러한 모델이 더 이상 올바르게 대답할 수 없습니다.

그리고 mPLUG-Owl3은 지속되었습니다.사진 400장아직 유지 가능정확도 40%

그러나 mPLUG-Owl3은 기존 모델을 능가하지만 정확도가 우수한 수준에 도달하기는 어렵습니다. 이 평가 방법은 필요한 긴 시퀀스에서 모든 모델의 간섭 방지 능력을 드러낸다고 할 수 있습니다. 앞으로 더욱 개선될 예정입니다.

자세한 내용은 논문과 코드를 참고하세요.