소식

alibaba cloud tongyi qianwen qwen2-vl 2세대 시각적 언어 모델 오픈 소스

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house는 9월 2일 alibaba cloud tongyi qianwen이 2세대 시각 언어 모델 qwen2-vl의 오픈 소스를 발표하고 2b와 7b 두 가지 크기와 정량화된 버전 모델을 출시했다고 9월 2일 보도했습니다. 동시에, 주력 모델 qwen2-vl-72b의 api가 alibaba cloud bailian 플랫폼에 출시되었으며 사용자는 이를 직접 호출할 수 있습니다.

alibaba cloud 공식 소개에 따르면 이전 세대 모델과 비교하여 qwen2-vl의 기본 성능이 종합적으로 향상되었습니다.

다양한 해상도와 종횡비의 이미지를 이해하여 docvqa, realworldqa 및 mtvqa와 같은 벤치마크 테스트에서 세계 최고의 성능을 달성할 수 있습니다.

20분 이상의 장편 동영상을 이해하고, 동영상 기반 q&a, 대화, 콘텐츠 제작 및 기타 애플리케이션을 지원합니다.

강력한 시각적 지능 기능을 갖추고 있으며 휴대폰과 로봇을 자율적으로 작동할 수 있습니다. 복잡한 추론 및 의사 결정 기능을 갖춘 qwen2-vl은 휴대폰, 로봇 및 기타 장치에 통합되어 시각적 환경과 텍스트 지침을 기반으로 자동 작업을 수행할 수 있습니다. ;

중국어, 영어, 대부분의 유럽 언어, 일본어, 한국어, 아랍어, 베트남어 등을 포함하여 이미지와 비디오의 다국어 텍스트를 이해합니다.

qwen2-vl은 vit와 qwen2의 시리즈 구조를 이어갑니다. 세 가지 크기 모델은 모두 600m 규모의 vit를 사용하여 이미지와 비디오의 통합 입력을 지원합니다.

그러나 모델이 시각적 정보를 인식하고 비디오를 보다 명확하게 이해할 수 있도록 팀에서는 아키텍처를 일부 업그레이드했습니다.

첫째, 기본 동적 해상도가 완벽하게 지원됩니다. 이전 세대 모델과 달리 qwen2-vl은 모든 해상도의 이미지 입력을 처리할 수 있습니다. 다양한 크기의 이미지는 최소 4개의 토큰으로 동적 수의 토큰으로 변환됩니다. 이 디자인은 인간의 시각적 인식의 자연스러운 방식을 시뮬레이션하고 모델 입력과 원본 이미지 정보 간의 높은 수준의 일관성을 보장하며 모델에 모든 크기의 이미지를 처리할 수 있는 강력한 기능을 제공하여 이미지 처리를 보다 유연하고 효율적으로 수행할 수 있도록 합니다. 효율적으로.

두 번째는 m-rope(multi-modal rotation position embedding) 방법을 사용하는 것입니다. 기존의 회전 위치 임베딩은 1차원 시퀀스의 위치 정보만 캡처할 수 있었습니다. m-rope는 대규모 언어 모델을 통해 1차원 텍스트 시퀀스, 2차원 시각적 이미지 및 3차원의 위치 정보를 동시에 캡처하고 통합할 수 있습니다. 언어 모델에 강력한 기능을 제공하는 비디오를 통해 다중 모드 처리 및 추론 기능을 통해 모델은 복잡한 다중 모드 데이터를 더 잘 이해하고 모델링할 수 있습니다.

qwen2-vl이 이번에 오픈소스화한 여러 모델 중 플래그십 모델인 qwen2-vl-72b의 api가 alibaba cloud bailian 플랫폼에 출시되었으며, 사용자는 alibaba cloud bailian 플랫폼을 통해 직접 api를 호출할 수 있습니다.

동시에 tongyi qianwen 팀은 apache 2.0 프로토콜에 따라 qwen2-vl-2b 및 qwen2-vl-7b를 오픈 소스화했습니다. 오픈 소스 코드는 hugging face transformers, vllm 및 기타 타사 프레임워크에 통합되었습니다. 개발자는 hugging face 및 moda modelscope를 통해 모델을 다운로드하여 사용할 수 있으며, tongyi 공식 웹사이트 및 tongyi 앱의 메인 대화 페이지를 통해 모델을 사용할 수 있습니다.