notícias

alibaba cloud tongyi qianwen qwen2-vl modelo de linguagem visual de segunda geração de código aberto

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

a it house informou em 2 de setembro que o alibaba cloud tongyi qianwen anunciou hoje o código aberto do modelo de linguagem visual de segunda geração qwen2-vl e lançou dois tamanhos de 2b e 7b e seu modelo de versão quantificada. ao mesmo tempo, a api do modelo principal qwen2-vl-72b foi lançada na plataforma alibaba cloud bailian e os usuários podem chamá-la diretamente.

de acordo com a introdução oficial do alibaba cloud, em comparação com o modelo da geração anterior, o desempenho básico do qwen2-vl foi amplamente melhorado:

ele pode compreender imagens de diferentes resoluções e proporções, alcançando desempenho líder mundial em testes de benchmark como docvqa, realworldqa e mtvqa;

entenda vídeos longos de mais de 20 minutos e ofereça suporte a perguntas e respostas baseadas em vídeo, diálogo, criação de conteúdo e outras aplicações;

possui fortes capacidades de inteligência visual e pode operar telefones celulares e robôs de forma autônoma. com raciocínio complexo e capacidades de tomada de decisão, o qwen2-vl pode ser integrado a telefones celulares, robôs e outros dispositivos para realizar operações automáticas com base no ambiente visual e em instruções de texto. ;

entenda textos multilíngues em imagens e vídeos, incluindo chinês, inglês, a maioria dos idiomas europeus, japonês, coreano, árabe, vietnamita e muito mais.

qwen2-vl continua a estrutura de série do vit mais qwen2. todos os modelos de três tamanhos usam vit em escala de 600m para suportar entrada unificada de imagens e vídeos.

mas para permitir que o modelo perceba as informações visuais e entenda os vídeos com mais clareza, a equipe fez algumas atualizações na arquitetura:

primeiro, é alcançado suporte total para resolução dinâmica nativa. diferente do modelo da geração anterior, o qwen2-vl pode lidar com entrada de imagens de qualquer resolução. imagens de diferentes tamanhos serão convertidas em um número dinâmico de tokens, com um mínimo de apenas 4 tokens. este design simula a forma natural da percepção visual humana, garante um alto grau de consistência entre a entrada do modelo e as informações originais da imagem e dá ao modelo a poderosa capacidade de processar imagens de qualquer tamanho, permitindo-lhe realizar o processamento de imagens de forma mais flexível e eficientemente.

a segunda é usar o método de incorporação de posição de rotação multimodal (m-rope). a incorporação de posição rotacional tradicional só pode capturar as informações de posição de sequências unidimensionais. o m-rope permite que modelos de linguagem em grande escala capturem e integrem simultaneamente as informações de posição de sequências de texto unidimensionais, imagens visuais bidimensionais e tridimensionais. vídeos, dando ao modelo de linguagem recursos poderosos de processamento e raciocínio multimodal que permitem aos modelos compreender e modelar melhor dados multimodais complexos.

a api do modelo carro-chefe qwen2-vl-72b entre os vários modelos que qwen2-vl tem código aberto desta vez foi lançada na plataforma alibaba cloud bailian, e os usuários podem chamar diretamente a api por meio da plataforma alibaba cloud bailian.

ao mesmo tempo, a equipe tongyi qianwen abriu o código-fonte qwen2-vl-2b e qwen2-vl-7b sob o protocolo apache 2.0. o código-fonte aberto foi integrado ao hugging face transformers, vllm e outras estruturas de terceiros. os desenvolvedores podem baixar e usar o modelo através do hugging face e moda modelscope, ou usar o modelo através da página de diálogo principal do site oficial do tongyi e do aplicativo tongyi.