noticias

alibaba cloud tongyi qianwen qwen2-vl modelo de lenguaje visual de segunda generación de código abierto

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house informó el 2 de septiembre que alibaba cloud tongyi qianwen anunció hoy el código abierto del modelo de lenguaje visual de segunda generación qwen2-vl y lanzó dos tamaños de 2b y 7b y su modelo de versión cuantificada. al mismo tiempo, la api del modelo insignia qwen2-vl-72b se lanzó en la plataforma alibaba cloud bailian y los usuarios pueden llamarla directamente.

según la introducción oficial de alibaba cloud, en comparación con el modelo de la generación anterior, el rendimiento básico de qwen2-vl se ha mejorado completamente:

puede comprender imágenes de diferentes resoluciones y relaciones de aspecto, logrando un rendimiento líder a nivel mundial en pruebas comparativas como docvqa, realworldqa y mtvqa;

comprender videos largos de más de 20 minutos y admitir preguntas y respuestas, diálogos, creación de contenido y otras aplicaciones basadas en videos;

tiene fuertes capacidades de inteligencia visual y puede operar teléfonos móviles y robots de forma autónoma. con capacidades complejas de razonamiento y toma de decisiones, qwen2-vl se puede integrar en teléfonos móviles, robots y otros dispositivos para realizar operaciones automáticas basadas en el entorno visual y las instrucciones de texto. ;

comprenda texto multilingüe en imágenes y videos, incluidos chino, inglés, la mayoría de los idiomas europeos, japonés, coreano, árabe, vietnamita y más.

qwen2-vl continúa la estructura de serie de vit más qwen2. todos los modelos de tres tamaños utilizan vit a escala de 600 m para admitir la entrada unificada de imágenes y videos.

pero para permitir que el modelo perciba información visual y comprenda videos con mayor claridad, el equipo realizó algunas actualizaciones en la arquitectura:

en primer lugar, se logra soporte total para la resolución dinámica nativa. a diferencia del modelo de la generación anterior, qwen2-vl puede manejar la entrada de imágenes de cualquier resolución. las imágenes de diferentes tamaños se convertirán en una cantidad dinámica de tokens, con un mínimo de solo 4 tokens. este diseño simula la forma natural de percepción visual humana, garantiza un alto grado de coherencia entre la entrada del modelo y la información de la imagen original y le brinda al modelo la poderosa capacidad de procesar imágenes de cualquier tamaño, lo que le permite realizar el procesamiento de imágenes de manera más flexible y eficientemente.

el segundo es utilizar el método de incrustación de posición de rotación multimodal (m-rope). la incrustación de posición rotacional tradicional solo puede capturar la información de posición de secuencias unidimensionales. m-rope permite que modelos de lenguaje a gran escala capturen e integren simultáneamente la información de posición de secuencias de texto unidimensionales, imágenes visuales bidimensionales e imágenes tridimensionales. videos, lo que brinda al modelo de lenguaje capacidades poderosas. las capacidades de razonamiento y procesamiento multimodal permiten que los modelos comprendan y modelen mejor datos multimodales complejos.

la api del modelo insignia qwen2-vl-72b entre los múltiples modelos que qwen2-vl tiene de código abierto esta vez se lanzó en la plataforma alibaba cloud bailian, y los usuarios pueden llamar directamente a la api a través de la plataforma alibaba cloud bailian.

al mismo tiempo, el equipo de tongyi qianwen ha abierto qwen2-vl-2b y qwen2-vl-7b bajo el protocolo apache 2.0. el código fuente abierto se ha integrado en hugging face transformers, vllm y otros marcos de terceros. los desarrolladores pueden descargar y usar el modelo a través de hugging face y moda modelscope, o usar el modelo a través de la página de diálogo principal del sitio web oficial de tongyi y la aplicación tongyi.