alibaba cloud tongyi qianwen qwen2-vl — модель визуального языка второго поколения с открытым исходным кодом

alibaba cloud tongyi qianwen qwen2-vl модель визуального языка второго поколения с открытым исходным кодом

2024-09-02

2 сентября it house сообщила, что alibaba cloud tongyi qianwen сегодня объявила об открытом исходном коде модели визуального языка второго поколения qwen2-vl и выпустила два размера: 2b и 7b, а также ее количественную версию. в то же время api флагманской модели qwen2-vl-72b был запущен на платформе alibaba cloud bailian, и пользователи могут вызывать его напрямую.

согласно официальному представлению alibaba cloud, по сравнению с моделью предыдущего поколения базовая производительность qwen2-vl была значительно улучшена:

он может распознавать изображения с различным разрешением и соотношением сторон, достигая лучших в мире показателей производительности в таких тестах производительности, как docvqa, realworldqa и mtvqa;

понимание длинных видеороликов продолжительностью более 20 минут и поддержка видео вопросов и ответов, диалогов, создания контента и других приложений;

он обладает мощными возможностями визуального интеллекта и может автономно управлять мобильными телефонами и роботами. благодаря сложным возможностям рассуждения и принятия решений qwen2-vl может быть интегрирован в мобильные телефоны, роботов и другие устройства для выполнения автоматических операций на основе визуальной среды и текстовых инструкций. ;

понимайте многоязычный текст на изображениях и видео, включая китайский, английский, большинство европейских языков, японский, корейский, арабский, вьетнамский и другие языки.

qwen2-vl продолжает структуру серии vit плюс qwen2. все три модели размера используют vit масштаба 600m для поддержки унифицированного ввода изображений и видео.

но чтобы модель могла более четко воспринимать визуальную информацию и понимать видео, команда внесла некоторые обновления в архитектуру:

во-первых, достигается полная поддержка собственного динамического разрешения. в отличие от модели предыдущего поколения, qwen2-vl может обрабатывать ввод изображений любого разрешения. изображения разных размеров будут преобразованы в динамическое количество токенов, минимум 4 токена. этот дизайн имитирует естественный способ зрительного восприятия человека, обеспечивает высокую степень согласованности между входными данными модели и исходной информацией изображения, а также дает модели мощные возможности обработки изображений любого размера, что позволяет ей выполнять обработку изображений более гибко и удобно. эффективно.

второй — использовать метод внедрения мультимодального положения вращения (m-rope). традиционное внедрение вращательного положения может захватывать информацию о положении только одномерных последовательностей. m-rope позволяет крупномасштабным языковым моделям одновременно захватывать и интегрировать информацию о положении одномерных текстовых последовательностей, двумерных визуальных изображений и трехмерных. видео, предоставляющие языковой модели мощные возможности мультимодальной обработки и рассуждения, позволяющие моделям лучше понимать и моделировать сложные мультимодальные данные.

api флагманской модели qwen2-vl-72b среди множества моделей qwen2-vl с открытым исходным кодом на этот раз был запущен на платформе alibaba cloud bailian, и пользователи могут напрямую вызывать api через платформу alibaba cloud bailian.

в то же время команда tongyi qianwen открыла исходный код qwen2-vl-2b и qwen2-vl-7b в соответствии с протоколом apache 2.0. открытый исходный код был интегрирован в hugging face transformers, vllm и другие сторонние платформы. разработчики могут загрузить и использовать модель через hugging face и moda modelscope или использовать модель через главную диалоговую страницу официального сайта tongyi и приложение tongyi.

новости

alibaba cloud tongyi qianwen qwen2-vl модель визуального языка второго поколения с открытым исходным кодом

введение

моя контактная информация