nachricht

alibaba cloud tongyi qianwen qwen2-vl visuelles sprachmodell der zweiten generation open source

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house berichtete am 2. september, dass alibaba cloud tongyi qianwen heute die open source des visuellen sprachmodells qwen2-vl der zweiten generation angekündigt und zwei größen von 2b und 7b sowie sein quantifiziertes versionsmodell auf den markt gebracht hat. gleichzeitig wurde die api des flaggschiffmodells qwen2-vl-72b auf der alibaba cloud bailian-plattform eingeführt und kann von benutzern direkt aufgerufen werden.

laut der offiziellen einführung von alibaba cloud wurde die grundleistung von qwen2-vl im vergleich zum modell der vorherigen generation umfassend verbessert:

es kann bilder mit unterschiedlichen auflösungen und seitenverhältnissen verstehen und in benchmark-tests wie docvqa, realworldqa und mtvqa eine weltweit führende leistung erzielen.

verstehen sie lange videos von mehr als 20 minuten und unterstützen sie videobasierte fragen und antworten, dialoge, die erstellung von inhalten und andere anwendungen.

es verfügt über starke visuelle intelligenzfähigkeiten und kann mobiltelefone und roboter autonom bedienen. mit komplexen argumentations- und entscheidungsfähigkeiten kann qwen2-vl in mobiltelefone, roboter und andere geräte integriert werden, um automatische vorgänge auf der grundlage der visuellen umgebung und textanweisungen durchzuführen ;

verstehen sie mehrsprachigen text in bildern und videos, darunter chinesisch, englisch, die meisten europäischen sprachen, japanisch, koreanisch, arabisch, vietnamesisch und mehr.

qwen2-vl setzt die serienstruktur von vit plus qwen2 fort. die drei größenmodelle verwenden alle vit im 600m-maßstab, um eine einheitliche eingabe von bildern und videos zu unterstützen.

damit das modell jedoch visuelle informationen wahrnehmen und videos besser verstehen kann, hat das team einige verbesserungen an der architektur vorgenommen:

erstens wird die volle unterstützung der nativen dynamischen auflösung erreicht. im gegensatz zum modell der vorherigen generation kann qwen2-vl bildeingaben mit beliebiger auflösung verarbeiten. bilder unterschiedlicher größe werden in eine dynamische anzahl von token umgewandelt, wobei mindestens 4 token erforderlich sind. dieses design simuliert die natürliche art der menschlichen visuellen wahrnehmung, gewährleistet ein hohes maß an konsistenz zwischen der modelleingabe und den ursprünglichen bildinformationen und verleiht dem modell die leistungsstarke fähigkeit, bilder jeder größe zu verarbeiten, wodurch die bildverarbeitung flexibler und flexibler durchgeführt werden kann effizient.

die zweite besteht darin, die methode der multimodalen rotationspositionseinbettung (m-rope) zu verwenden. mit der herkömmlichen rotationspositionseinbettung können nur die positionsinformationen eindimensionaler sequenzen erfasst werden. mit m-rope können große sprachmodelle gleichzeitig die positionsinformationen eindimensionaler textsequenzen, zweidimensionaler visueller bilder und dreidimensionaler sequenzen erfassen und integrieren videos, die dem sprachmodell leistungsstarke multimodale verarbeitungs- und argumentationsfunktionen verleihen, ermöglichen es den modellen, komplexe multimodale daten besser zu verstehen und zu modellieren.

die api des flaggschiffmodells qwen2-vl-72b unter den zahlreichen modellen qwen2-vl ist open source und wurde dieses mal auf der alibaba cloud bailian-plattform gestartet, und benutzer können die api direkt über die alibaba cloud bailian-plattform aufrufen.

gleichzeitig hat das tongyi qianwen-team qwen2-vl-2b und qwen2-vl-7b unter dem apache 2.0-protokoll geöffnet. der open-source-code wurde in hugging face transformers, vllm und andere frameworks von drittanbietern integriert. entwickler können das modell über hugging face und moda modelscope herunterladen und verwenden oder das modell über die hauptdialogseite der offiziellen tongyi-website und der tongyi-app verwenden.