ニュース

alibaba cloud tongyi qianwen qwen2-vl 第 2 世代ビジュアル言語モデル オープンソース

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it houseは9月2日、alibaba cloud tongyi qianwenが本日、第2世代ビジュアル言語モデルqwen2-vlのオープンソースを発表し、2bと7bの2つのサイズとその数量化バージョンモデルを発売したと報じた。同時に、フラッグシップモデルqwen2-vl-72bのapiがalibaba cloud bailianプラットフォーム上で公開され、ユーザーが直接呼び出せるようになった。

alibaba cloud の公式紹介によると、前世代モデルと比較して、qwen2-vl の基本性能は総合的に向上しています。

さまざまな解像度とアスペクト比の画像を理解でき、docvqa、realworldqa、mtvqa などのベンチマーク テストで世界最高のパフォーマンスを達成します。

20 分を超える長いビデオを理解し、ビデオベースの q&a、対話、コンテンツ作成、その他のアプリケーションをサポートします。

qwen2-vl は強力な視覚インテリジェンス機能を備えており、複雑な推論と意思決定機能により携帯電話やロボットを自律的に操作でき、携帯電話、ロボット、その他のデバイスに統合して、視覚環境とテキスト指示に基づいて自動操作を実行できます。 ;

画像やビデオ内の多言語テキストを理解します。これには、中国語、英語、ほとんどのヨーロッパ言語、日本語、韓国語、アラビア語、ベトナム語などが含まれます。

qwen2-vl は、vit に qwen2 を加えたシリーズ構成を継承しており、3 つのサイズのモデルはすべて 600m スケールの vit を使用し、画像とビデオの統合入力をサポートします。

しかし、モデルが視覚情報を認識し、ビデオをより明確に理解できるようにするために、チームはアーキテクチャにいくつかのアップグレードを加えました。

まず、ネイティブの動的解像度の完全なサポートが実現されます。前世代のモデルとは異なり、qwen2-vl はあらゆる解像度の画像入力を処理でき、異なるサイズの画像は最小 4 つのトークンで動的な数のトークンに変換されます。この設計は、人間の自然な視覚認識をシミュレートし、モデル入力と元の画像情報の間の高度な一貫性を保証し、モデルにあらゆるサイズの画像を処理する強力な機能を与え、より柔軟に画像処理を実行できるようにします。効率的に。

2 つ目は、マルチモーダル回転位置埋め込み (m-rope) 方法を使用することです。従来の回転位置埋め込みでは、1 次元シーケンスの位置情報しか取得できません。m-rope を使用すると、大規模な言語モデルで 1 次元のテキスト シーケンス、2 次元の視覚イメージ、および 3 次元の位置情報を同時に取得して統合できます。マルチモーダル処理および推論機能により、モデルは複雑なマルチモーダル データをよりよく理解し、モデル化できるようになります。

今回qwen2-vlがオープンソース化した複数モデルのうち、フラッグシップモデルqwen2-vl-72bのapiはalibaba cloud bailianプラットフォーム上で公開されており、ユーザーはalibaba cloud bailianプラットフォームを通じて直接apiを呼び出すことができる。

同時に、tongyi qianwen チームは、apache 2.0 プロトコルに基づいて qwen2-vl-2b および qwen2-vl-7b をオープンソース化しました。このオープン ソース コードは、hugging face transformers、vllm、およびその他のサードパーティ フレームワークに統合されました。開発者は、hugging face および moda modelscope を通じてモデルをダウンロードして使用するか、tongyi 公式 web サイトおよび tongyi アプリのメインダイアログページを通じてモデルを使用できます。