2時間の映画を4秒で観よう！アリババ、ユニバーサルマルチモーダル大型モデル mPLUG-Owl3 をリリースオープンソース

2時間の映画を4秒で観よう！アリババ、ユニバーサルマルチモーダル大型モデル mPLUG-Owl3 オープンソースをリリース |

2024-08-19

2 時間の映画を 4 秒で見た後、アリババチームの新たな成果が正式に発表されました——

ロールアウトするユニバーサルマルチモーダル大型モデル mPLUG-Owl3、特に複数の写真や長いビデオを理解するために使用されます。

具体的には、LLaVA-Next-Interleave をベンチマークとして、mPLUG-Owl3最初のトークンの遅延が 6 分の 1 に短縮されました、A100 1 台でモデリングできる画像数は 8 倍に増加し、400枚の写真, 実際のテストによると、2時間の映画を4秒で視聴できます。

つまり、モデルの推論効率が大幅に向上しました。

そしてモデルの精度を犠牲にすることなく。

mPLUG-Owl3 は、単一画像、複数画像、ビデオ分野など、マルチモーダル大規模モデルに関わるさまざまなシナリオでも多くのベンチマークを達成しました。ソタ。

この論文の著者は次の出身ですアリババ mPLUG チーム、彼らはマルチモーダルな大規模モデルベースに深く関わっており、その前には次のような提案も行っていました。

効率的なマルチモーダルベース mPLUGシリーズ
モジュラーマルチモーダル大規模言語モデルベース mPLUG-Owlシリーズ
文書理解ベース mPLUG-DocOwlシリーズ

このリリースの mPLUG-Owl3 がもたらすブラックテクノロジーを見てみましょう。

ゲームプレイのロックが解除されました

チームは、mPLUG-Owl3 の一般的な使用法をいくつか実証しました。

マルチモーダル検索の強化

一般的には、モデルが学習していない知識を検索システムで補完するのが一般的です。これには、モデルが入ってくるマルチモーダルな知識を正確に理解し、それを使用して質問に答える必要があります。

次の例では、mPLUG-Owl3 は取得した知識に基づいて正しく応答できるだけでなく、それを提供することもできます。判断はどのような知識に基づいて行われますか?、詳細な判断根拠を提供します。これは、開発とデバッグを行う下流の研究開発担当者にとって非常に使いやすいものです。

検索部分: 以下は、意思決定を行うために取得されたいくつかの複合的な知識です。

質問する: 上の 4 枚の犬の写真を観察したことに基づいて、写真 5 の犬を分類できますか?理由を述べてください。

答え: 4 枚の犬の写真の観察に基づいて、写真 5 の犬はアイリッシュテリアとして分類できます。写真 1 の犬はアイリッシュテリアとして説明されており、写真 5 の犬は写真 1 の犬と同様の身体的特徴を持っています。

マルチグラフ推論

人生にはこういう場面がよくある――。

多くのユーザーは 1 つの写真を中心に会話するだけでなく、複数のマテリアルを持っている可能性があり、モデルは異なるマテリアルのコンテンツ間の関係を正しく理解できる必要があります。

以下の例では、mPLUG-Owl3 は、2 つの画像に表示される内容を通じて言語モデルの常識的な知識を有効にし、2 つの画像について推論することができます。

質問する: 左側の動物は右側の環境で生き残ることができますか?解答と解説は必須です。

答え(正解は緑色でマークされています): 環境が寒すぎるため生存できないというのが一般的な考えです。

別の例では、mPLUG-Owl3 は 2 つの画像間のスタイルの違いを検出するだけでなく、2 つの画像内の文字のスタイルが異なっていても、実際には同じ文字であることも認識できます。

初めての質問: 画像にはどのようなアートスタイルが描かれていますか?また、それらはどのように異なりますか?

答え: 最初の写真はピクセルスタイル、2 番目の写真は漫画スタイルです... (理由を説明します)

2番目の質問: 両方の絵に誰が登場しますか?彼らの特徴は何でしょうか？

答え: どちらの絵にもカウボーイハットをかぶった男性が登場し、彼は 2 つの異なるスタイルで描かれています。

長いビデオの理解

非常に長いビデオの視聴は、現在のほとんどのモデルではエンドツーエンドで完了できないタスクであり、エージェントフレームワークに基づいている場合、応答速度を保証することが困難です。

mPLUG-Owl3 は 2 時間の映画を見ることができ、4 秒以内にユーザーの質問に回答し始めます。

ユーザーが映画の最初、中間、最後にある非常に詳細なクリップについて質問しても、mPLUG-Owl3 はそれらに流暢に答えることができます。

どうやってやったのですか？

従来モデルとは異なり、mPLUG-Owl3ビジュアルシーケンスを言語モデルのテキストシーケンスに事前に接続する必要はありません。。

言い換えれば、入力される内容 (数十枚の写真や数時間のビデオ) に関係なく、言語モデルのシーケンス容量を占有しないため、長いビジュアルシーケンスによって引き起こされる膨大な計算オーバーヘッドとビデオメモリの使用量が回避されます。

視覚情報は言語モデルにどのように統合されるのかと疑問に思う人もいるかもしれません。

これを達成するために、チームは次のことを提案しました。軽量のハイパーアテンションモジュールこれは、テキストのみをモデル化できる既存の Transformer ブロックを、グラフィックとテキストの機能の相互作用とテキストモデリングの両方を実行できる新しいモジュールに拡張できます。

言語モデル全体にまばらに広がることによって4Transformer Block、mPLUG-Owl3 は、非常に低コストで LLM をマルチモーダル LLM にアップグレードできます。

視覚的特徴が視覚的エンコーダから抽出された後、単純な線形マッピングを通じて次元が言語モデルの次元に合わせられます。

その後、視覚的特徴は、トランスフォーマーブロックのこれら 4 つのレイヤー内のテキストとのみ対話します。視覚的トークンは圧縮されていないため、詳細な情報を保存できます。

以下をご覧くださいハイパーアテンションはどのように設計されていますか?。

言語モデルが視覚的特徴を認識できるようにするために、Hyper tention はクロスアテンションこの操作では、視覚的特徴を Key と Value として使用し、言語モデルの隠れ状態を Query として使用して視覚的特徴を抽出します。

近年、Flamingo や IDEFICS など、マルチモーダルフュージョンにクロスアテンションを使用する研究が検討されていますが、これらの研究では良好なパフォーマンスを達成できませんでした。

mPLUG-Owl3 に関する技術レポートの中で、チームは次のように述べています。フラミンゴのデザインを比較してみる、ハイパーアテンションについてさらに詳しく説明します技術的なポイント：

まず、ハイパーアテンションはクロスアテンションとセルフアテンションカスケードの設計を採用しておらず、セルフアテンションブロックに埋め込まれています。

その利点は、導入される追加の新しいパラメーターの数が大幅に減り、モデルのトレーニングが容易になり、トレーニングと推論の効率がさらに向上できることです。

第二に、ハイパーアテンションの選択共有言語モデルの LayerNormなぜなら、LayerNorm によって出力される分布は、アテンション層によってトレーニングされた安定した分布であるため、新しく導入されたクロスアテンションの安定した学習には、この層を共有することが重要だからです。

実際、ハイパーアテンションは、クロスアテンションとセルフアテンションの並行戦略を採用し、共有クエリを使用して視覚機能と対話し、アダプティブゲートを通じて 2 つの機能を統合します。

これにより、Query は独自のセマンティクスに基づいて関連する視覚的特徴を選択的に選択できるようになります。

チームディスカバリー、イメージ元のコンテキスト内のテキストに対する相対位置モデルがマルチモーダル入力をよりよく理解することは非常に重要です。

この特性をモデル化するために、ビジュアルキーの位置情報をモデル化するマルチモーダルインターリーブ回転位置エンコーディング MI-Rope を導入しました。

具体的には、オリジナルのテキスト内の各画像の位置情報を事前に記録し、この位置を使用して対応するロープ埋め込みを計算し、同じ画像の各パッチがこの埋め込みを共有します。

さらに、クロスアテンションも行っていますアテンションマスク導入, そのため、元のコンテキスト内の画像の前のテキストでは、後続の画像に対応する特徴を見ることができません。

要約すると、Hyper Attendant のこれらの設計ポイントにより、mPLUG-Owl3 の効率がさらに向上し、依然として一流のマルチモーダル機能を維持できることが保証されました。

実験結果

mPLUG-Owl3は、幅広いデータセットに対して実験を行うことで、ほとんどの単一イメージのマルチモーダルベンチマークすべてのテストで SOTA の結果を達成でき、多くのテストではモデルサイズが大きいモデルを上回ることさえあります。

同時に、マルチピクチャ評価では、mPLUG-Owl3 は、特にマルチイメージシーンに最適化された LLAVA-Next-Interleave と Mantis も上回りました。

また、特化した評価モデルではLongVideoBench（52.1点）長いビデオを理解するリストにある既存のモデルを上回ります。

研究開発チームはまた、興味深い提案をしました。長いビジュアルシーケンスの評価方法。

誰もが知っているように、人間とコンピューターの実際の対話シナリオでは、すべての画像がユーザーの問題に役立つわけではありません。その問題とは無関係なマルチモーダルコンテンツがそのシーケンスに含まれるようになります。この現象はより深刻になります。

長いビジュアルシーケンス入力に対するモデルのパフォーマンスを評価するには耐干渉能力、彼らはMMBench-devに基づいてそれを構築しました新しい評価データセット。

MMBench サイクルの評価サンプルごとに無関係な画像を導入し、画像の順序を乱すことで、元の画像について質問し、モデルが正しく安定して応答できるかどうかを確認します。 (同じ問題に対して、選択肢と干渉画像の順序が異なる 4 つのサンプルが作成され、すべて正解した場合、正解は 1 つだけ記録されます。)

実験は入力画像の数に応じて複数のレベルに分かれています。

Qwen-VL や mPLUG-Owl2 などのマルチグラフトレーニングのないモデルはすぐに失敗することがわかります。

複数の画像でトレーニングされた LLAVA-Next-Interleave と Mantis は、最初は mPLUG-Owl3 と同様の減衰曲線を維持できますが、画像の数が増加するにつれて50この規模では、これらのモデルは正しく答えることができなくなります。

そして mPLUG-Owl3 は存続しました400枚の写真まだ維持できる40%の精度。

ただし、一つ言えることは、mPLUG-Owl3 は既存のモデルを上回っていますが、その精度は優れたレベルには程遠いです。この評価方法は、必要な長いシーケンス下でのすべてのモデルの耐干渉能力を明らかにしているとしか言えません。今後さらに改善される予定です。

詳細については、論文とコードを参照してください。

ニュース

2時間の映画を4秒で観よう！アリババ、ユニバーサルマルチモーダル大型モデル mPLUG-Owl3 オープンソースをリリース |

導入

私の連絡先情報

ニュース

2時間の映画を4秒で観よう！アリババ、ユニバーサル マルチモーダル大型モデル mPLUG-Owl3 オープンソースをリリース |

導入

私の連絡先情報

2時間の映画を4秒で観よう！アリババ、ユニバーサルマルチモーダル大型モデル mPLUG-Owl3 オープンソースをリリース |