OpenAI のオープンソース GPT-4o を待つのではなく、オープンソースバージョン VITA

OpenAI のオープンソース GPT-4o を待つのではなく、オープンソースバージョン VITA を待ちましょう

2024-08-14

マシンハートレポート

マシーンハート編集部

オープンソース分野にまたしても朗報が入ってきました。

大規模言語モデル (LLM) は大幅な進化を遂げており、最近では、驚くべきマルチモーダル機能を示すマルチモーダル大規模言語モデル (MLLM) のブームも目の当たりにしています。

特に GPT-4o の登場は MLLM 分野の発展を大きく促進しました。しかし、これらのモデルに対応するオープンソースモデルは大幅に不十分です。オープンソースコミュニティがこの分野の開発をさらに促進することが緊急に必要であることは、いくら強調してもしすぎることはありません。

この記事では、Tencent Youtu Lab およびその他の機関の研究者が、ビデオ、画像、テキスト、オーディオモダリティを同時に処理および分析できる初のオープンソースマルチモーダル大規模言語モデル (MLLM) である VITA を提案しています。同時に、高度なマルチモーダルインタラクティブエクスペリエンスも備えています。

研究者らは、言語の基礎として Mixtral 8×7B を使用し、中国語の語彙を拡張し、バイリンガルの指示を微調整しました。さらに、研究者らは、マルチモーダルアライメントと命令の微調整という 2 段階のマルチタスク学習を通じて、言語モデルに視覚および音声機能をさらに与えました。

VITA は、シングルモーダルおよびマルチモーダルのベンチマークでの優れたパフォーマンスによって証明されているように、強力な多言語、視覚および音声理解機能を実証しています。

基本的な機能に加えて、この研究は、自然なマルチモーダルな人間とコンピューターの対話エクスペリエンスの向上においても大きな進歩をもたらしました。私たちの知る限り、これは MLLM における非ウェイクインタラクションと音声中断を利用した最初の研究です。研究者らはまた、追加のステータストークンと、さまざまなインタラクションシナリオを認識するための対応するトレーニングデータと戦略を設計しました。

VITA は二重アプローチを使用して導入されており、1 つのモデルはユーザーのクエリに対する応答の生成を担当し、もう 1 つのモデルは環境入力を継続的に追跡します。これにより、VITA には優れた人間とコンピューターの対話機能が与えられます。

VITA は、オープンソースコミュニティがマルチモーダルな理解と対話のシームレスな統合を模索するための最初のステップです。 VITA については、クローズドソースの同等物に近づくためにやるべき多くの作業がまだ残っていますが、この研究では、先駆者としての VITA の役割がその後の研究の基礎となることを期待しています。

論文アドレス: https://arxiv.org/pdf/2408.05211
紙のホームページ：https://vita-home.github.io/
論文のタイトル: VITA: オープンソースのインタラクティブオムニマルチモーダル LLM に向けて

動画链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2b21d69 4dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

上のビデオでは、ユーザーが着ている白い T シャツを見て、数学の質問をされると、それに合わせるパンツの色が表示され、質問の種類が表示されます。リアルタイムで推論し、他の人と話しているとき、VITA は会話を中断しません。VITA は、そのプロセス中にいくつかの提案も行います。 VITA 出力の場合、リアルタイムで会話を中断して別のトピックを開始することもできます。

このビデオでは、ユーザーがビスケットを持って VITA に何を食べているのか尋ねると、VITA はビスケットを食べていると答え、ビスケットは牛乳か紅茶と一緒に食べるとおいしいと提案します。

ワークアウト中は、チャットパートナーとして機能します。

注: 上記のビデオは 1 倍の速度でリアルタイムに再生されており、高速化されていません。

ユーザーが提供したフローチャートに基づいて、VITA はコードを書くことができます。

写真を提供すると、VITA は写真の内容に基づいて質問に答えることもできます。

また、ビデオを視聴して質問に答えることもできます。「犬の動きを詳しく説明してください」という質問に対して、VITA は正確に答えることができます。

手法の紹介

図 3 に示すように、VITA の全体的なトレーニングプロセスには、LLM 命令の微調整、マルチモーダルアライメント、およびマルチモーダル命令の微調整の 3 つの段階が含まれます。

LLM 命令の微調整

Mixtral 8x7B のパフォーマンスはトップのオープンソース LLM の 1 つであるため、この調査の基礎として使用されました。しかし、研究者らは、公式の Mixtral モデルでは中国語を理解する能力が限られていることに気づきました。バイリンガル (中国語と英語) の理解能力を導入するために、この研究では中国語の語彙を基本モデルに拡張し、語彙数を 32,000 から 51,747 に増やしました。語彙を拡張した後、研究者らは 500 万の合成バイリンガルコーパスを使用して、プレーンテキストの指示を微調整しました。

マルチモーダルアライメント

テキストと他のモダリティの間の表現のギャップを埋めることで、マルチモーダルな理解の基礎を築きます。ビジュアルコネクタは、ビジュアルアライメントフェーズ中にのみトレーニングされます。表 1 は、プレーンテキスト部分を除いて、使用されたトレーニングデータをまとめたものです。

視覚的モダリティ

1 つ目はビジュアルエンコーダーです。研究者らは、ビジュアルエンコーダとして InternViT-300M-448px を使用しました。これは、入力として解像度 448×448 の画像を取得し、シンプルな 2 層 MLP としてビジュアルコネクタを使用した後、256 個のトークンを生成しました。高解像度の画像入力の場合、研究者は動的パッチ戦略を使用して局所的な詳細をキャプチャします。

ビデオは画像の特別な使用例とみなされます。ビデオの長さが 4 秒未満の場合、1 秒あたり 4 フレームが均等にサンプリングされます。ビデオの長さが 4 秒から 16 秒の間の場合、1 秒ごとに 1 フレームがサンプリングされます。 16 秒を超えるビデオの場合、16 フレームが均一にサンプリングされます。

2つ目は視覚的な調整です。視覚的な調整フェーズでのみ視覚的なコネクタをトレーニングし、このフェーズでは音声による質問は使用しませんでした。

最後に、データのカスケードがあります。この研究では、図 4 に示すように、プレーンテキストデータと画像データについて、コンテキスト長を 6K トークンに連結することを目的としています。ビデオデータは連結されていないことに注意してください。

異種データをカスケード接続すると、次の 2 つの利点があります。

より長いコンテキスト長をサポートし、単一の画像の質問インタラクションから複数の画像の質問インタラクションに拡張できるため、より柔軟な入力フォームと拡張されたコンテキスト長が得られます。
通常、ビデオフレームには多数のビジュアルトークンが含まれるため、計算効率が向上します。この研究では、画像と質問のペアを連結することにより、トレーニングバッチ内のトークンのバランスのとれた数を維持することができ、それによって計算効率が向上します。

さらに、この研究では、カスケードデータを使用してトレーニングされたモデルが、生データを使用してトレーニングされたモデルと同等のパフォーマンスを発揮することがわかりました。

オーディオモダリティ

片側にはオーディオエンコーダがあります。入力オーディオは、最初にメルフィルターブロックを通じて処理されます。メルフィルターブロックは、オーディオ信号をメル周波数範囲内の個々の周波数帯域に分解し、人間による非線形の音の知覚を模倣します。その後、研究者らは、4×CNN ダウンサンプリングレイヤーと合計 3 億 4,100 万のパラメーターを備えた 24 レイヤーのトランスフォーマーを使用して、入力特徴を処理しました。また、オーディオテキストモーダルコネクタとして単純な 2 層 MLP を使用します。最後に、2 秒ごとの音声入力が 25 個のトークンにエンコードされます。

もう 1 つの側面はオーディオ調整です。位置合わせタスクでは、研究者らは自動音声認識 (ASR) を利用しました。データセットには、Wenetspeech (主に中国語のタスクに焦点を当てた 10,000 時間以上のマルチドメイン音声認識データを含む) と Gigaspeech (10,000 時間の高品質音声データを含み、そのほとんどが英語の音声認識タスクに向けられたもの) が含まれます。音声字幕タスクでは、研究者らは Wavcaps の AudioSet SL サブセットを使用しました。これには、対応する音声字幕を含む 400k 音声クリップが含まれています。調整プロセス中に、オーディオエンコーダとコネクタがトレーニングされます。

マルチモーダル命令の微調整

この研究では、テキストであれ音声であれ、指示に従う能力を強化するためにモデルを適応させました。

データ構築。命令調整フェーズのデータソースは、表 1 の調整フェーズのデータソースと同じですが、この調査では次の改善が加えられています。

質問はランダムに (約半分) 音声バージョン (GPT-SoVITS6 などの TTS テクノロジーを使用) に置き換えられ、音声クエリに対するモデルの理解と指示に従う能力を強化することを目的としています。

表 2 に示すように、異なるタイプのデータ間の競合を避けるために、異なるシステムプロンプトを設定します。たとえば、一部の質問は視覚情報に基づいて、またはモデル自身の知識に基づいて回答できるため、矛盾が生じます。さらに、画像データはマルチフレームビデオデータと同様にパッチされているため、モデルが混乱する可能性があります。システムプロンプトはさまざまなデータ型を明示的に区別するため、より直観的に理解するのに役立ちます。

本研究では、非ウェイクアップインタラクションと音声中断インタラクションという 2 つのインタラクティブ機能を実現するために、図 1 に示すように 2 つの VITA モデルを同時に展開する二重展開フレームワークを提案します。

通常、生成モデルはユーザーのクエリに答えます。同時に、モニタリングモデルは生成プロセス中に環境音を検出します。クエリ以外のユーザー音声は無視されますが、クエリ音声が認識されるとモデル生成の進行が停止します。その後、監視モデルは履歴コンテキストを統合し、最新のユーザークエリに応答し、生成モデルと監視モデルの ID が切り替わります。

実験による評価

言語パフォーマンス。言語モデルのトレーニングプロセスの有効性を検証するために、研究者らは 4 つのデータセット、つまり C-EVAL、AGIEVAL、MMLU、GSM8K を使用しました。これらのデータセットは、一般的な多肢選択問題、多分野にわたるクイズ問題、数学的および論理的推論タスクなど、中国語と英語の両方のコンテキストを含むさまざまなシナリオをカバーしています。

以下の表 3 の結果は、この記事のトレーニングにより、英語関連のベンチマーク (MMLU) および数学的推論の改善このタスク (GSM8K) では大幅な改善が達成されました。

オーディオパフォーマンス。モデルによって学習された音声表現の堅牢性を検証するために、研究者らは Wenetspeech と Librispeech という 2 つのデータセットに対してテストを実施しました。

このうち、Wenetspeech には test_net と test_meeting という 2 つの評価指標があり、前者のデータソースの方がトレーニングデータとの整合性が高いため、後者の方がより簡単です。 Librispeech は、モデルの保持データセットとして、未確認のデータセットに対するモデルの汎化能力を評価します。「dev」で始まるものは検証セット、「test」で始まるものは 4 つの評価セットです。はテストセットで、「クリーン」は難易度が低いセットを表し、「その他」は難易度が高いセットを表します。

以下の表 4 の結果からわかるように、VITA は ASR ベンチマークテストで非常に良好な結果を達成しました。

マルチモーダルなパフォーマンス。マルチモーダル機能を評価するために、調査では MME、OCRBench、HallusionBench、Video-MME を含む 4 つのベンチマークで VITA を評価しました。結果を図 5 に示します。

画像の理解という点では、VITA は画像に特化したオープンソースモデル LLaVA-Next よりも優れており、クローズドソースモデルの Gemini 1.5 Pro に近いです。

ビデオの理解という点では、VITA はオープンソースのビデオモデルである Video-CCAM を上回っています。 VITA とビデオ固有の LLaVA-Next-Video の間にはギャップがありますが、VITA がより幅広いモダリティをサポートし、インタラクティブ性を優先していることを考えると、これは許容範囲です。

最後に、オープンソースモデルとプロプライエタリモデルとの間には、ビデオ理解能力に依然として大きなギャップがあることは注目に値します。

ニュース