私の連絡先情報
郵便管理者@information.bz
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
マシンハートレポート
マシーンハート編集部
オープンソース分野にまたしても朗報が入ってきました。
大規模言語モデル (LLM) は大幅な進化を遂げており、最近では、驚くべきマルチモーダル機能を示すマルチモーダル大規模言語モデル (MLLM) のブームも目の当たりにしています。
特に GPT-4o の登場は MLLM 分野の発展を大きく促進しました。しかし、これらのモデルに対応するオープンソース モデルは大幅に不十分です。オープンソース コミュニティがこの分野の開発をさらに促進することが緊急に必要であることは、いくら強調してもしすぎることはありません。
この記事では、Tencent Youtu Lab およびその他の機関の研究者が、ビデオ、画像、テキスト、オーディオ モダリティを同時に処理および分析できる初のオープンソース マルチモーダル大規模言語モデル (MLLM) である VITA を提案しています。同時に、高度なマルチモーダル インタラクティブ エクスペリエンスも備えています。
研究者らは、言語の基礎として Mixtral 8×7B を使用し、中国語の語彙を拡張し、バイリンガルの指示を微調整しました。さらに、研究者らは、マルチモーダルアライメントと命令の微調整という 2 段階のマルチタスク学習を通じて、言語モデルに視覚および音声機能をさらに与えました。
VITA は、シングルモーダルおよびマルチモーダルのベンチマークでの優れたパフォーマンスによって証明されているように、強力な多言語、視覚および音声理解機能を実証しています。
基本的な機能に加えて、この研究は、自然なマルチモーダルな人間とコンピューターの対話エクスペリエンスの向上においても大きな進歩をもたらしました。私たちの知る限り、これは MLLM における非ウェイク インタラクションと音声中断を利用した最初の研究です。研究者らはまた、追加のステータス トークンと、さまざまなインタラクション シナリオを認識するための対応するトレーニング データと戦略を設計しました。
VITA は二重アプローチを使用して導入されており、1 つのモデルはユーザーのクエリに対する応答の生成を担当し、もう 1 つのモデルは環境入力を継続的に追跡します。これにより、VITA には優れた人間とコンピューターの対話機能が与えられます。
VITA は、オープンソース コミュニティがマルチモーダルな理解と対話のシームレスな統合を模索するための最初のステップです。 VITA については、クローズドソースの同等物に近づくためにやるべき多くの作業がまだ残っていますが、この研究では、先駆者としての VITA の役割がその後の研究の基礎となることを期待しています。
動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2b21d69 4dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
上のビデオでは、ユーザーが着ている白い T シャツを見て、数学の質問をされると、それに合わせるパンツの色が表示され、質問の種類が表示されます。リアルタイムで推論し、他の人と話しているとき、VITA は会話を中断しません。VITA は、そのプロセス中にいくつかの提案も行います。 VITA 出力の場合、リアルタイムで会話を中断して別のトピックを開始することもできます。
動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2b21d69 4dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
このビデオでは、ユーザーがビスケットを持って VITA に何を食べているのか尋ねると、VITA はビスケットを食べていると答え、ビスケットは牛乳か紅茶と一緒に食べるとおいしいと提案します。
ワークアウト中は、チャットパートナーとして機能します。
動画链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2b21d69 4dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd
注: 上記のビデオは 1 倍の速度でリアルタイムに再生されており、高速化されていません。
ユーザーが提供したフローチャートに基づいて、VITA はコードを書くことができます。
写真を提供すると、VITA は写真の内容に基づいて質問に答えることもできます。
また、ビデオを視聴して質問に答えることもできます。「犬の動きを詳しく説明してください」という質問に対して、VITA は正確に答えることができます。
手法の紹介
図 3 に示すように、VITA の全体的なトレーニング プロセスには、LLM 命令の微調整、マルチモーダル アライメント、およびマルチモーダル命令の微調整の 3 つの段階が含まれます。
LLM 命令の微調整
Mixtral 8x7B のパフォーマンスはトップのオープンソース LLM の 1 つであるため、この調査の基礎として使用されました。しかし、研究者らは、公式の Mixtral モデルでは中国語を理解する能力が限られていることに気づきました。バイリンガル (中国語と英語) の理解能力を導入するために、この研究では中国語の語彙を基本モデルに拡張し、語彙数を 32,000 から 51,747 に増やしました。語彙を拡張した後、研究者らは 500 万の合成バイリンガル コーパスを使用して、プレーン テキストの指示を微調整しました。
マルチモーダルアライメント
テキストと他のモダリティの間の表現のギャップを埋めることで、マルチモーダルな理解の基礎を築きます。ビジュアル コネクタは、ビジュアル アライメント フェーズ中にのみトレーニングされます。表 1 は、プレーン テキスト部分を除いて、使用されたトレーニング データをまとめたものです。
視覚的モダリティ
1 つ目はビジュアル エンコーダーです。研究者らは、ビジュアル エンコーダとして InternViT-300M-448px を使用しました。これは、入力として解像度 448×448 の画像を取得し、シンプルな 2 層 MLP としてビジュアル コネクタを使用した後、256 個のトークンを生成しました。高解像度の画像入力の場合、研究者は動的パッチ戦略を使用して局所的な詳細をキャプチャします。
ビデオは画像の特別な使用例とみなされます。ビデオの長さが 4 秒未満の場合、1 秒あたり 4 フレームが均等にサンプリングされます。ビデオの長さが 4 秒から 16 秒の間の場合、1 秒ごとに 1 フレームがサンプリングされます。 16 秒を超えるビデオの場合、16 フレームが均一にサンプリングされます。
2つ目は視覚的な調整です。視覚的な調整フェーズでのみ視覚的なコネクタをトレーニングし、このフェーズでは音声による質問は使用しませんでした。
最後に、データのカスケードがあります。この研究では、図 4 に示すように、プレーン テキスト データと画像データについて、コンテキスト長を 6K トークンに連結することを目的としています。ビデオデータは連結されていないことに注意してください。
異種データをカスケード接続すると、次の 2 つの利点があります。
さらに、この研究では、カスケード データを使用してトレーニングされたモデルが、生データを使用してトレーニングされたモデルと同等のパフォーマンスを発揮することがわかりました。
オーディオモダリティ
片側にはオーディオエンコーダがあります。入力オーディオは、最初にメル フィルター ブロックを通じて処理されます。メル フィルター ブロックは、オーディオ信号をメル周波数範囲内の個々の周波数帯域に分解し、人間による非線形の音の知覚を模倣します。その後、研究者らは、4×CNN ダウンサンプリング レイヤーと合計 3 億 4,100 万のパラメーターを備えた 24 レイヤーのトランスフォーマーを使用して、入力特徴を処理しました。また、オーディオ テキスト モーダル コネクタとして単純な 2 層 MLP を使用します。最後に、2 秒ごとの音声入力が 25 個のトークンにエンコードされます。
もう 1 つの側面はオーディオ調整です。位置合わせタスクでは、研究者らは自動音声認識 (ASR) を利用しました。データ セットには、Wenetspeech (主に中国語のタスクに焦点を当てた 10,000 時間以上のマルチドメイン音声認識データを含む) と Gigaspeech (10,000 時間の高品質音声データを含み、そのほとんどが英語の音声認識タスクに向けられたもの) が含まれます。音声字幕タスクでは、研究者らは Wavcaps の AudioSet SL サブセットを使用しました。これには、対応する音声字幕を含む 400k 音声クリップが含まれています。調整プロセス中に、オーディオ エンコーダとコネクタがトレーニングされます。
マルチモーダル命令の微調整
この研究では、テキストであれ音声であれ、指示に従う能力を強化するためにモデルを適応させました。
データ構築。命令調整フェーズのデータ ソースは、表 1 の調整フェーズのデータ ソースと同じですが、この調査では次の改善が加えられています。
質問はランダムに (約半分) 音声バージョン (GPT-SoVITS6 などの TTS テクノロジーを使用) に置き換えられ、音声クエリに対するモデルの理解と指示に従う能力を強化することを目的としています。
表 2 に示すように、異なるタイプのデータ間の競合を避けるために、異なるシステム プロンプトを設定します。たとえば、一部の質問は視覚情報に基づいて、またはモデル自身の知識に基づいて回答できるため、矛盾が生じます。さらに、画像データはマルチフレーム ビデオ データと同様にパッチされているため、モデルが混乱する可能性があります。システム プロンプトはさまざまなデータ型を明示的に区別するため、より直観的に理解するのに役立ちます。
本研究では、非ウェイクアップインタラクションと音声中断インタラクションという 2 つのインタラクティブ機能を実現するために、図 1 に示すように 2 つの VITA モデルを同時に展開する二重展開フレームワークを提案します。
通常、生成モデルはユーザーのクエリに答えます。同時に、モニタリングモデルは生成プロセス中に環境音を検出します。クエリ以外のユーザー音声は無視されますが、クエリ音声が認識されるとモデル生成の進行が停止します。その後、監視モデルは履歴コンテキストを統合し、最新のユーザー クエリに応答し、生成モデルと監視モデルの ID が切り替わります。
実験による評価
言語パフォーマンス。言語モデルのトレーニング プロセスの有効性を検証するために、研究者らは 4 つのデータ セット、つまり C-EVAL、AGIEVAL、MMLU、GSM8K を使用しました。これらのデータセットは、一般的な多肢選択問題、多分野にわたるクイズ問題、数学的および論理的推論タスクなど、中国語と英語の両方のコンテキストを含むさまざまなシナリオをカバーしています。
以下の表 3 の結果は、この記事のトレーニングにより、英語関連のベンチマーク (MMLU) および数学的推論の改善 このタスク (GSM8K) では大幅な改善が達成されました。
オーディオパフォーマンス。モデルによって学習された音声表現の堅牢性を検証するために、研究者らは Wenetspeech と Librispeech という 2 つのデータセットに対してテストを実施しました。
このうち、Wenetspeech には test_net と test_meeting という 2 つの評価指標があり、前者のデータ ソースの方がトレーニング データとの整合性が高いため、後者の方がより簡単です。 Librispeech は、モデルの保持データセットとして、未確認のデータセットに対するモデルの汎化能力を評価します。「dev」で始まるものは検証セット、「test」で始まるものは 4 つの評価セットです。はテスト セットで、「クリーン」は難易度が低いセットを表し、「その他」は難易度が高いセットを表します。
以下の表 4 の結果からわかるように、VITA は ASR ベンチマーク テストで非常に良好な結果を達成しました。
マルチモーダルなパフォーマンス。マルチモーダル機能を評価するために、調査では MME、OCRBench、HallusionBench、Video-MME を含む 4 つのベンチマークで VITA を評価しました。結果を図 5 に示します。
画像の理解という点では、VITA は画像に特化したオープンソース モデル LLaVA-Next よりも優れており、クローズドソース モデルの Gemini 1.5 Pro に近いです。
ビデオの理解という点では、VITA はオープンソースのビデオ モデルである Video-CCAM を上回っています。 VITA とビデオ固有の LLaVA-Next-Video の間にはギャップがありますが、VITA がより幅広いモダリティをサポートし、インタラクティブ性を優先していることを考えると、これは許容範囲です。
最後に、オープンソース モデルとプロプライエタリ モデルとの間には、ビデオ理解能力に依然として大きなギャップがあることは注目に値します。