ニュース

ACL 2024 Oral|私たちは真のマルチモーダル思考連鎖推論からどのくらい離れていますか?

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

この記事の筆頭著者であるChen Qiguang氏は現在、ハルビン工業大学Sier研究室に在学中です。彼の主な研究方向には、大規模モデルの思考連鎖、言語を越えた大規模モデルなどが含まれます。

ここ数年、大規模言語モデル (LLM) は自然言語処理 (NLP) の分野で画期的な進歩を遂げました。これらのモデルは、複雑なコンテキストを理解できるだけでなく、一貫性のある論理的に厳密なテキストを生成することもできます。

しかし、科学技術の発展と応用シナリオの多様化に伴い、単一のテキスト モダリティの機能では現代のニーズを満たすことができなくなっていることは明らかです。より複雑なタスクやシナリオに対処するために、複数のモーダル情報 (画像、ビデオ、オーディオなど) を処理および理解できるインテリジェント システムへの期待がますます高まっています。研究者たちは、より複雑で多様なタスク要件に対処するために、テキスト CoT の機能をマルチモーダル思考連鎖推論の分野に拡張しようと試み始めています。

マルチモーダル思考連鎖に関する初期の研究の 1 つは、Lu らによって導入された ScienceQA ベンチマークです [1]。これは、マルチモーダル思考連鎖 (MCoT) の開発を促進するために視覚情報と言語情報を組み合わせています。 ScienceQA データセットの出現により、研究者は統一されたフレームワークの下でマルチモーダル モデルの思考連鎖推論能力を評価できるようになります。

さらに、Zhang らの研究 [2] により、MCoT のパフォーマンスが新たな最高値に達し、ScienceQA データセットにおけるモデルのパフォーマンスが人間のレベル (93%>88%) を超えました。しかし、現在の多峰性思考連鎖研究は本当にすべての課題に対処できるのでしょうか? ScienceQA などのベンチマーク テストの結果が更新され続ける中、マルチモーダル推論の問題は解決されたと考えてよいでしょうか?

研究者らは詳細な分析を通じて、現在のマルチモーダル思考チェーンベンチマークには依然として深刻な問題があり、モデルの実際の能力の過大評価につながっていることを発見しました。現在のマルチモーダル思考チェーンのベンチマークは、依然として次の 3 つの深刻な問題に直面しています。視覚的な様相推論が欠落しているシングルステップのビジュアルモーダル推論のみ同様にカバー範囲が不十分

これらの問題は、マルチモーダルな思考連鎖の分野の発展を著しく制限します。したがって、研究者は新しいベンチマークを提案しました



(マルチドメイン マルチステップ マルチモーダル思考連鎖) は、上記の問題を解決し、マルチドメイン、マルチステップ、マルチモーダルな思考連鎖の進歩を促進することを目的としています。研究者らはまた、豊富なマルチモーダル推論設定と手法を含む包括的な評価も実施しました。

研究者らはまた、現在の大規模なマルチモーダル モデルでは、



以前の従来のマルチモーダル思考チェーン ベンチマークでは良好なパフォーマンスを示していましたが、パフォーマンスには大きな欠陥があります。研究チームが最終的に期待しているのは、



これは貴重なリソースとなり、多分野、多段階、多モードの思考連鎖に関する研究に画期的な基盤を提供する可能性があります。



リストアドレス: https://lightchen233.github.io/M3CoT.github.io/leaderboard.html

論文アドレス: https://arxiv.org/abs/2405.16473

コードアドレス: https://github.com/LightChen233/M3CoT

モチベーション

MCoT 研究分野では大きな進歩が見られましたが、既存のベンチマークには依然として多くの欠点があります。

1.視覚的な様相推論が欠落している: モデルは多くの場合、テキスト モダリティのみに基づいて推論と回答を生成できますが、これはマルチモーダル CoT モデルの機能を真に反映していません。

2.シングルステップのビジュアルモーダル推論: たとえば、写真の中の「羽」を 1 回見るだけで、直接答えが得られます。実際のアプリケーションでは、複数ステップの推論がより一般的かつ必要であり、包括的な推論を実行するには、モデルが推論プロセス中にマルチモーダル情報を複数回動的に組み合わせる必要があります。

3.ドメインがありません: 思考チェーンにとって、常識的推論と数学的推論はこの分野の重要な要素ですが、既存のベンチマークは常識や数学などの重要な領域をカバーしていないため、マルチモーダル CoT 機能の包括的な評価が制限されています。



上記の問題に対処するために、研究者は新しいベンチマークを開発しました。



、多分野、多段階、多モードの思考連鎖の研究開発を促進したいと考えています。



データ構築プロセス





の構築には、次の 4 つの主要な段階が含まれます。



マルチモーダル大規模言語モデルの評価結果のストリーミング

研究者は、Kosmos-2、InstructBLIP、LLaVA-V1.5、CogVLM、Gemini、GPT4V などの複数の大規模視覚言語モデル (VLLM) で広範な実験を行ってきました。研究者らはまた、サンプルの直接提出、思考連鎖プロンプティング (CoT) [3]、記述的プロンプティング (Desp-CoT) [4]、シーン ダイアグラム思考連鎖プロンプティング戦略 (CCoT) [5] などのいくつかのプロンプト戦略も研究しています。 ]。





分析する







探検する

これに基づいて、研究者らは現在一般的に使用されているさまざまなマルチモーダルな方法と設定をさらに調査し、それらが効果的に解決できるかどうかを調査しました。



の問題。

ツールの使用状況の調査

マルチモーダル推論では、ツールの使用はモデルのパフォーマンスを向上させる効果的な戦略であると考えられています。研究者らは、HuggingGPT、VisualChatGPT、IdealGPT、Chameleon などのモデルを含む複数のツールの使用を実験で評価しました。

マルチモーダル ツールを使用して大規模モデルにテキストを送信



パフォーマンスが悪い: 実験結果によると、これらのツールはシングルモーダル タスクでは良好にパフォーマンスしますが、



ベンチマークのパフォーマンスには依然として大きなギャップがあります。たとえば、HuggingGPT が複雑な複数ステップの推論タスクを処理する場合、視覚情報を効果的に使用できないため、そのパフォーマンスは比較的劣ります。さらに、VisualChatGPT と IdealGPT は、マルチモーダル インタラクションを必要とするタスクを処理する際にも期待に応えられませんでした。これらの結果は、マルチモーダル情報をより適切に統合して利用するには、現在のツール使用フレームワークをさらに改善する必要があることを示唆しています。



状況に応じた学習の探索





コマンドによる探索の微調整



結論と展望



参考文献:

[1] Lu et al. Learn to Explain: Multimodal Reasoning via

科学的な質問に回答するための思考連鎖。NeurIPS 2022の論文集に掲載。

[2] Zhang et al. マルチモーダルナレッジグラフによるマルチモーダル推論 ACL 2024

[3] 小島ら「大規模言語モデルはゼロショット推論器である」NeurIPS 2022年論文集。

[4] Wu et al.「複雑な視覚言語推論タスクにおける思考連鎖の役割」Arxiv 2023。

[5] ミトラら「大規模マルチモーダルモデルのための構成的思考連鎖促進」CVPR 2024。