ニュース

マルチモーダルモデル評価フレームワーク lmms-eval がリリースされました。包括的なカバー、低コスト、ゼロ汚染

2024-08-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

とともに大型モデル研究の深化に伴い、それをより多くのモダリティに拡張する方法が学界や産業界で話題になっています。最近リリースされたクローズドソースの大型モデル GPT-4oクロード 3.5 などではすでに超画像理解機能を備えており、LLaVA-NeXT、MiniCPM、InternVL などのオープンソース ドメイン モデルもクローズド ソースに近づきつつあるパフォーマンスを示しています。


この「ムーあたり 80,000 キログラム」と「10 日に 1 つの SoTA」の時代では、使いやすく、透明性のある基準があり、再現可能なマルチモーダルな評価フレームワークがますます重要になっていますが、これは簡単ではありません。


上記の問題を解決するために、南洋理工大学 LMMs-Lab の研究者らは、マルチモーダル大規模モデル向けに特別に設計された評価フレームワークであり、マルチモーダル モデルの評価方法を提供する LMMs-Eval を共同でオープンソース化しました。 (LMM) ワンストップの効率的なソリューション。


  • コードリポジトリ: https://github.com/EvolvingLMMs-Lab/lmms-eval

  • 公式ホームページ:https://lmms-lab.github.io/

  • 論文アドレス: https://arxiv.org/abs/2407.12772

  • リストアドレス: https://huggingface.co/spaces/lmms-lab/LiveBench


2024 年 3 月のリリース以来、LMMs-Eval フレームワークは、オープンソース コミュニティ、企業、大学を含む多くの関係者から協力的な貢献を受けてきました。現在、Github で 1.1,000 個のスターを獲得しており、合計 80 以上のデータセットと 10 以上のモデルを含む 30 名以上の寄稿者がおり、まだ成長を続けています。

 

標準化された評価フレームワーク


標準化された評価プラットフォームを提供するために、LMMs-Eval には次の機能が含まれています。


  1. 統合インターフェイス: LMMs-Eval は、テキスト評価フレームワーク lm-evaluation-harness に基づいて改良および拡張されており、モデル、データ セット、評価指標の統合インターフェイスを定義することで、ユーザーが新しいマルチモーダル モデルとデータを追加するのに便利です。セット。

  2. ワンクリックで起動: LMMs-Eval は、すべてのバリアント、バージョン、分割を含む、元のソースから慎重に変換された 80 を超える (そして増加中の) データセットを HuggingFace 上でホストします。ユーザーは準備をする必要がなく、コマンドを 1 つ行うだけで、複数のデータ セットとモデルが自動的にダウンロードされてテストされ、数分で結果が得られます。

  3. 透明性と再現性: LMMs-Eval には、モデルが回答した各質問とそれが正しいかどうかが記録され、再現性と透明性が確保されます。また、異なるモデルの長所と短所の比較も容易になります。


LMMs-Eval のビジョンは、将来のマルチモーダル モデルで独自のデータ処理、推論、送信コードを記述する必要がなくなることです。マルチモーダル テスト セットが高度に集中している今日の環境では、このアプローチは非現実的であり、測定されたスコアを他のモデルと直接比較することは困難です。 LMMs-Eval にアクセスすることで、モデル トレーナーは評価や調整の結果に時間を費やすのではなく、モデル自体の改善と最適化に集中できます。


評価の「不可能な三角形」


LMMs-Eval の最終的な目標は、1. 広い範囲、2. 低コスト、3. データ漏洩ゼロの LMM を評価する方法を見つけることです。ただし、LMMs-Eval を使用しても、これら 3 つのポイントを同時に達成することは困難、または不可能であることが著者チームによってわかりました。


下図に示すように、評価データセットを50以上に拡大すると、これらのデータセットを総合的に評価するのに非常に時間がかかりました。さらに、これらのベンチマークはトレーニング中の汚染の影響を受けやすくなります。この目的のために、LMMs-Eval は、広いカバレッジと低コストを考慮して LMMs-Eval-Lite を提案しました。また、LiveBench は低コストでデータ漏洩がゼロになるように設計されています。

 

LMMs-Eval-Lite: 広範囲をカバーする軽量の評価

 

大規模なモデルを評価する場合、パラメーターとテスト タスクの数が多いため、評価タスクの時間とコストが大幅に増加することがよくあります。そのため、評価には小さなデータ セットを使用するか、特定のデータ セットを使用することを選択することがよくあります。ただし、評価が限定されていると、モデルの機能が理解できなくなることがよくあります。評価の多様性と評価コストの両方を考慮するために、LMMs-Eval は LMMs-Eval-Lite を立ち上げました。

 

LMMs-Eval-Lite は、モデル開発中に便利で高速な信号を提供するための簡略化されたベンチマーク セットを構築し、今日のテストの肥大化の問題を回避することを目的としています。モデル間の絶対スコアと相対ランキングがフルセットと同様のままである既存のテストセットのサブセットを見つけることができれば、これらのデータセットをプルーニングしても安全であると考えることができます。


データセット内のデータの顕著な点を見つけるために、LMMs-Eval はまず CLIP および BGE モデルを使用してマルチモーダル評価データセットをベクトル埋め込みの形式に変換し、k-greedy クラスタリング法を使用してデータの顕著な点を見つけます。ポイント。テストでは、これらの小さなデータセットでも完全なセットと同様の評価機能が実証されました。

 

その後、LMMs-Eval は同じ方法を使用して、より多くのデータ セットをカバーする Lite バージョンを作成しました。これらのデータ セットは、開発中の評価コストを節約してモデルのパフォーマンスを迅速に判断できるように設計されています。

 

LiveBench: LMM の動的テスト

従来のベンチマークは、固定された質問と回答を使用した静的な評価に重点を置いています。マルチモーダル研究の進歩により、スコア比較ではオープンソース モデルが GPT-4V などの商用モデルよりも優れていることがよくありますが、実際のユーザー エクスペリエンスでは劣ります。動的なユーザー指向のチャットボット Arenas と WildVision は、モデルの評価にますます人気が高まっていますが、何千ものユーザーの好みを収集する必要があるため、評価に非常にコストがかかります。


LiveBench の中心となるアイデアは、汚染ゼロを達成し、コストを低く抑えるために、継続的に更新されるデータセットでモデルのパフォーマンスを評価することです。著者チームは Web から評価データを収集し、ニュースやコミュニティ フォーラムなどの Web サイトから最新のグローバル情報を自動的に収集するパイプラインを構築しました。情報の適時性と信頼性を確保するために、著者チームは CNN、BBC、日本の朝日新聞、中国の新華社通信を含む 60 以上の報道機関や Reddit などのフォーラムから情報源を選択しました。具体的な手順は次のとおりです。


  1. ホームページのスクリーンショットをキャプチャし、広告やニュース以外の要素を削除します。

  2. GPT4-V、Claude-3-Opus、Gemini-1.5-Pro など、現在利用可能な最も強力なマルチモーダル モデルを使用して質問と回答のセットを設計します。別のモデルによるレビューと修正

  3. 正確さと関連性を確保するための質問。

  4. 最終的な質問と回答セットは手動でレビューされ、毎月約 500 個の質問が収集され、100 ~ 300 個が最終的なライブベンチ質問セットとして保持されます。

  5. LLaVA-Wilder および Vibe-Eval の採点基準が使用されます。採点モデルは、提供された標準回答に基づいて得点し、得点範囲は [1、10] です。デフォルトのスコアリング モデルは GPT-4o で、代替として Claude-3-Opus および Gemini 1.5 Pro も含まれています。最終的に報告される結果は、0 ~ 100 の範囲の精度メトリクスに変換されたスコアに基づきます。

 

今後は、動的更新リストで毎月動的に更新されるマルチモーダルモデルの最新の評価データや、最新の評価結果をリスト上で確認することもできます。