VLM は総称して「盲目」ですか?視力検査は惨めに不合格、GPT-4oとClaude 3.5は両方とも不合格

VLM は総称して「盲目」ですか?視力検査は惨めに失敗し、GPT-4oとClaude 3.5は両方とも不合格でした

2024-07-16

新しい知恵のレポート

編集者：編集部

【新しい知恵の紹介】視覚的な大規模な言語モデルは、最も基本的な視覚的なタスクで「ひっくり返る」可能性があります。おそらく、これらの最も高度な VLM は、実際の視覚的な機能をまだ開発していないのではないでしょうか。

GPT-4o や Gemini 1.5 Pro などの最新の言語モデルは、リリース時に「ネイティブマルチモーダル」として定義され、画像、音声、テキストなどの複数形式の入力を理解できます。

これらのマルチモーダル LLM は、関連する紹介文、マーケティング、さらには学術論文でも「視覚的能力」や「視覚的理解」などの表現を使用します。

これは、モデルはある意味物事を見て理解することができ、その能力はすでに人間と同等であることを意味しているようです。

そこでアイデアを考えてみましょう。視覚言語モデルの視力を検査すると、標準視力 5.2 か重度の近視になるのでしょうか、それともまったく何も見えないのでしょうか?

新しい研究は、大規模な言語モデルが実際には期待される人間のような視覚能力を備えていないことを示しています。真実は、彼らは単に「盲目」であるということです。

オーバーン大学とアルバータ大学の研究者は、一連の非常に単純な視覚タスクで今日の最先端のマルチモーダルモデル 4 つをテストしましたが、結果が満足のいくものではないことがわかりました。

これらのタスクは、人間にとって非常に簡単です。たとえば、2 つの図形が重なっているかどうか、絵の中に五角形が何個あるか、単語の中のどの文字が丸で囲まれているかなどです。

しかし、これらの高度なモデルの視覚はよく言っても「近視眼的」であり、見える細部は非常にぼやけています。最悪の場合、モデルは知識に基づいた推測を行う「賢い盲人」のように行動します。

論文アドレス: https://arxiv.org/pdf/2407.06581

7つの主要なタスク

さて、視力検査が正式に始まり、VLM は 7 つの小さなタスクを完了する必要があります。

論文の共著者であるアン・グエ氏は特に「私たちの7つのタスクは非常にシンプルで、人間のパフォーマンス精度は100％に達する可能性がある」と強調した。

では、1 年生でも正解できるこれらの質問に直面したときに、AI モデルはどのように機能するのでしょうか?

タスク 1: 2 つのポリラインには交点がいくつありますか?

Claude 3.5 Sonnet の AI2D で 94.7%、ChartQA での 90.8% のスコアなど、チャートに関する以前のベンチマークテストで VLM が驚くべきパフォーマンスを示したことを考えると、この種の問題は問題ではないはずだと合理的に推測できます。

下の図に示すように、白いキャンバス上に合計 150 個の折れ線グラフが描画されます。これらはすべて 2 つの折れ線で構成され、各折れ線は 3 つの点で定義されます。

これら 3 つの点の x 座標は固定され等距離にあり、y 座標はランダムサンプリングによって取得されるため、交差番号が 0、1、または 2 の 2 つのポリラインが作成されます。

実験では、「青と赤の線は何回交差しますか?」と「青と赤の線は何回交差しますか?」という 2 つの異なる表現を使用して大きなモデルに質問しました。

これら 2 つの質問に答える各モデルの平均精度を計算することで、一部の即時効果を排除し、より正確な結果を得ることができます。

比較すると、Sonnet-3.5 はこのタスクでわずかに優れたパフォーマンスを示し、平均精度は 77.33% ですが、他のモデルのパフォーマンスは劣ります。

77.33% というと良い結果のように聞こえますが、可能な答えは 0、1、2 の 3 つだけであるため、ランダムな推測の正解率は 33% になります。

2 つのポリライン間の距離が狭くなると、VLM のパフォーマンスが低下する傾向があることに注意してください。要約すると、VLM は線分の交点を確実に識別して計算することができません。

タスク 2: 円の交差、接線、分離の問題

この問題は中学校の幾何学のカテゴリに属します。円の交差、接線、分離です (教師がフリーハンドで円を描いた背中を覚えている人はいないでしょう)。

ただし、VLM をそのような観点から検討するのではなく、重複する形状の単純なテストを行います。これはおそらく想像できる最も単純な視覚的推論タスクの 1 つです。

残念ながら、2 つの円がわずかに重なっているか、接触しているか、一定の距離があるかにかかわらず、モデルはいずれの場合も正しい判断を下すことはできません。

比較すると、2 つの円が遠く離れている場合、GPT-4o は 95% 以上の確率で正確ですが、距離がゼロまたは非常に小さい場合、GPT-4o は 18% の確率でしか正確ではなく、50% の正確性よりも低くなります。ランダムに推測する場合のレート。

Gemini Pro 1.5 は平均正解率 92.78 で最高のパフォーマンスを示しましたが、2 つの円間の距離が近い場合、正解率はわずか 70% でした。

タスク 3: 丸で囲まれた文字を識別する

赤い丸 ⭕ を使用して、単語内の文字を一度に 1 つずつ丸で囲みます。このタスクでは、丸で囲まれた文字を識別するために VLM が必要です。

明らかにこの作業は人間にとって簡単ですが、著者らの仮説は、VLM の視界がぼやけている場合、隣接する文字間の間隔が狭いため、丸で囲まれている正確な文字を認識できない可能性があるということです。

「Acknowledgement」、「Subdermatoglyphic」という単語、および文字列 tHyUiKaRbNqWeOpXcZvM が選択されたのは、幅と高さが異なる文字が含まれているためです。 (豆知識、サブダーマトグリフは文字が繰り返されない最長の単語です)

実験の結果、VLM は赤い円の形状を正確に認識し、単語を完璧に綴ることができるものの、「丸で囲まれた文字を読む」ことはすべてのモデルで困難であることがわかりました。たとえば、文字が赤い楕円によって部分的にわずかに隠されている場合、VLM 認識は間違いを犯す傾向があります。

エラーが発生した場合、VLM は通常、丸で囲まれた文字に隣接する文字を予測します。

場合によっては、モデルが幻覚を起こし、単語を正確に綴ることができても、下皮文字に存在しない文字 (例: 9、n、©) が表示されることがあります。

GPT-4o を除くすべてのモデルは、ランダムな文字列よりも 2 つの英語の単語に対してわずかに優れたパフォーマンスを示しました (2 ～ 6 ポイント優れています)。これは、単語自体に精通していることが、VLM がより知識に基づいた推測を行うのに役立つ可能性があることを示唆しています。

Gemini-1.5 と Sonnet-3.5 が上位 2 つのモデル (92.81% と 89.22%) であり、GPT-4o や Sonnet-3 よりも 20 ポイント近く高くなります。

全体として、VLM は単語のスペルに基づいて丸で囲まれた文字が何であるかを推測できる可能性があり、精度がわずかに向上しますが、VLM が赤丸内の文字を認識できるという意味ではありません。

タスク 4: 連動する問題

次に、VLM は「連動」問題、つまり画像内で連動する円の数を計算する必要があります。

ここでBGMが鳴るはずです：ああああ～ファイブリングス、フォーリングスよりもリングが1つ多いね～

このテストの結果は少し奇妙です。画像内に 5 つのリングがある場合、モデルは 100% 正確ですが、もう 1 つのリングがある場合、VLM は完全に混乱します。

ジェミニは方向感覚を失い、一度でも間違って答えましたが、Sonnet-3.5 は 3 分の 1 の確率で正解し、GPT-4o はほぼ半分の確率で正解しました。

著者は「五輪」の識別精度が非常に高く、オリンピックの共通シンボルである「五輪」と密接な関係があると提唱した。

表 5 からわかるように、4 つのモデルすべてで 5 つの円を数える傾向があり、これは 5 つの五角形を数える頻度よりもはるかに多くなります。

このテストは、これらのモデルが何をしていても、私たち人間が理解しているような「視覚」を持たないことを示しています。主な問題は、そのパフォーマンスが非常に不安定であり、異なる数や形状で構成された画像間で認識成功率に大きな差があることです。

タスク 5: 入れ子になった正方形

タスク 2 は、VLM が交差する円を計算するのが難しいことを示しています。では、正方形が別の大きな正方形の中に完全に入れ子になっていて、そのエッジが交差しない場合、VLM のパフォーマンスはどうなるでしょうか。

以下の図に示すように、サイズ C×C のキャンバス上に、N∈{2,3,4,5} 個の入れ子になった正方形をレンダリングします。

まず、ランダムな辺の長さ d∈{2,3,4}px を使用して最も外側の正方形をレンダリングします。残りの N-1 個の正方形は、0.75 × d の縮小係数を使用して描画され、外側の正方形に触れないようにランダムな座標に配置されます。

3 つの線の太さの設定ごとに 10 枚の画像を生成し (正方形のランダムな位置が異なります)、すべての N 値に対してこのプロセスを繰り返し、合計 120 枚の画像が得られます。

ネストされた正方形の数を計算することは、VLM が正確に完了するのが難しいタスクであることがわかります。

モデルの精度は大きく異なり、GPT-4o (48.33%) と Gemini-1.5 (55.00%) は Gemini-1.5 (80.00%) と Claude3.5 (87.50%) より少なくとも 30 ポイント遅れています。

タスク 6: テーブルにはいくつの列と行がありますか?

これまでのタスクの結果から、VLM がオーバーラップ (タスク 4) やネスト (タスク 5) などの問題に対処できないことがわかりました。作成者は、VLM に別の方向を与え、隣接するグラフィックスに関連する問題に対してどのように動作するかを確認することにしました。

著者は正方形をグリッドに配置し、VLM にそれらを数えるように依頼しました。これらの VLM は、表を含む多くの質問を含む DocVQA (精度 ≥ 90%) で良好なパフォーマンスを示しているため、このタスクは VLM にとって簡単であるはずです。

タスクを簡素化するために、著者らはモデルに、特定のテーブル内の行と列の数をカウントするようにのみ要求しました。

モデルは空白のグリッドの行数と列数を正しく計算できないことが判明しました。

ただし、グリッドセルにテキストが含まれている場合、特に Sonnet-3.5 ではすべての VLM のパフォーマンスが向上します。

タスク 7: ロードマップを特定する

このタスクでは、特別に色の付いた経路を識別し、指定された出発点から目的地まで指定された色の線をたどる VLM の能力をテストします。これは、地図を読んで理解するために必要な重要な能力です。

以下の図に示すように、サイズ C×C (C∈{512, 1024}px) の画像上に地下鉄路線図を作成します。

4つの固定座標に4つの駅名(A、B、C、D)を書き込みます。キャンバスを 18 × 18 セルの目に見えないグリッドに分割し、各ステーションから C/18 ピクセル離れた 3 つのパスの開始点を初期化します。

深さ優先探索アルゴリズムを使用して、ランダムなステーションとランダムな開始点から始まるパスを描画します。このアルゴリズムでは、各ステップで 1 つのセルを任意の方向に移動できます。このプロセスを繰り返して、各ステーションが N∈{1,2,3} 個の出力パスを持つようにし、合計 180 個のマップを描画します。

指定された 2 つのステーションを指定すると、このタスクでは VLM が 2 つのステーション間に異なる色のパスが何本あるかを計算する必要があります。

実験の結果、2 つのステーション間にカラーパスが 1 つしかない場合でも、100% の精度を達成できるモデルはないことがわかりました。

最も高い精度は Sonnet-3.5 で、道路が 1 つしかない場合は 95% に達しますが、道路が 2 つある場合、精度はすぐに 50.18% に低下します。

パスの複雑さが 1 パスから 3 パスに増加すると、ほとんどの VLM で大幅なパフォーマンスの低下が見られます。

VLM の「盲目さ」

上記の視覚能力テストで VLM のパフォーマンスが非常に不安定なのはなぜですか?

おそらく、タスク 4 の「オリンピックリング」に対するモデルの好みからヒントが見つかるかもしれません。最も常識的な説明は次のとおりです。

VLM の学習データには「オリンピックの輪」の画像が繰り返し登場し、多くのテキスト資料で詳しく説明されています。

しかし、VLM の学習データでは 6 個または 7 個の連動リングが見つからず、そのため満足のいく答えが得られません。

なぜなら、VLM は自分たちが「見ている」ものをまったく知らない可能性があり、ループ、オーバーラップ、その他の概念が何であるかを実際には理解していない可能性があるからです。

しかし、模型の性能をブラインドで表現したとしても、大手模型会社が「視覚能力」を売り込むのと同じで、模型を擬人化していることに変わりはありません。

研究者のグエン氏はまた、「盲目」には人間であっても多くの定義があり、現在、私たちが見せる画像に対する人工知能の盲目/無感覚を説明する言葉はないと述べた。

VLM の動作は、入力テキストプロンプト、入力画像、数十億の重みの複雑な関数ですが、現時点ではモデルが見ているものを正確に視覚化できるテクノロジーはありません。

これらのモデルは完全に「盲目」ではなく、画像から「おおよその」抽象的な視覚情報を抽出することしかできず、視覚的に判断することはできないため、画像を理解しているかのように動作しますが、実際にはそれを認識することはできません。

Nguyen 氏は、上記の仮説を十分に裏付ける例を使用しました。

ユーザー: 2 つの円が重なっている領域は何色ですか? GPT-4o: 2 つの円の重なり合う領域の色はターコイズ色 (陰影のあるシアン) です。 Gemini-1.5: 緑の円と青の円が重なっている部分がシアンになります。 Sonnet-3.5: 申し訳ありませんが、写真には 2 つの別々の円 (緑と青) しかありません。重複する領域はありません。

明らかに、Sonnet-3.5 を除いて、GPT-4o と Gemini-1.5 は実際に画像を「見ている」のではなく、画像を「想像している」だけです。

では、この研究は、これらの「視覚的な」AI モデルが役に立たないことを意味するのでしょうか?

しかし実際にはそうではありません。これらの各モデルは、人間の動作や表情、日常的な物体、環境写真の認識など、幅広いタスクで高い精度を実証しています。

この研究の重要性は、VLM の過度に「擬人化された」マーケティング戦略に私たちを幻滅させることです。

テクノロジー大手のマーケティングのレトリックに耳を傾けると、大きなビジュアルモデルは「見える」と本当に思うかもしれません。

しかし、ほんの数回の小さなテストで、VLM と人間の本質的な違いを簡単に発見できます。それは「擬人化」されており、実際にその非人間的な性質が強調されています。

参考文献:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10

https://vlmsareblind.github.io/

ニュース

VLM は総称して「盲目」ですか?視力検査は惨めに失敗し、GPT-4oとClaude 3.5は両方とも不合格でした

導入

私の連絡先情報