소식

VLM은 집합적으로 "맹인"입니까?시력 테스트는 처참하게 실패했고, GPT-4o와 Claude 3.5는 모두 실패했습니다.

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개]가장 기본적인 시각적 작업에서 시각적 대형 언어 모델이 집합적으로 "전복"되었습니다. 아마도 이러한 가장 진보된 VLM이 아직 실제 시각적 기능을 개발하지 못했을 것입니다.

GPT-4o 및 Gemini 1.5 Pro와 같은 최신 언어 모델은 출시 당시 이미지, 오디오 및 텍스트와 같은 다양한 형태의 입력을 이해할 수 있는 "네이티브 멀티모달"로 정의되었습니다.

이러한 다중 모드 LLM은 관련 소개, 마케팅, 심지어 학술 논문에서도 "시각적 능력" 및 "시각적 이해"와 같은 표현을 사용합니다.

이는 모델이 어떤 의미에서 사물을 보고 이해할 수 있다는 뜻인 것 같은데, 이 능력은 이미 인간의 능력과 일치합니다.

그럼 아이디어를 생각해 봅시다. 시각 언어 모델의 시력 테스트를 하면 표준 시력 5.2 또는 심각한 근시가 생길까요, 아니면 아무것도 볼 수 없게 될까요?

새로운 연구에 따르면 대규모 언어 모델은 실제로 예상되는 인간과 같은 시각적 기능을 갖고 있지 않습니다. 사실 그들은 단순히 "맹인"입니다.

Auburn University와 University of Alberta의 연구원들은 일련의 매우 간단한 비전 작업에 대해 오늘날의 최첨단 다중 모드 모델 4개를 테스트한 결과 결과가 만족스럽지 못한 것으로 나타났습니다.

두 도형이 겹치는지, 그림에 오각형이 몇 개 있는지, 단어에서 어떤 문자가 동그라미로 표시되어 있는지 등 인간에게 이러한 작업은 매우 간단합니다.

그러나 이러한 고급 모델의 비전은 기껏해야 "근시안적"이며 보이는 세부 사항은 매우 흐릿합니다. 최악의 경우 모델은 교육받은 추측을 하는 "똑똑한 시각 장애인"처럼 행동합니다.


논문 주소: https://arxiv.org/pdf/2407.06581

7대 과제

이제 시력 테스트가 공식적으로 시작되고 VLM은 7가지 작은 작업을 완료해야 합니다.


논문의 공동 저자인 Anh Nguye는 특히 "우리가 수행하는 7가지 작업은 매우 간단하며 인간의 수행 정확도는 100%에 도달할 수 있습니다"라고 강조했습니다.

그렇다면 초등학교 1학년 학생도 제대로 할 수 있는 이러한 질문에 직면했을 때 AI 모델은 어떻게 작동할까요?


작업 1: 두 폴리라인의 교차점은 몇 개입니까?

Claude 3.5 Sonnet의 AI2D 점수 94.7%, ChartQA 90.8%와 같이 VLM이 차트에 대한 이전 벤치마크 테스트에서 놀라운 성능을 발휘했다는 점을 고려하면 이러한 종류의 문제는 문제가 되지 않을 것이라고 합리적으로 추측할 수 있습니다.

아래 그림과 같이 흰색 캔버스에 총 150개의 선 그래프가 그려져 있으며, 모두 두 개의 폴리라인으로 구성되며 각 폴리라인은 세 개의 점으로 정의됩니다.

이 세 점의 x 좌표는 고정되어 있고 등거리에 있으며 y 좌표는 무작위 샘플링을 통해 얻어지며 교차점이 0, 1 또는 2인 두 개의 폴리라인이 생성됩니다.


실험에서는 "파란색과 빨간색 선이 몇 번 교차합니까?", "파란색과 빨간색 선이 몇 번 교차합니까?"와 같은 두 가지 다른 표현을 사용하여 대형 모델에 질문했습니다.

이 두 가지 질문에 답하는 각 모델의 평균 정확도를 계산함으로써 일부 즉각적인 효과를 제거하고 보다 정확한 결과를 얻을 수 있습니다.


이에 비해 Sonnet-3.5는 이 작업에서 평균 정확도 77.33%로 약간 더 나은 성능을 발휘하는 반면 다른 모델은 더 낮은 성능을 발휘합니다.

77.33%가 좋은 결과처럼 들리지만 가능한 답은 0, 1, 2의 세 가지뿐이므로 올바른 무작위 추측 비율은 33%입니다.

두 폴리라인 사이의 거리가 좁아지면 VLM의 성능이 저하되는 경향이 있다는 점은 주목할 가치가 있습니다. 요약하자면, VLM은 선분 교차점을 안정적으로 식별하고 계산할 수 없습니다.


작업 2: 원의 교차, 접선 및 분리 문제


이 문제는 중학교 기하학의 범주에 속합니다: 원의 교차점, 접선 및 분리(선생님이 자유형으로 원을 그리는 뒷모습을 기억하지 못하는 사람은 아무도 없습니다).

그러나 우리는 그러한 용어로 VLM을 조사하지 않고 오히려 상상할 수 있는 가장 간단한 시각적 추론 작업 중 하나인 겹치는 모양에 대한 간단한 테스트를 제공할 것입니다.

불행하게도 두 원이 살짝 겹치거나, 그냥 닿아 있거나, 일정 거리가 떨어져 있거나, 모델은 어떠한 경우에도 올바른 판단을 내릴 수 없습니다.


이에 비해 두 원이 멀리 떨어져 있는 경우 GPT-4o는 95% 이상 정확하지만 0 또는 매우 작은 거리에서는 18%만 정확하며 이는 50% 미만입니다. 무작위로 추측할 때 평가합니다.


Gemini Pro 1.5가 평균 정확도 92.78로 가장 좋은 성능을 보였지만, 두 원 사이의 거리가 가까웠을 때는 정확도가 70%에 그쳤습니다.


작업 3: 원으로 둘러싸인 글자 식별하기

빨간색 원 ⭕을 사용하여 단어의 글자에 한 번에 하나씩 동그라미를 치고, 작업을 수행하려면 VLM이 동그라미 안에 있는 글자를 식별해야 합니다.

분명히 이 작업은 인간에게는 쉽지만, 저자의 가설은 VLM의 시야가 흐려지면 인접한 문자 사이의 작은 간격으로 인해 원 안에 있는 정확한 문자를 인식하지 못할 수도 있다는 것입니다.


Acknowledgement, Subdermatoglyphic이라는 단어와 tHyUiKaRbNqWeOpXcZvM 문자열은 너비와 높이가 다른 문자를 포함하기 때문에 선택되었습니다. (트리비아, subdermatoglyphic은 반복되는 글자가 없는 가장 긴 단어입니다)

실험 결과, VLM은 빨간색 원의 모양을 정확하게 인식하고 단어를 완벽하게 철자할 수 있지만 "원 안의 글자를 읽는 것"은 모든 모델에서 걸림돌이 되는 것으로 나타났습니다. 예를 들어, VLM 인식은 문자가 빨간색 타원으로 인해 부분적으로 약간 가려지면 실수를 하는 경향이 있습니다.


오류가 발생하면 VLM은 일반적으로 원으로 둘러싸인 문자에 인접한 문자를 예측합니다.

때때로 모델은 환각을 일으키고 단어의 철자를 정확하게 입력할 수 있지만 피하 문자에는 존재하지 않는 문자(예: 9, n, ©)가 나타날 수 있습니다.


GPT-4o를 제외한 모든 모델은 임의의 문자열보다 두 개의 영어 단어에 대해 약간 더 나은 성능을 보였으며(2~6포인트 더 좋음), 이는 단어 자체에 대한 친숙함이 VLM이 보다 현명한 추측을 하는 데 도움이 될 수 있음을 시사합니다.

Gemini-1.5와 Sonnet-3.5는 상위 2개 모델(92.81% 및 89.22%)로 GPT-4o 및 Sonnet-3보다 거의 20포인트 높습니다.

전체적으로 VLM은 단어의 철자를 기반으로 원 안의 글자가 무엇인지 추측할 수 있어 정확도가 약간 향상될 수 있지만 VLM이 빨간색 원 안의 글자를 볼 수 있다는 의미는 아닙니다.

작업 4: 연동 문제

다음으로 VLM은 "연동" 문제, 즉 이미지에서 얼마나 많은 원이 연동되는지 계산해야 합니다.

BGM은 여기에서 들려야 합니다: 아아아아아아아아~ 다섯 개의 링, 네 개의 링보다 벨이 하나 더 있습니다~


이 테스트의 결과는 약간 이상합니다. 그림에 고리가 5개 있으면 모델은 100% 정확합니다. 고리가 하나 더 있으면 VLM은 완전히 혼란스러워집니다.


Gemini는 방향 감각을 잃으며 단 한 번도 틀린 대답을 했고, Sonnet-3.5는 3분의 1의 확률로 정답을 맞췄고, GPT-4o는 거의 절반의 확률로 정답을 맞췄습니다.


저자는 '다섯 개의 고리'를 식별하는 정확도가 매우 높으며, 이는 올림픽 게임의 일반적인 '다섯 개의 고리' 상징과 밀접한 관련이 있다고 제안했습니다.

Table 5에서 볼 수 있듯이 4개 모델 모두 5개의 원을 세는 경향이 있는데, 이는 5개의 오각형을 세는 빈도보다 훨씬 크다.


이 테스트는 이러한 모델이 무엇을 하든 우리 인간이 이해하는 "시력"이 없다는 것을 보여줍니다. 가장 큰 문제는 서로 다른 숫자와 모양으로 구성된 이미지들 사이에서 인식 성공률에 큰 차이가 있어 성능이 매우 불안정하다는 것입니다.


작업 5: 중첩된 사각형

작업 2는 VLM이 교차하는 원을 계산하는 데 어려움이 있음을 보여줍니다. 그렇다면 사각형이 다른 큰 사각형 내에 완전히 중첩되어 가장자리가 교차하지 않는 경우 VLM의 성능은 어떻게 될까요?

아래 그림과 같이 C×C 크기의 캔버스에 작성자는 N∈{2,3,4,5} 중첩된 사각형을 렌더링합니다.


먼저 임의의 변 길이 d∈{2,3,4}px를 사용하여 가장 바깥쪽 정사각형을 렌더링합니다. 나머지 N-1 정사각형은 0.75×d의 감소 계수를 사용하여 그려지고 외부 정사각형에 닿지 않도록 임의의 좌표에 배치됩니다.

3가지 선 두께 설정(사각형의 임의 위치가 서로 다름) 각각에 대해 10개의 이미지를 생성하고 모든 N 값에 대해 프로세스를 반복하여 총 120개의 이미지를 생성합니다.

중첩된 사각형의 수를 계산하는 것은 VLM이 정확하게 완료하기 어려운 작업이라는 것을 알 수 있습니다.


모델 정확도는 매우 다양하며 GPT-4o(48.33%) 및 Gemini-1.5(55.00%)는 Gemini-1.5(80.00%) 및 Claude3.5(87.50%)보다 최소 30포인트 뒤처집니다.


작업 6: 테이블에는 몇 개의 열과 행이 있나요?

이전 작업의 결과에 따르면 VLM은 중첩(작업 4) 또는 중첩(작업 5)과 같은 문제를 처리할 수 없는 것으로 나타났습니다. 저자는 VLM에 다른 방향을 부여하고 인접한 그래픽과 관련된 문제에서 어떻게 수행되는지 확인하기로 결정했습니다.

저자는 사각형을 그리드에 넣고 VLM에 개수를 계산하도록 요청했습니다. 이러한 VLM은 테이블과 함께 많은 질문이 포함된 DocVQA(정확도 ≥ 90%)에서 우수한 성능을 발휘하므로 VLM의 경우 이 작업이 간단해야 합니다.

작업을 단순화하기 위해 저자는 모델에 주어진 테이블의 행과 열 수만 계산하도록 요청했습니다.


모델이 빈 그리드의 행과 열 수를 정확하게 계산할 수 없는 것으로 나타났습니다.


그러나 그리드 셀에 텍스트, 특히 Sonnet-3.5가 포함되어 있으면 모든 VLM의 성능이 향상됩니다.


작업 7: 로드맵 식별

이 작업은 특별히 색상이 지정된 경로를 식별하고 지정된 시작 지점에서 목적지까지 지정된 색상 선을 따라가는 VLM의 능력을 테스트합니다. 이는 지도를 읽고 이해하는 데 필요한 중요한 능력입니다.

아래 그림과 같이 C×C 크기의 이미지(C∈{512, 1024}px)에 지하철 노선도를 생성합니다.

4개의 고정좌표에 4개의 역명(A, B, C, D)을 씁니다. 캔버스를 18×18 셀의 보이지 않는 그리드로 나누고 각 스테이션에서 C/18px 떨어진 3개의 경로 시작점을 초기화합니다.

각 단계가 임의의 방향으로 하나의 셀을 이동할 수 있는 깊이 우선 탐색 알고리즘을 사용하여 임의의 스테이션과 임의의 시작점에서 시작하는 경로를 그립니다. 이 과정을 반복하여 각 관측소마다 N∈{1,2,3} 출력 경로를 갖게 되며 총 180개의 지도가 그려집니다.


두 개의 지정된 스테이션이 주어지면 작업을 수행하려면 VLM이 두 스테이션 사이에 얼마나 많은 다른 색상의 경로가 있는지 계산해야 합니다.

실험 결과에 따르면 두 스테이션 사이에 하나의 색상 경로만 있어도 100% 정확도를 달성할 수 있는 모델은 없습니다.


가장 높은 정확도는 Sonnet-3.5로 도로가 1개만 있을 경우 95%에 도달할 수 있지만, 도로가 2개 있는 경우에는 정확도가 50.18%로 급격히 떨어집니다.


1개 경로에서 3개 경로로 경로 복잡성이 증가함에 따라 대부분의 VLM은 심각한 성능 저하를 나타냅니다.

VLM의 "맹인"

위의 시각 능력 테스트에서 VLM이 극도로 불안정하게 수행되는 이유는 무엇입니까?

아마도 작업 4의 "올림픽 반지"에 대한 모델의 선호도에서 단서를 찾을 수 있을 것입니다. 가장 상식적인 설명은 다음과 같습니다.

VLM의 훈련 데이터에는 "올림픽 반지"라는 이미지가 반복적으로 나타나며 많은 텍스트 자료에 자세히 설명되어 있습니다.

그러나 VLM 훈련 데이터에서는 6개 또는 7개의 연동 링을 찾을 수 없으므로 답변이 만족스럽지 않습니다.

VLM은 자신이 무엇을 보고 있는지 전혀 알지 못할 수도 있고 루프, 중첩 또는 기타 개념이 무엇인지 실제로 이해하지 못할 수도 있기 때문입니다.

그러나 모델의 성능을 블라인드로 표현한다고 해도 우리는 여전히 모델을 의인화하고 있는 셈이다. 마치 대형 모델 회사가 '시각적 능력'을 홍보하는 것과 마찬가지다.

Nguyen 연구원은 또한 "맹인"은 인간에게도 많은 정의가 있으며 현재 우리가 보여주는 이미지에 대한 인공 지능의 맹목/무감각을 설명하는 단어는 없다고 말했습니다.

VLM의 동작은 입력 텍스트 프롬프트, 입력 이미지, 수십억 개의 가중치로 구성된 복잡한 기능이며 현재 모델이 보고 있는 내용을 정확하게 시각화할 수 있는 기술은 없습니다.

그는 이러한 모델이 완전히 "맹인"이 아니라고 추측했습니다. 그들은 이미지에서 "대략적"이고 추상적인 시각적 정보만 추출할 수 있지만 시각적 판단을 내릴 수는 없으므로 이미지를 이해하는 것처럼 행동하지만 실제로 사람을 볼 수는 없습니다.

Nguyen은 위의 가설을 뒷받침하는 예를 사용했습니다.


사용자: 두 원이 겹치는 부분은 무슨 색인가요? GPT-4o: 두 원이 겹치는 부분이 청록색(음영이 있는 청록색)입니다. Gemini-1.5: 녹색 원과 파란색 원이 겹치는 부분이 청록색이 됩니다. Sonnet-3.5: 죄송합니다. 사진에는 녹색과 파란색, 두 개의 별도 원만 있고 겹치는 부분이 없습니다.

분명히 Sonnet-3.5를 제외하면 GPT-4o와 Gemini-1.5는 실제로 이미지를 "보는" 것이 아니라 이미지를 "상상"하는 것일 뿐입니다.

그렇다면 이 연구는 이러한 "시각적" AI 모델이 쓸모없다는 것을 의미합니까?

그러나 실제로는 그렇지 않습니다. 이러한 각 모델은 인간의 행동과 표정, 일상 사물, 환경 사진을 인식하는 등 광범위한 작업에서 높은 정확도를 입증했습니다.

이 연구의 중요성은 VLM의 지나치게 "인격적인" 마케팅 전략에 우리를 환멸시키는 것입니다.

거대 기술 기업의 마케팅 수사를 들으면 실제로 대형 시각적 모델이 '볼 수 있다'고 생각할 수도 있습니다.

그러나 몇 가지 작은 테스트만으로 VLM과 인간의 본질적인 차이점을 쉽게 발견할 수 있습니다. 그것은 "의인화"되어 실제로 비인간적 성격을 강조합니다.

참고자료:

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10

https://vlmsareblind.github.io/