소식

2B 멀티모달 신형 SOTA! Huake와 화남이공대학, '슬라이싱해 해상도 높이기'에 특화된 Mini-Monkey 출시

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

Editor: LRST 너무 졸려

[새로운 지혜 소개]Mini-Monkey는 MSAC(Multi-Scale Adaptive Segmentation Strategy) 및 SCM(Scale Compression Mechanism)을 사용하여 기존 이미지 분할 전략으로 인해 발생하는 앨리어싱 효과를 효과적으로 완화하는 경량 다중 모드 대규모 언어 모델입니다. -해상도 이미지 처리 및 문서 이해 작업. 여러 벤치마크에서 선도적인 결과를 달성하여 다중 모드 이해 및 문서 인텔리전스 분야에서 잠재력을 입증했습니다.

최근에는 고해상도 이미지를 처리하기 위한 다중 모드 대형 모델의 기능을 향상시키는 것이 이 분야에서 주목을 받고 있습니다.

대부분의 방법은 이미지 분할 및 재융합 전략을 통해 이미지 세부 사항을 이해하는 다중 모드 대형 모델의 능력을 향상시키는 데 중점을 둡니다.

그러나 이미지 분할 작업으로 인해 대상과 연결된 영역의 조각화가 불가피하며 이는 작거나 불규칙한 모양의 대상에 대한 MLMM의 인식 능력에 영향을 미칩니다. 이러한 현상은 문서 이해 작업에서 매우 명백합니다. 왜냐하면 텍스트 쪽이 종종 중단되기 때문입니다.

이러한 과제에 대응하여 화중 과학기술대학교와 화남이공대학교는 최근 플러그형 다중 규모 적응 전략(MSAC)을 사용하여 다중 모드 대형 모델을 경량화하는 다중 모드 대형 모델 Mini-Monkey를 공동으로 출시했습니다. .

Mini-Monkey는 다중 규모 표현을 적응적으로 생성하여 모델이 다양한 규모에서 분할되지 않은 개체를 선택할 수 있도록 하며 성능은 2B 다중 모드 대형 모델의 새로운 SOTA에 도달합니다.


논문 주소: https://arxiv.org/pdf/2408.02034

프로젝트 주소: https://github.com/Yuliang-Liu/Monkey

MSAC로 인해 발생하는 계산 오버헤드를 완화하기 위해 이미지 토큰을 효과적으로 압축하는 스케일 압축 메커니즘(SCM)을 제안합니다.

Mini-Monkey는 문서 지능의 여러 작업에서 선도적인 성능을 달성했을 뿐만 아니라 일반 다중 모드 모델 이해 작업에서도 일관된 성능 향상을 달성하여 2B SOTA 성능을 달성했습니다.

OCRBench에서 Mini-Monkey는 802점을 획득했는데, 이는 GLM-4v-9B와 같이 매개변수가 더 큰 모델보다 나은 수치입니다.


그림 3 방법 블록 다이어그램: H-Attn은 높은 주의 가중치를 나타냅니다. L-Attn은 낮은 주의 가중치를 나타냅니다. 공유 LLM 레이어는 SCM에서 LLM을 사용하여 블록 레이어를 나타냅니다.

연구 배경

MLMM(Multimodal Large Language Model)은 최근 몇 년 동안 많은 주목을 받았습니다. 연구원들은 시각적 인코더를 LLM과 통합하는 효과적인 방법을 적극적으로 탐색하고 있습니다.

Flamingo, BLIP-2, MiniGPT4, Qwen-VL 및 LLaVA와 같은 일부 방법은 이러한 성과를 달성했지만 이전 다중 모드 대형 언어 모델은 제한된 처리 해상도로 인해 자세한 장면 이해를 잘 달성하지 못했습니다.


그림 1 범용 개체에 대한 분할로 인한 앨리어싱 효과: (a) 입력 이미지, (b) 분할 확장 전략, (d) 다중 규모 적응 분할 전략;

연구자들은 이미지의 입력 해상도를 확장하여 이 문제를 해결하기 시작했습니다. 슬라이싱 전략은 가장 일반적으로 사용되는 방법 중 하나입니다. 예를 들어 Monkey, LLaVA 1.6, InternVL 1.5 및 LLama3-V 등이 있습니다.

다중 모드 대규모 언어 모델의 상당한 발전에도 불구하고 분할 전략으로 인해 세부적인 장면 이해에 어려움이 남아 있습니다.

이미지에 대한 분할 작업은 필연적으로 개체와 연결된 영역을 분할하므로 특히 문서 이해의 맥락에서 작은 개체나 불규칙한 모양의 개체를 식별하는 MLLM의 기능이 약화됩니다.

이 전략은 의미론적 불일치의 두 가지 유형을 소개합니다.

1. 사물이나 캐릭터가 분할되어 있는 경우 인식이 되지 않을 수 있습니다. 예를 들어, 그림 1(b)에 표시된 것처럼 분할된 코는 원숭이와 매우 유사합니다.

2. 단어나 문장이 분할되면 분할된 단어의 의미가 손상됩니다. 예를 들어, "Classrooms"라는 단어는 "Class"와 "rooms"로 분할될 수 있으며, 이로 인해 분할된 단어에 의미론적 손상이 발생할 수 있습니다.

단순화를 위해 저자는 이 문제를 톱니 효과라고 부릅니다. 매우 간단한 아이디어는 그림 1(c)에 표시된 것처럼 이 문제를 해결하기 위해 중첩 분할 전략을 사용하는 것입니다.

그러나 저자들은 중첩된 분할 전략이 개선보다는 성능 저하를 초래하는 특정 환상을 도입한다는 사실을 발견했습니다.

방법 아이디어

저자는 분할 전략으로 인해 발생하는 톱니 효과를 완화하기 위해 설계된 경량 다중 모드 대규모 언어 모델인 Mini-Monkey를 제안합니다. 방법 블록 다이어그램은 그림 2에 나와 있습니다.


그림 2 텍스트 이미지 자르기로 인한 들쭉날쭉한 효과.

Mini-Monkey는 입력 이미지를 직접 분할하는 기존 방식과 달리 MSAC(Multi-Scale Adaptive Segmentation Strategy)라는 플러그 앤 플레이 방식을 채택합니다.

MSAC는 그림 1(d)에 표시된 것처럼 다양한 규모의 기능을 효과적으로 보완할 수 있습니다.

다중 규모 적응형 세분화 전략(MSAC)

MSAC는 먼저 이러한 메쉬에 대해 레이어링 작업을 수행하고 종횡비에 따라 세 그룹으로 나눕니다. 작성자는 각 레이어의 종횡비를 선택합니다. 서로 다른 레이어는 모델에 서로 다른 정보를 제공합니다.

디테일 레이어는 상세한 정보를 제공하는 역할을 담당합니다. 최대 이미지 해상도와 최소 이미지 해상도를 모두 제한하여 이미지를 최대한 크게 만들고 이미지의 개체를 더 선명하게 만듭니다. 이미지를 자르는 데 사용되는 분할 전략으로 인해 이 레이어에서 생성된 이미지에는 의미상 불일치가 있을 수 있습니다.

따라서 저자는 모델이 다양한 규모에서 분할되지 않은 개체를 선택할 수 있도록 세부 레이어와 함께 적응형 레이어를 활용합니다. 적응형 레이어는 세부 레이어에 따라 종횡비를 적응적으로 생성하여 세부 레이어의 분할 선이 적응형 레이어의 분할 선과 겹치지 않도록 하여 동일한 객체가 다른 레이어에서 두 번 분할되는 것을 방지합니다. 이 프로세스는 세부 레이어와 적응 레이어가 모델에 서로 다른 의미 정보와 시각적 특징을 제공하도록 보장합니다.

스케일 압축 메커니즘

MSAC는 추가적인 계산 오버헤드를 초래할 수 있습니다. 따라서 저자는 계산 오버헤드 제약이 있는 상황을 위한 규모 압축 메커니즘(SCM)을 제안합니다. SCM은 계산 오버헤드를 줄이기 위해 훈련이나 매개변수가 필요하지 않은 메커니즘입니다.

저자는 적응형 레이어의 시각적 토큰, 글로벌 레이어의 시각적 토큰, 세부 레이어의 시각적 마커에 초점을 맞춘 텍스트 토큰을 선택하여 어텐션 맵을 생성한 후 상위 K의 시각적 특징을 추출합니다. 관심지도의.

잘 훈련된 LLM은 입력 문제를 기반으로 필요한 시각적 기능을 효율적으로 선택할 수 있습니다. 따라서 SCM은 LLM의 첫 번째 및 두 번째 계층을 활용하여 추가 매개변수를 생성하지 않고 시각적 토큰을 선택합니다.

미니몽키 최강의 2B 멀티모달 대형모델

저자들은 일반적인 다중 모드 이해와 문서 이해에 대한 방법을 테스트한 결과 Mini-Monkey가 2B 매개변수를 사용하여 일반적인 다중 모드 이해와 문서 이해에서 동시에 최고의 성능을 달성한 것으로 나타났습니다.


표 1 일반적인 다중 모드 이해 결과


표 2 문서 이해 결과

저자는 제안한 MSAC를 기존 방법과 비교합니다. 첫 번째 행은 동적 분할 방법, 두 번째 행은 고정 해상도 분할 방법, 세 번째 행은 중첩 분할 방법, 네 번째 행은 다중 규모 전략 S2입니다.


표 3은 다양한 세분화 전략을 비교합니다.

MSAC는 다양한 다중 모드 아키텍처에 적용되어 안정화 및 개선이 가능합니다.

동시에 저자는 비교를 위해 다른 방법에도 MSAC를 적용했는데, 일반적인 다중 모드 이해 및 문서 이해 작업에서 일관된 개선이 있음을 확인할 수 있습니다.


표 4는 MSAC를 다양한 프레임워크에 적용합니다.

분해능을 높이기 위해 분할로 인한 "후유증"을 효과적으로 완화합니다.

동시에 저자는 그림 4와 같이 몇 가지 정성적 분석도 제공합니다. 저자는 '교실', '학교' 등 세분화된 위치에 대해 질문을 던진다.

Mini-Monkey는 MSAC를 통해 분할 해상도를 높여 발생하는 "후유증"을 효과적으로 완화할 수 있음을 알 수 있습니다.


그림 4 정성적 결과: (a) 입력 이미지 및 Ground Truth, (b) 중첩 분할 전략을 사용한 결과, OSC는 internv2-2b 및 internv2-26b의 결과를 나타냅니다.

시각적 비교

Mini-Monkey는 모호한 고대 서적의 텍스트 내용을 정확하게 추출할 수 있는 반면 MiniCPM-V 2.6과 InternVL2-2B는 모두 많은 텍스트를 놓쳤으며 답변을 거부했습니다.


(a) 입력 그림


(b)Mimi-Monkey: 모든 텍스트를 정확하게 인식합니다.


(c)MiniCPM-V 2.6: 많은 텍스트가 누락되었습니다.


(d)InternVL2-2B: 상대적으로 모호한 텍스트의 전체 문장이 누락되었습니다.


(e)GPT-4o: 답변 거부

요약

분할을 사용하여 해상도를 확장하는 방법은 객체와 연결된 영역을 분할하는 경우가 많으며, 이로 인해 작거나 불규칙한 모양의 객체 및 텍스트에 대한 인식이 제한됩니다. 이 문제는 경량 MLLM에서 특히 두드러집니다.

본 연구에서 저자는 MLLM의 고해상도 이미지 처리 능력을 향상시키기 위해 기존 분할 전략의 한계를 해결하는 것을 목표로 SOTA 성능을 달성하는 2B 다중 모드 대형 모델인 Mini-Monkey를 제안합니다.

Mini-Monkey는 다중 규모 표현을 생성하기 위해 다중 규모 적응형 분할 전략(MSAC)을 채택하여 모델이 다양한 규모에서 분할되지 않은 개체를 선택할 수 있도록 하여 이 문제를 완화합니다.

동시에 저자는 다른 아키텍처의 다중 모드 대형 모델에서 다중 규모 적응형 분할 전략의 효율성을 검증하여 분할 계획의 증가로 인한 "후속"을 완화하는 간단하고 효과적인 솔루션을 제공했습니다. .

참고자료:

[1] Chen Z, Wang W, Tian H, et al. 우리는 gpt-4v까지 얼마나 왔는가? 오픈 소스 제품군을 사용하여 상용 멀티모달 모델과의 격차를 좁히기[J]. arXiv 사전 인쇄본 arXiv:2404.16821, 2024.

[2] Li J, Li D, Savarese S, et al. Blip-2: 동결된 이미지 인코더와 대규모 언어 모델을 사용한 언어 이미지 사전 학습 부트스트래핑[C]//기계 학습 국제 컨퍼런스. PMLR, 2023: 19730-19742.

[3] Liu Y, Yang B, Liu Q 외. Textmonkey: 문서 이해를 위한 OCR 없는 대규모 멀티모달 모델[J]. arXiv 사전 인쇄본 arXiv:2403.04473, 2024.

[4] Bai J, Bai S, Yang S, et al. Qwen-vl: 다양한 능력을 갖춘 최첨단 대형 시각 언어 모델[J]. arXiv 사전 인쇄본 arXiv:2308.12966, 2023.

[5] Dubey A, Jauhri A, Pandey A, et al. Llama 3 무리 모델[J]. arXiv 사전 인쇄본 arXiv:2407.21783, 2024.