Nachricht

2B multimodales neues SOTA! Huake und die South China University of Technology haben Mini-Monkey herausgebracht, das sich auf „Slicing zur Erhöhung der Auflösung“ spezialisiert hat.

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: LRST So schläfrig

[Einführung in die neue Weisheit]Mini-Monkey ist ein leichtes multimodales Sprachmodell in großem Maßstab, das den Aliasing-Effekt, der durch herkömmliche Bildsegmentierungsstrategien verursacht wird, durch die Verwendung einer Multi-Scale-Adaptive-Segmentierungsstrategie (MSAC) und eines Scale-Compression-Mechanismus (SCM) effektiv lindert -Auflösung von Bildverarbeitungs- und Dokumentverständnisaufgaben. Es erzielt in mehreren Benchmarks führende Ergebnisse und stellt sein Potenzial in den Bereichen multimodales Verständnis und Dokumentenintelligenz unter Beweis.

In letzter Zeit hat die Verbesserung der Fähigkeit multimodaler großer Modelle zur Verarbeitung hochauflösender Bilder in diesem Bereich zunehmend Aufmerksamkeit erregt.

Die meisten Methoden konzentrieren sich auf die Verbesserung der Fähigkeit multimodaler großer Modelle, Bilddetails durch die Strategie der Segmentierung und Neufusion von Bildern zu verstehen.

Aufgrund der Segmentierungsoperation des Bildes ist es jedoch unvermeidlich, dass es zu einer Fragmentierung des Ziels und der verbundenen Bereiche kommt, was die Erkennungsfähigkeit von MLMMs für kleine oder unregelmäßig geformte Ziele beeinträchtigt. Dieses Phänomen ist bei Dokumentenverständnisaufgaben äußerst offensichtlich, da die Textseite häufig unterbrochen ist.

Als Reaktion auf diese Herausforderung haben die Huazhong University of Science and Technology und die South China University of Technology kürzlich gemeinsam ein multimodales Großmodell Mini-Monkey herausgebracht, das eine steckbare Multi-Scale-Adaptive-Strategie (MSAC) verwendet, um multimodale Großmodelle zu vereinfachen .

Mini-Monkey generiert adaptiv Darstellungen in mehreren Maßstäben, sodass das Modell unsegmentierte Objekte aus verschiedenen Maßstäben auswählen kann, und seine Leistung erreicht das neue SOTA von 2B multimodalen großen Modellen.


Papieradresse: https://arxiv.org/pdf/2408.02034

Projektadresse: https://github.com/Yuliang-Liu/Monkey

Um den durch MSAC verursachten Rechenaufwand zu verringern, schlagen wir einen Skalierungskomprimierungsmechanismus (SCM) vor, um Bildtoken effektiv zu komprimieren.

Mini-Monkey erzielte nicht nur eine führende Leistung bei mehreren Aufgaben der Dokumentenintelligenz, sondern erzielte auch konsistente Leistungsverbesserungen bei allgemeinen multimodalen Modellverständnisaufgaben und erreichte eine 2B-SOTA-Leistung.

Auf OCRBench erzielte Mini-Monkey 802 Punkte, was besser ist als Modelle mit größeren Parametern wie GLM-4v-9B.


Abbildung 3: Blockdiagramm der Methode: H-Attn stellt eine hohe Aufmerksamkeitsgewichtung dar; L-Attn stellt eine niedrige Aufmerksamkeitsgewichtung dar; die gemeinsam genutzte LLM-Schicht stellt die Blockschicht dar, die LLM in SCM verwendet

Forschungshintergrund

Multimodale große Sprachmodelle (MLMM) haben in den letzten Jahren große Aufmerksamkeit erregt. Forscher erforschen aktiv effektive Möglichkeiten zur Integration visueller Encoder in LLM.

Einige Methoden wie Flamingo, BLIP-2, MiniGPT4 sowie Qwen-VL und LLaVA haben diese Erfolge erzielt, aber frühere multimodale große Sprachmodelle haben aufgrund der begrenzten Verarbeitungsauflösung kein gutes detailliertes Szenenverständnis erreicht.


Abbildung 1 Der durch die Segmentierung verursachte Aliasing-Effekt auf universelle Objekte: (a) Strategie zur Segmentierungserweiterung; (c) Strategie zur überlappenden Segmentierung;

Forscher begannen, dieses Problem zu lösen, indem sie die Eingabeauflösung des Bildes erweiterten. Die Slicing-Strategie ist eine der am häufigsten verwendeten Methoden. Zum Beispiel Monkey, LLaVA 1.6, InternVL 1.5 und LLama3-V usw.

Trotz erheblicher Fortschritte bei multimodalen Sprachmodellen im großen Maßstab bestehen aufgrund von Segmentierungsstrategien weiterhin Herausforderungen beim detaillierten Szenenverständnis.

Segmentierungsoperationen an Bildern segmentieren zwangsläufig Objekte und verbundene Regionen und schwächen dadurch die Fähigkeit von MLLM, kleine Objekte oder unregelmäßig geformte Objekte zu identifizieren, insbesondere im Kontext des Dokumentenverständnisses.

Diese Strategie führt zu zwei Arten semantischer Inkohärenz:

1. Wenn ein Objekt oder Zeichen segmentiert ist, wird es möglicherweise nicht erkannt. Beispielsweise ähnelt die segmentierte Nase stark einem Affen, wie in Abbildung 1(b) dargestellt;

2. Wenn ein Wort oder ein Satz segmentiert wird, führt dies zu semantischem Schaden am segmentierten Wort. Beispielsweise könnte das Wort „Klassenzimmer“ in „Klasse“ und „Räume“ aufgeteilt werden, was den segmentierten Wörtern semantischen Schaden zufügen würde.

Der Einfachheit halber nennen die Autoren dieses Problem Sägezahneffekt. Eine sehr einfache Idee besteht darin, eine überlappende Segmentierungsstrategie zu verwenden, um dieses Problem zu lösen, wie in Abbildung 1(c) dargestellt.

Allerdings stellten die Autoren fest, dass die überlappende Segmentierungsstrategie bestimmte Illusionen hervorrief, die eher zu einer Leistungsverschlechterung als zu einer Verbesserung führten.

Methodenideen

Der Autor schlägt Mini-Monkey vor, ein leichtes multimodales Sprachmodell in großem Maßstab, das den durch Segmentierungsstrategien verursachten Sägezahneffekt mildern soll. Das Blockdiagramm der Methode ist in Abbildung 2 dargestellt.


Abbildung 2 Der gezackte Effekt, der durch das Zuschneiden von Textbildern entsteht.

Im Gegensatz zu bestehenden Methoden, die das Eingabebild direkt segmentieren, verwendet Mini-Monkey einen Plug-and-Play-Ansatz namens Multi-Scale Adaptive Segmentation Strategy (MSAC).

MSAC kann Funktionen in verschiedenen Maßstäben effektiv ergänzen, wie in Abbildung 1(d) dargestellt.

Multiskalige adaptive Segmentierungsstrategie (MSAC)

MSAC führt zunächst eine Schichtungsoperation an diesen Netzen durch und teilt sie basierend auf ihrem Seitenverhältnis in drei Gruppen ein. Der Autor wählt für jede Ebene ein Seitenverhältnis. Verschiedene Schichten stellen dem Modell unterschiedliche Informationen zur Verfügung.

Die Detailschicht ist für die Bereitstellung detaillierter Informationen verantwortlich. Es begrenzt sowohl die maximale Bildauflösung als auch die minimale Bildauflösung, wodurch das Bild so groß wie möglich wird und Objekte im Bild klarer dargestellt werden. Aufgrund der zum Zuschneiden des Bildes verwendeten Segmentierungsstrategie können die von dieser Ebene generierten Bilder semantische Inkonsistenzen aufweisen.

Daher verwenden die Autoren adaptive Ebenen in Verbindung mit Detailebenen, um dem Modell die Auswahl unsegmentierter Objekte aus verschiedenen Maßstäben zu ermöglichen. Die adaptive Ebene generiert das Seitenverhältnis adaptiv entsprechend der Detailebene und stellt so sicher, dass sich die Segmentierungslinie auf der Detailebene nicht mit der Segmentierungslinie auf der adaptiven Ebene überschneidet, wodurch verhindert wird, dass dasselbe Objekt auf verschiedenen Ebenen zweimal segmentiert wird. Dieser Prozess stellt sicher, dass die Detailschicht und die Anpassungsschicht dem Modell unterschiedliche semantische Informationen und visuelle Merkmale bereitstellen.

Skalenkompressionsmechanismus

MSAC kann einen zusätzlichen Rechenaufwand verursachen. Daher schlägt der Autor einen Skalierungskomprimierungsmechanismus (SCM) für Situationen vor, in denen es zu Einschränkungen des Rechenaufwands kommt. SCM ist ein Mechanismus, der kein Training und keine Parameter erfordert, um den Rechenaufwand zu reduzieren.

Der Autor wählt die visuellen Token der adaptiven Ebene, die visuellen Token der globalen Ebene und die Texttoken aus, um sich auf die visuellen Markierungen der Detailebene zu konzentrieren, generiert dann die Aufmerksamkeitskarte und extrahiert dann die visuellen Merkmale des oberen K der Aufmerksamkeitskarte.

Ein gut trainierter LLM kann die erforderlichen visuellen Merkmale basierend auf dem Eingabeproblem effizient auswählen. Daher nutzt SCM die erste und zweite Schicht von LLM, um visuelle Token auszuwählen, ohne zusätzliche Parameter zu generieren.

Das stärkste multimodale 2B-Großmodell von Mini-Monkey

Die Autoren testeten ihre Methode hinsichtlich des allgemeinen multimodalen Verständnisses und des Dokumentverständnisses. Die experimentellen Ergebnisse zeigen, dass Mini-Monkey mit 2B-Parametern gleichzeitig die beste Leistung beim allgemeinen multimodalen Verständnis und beim Dokumentverständnis erzielte.


Tabelle 1 Ergebnisse zum allgemeinen multimodalen Verständnis


Tabelle 2 Ergebnisse zum Dokumentenverständnis

Der Autor vergleicht den vorgeschlagenen MSAC mit vorhandenen Methoden. Die erste Zeile ist eine dynamische Segmentierungsmethode, die zweite Zeile ist eine Segmentierungsmethode mit fester Auflösung, die dritte Zeile ist eine überlappende Segmentierung und die vierte Zeile ist eine Multiskalenstrategie S2.


Tabelle 3 vergleicht verschiedene Segmentierungsstrategien

MSAC kann auf verschiedene multimodale Architekturen angewendet werden, um sie zu stabilisieren und zu verbessern

Gleichzeitig hat der Autor MSAC auch auf andere Vergleichsmethoden angewendet, und es ist ersichtlich, dass es bei allgemeinen multimodalen Verständnis- und Dokumentverständnisaufgaben zu konsistenten Verbesserungen kommt.


Tabelle 4 wendet MSAC auf verschiedene Frameworks an

Lindern Sie effektiv die durch die Segmentierung verursachten „Folgen“, um die Auflösung zu erhöhen

Gleichzeitig liefert der Autor auch einige qualitative Analysen, wie in Abbildung 4 dargestellt. Der Autor stellt Fragen zu den segmentierten Orten, z. B. „Klassenzimmer“ und „Schule“, die segmentiert sind.

Es ist ersichtlich, dass Mini-Monkey die „Folgen“ wirksam lindern kann, die durch die Erhöhung der Segmentierungsauflösung durch MSAC verursacht werden.


Abbildung 4 Qualitative Ergebnisse: (a) Eingabebild und Ground Truth; (b) Ergebnisse mit überlappender Segmentierungsstrategie, OSC stellt überlappende Segmentierungsstrategie dar (c) Ergebnisse von internv2-26b;

Visueller Vergleich

Mini-Monkey kann den Textinhalt in mehrdeutigen alten Büchern genau extrahieren, während MiniCPM-V 2.6 und InternVL2-2B beide eine Menge Text verweigerten:


(a) Geben Sie ein Bild ein


(b)Mimi-Monkey: erkennt alle Texte genau


(c)MiniCPM-V 2.6: Es fehlt viel Text.


(d)InternVL2-2B: Es fehlt ein ganzer Satz mit relativ vagem Text


(e)GPT-4o: Antwort verweigern

Zusammenfassen

Methoden, die Segmentierung zur Erweiterung der Auflösung nutzen, segmentieren häufig Objekte und verbundene Bereiche, was die Erkennung kleiner oder unregelmäßig geformter Objekte und Texte einschränkt. Dieses Problem ist besonders offensichtlich bei leichtgewichtigem MLLM.

In dieser Studie schlägt der Autor Mini-Monkey vor, ein multimodales 2B-Großmodell, das SOTA-Leistung erreicht, mit dem Ziel, die Einschränkungen bestehender Segmentierungsstrategien zu lösen und die Fähigkeit von MLLM zur Verarbeitung hochauflösender Bilder zu verbessern.

Mini-Monkey verwendet eine adaptive Segmentierungsstrategie mit mehreren Maßstäben (MSAC), um Darstellungen mit mehreren Maßstäben zu generieren, die es dem Modell ermöglichen, nicht segmentierte Objekte in verschiedenen Maßstäben auszuwählen, wodurch dieses Problem gemildert wird.

Gleichzeitig überprüfte der Autor auch die Wirksamkeit der adaptiven Multiskalen-Segmentierungsstrategie an multimodalen Großmodellen anderer Architekturen und stellte eine einfache und effektive Lösung zur Linderung der durch die erhöhte Auflösung des Segmentierungsplans verursachten „Folgen“ bereit .

Referenzen:

[1] Chen Z, Wang W, Tian H, et al. Wie weit sind wir von gpt-4v entfernt? Die Lücke zu kommerziellen multimodalen Modellen mit Open-Source-Suiten schließen[J]. arXiv-Preprint arXiv:2404.16821, 2024.

[2] Li J, Li D, Savarese S, et al. Blip-2: Bootstrapping von Sprach-Bild-Vortraining mit eingefrorenen Bildencodern und großen Sprachmodellen[C]//Internationale Konferenz zum maschinellen Lernen. PMLR, 2023: 19730-19742.

[3] Liu Y, Yang B, Liu Q, et al. Textmonkey: Ein OCR-freies großes multimodales Modell zum Verständnis von Dokumenten[J]. arXiv-Vorabdruck arXiv:2403.04473, 2024.

[4] Bai J, Bai S, Yang S, et al. Qwen-vl: Ein bahnbrechendes großes Bildsprachenmodell mit vielseitigen Fähigkeiten[J]. arXiv-Vorabdruck arXiv:2308.12966, 2023.

[5] Dubey A, Jauhri A, Pandey A, et al. Die Llama 3-Modellherde[J]. arXiv-Vorabdruck arXiv:2407.21783, 2024.