Nachricht

Um die Leistung von GPT-4V- und Gemini-Erkennungsaufgaben zu verbessern, benötigen Sie dieses Prompt-Paradigma

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Die Autoren dieses Artikels stammen von der Zhejiang-Universität, dem Shanghai Artificial Intelligence Laboratory, der Chinese University of Hong Kong, der University of Sydney und der University of Oxford. Autorenliste: Wu Yixuan, Wang Yizhou, Tang Shixiang, Wu Wenhao, He Tong, Wanli Ouyang, Philip Torr, Jian Wu. Unter ihnen ist der Co-Erstautor Wu Yixuan Doktorand an der Zhejiang-Universität und Wang Yizhou wissenschaftlicher Forschungsassistent am Shanghai Artificial Intelligence Laboratory. Der korrespondierende Autor Tang Shixiang ist Postdoktorand an der Chinesischen Universität Hongkong.

Multimodale Large Language Models (MLLMs) haben bei verschiedenen Aufgaben beeindruckende Fähigkeiten gezeigt, dennoch wird das Potenzial dieser Modelle bei Erkennungsaufgaben immer noch unterschätzt. Wenn bei komplexen Objekterkennungsaufgaben präzise Koordinaten erforderlich sind, führen die Halluzinationen von MLLMs häufig dazu, dass sie Zielobjekte verfehlen oder ungenaue Begrenzungsrahmen angeben. Um die Erkennung von MLLMs zu ermöglichen, erfordert die bestehende Arbeit nicht nur das Sammeln einer großen Anzahl hochwertiger Befehlsdatensätze, sondern auch die Feinabstimmung von Open-Source-Modellen. Es ist zwar zeitaufwändig und mühsam, nutzt aber auch nicht die leistungsfähigeren visuellen Verständnisfähigkeiten des Closed-Source-Modells aus.Zu diesem Zweck schlugen die Zhejiang-Universität, das Shanghai Artificial Intelligence Laboratory und die Universität Oxford vorDetToolChain , ein neues Eingabeparadigma, das die Erkennungskraft multimodaler großer Sprachmodelle freisetzt. Große multimodale Modelle können lernen, ohne Schulung genau zu erkennen.Verwandte Untersuchungen wurden durchgeführtECCV 2024 inklusive

Um die Probleme von MLLM bei Erkennungsaufgaben zu lösen, geht DetToolChain von drei Punkten aus: (1) Entwurf visueller Aufforderungen zur Erkennung, die direkter und effektiver sind als herkömmliche Textaufforderungen, damit MLLM Standortinformationen verstehen kann, (2) Aufschlüsselung Zerlegen Sie die präzisen Erkennungsaufgaben in kleine und einfache Aufgaben und (3) verwenden Sie die Gedankenkette, um die Erkennungsergebnisse schrittweise zu optimieren und die Illusion großer multimodaler Modelle so weit wie möglich zu vermeiden.

Entsprechend den oben genannten Erkenntnissen enthält DetToolChain zwei Schlüsseldesigns: (1) Ein umfassender Satz visueller Verarbeitungsaufforderungen, die direkt im Bild gezeichnet werden und die Lücke zwischen visuellen Informationen und Textinformationen erheblich verringern können. (2) Ein umfassender Satz von Detektionsbegründungen soll das räumliche Verständnis des Detektionsziels verbessern und mithilfe einer probenadaptiven Detektionstoolkette schrittweise den endgültigen genauen Zielort bestimmen.

Durch die Kombination von DetToolChain mit MLLM wie GPT-4V und Gemini können verschiedene Erkennungsaufgaben ohne Befehlsoptimierung unterstützt werden, einschließlich Erkennung von offenem Vokabular, Erkennung von Beschreibungszielen, Verständnis referenzieller Ausdrücke und Erkennung orientierter Ziele.



Titel des Papiers: DetToolChain: Ein neues Impulsparadigma zur Entfesselung der Erkennungsfähigkeit von MLLM

Link zum Papier: https://arxiv.org/abs/2403.12488

Was ist DetToolChain?



Abbildung 1 Gesamtrahmen von DetToolChain

Wie in Abbildung 1 dargestellt, wird MLLM für ein bestimmtes Abfragebild angewiesen, die folgenden Schritte auszuführen:

I. Formatierung: Konvertieren Sie das ursprüngliche Eingabeformat der Aufgabe in eine geeignete Anweisungsvorlage als Eingabe von MLLM.

II. Denken Sie nach: Teilen Sie eine bestimmte komplexe Erkennungsaufgabe in einfachere Teilaufgaben auf und wählen Sie effektive Eingabeaufforderungen aus dem Toolkit für Erkennungseingabeaufforderungen aus.

III. Ausführen: Führen Sie bestimmte Eingabeaufforderungen (Eingabeaufforderungen) iterativ nacheinander aus.

IV. Antworten: Nutzen Sie die MLLM-eigenen Argumentationsfunktionen, um den gesamten Erkennungsprozess zu überwachen und die endgültige Antwort (endgültige Antwort) zurückzugeben.

Toolkit für Erkennungsaufforderungen: Eingabeaufforderungen für die visuelle Verarbeitung



Abbildung 2: Schematische Darstellung visueller Verarbeitungsaufforderungen. Wir haben (1) regionalen Verstärker, (2) räumlichen Messstandard und (3) Szenenbild-Parser entwickelt, um die Erkennungsfähigkeiten von MLLMs aus verschiedenen Perspektiven zu verbessern.

Wie in Abbildung 2 dargestellt, zielt (1) Regional Amplifier darauf ab, die Sichtbarkeit von MLLMs in der Region of Interest (ROI) zu verbessern, einschließlich des Zuschneidens des Originalbilds in verschiedene Unterregionen, wobei der Schwerpunkt auf der Unterregion liegt, in der sich das Zielobjekt befindet ; zusätzlich ermöglicht die Verstärkungsfunktion eine feinkörnige Betrachtung bestimmter Teilbereiche im Bild.

(2) Spatial Measurement Standard bietet eine klarere Referenz für die Zielerkennung, indem ein Lineal und ein Kompass mit linearen Skalen über das Originalbild gelegt werden, wie in Abbildung 2 (2) dargestellt. Hilfslineale und Kompasse ermöglichen MLLMs die Ausgabe genauer Koordinaten und Winkel mithilfe von Translations- und Rotationsreferenzen, die dem Bild überlagert sind. Im Wesentlichen vereinfacht diese Hilfslinie die Erkennungsaufgabe und ermöglicht es MLLMs, die Koordinaten von Objekten zu lesen, anstatt sie direkt vorherzusagen.

(3) Der Scene Image Parser markiert die vorhergesagten Objektpositionen oder -beziehungen und verwendet räumliche und kontextbezogene Informationen, um die räumlichen Beziehungen des Bildes zu verstehen. Scene Image Parser kann in zwei Kategorien unterteilt werden:Erstens für ein einzelnes Zielobjekt kennzeichnen wir vorhergesagte Objekte mit Schwerpunkten, konvexen Hüllen und Begrenzungsrahmen mit Beschriftungsnamen und Rahmenindizes. Diese Markierungen stellen Objektstandortinformationen in verschiedenen Formaten dar und ermöglichen MLLM die Erkennung verschiedener Objekte unterschiedlicher Form und Hintergründe, insbesondere Objekte mit unregelmäßigen Formen oder stark verdeckte Objekte. Der konvexe Hüllenmarker markiert beispielsweise die Grenzpunkte eines Objekts und verbindet sie zu einer konvexen Hülle, um die Erkennungsleistung sehr unregelmäßig geformter Objekte zu verbessern.Zweitens für mehrere Ziele Wir verbinden die Mittelpunkte verschiedener Objekte durch Szenendiagrammmarkierungen, um die Beziehungen zwischen Objekten im Bild hervorzuheben. Basierend auf dem Szenendiagramm kann MLLM seine kontextbezogenen Argumentationsfunktionen nutzen, um vorhergesagte Begrenzungsrahmen zu optimieren und Halluzinationen zu vermeiden. Wie in Abbildung 2 (3) gezeigt, möchte Jerry beispielsweise Käse essen, daher sollten ihre Begrenzungsrahmen sehr nahe beieinander liegen.

Toolkit für Erkennungsbegründungsaufforderungen: Erkennungsbegründungsaufforderungen



Um die Zuverlässigkeit der Vorhersagebox zu verbessern, haben wir Erkennungsinferenzaufforderungen durchgeführt (siehe Tabelle 1), um die Vorhersageergebnisse zu überprüfen und möglicherweise vorhandene Probleme zu diagnostizieren. Zunächst schlagen wir den Problem Insight Guider vor, der schwierige Probleme hervorhebt und effektive Erkennungsvorschläge und ähnliche Beispiele für Abfragebilder bereitstellt. Beispielsweise definiert der Problem Insight Guider für Abbildung 3 die Abfrage als ein Problem der Erkennung kleiner Objekte und schlägt vor, es durch Vergrößern des Surfbrettbereichs zu lösen. Zweitens haben wir den Spatial Relationship Explorer und den Contextual Object Predictor entwickelt, um die inhärenten räumlichen und kontextbezogenen Fähigkeiten von MLLMs auszunutzen, um sicherzustellen, dass die Erkennungsergebnisse mit dem gesunden Menschenverstand übereinstimmen. Wie in Abbildung 3 dargestellt, kann ein Surfbrett gleichzeitig mit dem Ozean vorkommen (Kontextwissen), und es sollte sich ein Surfbrett in der Nähe der Füße des Surfers befinden (Raumwissen). Darüber hinaus wenden wir den Self-Verification Promoter an, um die Konsistenz der Antworten in mehreren Runden zu verbessern. Um die Argumentationsfähigkeiten von MLLMs weiter zu verbessern, übernehmen wir weit verbreitete Aufforderungsmethoden wie Debatten und Selbst-Debugging. Eine detaillierte Beschreibung finden Sie im Originaltext.



Abbildung 3 Hinweise zur Erkennungsbegründung können MLLMs dabei helfen, Probleme bei der Erkennung kleiner Objekte zu lösen, indem sie beispielsweise mit gesundem Menschenverstand ein Surfbrett unter den Füßen einer Person lokalisieren und das Modell dazu ermutigen, Surfbretter im Meer zu erkennen.



Abbildung 4 Ein Beispiel für DetToolChain, angewendet auf die Erkennung rotierender Ziele (HRSC2016-Datensatz)

Experimentieren: Sie können Feinabstimmungsmethoden ohne Schulung übertreffen



Wie in Tabelle 2 gezeigt, haben wir unsere Methode zur Erkennung offener Vokabeln (OVD) bewertet und dabei die AP50-Ergebnisse von 17 neuen Klassen, 48 Basisklassen und allen Klassen im COCO OVD-Benchmark getestet. Die Ergebnisse zeigen, dass durch den Einsatz unserer DetToolChain die Leistung sowohl von GPT-4V als auch von Gemini deutlich verbessert wird.



Um die Wirksamkeit unserer Methode zum Verständnis referenzieller Ausdrücke zu demonstrieren, vergleichen wir unsere Methode mit anderen Zero-Shot-Methoden für die Datensätze RefCOCO, RefCOCO+ und RefCOCOg (Tabelle 5). Auf RefCOCO verbesserte DetToolChain die Leistung der GPT-4V-Basislinie um 44,53 %, 46,11 % bzw. 24,85 % bei val, test-A und test-B und demonstrierte damit das überlegene Verständnis und die Leistung von DetToolChain für referenzielle Ausdrücke unter Zero-Shot-Positionierungsbedingungen.