Nachricht

Das Team von Li Xi von der Zhejiang-Universität: ScanFormer ist eine neue Methode zur Bezugnahme auf das Ausdrucksverständnis und eliminiert Redundanz von grob nach fein

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Die AIxiv-Kolumne ist eine Kolumne, in der Machine Heart akademische und technische Inhalte veröffentlicht. In den letzten Jahren hat die Kolumne „Heart of the Machine AIxiv“ mehr als 2.000 Berichte erhalten, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: [email protected]; [email protected]

Die Autoren dieser Arbeit stammen alle aus dem Team von Professor Li Xi von der Zhejiang-Universität. Der erste Autor der Arbeit ist die Doktorandin Su Wei, und der korrespondierende Autor ist Professor Li Xi (IET Fellow, National Distinguished Young Scholar). In den letzten Jahren hat das Team von Professor Li Xi mehr als 180 CV/AIGC-bezogene Forschungsarbeiten in renommierten internationalen Fachzeitschriften (wie TPAMI, IJCV usw.) und führenden internationalen akademischen Konferenzen (ICCV, CVPR, ECCV usw.) veröffentlicht. und hat mit namhaften Universitäten und wissenschaftlichen Forschungseinrichtungen im In- und Ausland kooperiert.

Als grundlegende visuelle Sprachaufgabe lokalisiert das Referring Expression Comprehension (REC) das verwiesene Ziel im Bild basierend auf der Beschreibung in natürlicher Sprache. Das REC-Modell besteht normalerweise aus drei Teilen: visuellem Encoder, Textencoder und modalübergreifender Interaktion, die zum Extrahieren visueller Merkmale, Textmerkmale und modalübergreifender Merkmalsinteraktion bzw. -verbesserung verwendet werden.

Die meisten aktuellen Forschungsarbeiten konzentrieren sich auf die Entwicklung effizienter modalübergreifender Interaktionsmodule zur Verbesserung der Aufgabengenauigkeit, und es mangelt an der Erforschung visueller Encoder. Ein gängiger Ansatz besteht darin, Feature-Extraktoren zu verwenden, die vorab auf Klassifizierungs- und Erkennungsaufgaben trainiert wurden, wie z. B. ResNet, DarkNet, Swin Transformer oder ViT usw. Diese Modelle durchqueren alle räumlichen Positionen des Bildes, um Merkmale in einem gleitenden Fenster oder einem geteilten Patch zu extrahieren. Ihre Rechenkomplexität nimmt mit der Bildauflösung schnell zu, was bei Modellen auf Transformer-Basis offensichtlicher ist.

Aufgrund der räumlichen Redundanzeigenschaften von Bildern gibt es eine große Anzahl von Hintergrundbereichen mit geringem Informationsgehalt und Bereichen, die für den referenziellen Ausdruck im Bild irrelevant sind. Das Extrahieren von Merkmalen in diesen Bereichen auf die gleiche Weise erhöht die Rechenkomplexität, tut dies aber auch tragen nicht zur effektiven Merkmalsextraktion bei. Eine effizientere Möglichkeit besteht darin, die Textrelevanz und den Inhaltsreichtum des Bildbereichs im Voraus vorherzusagen, Merkmale vollständig aus dem textbezogenen Vordergrundbereich zu extrahieren und Merkmale grob aus dem Hintergrundbereich zu extrahieren. Für die regionale Vorhersage besteht eine intuitivere Möglichkeit darin, mithilfe der Bildpyramide den Hintergrundbereich im grobkörnigen Bild an der Spitze der Pyramide im Voraus zu identifizieren und dann nach und nach hochauflösende, feinkörnige Vordergrundbereiche hinzuzufügen.

Basierend auf der obigen Analyse haben wir vorgeschlagenScanFormer, ein grob-zu-fein iterationsfähiges Framework, scannen Sie Schicht für Schicht in der Bildpyramide, beginnend mit Bildern mit niedriger Auflösung und grobem Maßstab, und filtern Sie nach und nach irrelevante/Hintergrundbereiche heraus, die sich auf Ausdrücke beziehen, um den Rechenaufwand zu reduzieren, sodass sich das Modell mehr auf Vordergrund-/aufgabenbezogene Bereiche konzentrieren kann .



  • Titel des Papiers: ScanFormer: Verweisendes Ausdrucksverständnis durch iteratives Scannen
  • Link zum Papier: https://arxiv.org/pdf/2406.18048

Methodeneinführung

1. Wahrnehmungsrahmen für grobe bis feine Iterationen

Um die Struktur zu vereinfachen, übernehmen wir das ViLT-Modell [1], das Text und visuelle Modalitäten vereint, und teilen es entlang der Tiefendimension für verschiedene Aufgaben in zwei Teile, Encoder1 und Encoder2.

Extrahieren Sie zunächst Textmerkmale und speichern Sie sie im KV-Cache. Erstellen Sie dann eine Bildpyramide und iterieren Sie von der Spitze der Pyramide nach unten. Bei jeder Iteration wird der im aktuellen Maßstab ausgewählte Patch eingegeben und Encoder1 wird verwendet, um den nächsten Schritt vorherzusagen Die Auswahl feinkörniger Patches in einem Maßstab stellt sicher, dass das Modell grobkörnige Vollbildinformationen erhalten kann. Encoder2 extrahiert weitere Merkmale und sagt den Begrenzungsrahmen dieser Skala basierend auf dem [cls]-Token der aktuellen Skala voraus.

Gleichzeitig werden die Zwischenfunktionen von Encoder1 und Encoder2 im KV-Cache gespeichert, um die spätere Standardverwendung zu erleichtern. Mit zunehmender Skalierung werden feinkörnigere Merkmale eingeführt, die Positionsvorhersage wird genauer und die meisten irrelevanten Patches werden verworfen, um viele Berechnungen zu sparen.

Darüber hinaus verfügen die Patches innerhalb jeder Skala über bidirektionale Aufmerksamkeit, wobei alle Patches und Textmerkmale der vorhergehenden Skalen berücksichtigt werden. Diese skalenübergreifende kausale Aufmerksamkeit kann den Rechenaufwand weiter reduzieren.



2. Dynamische Patch-Auswahl

Die Auswahl jedes Patches wird durch den durch die vorherige Skala generierten Auswahlfaktor bestimmt. Es gibt zwei Optionen für den Anwendungsstandort. Eine wird in allen Köpfen jeder Schicht von MHSA im Encoder verwendet Bei H-Köpfen ist es sehr schwierig, effektive Gradienteninformationen für die Aktualisierung zu erhalten, sodass der erlernte Auswahlfaktor nicht direkt als Eingabe des Encoders verwendet wird, d. h. als Patch-Einbettung In dieser Position ist es einfacher zu lernen. Schließlich wurde auch diese Lösung übernommen.

Darüber hinaus ist zu beachten, dass selbst wenn die Eingabe-Patch-Einbettung aufgrund der Existenz von MHSA und FFN auf 0 gesetzt ist, die Funktionen des Patches in nachfolgenden Schichten immer noch ungleich 0 werden und sich auf die Funktionen anderer Patches auswirken. Wenn die Token-Sequenz viele identische Token enthält, kann die Berechnung von MHSA glücklicherweise vereinfacht und eine tatsächliche Inferenzbeschleunigung erreicht werden. Um die Flexibilität des Modells zu erhöhen, wird in diesem Artikel außerdem die Patch-Einbettung nicht direkt auf 0 gesetzt, sondern durch ein lernbares Konstanten-Token ersetzt.

Daher wird das Patch-Auswahlproblem in ein Patch-Ersetzungsproblem umgewandelt. Der Patch-Auswahlprozess kann in zwei Schritte unterteilt werden: ständiger Token-Ersatz und Token-Zusammenführung. Nicht ausgewählte Patches werden durch dasselbe konstante Token ersetzt. Da diese nicht ausgewählten Token gleich sind, können diese Token gemäß der Berechnungsmethode der skalierten Skalarproduktaufmerksamkeit zu einem Token kombiniert und mit der Gesamtzahl multipliziert werden, was einer Addition der Dimension entspricht, also der Skalarproduktaufmerksamkeitsmethode Keine Änderung, gängige Beschleunigungsmethoden stehen weiterhin zur Verfügung.



Experimentelle Ergebnisse

Diese Methode erreicht bei vier Datensätzen eine ähnliche Leistung wie der Stand der Technik: RefCOCO, RefCOCO+, RefCOCOg und ReferItGame. Durch Vortraining an großen Datensätzen und Feinabstimmung an bestimmten Datensätzen kann die Leistung des Modells weiter erheblich verbessert werden und ähnliche Ergebnisse wie vorab trainierte Modelle wie MDETR [2] und OFA [3] erzielt werden.





In Bezug auf die Argumentationsgeschwindigkeit erreicht die vorgeschlagene Methode eine Echtzeit-Schlussfolgerungsgeschwindigkeit und gewährleistet gleichzeitig eine hohe Aufgabengenauigkeit.



Darüber hinaus wurden im experimentellen Teil auch Statistiken zur Patchauswahl des Modells und zur Verteilung der Positionierungsgenauigkeit auf jeder Skala (Skala1 und Skala2) erstellt.

Wie in der Abbildung links gezeigt, werden mit zunehmendem Maßstab feinkörnige Bildmerkmale hinzugefügt und die Modellgenauigkeit verbessert sich allmählich. Daher können Sie versuchen, einen Mechanismus zum vorzeitigen Beenden hinzuzufügen, um rechtzeitig zu beenden, wenn die Positionierungsgenauigkeit den Anforderungen entspricht, wodurch weitere Berechnungen für hochauflösende Bilder vermieden werden und der Effekt einer adaptiven Auswahl einer geeigneten Auflösung basierend auf Proben erzielt wird. In diesem Artikel wurden auch einige vorläufige Versuche unternommen, darunter das Hinzufügen von Vorhersagezweigen wie IoU, GIoU und Unsicherheit sowie die Rückgabe von Frühausstiegsindikatoren. Es wurde jedoch festgestellt, dass der Effekt nicht ideal war, wie es sein muss, geeignete und genaue Frühausstiegsindikatoren zu entwerfen weiter erforscht.

Die Abbildung rechts zeigt die Patch-Auswahlsituation in verschiedenen Maßstäben. In allen Maßstäben machen die ausgewählten Patches einen relativ geringen Anteil aus, und die meisten Patches können eliminiert werden, sodass Rechenressourcen effektiv eingespart werden können. Für jede Probe (Bild + Referenzausdruck) ist die Anzahl der tatsächlich ausgewählten Patches relativ gering, etwa 65 % der Gesamtzahl.



Schließlich zeigt der experimentelle Teil einige Visualisierungsergebnisse. Mit zunehmender Skala (Rot → Grün → Blau) verbessert sich die Positionierungsgenauigkeit des Modells. Darüber hinaus ist anhand des aus dem ausgewählten Patch rekonstruierten Bild ersichtlich, dass das Modell nur auf grobskalige Informationen für den Hintergrundbereich achtet, während das Modell für den relevanten Vordergrundbereich auf feinkörnige Details achten kann Information.



Verwandte Literatur:

[1].Kim W, Son B, Kim I. Vilt: Vision-and-language transformer ohne Faltung oder Regionsüberwachung [C]//Internationale Konferenz zum maschinellen Lernen. PMLR, 2021: 5583-5594.

[2].Kamath A, Singh M, LeCun Y, et al. Mdetr-modulierte Erkennung für durchgängiges multimodales Verständnis [C]//Proceedings der internationalen IEEE/CVF-Konferenz zum Thema Computer Vision. 2021: 1780-1790.

[3].Wang P, Yang A, Men R, et al. Ofa: Vereinheitlichung von Architekturen, Aufgaben und Modalitäten durch ein einfaches Sequenz-zu-Sequenz-Lernframework [C]//Internationale Konferenz zum maschinellen Lernen. PMLR, 2022: 23318-23340.