Nachricht

Peking-Universität Wangxuan: Lassen Sie multimodale große Modelle besser verstehen, was Menschen tun |

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Das multimodale große Modell verwendet nur schnelle Wörter und kann die Beziehung zwischen den Charakteren in der Szene besser verstehen.

Die Universität Peking hat kürzlich die CMMP-Methode (Conditional Multi-Modal Prompt) vorgeschlagen, die verwendetSchnelle Word-Engineering-TechnologieBringen Sie multimodalen großen Modellen bei, die Interaktionsbeziehungen zwischen Charakteren auf regionaler Ebene zu verstehen.



In diesem Prozess besteht der schwierigste Teil darin, dem Modell das Erkennen beizubringenUngesehene Charakter-Interaktionstypen

Wissen Sie, die meisten bestehenden Forschungsarbeiten konzentrieren sich auf geschlossene Umgebungen, sobald es sich um eine offene Umgebung handelt, die näher an der Realität ist, wird das Modell verwirrt sein!

In der Abbildung unten hatten frühere Detektoren beispielsweise Schwierigkeiten, sichtbare und unsichtbare Kategorien auszugleichen.was zu einem niedrigeren harmonischen Mittelwert führtund schneiden in unsichtbaren Kategorien schlechter ab.

Im Gegensatz dazu löst die CMMP-Methode dieses Ausgleichsproblem effektiv, verbessert die Leistung erheblich und schafft neue, hochmoderne Leistung für bisher unbekannte Kategorien.



Wie die CMMP-Methode unsichtbare Kategorien löst,ein Wort

Visuell-räumliche Hinweise werden im Merkmalsextraktionsprozess verwendet, um unsichtbare Interaktionskonzepte zwischen Person und Objekt zu identifizieren und die Verallgemeinerung auf unsichtbare Kategorien durch bedingtes Lernen von Hinweisen zu verbessern.



Zusammenfassend bietet die CMMP-Methode ein neues Paradigma für die Feinabstimmung multimodaler großer Modelle, um diese zu erstellenverallgemeinertFunktionen zur Erkennung von Charakterinteraktionsbeziehungen auf regionaler Ebene.

Die oben genannten Forschungsergebnisse stammen vom Wangxuan Institute of Computer Technology der Peking-Universität und die relevanten Beiträge wurden von der Spitzenkonferenz ECCV 2024 angenommen.

Ein neues Framework für die Nullstichproben-Erkennung menschlicher Interaktionen

Das Team schlug ein neues Framework für die Zero-Sample-HOI-Erkennung (Mensch-Objekt-Interaktion) mithilfe von CMMP vor.



Insbesondere wird CMMP menschliche Interaktionen ohne Stichprobe erkennenAufgeteilt in zwei Teilaufgaben

  • Visuelle Merkmalsextraktion für die Wahrnehmung von Interaktivität
  • Verallgemeinerbare Interaktionsklassifizierung

Dann für jede Teilaufgabegesondert vorgeschlagenEntkoppelte visuelle und textliche Hinweise, um Abhängigkeiten zwischen ihnen zu beseitigen und die Fehlerausbreitung zu verringern.

Bedingte visuelle Hinweise (Pv) werden verwendet, um Wissen über räumliche Wahrnehmung und Interaktivität in den Bildencoder einzuspeisen, eingeschränkt durch visuelle Prioritäten auf Instanzebene (Cins) und globale räumliche Interaktionsmuster (Cgsp). Bedingte Sprachhinweise (PL) werden durch vom Menschen entworfene Hinweise (CL) durch einen Regularisierungsverlust eingeschränkt.

Visuelle Merkmalsextraktion für die Wahrnehmung von Interaktivität

Der Bildkodierer des vom Team übernommenen multimodalen Modells wurde zunächst durch kontrastives Lernen vor dem Training (CLIP) an groß angelegten Bild-Text-Paaren trainiert und seine Fähigkeit könnte auf das Verständnis der Semantik erster Ordnung auf Bildebene beschränkt sein.

Um es dem Bildkodierer zu ermöglichen, alle menschlichen Interaktionen im Bild zu unterscheiden, schlug das Team vor, Vorwissen über verschiedene Granularitäten in bedingte visuelle Hinweise zu integrieren, um sie individuell für die Aufgabe der Erkennung menschlicher Interaktionsbeziehungen zu verstehen.Regionale Semantik zweiter Ordnung

Konkret: ForscherNutzen Sie Informationen auf Instanzebene als VorwissenIntegrieren Sie bedingte visuelle Hinweise.

Bei einem Eingabebild wird zunächst ein vorab trainierter Objektdetektor verwendet, um das gesamte Vorwissen auf Instanzebene zu erhalten, einschließlich Begrenzungsrahmen, Konfidenzbewertungen und semantischen Kodierungen der erkannten Instanzen.

Um jede Instanz zu ermutigen, sich ihrer potenziellen Interaktionsobjekte bewusst zu sein, kombinierte das Team außerdem das globale räumliche Muster der Interaktionen im Trainingssatz mit visuellen Prioritäten auf Instanzebene.

Konkret für jedes kommentierte interagierende Personenpaar, so die ForscherBerechnen Sie zunächst seine univariaten und binären räumlichen Merkmale.

Anschließend wird der K-Means-Clustering-Algorithmus verwendet, um die Clusterzentren zu bestimmen und sie als repräsentative räumliche Muster interagierender Zeichenpaare zu verwenden.

Das globale räumliche Interaktionsmuster bietet eine kategorieunabhängige repräsentative räumliche Konfiguration als Brücke zum Verständnis der Interaktivität zwischen sichtbaren und unsichtbaren Charakterinteraktionskonzepten.

Schließlich integrierten die Forscher das kombinierte Wissen über einen leichten Adapter in einen Bildencoder.

Verallgemeinerbare Interaktionsklassifizierung

Um das verallgemeinerbare allgemeine Wissen von CLIP beizubehalten und gleichzeitig aufgabenspezifische Darstellungen für die Erkennung menschlicher Interaktionen zu erlernen, hat das Team Folgendes übernommen:Sprachbewusstes, schnelles Lernen mit Konsistenzbeschränkungen

Diese Einschränkung stellt sicher, dass die erlernten Prototypen sichtbarer und unsichtbarer Kategorien angemessene Trennungsgrenzen einhalten und nicht übermäßig voneinander abweichen.

Konkret für jede Aktionskategorie, die ForscherErster GebrauchManuell gestaltete Eingabeaufforderungen formatieren es. Nutzen Sie lernbare Kontextwörter, um als Brücken zwischen der Semantik sichtbarer und unsichtbarer Kategorien zu dienen.

Die endgültige Darstellung der Kategorie erhält man, indem man die lernbaren Kontextwörter mit den Wortvektoren der obigen Sätze verkettet und sie dann durch einen Textkodierer leitet.

Um den vom multimodalen Modelltext-Encoder selbst erlernten Merkmalsraum weiter zu nutzen und die Generalisierungsfähigkeit auf unsichtbare Kategorien zu verbessern, schlugen die Forscher vorTipps zur Verwendung von Human Designum den Merkmalsraum lernbarer Sprachhinweise zu leiten.

Diese Einschränkung stellt sicher, dass Prototypen der sichtbaren und unsichtbaren Kategorien angemessene Trenngrenzen einhalten und nicht zu stark voneinander abweichen.

TeambewerbungRegularisierung versus Lernverlustum den Unterschied zwischen Merkmalsdarstellungen und Merkmalsdarstellungen künstlich gestalteter Sprachhinweise zu verringern.

Schulung CMMP

Basierend auf der interaktivitätsbewussten Feature-Map und den vom vorab trainierten Objektdetektor extrahierten Begrenzungsrahmen von Personen und Objekten wandte das Team zunächst ROI-Pooling an, um Features in verschiedenen Bereichen zu extrahieren.

Anschließend werden die aus verschiedenen Regionen extrahierten Merkmale zusammengeführt und die endgültige Vorhersage der Interaktionsklasse wird über einen Interaktionsklassifikator getroffen.

Das gesamte Modell nutzt den Fokusverlust beim interaktiven Klassifizierungstraining und wendet auch den Verlust der Sprachregularisierung an.

Experimentelle Ergebnisse

Während der Ergebnisüberprüfungsphase verwendete das TeamHICO-DET, ein häufig verwendeter Datensatz zur Erkennung menschlicher InteraktionenDie 600 Zeicheninteraktionskategorien bestehen aus 80 Objektkategorien und 117 Verbkategorien.

Um die Leistung des Modells bei Nullstichproben zu überprüfen, führten die Forscher eine Auswertung mit HICO-DET durchFünf Zero-Sample-Einstellungen

Um einen fairen Vergleich mit bestehenden Methoden zu erreichen, untersuchen wirStandardmäßig wird ViT-B/16 verwendetals Backbone-Netzwerk.

Wie in der folgenden Tabelle gezeigt, zeigen die experimentellen Ergebnisse, dass CMMP unter allen Null-Sample-Einstellungen eine gute Leistung erbringt.Alle erzielten die beste Leistung in bisher unbekannten Klassen, was die Wirksamkeit der Einführung bedingter multimodaler Hinweise beweist.



Wie in der Tabelle für jeden Typ gezeigtDie letzte Zeile zeigtDurch die Nutzung des ViT-L/14-Backbones zur Erweiterung von CMMP auf die FLOPs von CLIP4HOI erzielt die neue Methode die beste Leistung in allen Partitionen.

Dies zeigt, dass das Modell des Teams über hervorragende Fähigkeiten bei der Extraktion räumlicher Beziehungen visueller Merkmale und beim Lernen von Prototypen für die interaktive Klassifizierung verfügt.

Darüber hinaus zeigen frühere Methoden gravierende Leistungsunterschiede zwischen sichtbaren und unsichtbaren Kategorien, was auf ihre mangelnde Generalisierungsfähigkeit hinweist.

Das Modell dieser Studie kann dieses Problem weitgehend lindernverallgemeinernDas hohe Potenzial, bisher unbekannte Interaktionskategorien zu erreichen, bestätigt die Wirksamkeit multimodaler Hinweise mit Einschränkungen.

Weitere Einzelheiten finden Sie im Originalpapier.