nouvelles

Université de Pékin Wangxuan : Permettez aux grands modèles multimodaux de mieux comprendre ce que font les humains |

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

En utilisant uniquement des mots incitatifs, le grand modèle multimodal peut mieux comprendre la relation entre les personnages de la scène.

L'Université de Pékin a récemment proposé la méthode Conditional Multi-Modal Prompt (CMMP), qui utiliseTechnologie d'ingénierie de mots rapidesEnseigner de grands modèles multimodaux pour comprendre les relations d'interaction entre les personnages au niveau régional.



Dans ce processus, le plus difficile est d’apprendre au modèle à reconnaîtreTypes d'interactions de personnages invisibles

Vous savez, la plupart des recherches existantes se concentrent sur les environnements fermés. Une fois devenu un environnement ouvert plus proche de la réalité, le modèle sera confus !

Par exemple, dans la figure ci-dessous, les détecteurs précédents rencontraient des difficultés pour équilibrer les catégories visibles et invisibles,ce qui entraîne une moyenne harmonique inférieure, et obtenez de moins bons résultats dans les catégories invisibles.

En revanche, la méthode CMMP résout efficacement ce problème d’équilibrage, améliore considérablement les performances et établit de nouvelles performances de pointe pour des catégories inédites.



Quant à la façon dont la méthode CMMP résout les catégories invisibles,un mot

Les indices visuo-spatiaux sont utilisés dans le processus d'extraction de caractéristiques pour aider à identifier les concepts d'interaction personne-objet invisibles et à améliorer la généralisation aux catégories invisibles grâce à l'apprentissage conditionnel des indices.



En résumé, la méthode CMMP fournit un nouveau paradigme pour affiner les grands modèles multimodaux afin de les rendregénéraliséCapacités de détection des relations d’interaction entre les personnages au niveau régional.

Les recherches ci-dessus proviennent de l'Institut de technologie informatique Wangxuan de l'Université de Pékin, et les articles pertinents ont été acceptés par la grande conférence ECCV 2024.

Un nouveau cadre pour la détection des interactions humaines sans échantillon

L’équipe a proposé un nouveau cadre pour la détection HOI (Human-Object Interaction) sans échantillon à l’aide de CMMP.



Plus précisément, CMMP détectera les interactions humaines sans échantillonDivisé en deux sous-tâches

  • Extraction de caractéristiques visuelles pour la perception de l'interactivité
  • Classification des interactions généralisables

Puis pour chaque sous-tâcheproposé séparémentIndices visuels et textuels découplés pour éliminer les dépendances entre eux et atténuer la propagation des erreurs.

Des indices visuels conditionnels (Pv) sont utilisés pour injecter des connaissances sur la perception spatiale et interactivité dans l'encodeur d'image, contraintes par des priorités visuelles au niveau de l'instance (Cins) et des modèles spatiaux globaux d'interactions (Cgsp). Les indices de langage conditionnel (PL) sont contraints par des indices conçus par l'homme (CL) via une perte de régularisation.

Extraction de caractéristiques visuelles pour la perception de l'interactivité

L'encodeur d'image du modèle multimodal adopté par l'équipe a été initialement formé par pré-entraînement par apprentissage contrastif (CLIP) sur des paires image-texte à grande échelle, et sa capacité peut être limitée à la compréhension de la sémantique de premier ordre au niveau de l'image.

Afin de permettre à l'encodeur d'image de distinguer toute l'interactivité humaine dans l'image, l'équipe a proposé d'intégrer la connaissance préalable de différentes granularités dans des signaux visuels conditionnels afin de les comprendre de manière personnalisée pour la tâche de détection des relations d'interaction humaine.Sémantique régionale de second ordre

Plus précisément, les chercheursUtiliser les informations au niveau de l'instance comme connaissances préalablesIncorporez des indices visuels conditionnels.

Étant donné une image d'entrée, un détecteur d'objets pré-entraîné est d'abord utilisé pour obtenir toutes les connaissances préalables au niveau de l'instance, y compris les cadres de délimitation, les scores de confiance et les codages sémantiques des instances détectées.

De plus, pour encourager chaque instance à prendre conscience de ses objets potentiels en interaction, l’équipe a combiné le modèle spatial global des interactions dans l’ensemble de formation avec un préalable visuel au niveau de l’instance.

Plus précisément, pour chaque paire de personnes en interaction annotée, les chercheursCalculez d’abord ses caractéristiques spatiales univariées et binaires.

Par la suite, l'algorithme de clustering K-means est utilisé pour déterminer les centres de cluster et les utiliser comme modèles spatiaux représentatifs de paires de caractères en interaction.

Le modèle d'interaction spatiale globale fournit une configuration spatiale de représentation indépendante de la catégorie comme pont pour comprendre l'interactivité entre les concepts d'interaction de personnages visibles et invisibles.

Enfin, les chercheurs ont intégré les connaissances combinées dans un encodeur d’images via un adaptateur léger.

Classification des interactions généralisables

Afin de conserver les connaissances générales généralisables de CLIP tout en apprenant des représentations spécifiques à des tâches pour la détection des interactions humaines, l'équipe a adoptéApprentissage rapide sensible au langage avec contraintes de cohérence

Cette contrainte garantit que les prototypes appris des catégories visibles et invisibles maintiennent des limites de séparation raisonnables et ne s'écartent pas excessivement les uns des autres.

Plus précisément, pour chaque catégorie d'action, les chercheursPremière utilisationLes invites conçues manuellement le formatent. Tirez parti des mots contextuels apprenables pour servir de ponts entre la sémantique des catégories visibles et invisibles.

La représentation finale de la catégorie est obtenue en concaténant les mots contextuels apprenables avec les vecteurs de mots des phrases ci-dessus, puis en les faisant passer par un encodeur de texte.

Afin d'utiliser davantage l'espace de fonctionnalités appris par l'encodeur de texte du modèle multimodal lui-même et d'améliorer la capacité de généralisation à des catégories invisibles, les chercheurs ont proposéConseils pour utiliser le design humainpour guider l’espace des fonctionnalités des indices linguistiques apprenables.

Cette contrainte garantit que les prototypes des catégories visibles et invisibles maintiennent des limites de séparation raisonnables et ne s'écartent pas trop les uns des autres.

Candidature en équipeRégularisation versus perte d'apprentissagepour réduire la différence entre les représentations de caractéristiques et les représentations de caractéristiques d'indices linguistiques conçus artificiellement.

Formation CMMP

Sur la base de la carte des fonctionnalités sensibles à l'interactivité et des cadres de délimitation des personnes et des objets extraits par le détecteur d'objets pré-entraîné, l'équipe a d'abord appliqué le ROI-Pooling pour extraire des fonctionnalités dans différentes zones.

Ensuite, les caractéristiques extraites de différentes régions sont fusionnées et la prédiction finale de la classe d'interaction est effectuée via un classificateur d'interaction.

L'ensemble du modèle utilise la perte focale dans la formation interactive à la classification et applique également la perte de régularisation du langage.

Résultats expérimentaux

Durant la phase de vérification des résultats, l'équipe a utiliséHICO-DET, un ensemble de données couramment utilisé pour la détection des interactions humaines, les 600 catégories d'interaction de caractères sont composées de 80 catégories d'objets et de 117 catégories de verbes.

Pour vérifier les performances du modèle sans échantillon, les chercheurs ont évalué sur HICO-DETCinq paramètres sans échantillon

Afin de réaliser une comparaison équitable avec les méthodes existantes, nous étudionsViT-B/16 est utilisé par défautcomme réseau fédérateur.

Comme le montre le tableau ci-dessous, les résultats expérimentaux montrent que le CMMP fonctionne bien dans tous les paramètres d'échantillon nul.Tous ont réalisé les meilleures performances sur des classes invisibles, ce qui prouve l'efficacité de l'introduction d'indices multimodaux conditionnels.



Comme indiqué dans le tableau pour chaque type deLa dernière ligne montre, en tirant parti du backbone ViT-L/14 pour étendre CMMP afin de correspondre aux FLOP de CLIP4HOI, la nouvelle méthode permet d'obtenir les meilleures performances dans toutes les partitions.

Cela démontre que le modèle de l’équipe possède d’excellentes capacités d’extraction de relations spatiales de caractéristiques visuelles et d’apprentissage de prototypes pour une classification interactive.

De plus, les méthodes précédentes montrent de sérieuses différences de performances entre les catégories visibles et invisibles, indiquant leur manque de capacité de généralisation.

Le modèle de cette étude peut atténuer ce problème dans une large mesure, etgénéraliserLe fort potentiel d’atteinte de catégories d’interaction inédites confirme l’efficacité des indices multimodaux avec contraintes.

Veuillez vous référer au document original pour plus de détails.