Mi información de contacto
Correo[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Usando solo palabras clave, el modelo grande multimodal puede comprender mejor la relación entre los personajes de la escena.
La Universidad de Pekín propuso recientemente el método de aviso multimodal condicional (CMMP), que utilizaTecnología de ingeniería de palabras rápidas.Enseñe modelos grandes multimodales para comprender las relaciones de interacción de personajes a nivel regional.
En este proceso, la parte más difícil es enseñar al modelo a reconocerTipos de interacción de personajes invisibles。
Ya sabes, la mayoría de las investigaciones existentes se centran en entornos cerrados. Una vez que se convierta en un entorno abierto más cercano a la realidad, ¡el modelo será confuso!
Por ejemplo, en la figura siguiente, los detectores anteriores encontraron dificultades para equilibrar las categorías visibles y no vistas,resultando en una media armónica más bajay obtienen peores resultados en categorías invisibles.
Por el contrario, el método CMMP resuelve eficazmente este problema de equilibrio, mejora significativamente el rendimiento y establece un rendimiento de última generación para categorías invisibles.
En cuanto a cómo el método CMMP resuelve categorías invisibles,una palabra:
Las señales visoespaciales se utilizan en el proceso de extracción de características para ayudar a identificar conceptos de interacción persona-objeto invisible y mejorar la generalización a categorías invisibles mediante el aprendizaje de señales condicionales.
En resumen, el método CMMP proporciona un nuevo paradigma para ajustar modelos grandes multimodales para hacerlosgeneralizadoCapacidades de detección de relaciones de interacción de personajes a nivel regional.
La investigación anterior proviene del Instituto Wangxuan de Tecnología Informática de la Universidad de Pekín, y los artículos relevantes han sido aceptados en la conferencia principal ECCV 2024.
Un nuevo marco para la detección de interacción humana con muestra cero
El equipo propuso un nuevo marco para la detección de HOI (interacción humano-objeto) de muestra cero utilizando CMMP.
En concreto, CMMP detectará interacción humana de muestra ceroDividido en dos subtareas:
Luego para cada subtareapropuesto por separadoSeñales visuales y textuales desacopladas para eliminar dependencias entre ellas y mitigar la propagación de errores.
Las señales visuales condicionales (Pv) se utilizan para inyectar conocimiento de la percepción espacial y de interactividad en el codificador de imágenes, limitado por antecedentes visuales a nivel de instancia (Cins) y patrones espaciales globales de interacciones (Cgsp). Las señales de lenguaje condicional (PL) están restringidas por señales diseñadas por humanos (CL) a través de una pérdida de regularización.
Extracción de características visuales para la percepción de interactividad.
El codificador de imágenes del modelo multimodal adoptado por el equipo se entrenó inicialmente mediante preentrenamiento de aprendizaje contrastivo (CLIP) en pares imagen-texto a gran escala, y su capacidad puede limitarse a comprender la semántica de primer orden a nivel de imagen.
Para permitir que el codificador de imágenes distinga toda la interactividad humana en la imagen, el equipo propuso integrar el conocimiento previo de diferentes granularidades en señales visuales condicionales para comprenderlas personalizadas para la tarea de detección de relaciones de interacción humana.Semántica regional de segundo orden。
En concreto, los investigadoresUtilice información a nivel de instancia como conocimiento previoIncorporar señales visuales condicionales.
Dada una imagen de entrada, primero se utiliza un detector de objetos previamente entrenado para obtener todo el conocimiento previo a nivel de instancia, incluidos cuadros delimitadores, puntuaciones de confianza y codificaciones semánticas de las instancias detectadas.
Además, para alentar a cada instancia a ser consciente de sus posibles objetos que interactúan, el equipo combinó el patrón espacial global de interacciones en el conjunto de entrenamiento con elementos visuales previos a nivel de instancia.
Específicamente, para cada par de personas que interactúan anotado, los investigadoresPrimero calcule sus características espaciales univariadas y binarias.
Posteriormente, se utiliza el algoritmo de agrupamiento K-means para determinar los centros de los grupos y utilizarlos como patrones espaciales representativos de pares de caracteres que interactúan.
El patrón de interacción espacial global proporciona una configuración espacial representacional independiente de la categoría como un puente para comprender la interactividad entre los conceptos de interacción humana visibles e invisibles.
Finalmente, los investigadores integraron el conocimiento combinado en un codificador de imágenes a través de un adaptador liviano.
Clasificación de interacción generalizable
Para retener el conocimiento general generalizable de CLIP mientras aprende representaciones de tareas específicas para la detección de interacciones humanas, el equipo adoptóAprendizaje rápido consciente del lenguaje con restricciones de coherencia。
Esta restricción garantiza que los prototipos aprendidos de las categorías visibles e invisibles mantengan límites de separación razonables y no se desvíen excesivamente entre sí.
Específicamente, para cada categoría de acción, los investigadoresEstrenoLas indicaciones diseñadas manualmente le dan formato. Aproveche las palabras de contexto que se pueden aprender para que sirvan como puentes entre la semántica de las categorías visibles e invisibles.
La representación final de la categoría se obtiene concatenando las palabras de contexto que se pueden aprender con los vectores de palabras de las oraciones anteriores y luego pasándolas a través de un codificador de texto.
Para utilizar aún más el espacio de características aprendido por el codificador de texto del modelo multimodal y mejorar la capacidad de generalización a categorías invisibles, los investigadores propusieronConsejos para utilizar el diseño humanopara guiar el espacio característico de las señales del lenguaje que se pueden aprender.
Esta restricción garantiza que los prototipos de las categorías visible e invisible mantengan límites de separación razonables y no se desvíen demasiado entre sí.
Solicitud de equipoRegularización versus pérdida de aprendizajepara reducir la diferencia entre representaciones de características y representaciones de características de señales de lenguaje diseñadas artificialmente.
Capacitación CMMP
Con base en el mapa de características consciente de la interactividad y los cuadros delimitadores de personas y objetos extraídos por el detector de objetos previamente entrenado, el equipo primero aplicó ROI-Pooling para extraer características en diferentes áreas.
Luego, las características extraídas de diferentes regiones se fusionan y la predicción final de la clase de interacción se realiza a través de un clasificador de interacción.
Todo el modelo utiliza pérdida focal en el entrenamiento de clasificación interactiva y también aplica pérdida de regularización del lenguaje.
Resultados experimentales
Durante la fase de verificación de resultados, el equipo utilizóHICO-DET, un conjunto de datos de uso común para la detección de interacciones humanas, las categorías de interacción de 600 caracteres se componen de 80 categorías de objetos y 117 categorías de verbos.
Para verificar el rendimiento del modelo con muestra cero, los investigadores evaluaron en HICO-DETCinco configuraciones de muestra cero。
Para lograr una comparación justa con los métodos existentes, estudiamosViT-B/16 se utiliza por defectocomo red troncal.
Como se muestra en la siguiente tabla, los resultados experimentales muestran que CMMP funciona bien en todas las configuraciones de muestra cero.Todos lograron el mejor desempeño en clases invisibles., lo que demuestra la eficacia de introducir señales multimodales condicionales.
Como se muestra en la tabla para cada tipo deLa última línea muestra, al aprovechar la columna vertebral ViT-L/14 para extender CMMP para que coincida con los FLOP de CLIP4HOI, el nuevo método logra el mejor rendimiento en todas las particiones.
Esto demuestra que el modelo del equipo tiene excelentes capacidades en la extracción de relaciones espaciales de características visuales y el aprendizaje de prototipos para la clasificación interactiva.
Además, los métodos anteriores muestran serias diferencias de rendimiento entre las categorías vistas y no vistas, lo que indica su falta de capacidad de generalización.
El modelo de este estudio puede paliar este problema en gran medida, ygeneralizarEl alto potencial para alcanzar categorías de interacción nunca antes vistas confirma la efectividad de las señales multimodales con restricciones.
Consulte el artículo original para obtener más detalles.