noticias

Equipo de Li Xi de la Universidad de Zhejiang: ScanFormer, un nuevo método para referirse a la comprensión de expresiones, elimina la redundancia de gruesa a fina

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informar. Correo electrónico de envío: [email protected]; [email protected];

Todos los autores de este artículo pertenecen al equipo del profesor Li Xi de la Universidad de Zhejiang. El primer autor del artículo es el estudiante de doctorado Su Wei y el autor correspondiente es el profesor Li Xi (miembro del IET, joven académico nacional distinguido). En los últimos años, el equipo del profesor Li Xi ha publicado más de 180 trabajos de investigación relacionados con CV/AIGC en revistas internacionales autorizadas (como TPAMI, IJCV, etc.) y en las principales conferencias académicas internacionales (ICCV, CVPR, ECCV, etc.). y ha cooperado ampliamente con reconocidas universidades e instituciones de investigación científica en el país y en el extranjero.

Como tarea básica del lenguaje visual, la comprensión de expresiones de referencia (REC) localiza el objetivo referido en la imagen basándose en la descripción del lenguaje natural. El modelo REC generalmente consta de tres partes: codificador visual, codificador de texto e interacción intermodal, que se utilizan para extraer características visuales, características de texto e interacción y mejora de características intermodales, respectivamente.

La mayoría de las investigaciones actuales se centran en el diseño de módulos de interacción intermodal eficientes para mejorar la precisión de las tareas, y falta exploración de codificadores visuales. Un enfoque común es utilizar extractores de características previamente entrenados en tareas de clasificación y detección, como ResNet, DarkNet, Swin Transformer o ViT, etc. Estos modelos atraviesan todas las ubicaciones espaciales de la imagen para extraer características en una ventana deslizante o en forma de parche dividido. Su complejidad computacional aumentará rápidamente con la resolución de la imagen, lo cual es más obvio en los modelos basados ​​en Transformer.

Debido a las características de redundancia espacial de las imágenes, hay una gran cantidad de áreas de fondo con bajo contenido de información y áreas que son irrelevantes para la expresión referencial en la imagen. Extraer características en estas áreas de la misma manera aumentará la complejidad computacional, pero no lo hace. no contribuye a la extracción efectiva de características. Una forma más eficiente es predecir de antemano la relevancia del texto y la riqueza del contenido del área de la imagen, extraer completamente las características del área de primer plano relacionada con el texto y extraer de manera aproximada las características del área de fondo. Para la predicción regional, una forma más intuitiva es utilizar la pirámide de imágenes para identificar de antemano el área de fondo en la imagen de grano grueso en la parte superior de la pirámide y luego agregar gradualmente áreas de primer plano de grano fino de alta resolución.

Con base en el análisis anterior, propusimosScanFormer, un marco de trabajo con reconocimiento de iteraciones de grueso a fino, escanee capa por capa en la pirámide de imágenes, comenzando desde imágenes de baja resolución y escala gruesa, y filtre gradualmente áreas irrelevantes/de fondo que se refieren a expresiones para reducir el desperdicio computacional, permitiendo que el modelo se centre más en áreas de primer plano/relacionadas con tareas .



  • Título del artículo: ScanFormer: comprensión de expresiones de referencia mediante escaneo iterativo
  • Enlace del artículo: https://arxiv.org/pdf/2406.18048

Introducción al método

1. Marco de percepción de iteración de grueso a fino

Para simplificar la estructura, adoptamos el modelo ViLT [1] que unifica texto y modalidades visuales, y lo divide en dos partes, Encoder1 y Encoder2, a lo largo de la dimensión de profundidad para diferentes tareas.

Primero, extraiga características de texto y guárdelas en KV Cache; luego construya una pirámide de imágenes e itere hacia abajo desde la parte superior de la pirámide. En cada iteración, se ingresa el parche seleccionado en la escala actual y se usa Encoder1 para predecir el siguiente paso. correspondiente a cada parche La selección de parches de grano fino en una escala En particular, todos los parches de la imagen de nivel superior se seleccionan para garantizar que el modelo pueda obtener información de imagen completa de grano grueso. Encoder2 extrae aún más características y predice el cuadro delimitador de esta escala en función del token [cls] de la escala actual.

Al mismo tiempo, las funciones intermedias de Encoder1 y Encoder2 se almacenarán en KV Cache para facilitar el uso estándar posterior. A medida que aumenta la escala, se introducen características detalladas, la predicción de posición será más precisa y la mayoría de los parches irrelevantes se descartan para ahorrar muchos cálculos.

Además, los parches dentro de cada escala tienen atención bidireccional, prestando atención a todos los parches y características del texto de las escalas anteriores. Esta atención causal en todas las escalas puede reducir aún más los requisitos computacionales.



2. Selección dinámica de parches

La selección de cada parche está determinada por el factor de selección generado por la escala anterior. Hay dos opciones para la ubicación de la aplicación. Una se utiliza en todos los cabezales de cada capa de MHSA en el Codificador. Cabezas H, es muy difícil obtener información de gradiente efectiva para la actualización, por lo que el factor de selección aprendido no es ideal, el segundo se usa directamente como entrada del codificador, es decir, incrustación de parches. utilizado en esta posición, es más fácil de aprender. Finalmente, este artículo también adoptó esta solución.

Además, cabe señalar que incluso si la incrustación del parche de entrada se establece en 0, debido a la existencia de MHSA y FFN, las características del parche en las capas posteriores seguirán siendo no 0 y afectarán las características de otros parches. Afortunadamente, cuando hay muchos tokens idénticos en la secuencia de tokens, el cálculo de MHSA se puede simplificar y se puede lograr una aceleración de inferencia real. Además, para mejorar la flexibilidad del modelo, este artículo no establece directamente la incorporación del parche en 0, sino que lo reemplaza con un token constante que se puede aprender.

Por tanto, el problema de selección de parches se transforma en un problema de sustitución de parches. El proceso de selección de parches se puede descomponer en dos pasos: reemplazo constante de tokens y fusión de tokens. Los parches no seleccionados serán reemplazados por el mismo token constante. Dado que estos tokens no seleccionados son los mismos, de acuerdo con el método de cálculo de atención del producto escalado, estos tokens se pueden combinar en un token y multiplicar por el número total, lo que equivale a sumar a la dimensión, por lo que el método de atención del producto escalar es calculado Sin cambios, los métodos de aceleración comunes todavía están disponibles.



Resultados experimentales

Este método logra un rendimiento similar al del estado del arte en cuatro conjuntos de datos: RefCOCO, RefCOCO+, RefCOCOg y ReferItGame. Mediante el entrenamiento previo en conjuntos de datos a gran escala y el ajuste fino en conjuntos de datos específicos, el rendimiento del modelo se puede mejorar aún más y lograr resultados similares a los de modelos previamente entrenados como MDETR [2] y OFA [3].





En términos de velocidad de razonamiento, el método propuesto logra una velocidad de razonamiento en tiempo real al tiempo que garantiza una alta precisión de la tarea.



Además, la parte experimental también realizó estadísticas sobre la selección de parches del modelo y la distribución de la precisión del posicionamiento en cada escala (escala1 y escala2).

Como se muestra en la figura de la izquierda, a medida que aumenta la escala, se agregan características de imagen de grano fino y la precisión del modelo mejora gradualmente. Por lo tanto, puede intentar agregar un mecanismo de salida anticipada para salir a tiempo cuando la precisión del posicionamiento cumpla con los requisitos, evitando más cálculos en imágenes de alta resolución y logrando el efecto de seleccionar de forma adaptativa una resolución adecuada en función de las muestras. Este artículo también hizo algunos intentos preliminares, incluida la adición de ramas de predicción como IoU, GIoU e incertidumbre, y la devolución de indicadores de salida temprana. Sin embargo, se descubrió que el efecto no es ideal. Es necesario diseñar indicadores de salida temprana apropiados y precisos. Continuó explorando.

La figura de la derecha muestra la situación de selección de parches en diferentes escalas. En todas las escalas, los parches seleccionados representan una proporción relativamente pequeña y la mayoría de los parches se pueden eliminar, por lo que los recursos informáticos se pueden ahorrar de manera efectiva. Para cada muestra (imagen + expresión referencial), el número de parches realmente seleccionados es relativamente pequeño, aproximadamente el 65% del total.



Finalmente, la parte experimental muestra algunos resultados de visualización. A medida que aumenta la escala (rojo → verde → azul), la precisión de posicionamiento del modelo mejora gradualmente. Además, de acuerdo con la imagen reconstruida a partir del parche seleccionado, se puede ver que el modelo solo presta atención a información de escala gruesa para el área de fondo, y para el área de primer plano relevante, el modelo puede prestar atención a información detallada de grano fino. información.



Literatura relacionada:

[1].Kim W, Son B, Kim I. Vilt: Transformador de visión y lenguaje sin convolución ni supervisión de regiones [C]//Conferencia internacional sobre aprendizaje automático. PMLR, 2021: 5583-5594.

[2].Kamath A, Singh M, LeCun Y, et al. Detección modulada por Mdetr para comprensión multimodal de extremo a extremo [C]//Actas de la conferencia internacional IEEE/CVF sobre visión artificial. 2021: 1780-1790.

[3].Wang P, Yang A, Men R, et al. Ofa: Unificación de arquitecturas, tareas y modalidades a través de un marco de aprendizaje secuencia a secuencia simple [C]//Conferencia internacional sobre aprendizaje automático. PMLR, 2022: 23318-23340.