Para mejorar el rendimiento de las tareas de detección de GPT-4V y Gemini, necesita este aviso paradigm

Para mejorar el rendimiento de las tareas de detección de GPT-4V y Gemini, necesita este paradigma rápido

2024-07-22

La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];

Los autores de este artículo son de la Universidad de Zhejiang, el Laboratorio de Inteligencia Artificial de Shanghai, la Universidad China de Hong Kong, la Universidad de Sydney y la Universidad de Oxford. Lista de autores: Wu Yixuan, Wang Yizhou, Tang Shixiang, Wu Wenhao, He Tong, Wanli Ouyang, Philip Torr, Jian Wu. Entre ellos, el coautor Wu Yixuan es estudiante de doctorado en la Universidad de Zhejiang y Wang Yizhou es asistente de investigación científica en el Laboratorio de Inteligencia Artificial de Shanghai. El autor correspondiente, Tang Shixiang, es investigador postdoctoral en la Universidad China de Hong Kong.

Los modelos multimodales de lenguaje grande (MLLM) han demostrado capacidades impresionantes en diferentes tareas; a pesar de esto, el potencial de estos modelos en tareas de detección aún está subestimado. Cuando se requieren coordenadas precisas en tareas complejas de detección de objetos, las alucinaciones de los MLLM a menudo hacen que no alcancen los objetos objetivo o proporcionen cuadros delimitadores inexactos. Para permitir la detección de MLLM, el trabajo existente no solo requiere recopilar una gran cantidad de conjuntos de datos de instrucciones de alta calidad, sino también ajustar los modelos de código abierto. Si bien requiere mucho tiempo y trabajo, tampoco aprovecha las capacidades de comprensión visual más poderosas de los modelos de código cerrado.Para ello, la Universidad de Zhejiang, el Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Oxford propusieronCadena de herramientas de detección , un nuevo paradigma de estimulación que libera el poder de detección de modelos de lenguajes grandes multimodales. Los grandes modelos multimodales pueden aprender a detectar con precisión sin necesidad de formación.La investigación relacionada ha sidoECCV 2024 incluido。

Para resolver los problemas de MLLM en las tareas de detección, DetToolChain parte de tres puntos: (1) diseñar indicaciones visuales para la detección, que son más directas y efectivas que las indicaciones textuales tradicionales para permitir que MLLM comprenda la información de ubicación, (2) desglosar las tareas de detección precisas en tareas pequeñas y simples, y (3) utilizar la cadena de pensamiento para optimizar gradualmente los resultados de la detección y evitar la ilusión de grandes modelos multimodales tanto como sea posible.

En correspondencia con las ideas anteriores, DetToolChain contiene dos diseños clave: (1) Un conjunto completo de indicaciones de procesamiento visual, que se dibujan directamente en la imagen y pueden reducir significativamente la brecha entre la información visual y la información textual. (2) Un conjunto completo de indicaciones de razonamiento de detección para mejorar la comprensión espacial del objetivo de detección y determinar gradualmente la ubicación final precisa del objetivo a través de una cadena de herramientas de detección adaptables a muestras.

Al combinar DetToolChain con MLLM, como GPT-4V y Gemini, se pueden admitir varias tareas de detección sin ajuste de instrucciones, incluida la detección de vocabulario abierto, la detección de objetivos de descripción, la comprensión de expresiones referenciales y la detección de objetivos orientados.

Título del artículo: DetToolChain: un nuevo paradigma motivador para liberar la capacidad de detección de MLLM

Enlace del artículo: https://arxiv.org/abs/2403.12488

¿Qué es DetToolChain?

Figura 1 Marco general de DetToolChain

Como se muestra en la Figura 1, para una imagen de consulta determinada, se le indica a MLLM que realice los siguientes pasos:

I. Formato: convierta el formato de entrada original de la tarea en una plantilla de instrucciones adecuada como entrada de MLLM;

II. Pensar: dividir una tarea de detección compleja específica en subtareas más simples y seleccionar indicaciones efectivas del conjunto de herramientas de detección;

III. Ejecutar: ejecutar indicaciones específicas (indicaciones) de forma iterativa en secuencia;

IV. Responder: utilizar las capacidades de razonamiento propias de MLLM para supervisar todo el proceso de detección y devolver la respuesta final (respuesta final).

Kit de herramientas de indicaciones de detección: indicaciones de procesamiento visual

Figura 2: Diagrama esquemático de indicaciones de procesamiento visual. Diseñamos (1) amplificador regional, (2) estándar de medición espacial y (3) analizador de imágenes de escena para mejorar las capacidades de detección de MLLM desde diferentes perspectivas.

Como se muestra en la Figura 2, (1) el amplificador regional tiene como objetivo mejorar la visibilidad de los MLLM en la región de interés (ROI), incluido el recorte de la imagen original en diferentes subregiones, centrándose en la subregión donde se encuentra el objeto de destino. Además, la función de amplificación permite una observación detallada de subregiones específicas de la imagen.

(2) El estándar de medición espacial proporciona una referencia más clara para la detección de objetivos al superponer una regla y un compás con escalas lineales en la imagen original, como se muestra en la Figura 2 (2). Las reglas y compases auxiliares permiten a los MLLM generar coordenadas y ángulos precisos utilizando referencias de traslación y rotación superpuestas a la imagen. Básicamente, esta línea auxiliar simplifica la tarea de detección, permitiendo a los MLLM leer las coordenadas de los objetos en lugar de predecirlas directamente.

(3) Scene Image Parser marca las posiciones o relaciones de los objetos predichas y utiliza información espacial y contextual para comprender las relaciones espaciales de la imagen. Scene Image Parser se puede dividir en dos categorías:Primero, para un único objeto objetivo. , etiquetamos los objetos predichos con centroides, cascos convexos y cuadros delimitadores con nombres de etiquetas e índices de cuadros. Estos marcadores representan información de ubicación de objetos en diferentes formatos, lo que permite a MLLM detectar diversos objetos de diferentes formas y fondos, especialmente objetos con formas irregulares u objetos muy ocluidos. Por ejemplo, el marcador de casco convexo marca los puntos límite de un objeto y los conecta en un casco convexo para mejorar el rendimiento de detección de objetos con formas muy irregulares.En segundo lugar, para múltiples objetivos. , conectamos los centros de diferentes objetos a través de marcadores de gráficos de escena para resaltar las relaciones entre los objetos en la imagen. Según el gráfico de escena, MLLM puede aprovechar sus capacidades de razonamiento contextual para optimizar los cuadros delimitadores previstos y evitar alucinaciones. Por ejemplo, como se muestra en la Figura 2 (3), Jerry quiere comer queso, por lo que sus cuadros delimitadores deben estar muy cerca.

Kit de herramientas de indicaciones de razonamiento de detección: indicaciones de razonamiento de detección

Para mejorar la confiabilidad del cuadro de predicción, realizamos indicaciones de inferencia de detección (que se muestran en la Tabla 1) para verificar los resultados de la predicción y diagnosticar problemas potenciales que puedan existir. Primero, proponemos Problem Insight Guider, que destaca problemas difíciles y proporciona sugerencias de detección efectivas y ejemplos similares para imágenes de consulta. Por ejemplo, para la Figura 3, Problem Insight Guider define la consulta como un problema de detección de objetos pequeños y sugiere resolverlo haciendo zoom en el área de la tabla de surf. En segundo lugar, para explotar las capacidades espaciales y contextuales inherentes de los MLLM, diseñamos el Explorador de relaciones espaciales y el Predictor de objetos contextuales para garantizar que los resultados de la detección sean consistentes con el sentido común. Como se muestra en la Figura 3, una tabla de surf puede coexistir con el océano (conocimiento contextual), y debería haber una tabla de surf cerca de los pies del surfista (conocimiento espacial). Además, aplicamos el Promotor de autoverificación para mejorar la coherencia de las respuestas en múltiples rondas. Para mejorar aún más las capacidades de razonamiento de los MLLM, adoptamos métodos de estimulación ampliamente utilizados, como el debate y la autodepuración. Consulte el texto original para obtener una descripción detallada.

Figura 3 Las sugerencias de razonamiento de detección pueden ayudar a los MLLM a resolver problemas de detección de objetos pequeños, por ejemplo, usar el sentido común para ubicar una tabla de surf debajo de los pies de una persona y alentar al modelo a detectar tablas de surf en el océano.

Figura 4 Un ejemplo de DetToolChain aplicado a la detección de objetivos giratorios (conjunto de datos HRSC2016)

Experimento: puedes superar los métodos de ajuste fino sin formación

Como se muestra en la Tabla 2, evaluamos nuestro método de detección de vocabulario abierto (OVD), probando los resultados AP50 de 17 clases nuevas, 48 clases base y todas las clases en el punto de referencia COCO OVD. Los resultados muestran que al utilizar nuestro DetToolChain, el rendimiento tanto de GPT-4V como de Gemini mejora significativamente.

Para demostrar la eficacia de nuestro método en la comprensión de la expresión referencial, comparamos nuestro método con otros métodos de disparo cero en los conjuntos de datos RefCOCO, RefCOCO+ y RefCOCOg (Tabla 5). En RefCOCO, DetToolChain mejoró el rendimiento de la línea base de GPT-4V en un 44,53 %, 46,11 % y 24,85 % respectivamente en val, test-A y test-B, lo que demuestra la comprensión y el rendimiento superiores de la expresión referencial de DetToolChain en condiciones de posicionamiento de disparo cero.

noticias

Para mejorar el rendimiento de las tareas de detección de GPT-4V y Gemini, necesita este paradigma rápido

Introducción

Mi informacion de contacto