noticias

¡Nuevo SOTA multimodal 2B! Huake y la Universidad Tecnológica del Sur de China lanzaron Mini-Monkey, que se especializa en "cortar para aumentar la resolución"

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuevo informe de sabiduría

Editor: LRST Qué sueño

[Introducción a la Nueva Sabiduría]Mini-Monkey es un modelo de lenguaje ligero multimodal a gran escala que alivia eficazmente el efecto de alias causado por las estrategias tradicionales de segmentación de imágenes mediante el uso de una estrategia de segmentación adaptativa multiescala (MSAC) y un mecanismo de compresión de escala (SCM). Rendimiento mejorado del modelo en alto. -Tareas de procesamiento de imágenes en resolución y comprensión de documentos. Logra resultados líderes en múltiples pruebas comparativas, lo que demuestra su potencial en los campos de la comprensión multimodal y la inteligencia documental.

Recientemente, la mejora de la capacidad de los grandes modelos multimodales para procesar imágenes de alta resolución ha atraído cada vez más atención en este campo.

La mayoría de los métodos se centran en mejorar la capacidad de los grandes modelos multimodales para comprender los detalles de la imagen mediante la estrategia de segmentación y refusión de imágenes.

Sin embargo, debido a la operación de segmentación de la imagen, es inevitable provocar la fragmentación del objetivo y las áreas conectadas, lo que afecta la capacidad de reconocimiento de los MLMM para objetivos pequeños o de forma irregular. Este fenómeno es extremadamente obvio en las tareas de comprensión de documentos, porque el lado del texto a menudo se interrumpe.

En respuesta a este desafío, la Universidad de Ciencia y Tecnología de Huazhong y la Universidad de Tecnología del Sur de China lanzaron recientemente conjuntamente un modelo grande multimodal Mini-Monkey, que utiliza una estrategia adaptativa de múltiples escalas (MSAC) conectable para modelos grandes multimodales livianos. .

Mini-Monkey genera de forma adaptativa representaciones multiescala, lo que permite que el modelo seleccione objetos no segmentados de varias escalas, y su rendimiento alcanza el nuevo SOTA de modelos grandes multimodales 2B.


Dirección del artículo: https://arxiv.org/pdf/2408.02034

Dirección del proyecto: https://github.com/Yuliang-Liu/Monkey

Para aliviar la sobrecarga computacional causada por MSAC, proponemos un mecanismo de compresión de escala (SCM) para comprimir tokens de imágenes de manera efectiva.

Mini-Monkey no solo logró un rendimiento líder en múltiples tareas de inteligencia documental, sino que también logró mejoras consistentes en el rendimiento en tareas generales de comprensión de modelos multimodales, logrando un rendimiento SOTA 2B.

En OCRBench, Mini-Monkey obtuvo 802 puntos, lo que es mejor que los modelos con parámetros más grandes como el GLM-4v-9B.


Figura 3 Diagrama de bloques del método: H-Attn representa un peso de atención alto; L-Attn representa un peso de atención bajo; los tokens con un peso de atención más bajo se filtrarán y la capa LLM compartida representa la capa de bloque que usa LLM en SCM;

Antecedentes de la investigación

Los modelos multimodales de lenguajes grandes (MLMM) han atraído mucha atención en los últimos años. Los investigadores están explorando activamente formas efectivas de integrar codificadores visuales con LLM.

Algunos métodos, como Flamingo, BLIP-2, MiniGPT4 y Qwen-VL y LLaVA, han logrado estos logros, pero los modelos de lenguajes grandes multimodales anteriores no han logrado una buena comprensión detallada de la escena debido a la resolución de procesamiento limitada.


Figura 1 El efecto de alias causado por la segmentación en objetos universales: (a) imagen de entrada; (b) estrategia de expansión de segmentación (c) estrategia de expansión de segmentación superpuesta (d) estrategias de segmentación adaptativa;

Los investigadores comenzaron a resolver este problema ampliando la resolución de entrada de la imagen. La estrategia de corte es uno de los métodos más utilizados. Por ejemplo, Monkey, LLaVA 1.6, InternVL 1.5 y LLama3-V, etc.

A pesar de los avances significativos en los modelos de lenguaje multimodal a gran escala, persisten desafíos en la comprensión detallada de la escena debido a las estrategias de segmentación.

Las operaciones de segmentación en imágenes inevitablemente segmentan objetos y regiones conectadas, debilitando así la capacidad de MLLM para identificar objetos pequeños u objetos de forma irregular, especialmente en el contexto de la comprensión de documentos.

Esta estrategia introducirá dos tipos de incoherencia semántica:

1. Si un objeto o personaje está segmentado, es posible que no se reconozca. Por ejemplo, la nariz segmentada se parece mucho a la de un mono, como se muestra en la Figura 1(b);

2. Si una palabra u oración está segmentada, causará daño semántico a la palabra segmentada. Por ejemplo, la palabra "Aulas" podría dividirse en "Clase" y "salas", lo que causaría daño semántico a las palabras segmentadas.

Para simplificar, los autores llaman a este problema efecto diente de sierra. Una idea muy sencilla es utilizar una estrategia de segmentación superpuesta para resolver este problema, como se muestra en la Figura 1 (c).

Sin embargo, los autores encontraron que la estrategia de segmentación superpuesta introdujo ciertas ilusiones que resultaron en una degradación del rendimiento en lugar de una mejora.

Ideas de métodos

El autor propone Mini-Monkey, un modelo de lenguaje ligero multimodal a gran escala diseñado para aliviar el efecto diente de sierra causado por las estrategias de segmentación. El diagrama de bloques del método se muestra en la Figura 2.


Figura 2 El efecto irregular causado al recortar imágenes de texto.

A diferencia de los métodos existentes que segmentan directamente la imagen de entrada, Mini-Monkey adopta un enfoque plug-and-play llamado Estrategia de segmentación adaptativa multiescala (MSAC).

MSAC puede complementar eficazmente funciones a diferentes escalas, como se muestra en la Figura 1(d).

Estrategia de segmentación adaptativa multiescala (MSAC)

MSAC primero realiza una operación de capas en estas mallas, dividiéndolas en tres grupos según su relación de aspecto. El autor elegirá una relación de aspecto para cada capa. Diferentes capas proporcionan información diferente al modelo.

La capa de detalle es responsable de proporcionar información detallada. Limita tanto la resolución máxima como la resolución mínima de la imagen, haciendo que la imagen sea lo más grande posible y haciendo que los objetos en la imagen sean más claros. Debido a la estrategia de segmentación utilizada para recortar la imagen, las imágenes generadas por esta capa pueden tener inconsistencias semánticas.

Por lo tanto, los autores utilizan capas adaptativas junto con capas de detalle para permitir que el modelo seleccione objetos no segmentados de varias escalas. La capa adaptativa generará de forma adaptativa la relación de aspecto según la capa de detalle, asegurando que la línea de segmentación en la capa de detalle no se superponga con la línea de segmentación en la capa adaptativa, evitando así que el mismo objeto se segmente dos veces en diferentes capas. Este proceso garantiza que la capa de detalle y la capa de adaptación proporcionen información semántica y características visuales diferentes al modelo.

mecanismo de compresión de escala

MSAC puede introducir cierta sobrecarga computacional adicional. Por lo tanto, el autor propone un mecanismo de compresión de escala (SCM) para situaciones donde existen restricciones de sobrecarga computacional. SCM es un mecanismo que no requiere entrenamiento ni parámetros para reducir la sobrecarga computacional.

El autor selecciona los tokens visuales de la capa adaptativa, los tokens visuales de la capa global y los tokens de texto para centrarse en los marcadores visuales de la capa de detalle, y luego genera el mapa de atención y luego extrae las características visuales de la K superior. del mapa de atención.

Un LLM bien capacitado puede seleccionar de manera eficiente las características visuales necesarias en función del problema de entrada. Por lo tanto, SCM utiliza la primera y segunda capa de LLM para seleccionar tokens visuales sin generar ningún parámetro adicional.

El modelo grande multimodal 2B más potente de Mini-Monkey

Los autores probaron su método en comprensión multimodal general y comprensión de documentos. Los resultados experimentales muestran que Mini-Monkey logró el mejor rendimiento en comprensión multimodal general y comprensión de documentos al mismo tiempo con parámetros 2B.


Tabla 1 Resultados sobre comprensión multimodal general


Tabla 2 Resultados sobre comprensión de documentos

El autor compara el MSAC propuesto con los métodos existentes. La primera fila es un método de segmentación dinámica, la segunda fila es un método de segmentación de resolución fija, la tercera fila es una segmentación superpuesta y la cuarta fila es una estrategia S2 de múltiples escalas.


La Tabla 3 compara con diferentes estrategias de segmentación.

MSAC se puede aplicar a diferentes arquitecturas multimodales, estabilizando y mejorando

Al mismo tiempo, el autor también aplicó MSAC a otros métodos para comparar, y se puede ver que hay mejoras consistentes en las tareas generales de comprensión multimodal y comprensión de documentos.


La Tabla 4 aplica MSAC a diferentes marcos

Aliviar eficazmente las "secuelas" causadas por la segmentación para aumentar la resolución

Al mismo tiempo, el autor también proporciona algunos análisis cualitativos, como se muestra en la Figura 4. El autor hace preguntas sobre las ubicaciones segmentadas, como "aulas" y "escuelas" que están segmentadas.

Se puede ver que Mini-Monkey puede aliviar eficazmente las "secuelas" causadas por el aumento de la resolución de segmentación a través de MSAC.


Figura 4 Resultados cualitativos: (a) imagen de entrada y Ground Truth; (b) resultados utilizando la estrategia de segmentación superpuesta, OSC representa la estrategia de segmentación superpuesta; (c) resultados de internv2-2b y internv2-26b;

Comparación visual

Mini-Monkey puede extraer con precisión el contenido del texto en libros antiguos ambiguos, mientras que MiniCPM-V 2.6 e InternVL2-2B omitieron mucho texto y GPT4-O se negó a responder:


(a) Imagen de entrada


(b)Mimi-Monkey: reconoce con precisión todo el texto


(c)MiniCPM-V 2.6: falta mucho texto.


(d)InternVL2-2B: Falta una oración completa de texto relativamente vago


(e)GPT-4o: Negarse a responder

Resumir

Los métodos que utilizan la segmentación para ampliar la resolución a menudo segmentan objetos y regiones conectadas, lo que limita el reconocimiento de objetos y texto pequeños o de forma irregular. Este problema es especialmente obvio en MLLM liviano.

En este estudio, el autor propone Mini-Monkey, un modelo grande multimodal 2B que logra rendimiento SOTA, con el objetivo de resolver las limitaciones de las estrategias de segmentación existentes para mejorar la capacidad de MLLM para procesar imágenes de alta resolución.

Mini-Monkey adopta una estrategia de segmentación adaptativa de múltiples escalas (MSAC) para generar representaciones de múltiples escalas, lo que permite que el modelo seleccione objetos no segmentados en diferentes escalas, aliviando así este problema.

Al mismo tiempo, el autor también verificó la efectividad de la estrategia de segmentación adaptativa multiescala en modelos grandes multimodales de otras arquitecturas, proporcionando una solución simple y efectiva para aliviar las "secuelas" causadas por la mayor resolución del plan de segmentación. .

Referencias:

[1] Chen Z, Wang W, Tian H, et al. ¿Hasta dónde llegamos con gpt-4v? cerrando la brecha con los modelos multimodales comerciales con paquetes de código abierto[J]. arXiv preprint arXiv:2404.16821, 2024.

[2] Li J, Li D, Savarese S, et al. Blip-2: Arranque del preentrenamiento de imágenes de lenguaje con codificadores de imágenes congeladas y modelos de lenguaje grandes[C]//Conferencia internacional sobre aprendizaje automático. PMLR, 2023: 19730-19742.

[3] Liu Y, Yang B, Liu Q, et al. Textmonkey: Un modelo multimodal grande sin OCR para comprender el documento[J]. Preimpresión de arXiv arXiv:2403.04473, 2024.

[4] Bai J, Bai S, Yang S, et al. Qwen-vl: Un modelo de visión y lenguaje de gran tamaño de frontera con capacidades versátiles[J]. Preimpresión de arXiv arXiv:2308.12966, 2023.

[5] Dubey A, Jauhri A, Pandey A, et al. La manada de modelos de Llama 3[J]. Preimpresión de arXiv arXiv:2407.21783, 2024.