noticias

Abandonando el codificador visual, este modelo grande multimodal "versión nativa" también es comparable a los métodos convencionales.

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];

Diao Haiwen es estudiante de doctorado en la Universidad Tecnológica de Dalian y su supervisor es el profesor Lu Huchuan. Actualmente trabaja como pasante en el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing, bajo la dirección del Dr. Wang Xinlong. Sus intereses de investigación son visión y lenguaje, transferencia eficiente de grandes modelos, grandes modelos multimodales, etc. El coautor Cui Yufeng se graduó de la Universidad de Beihang y es investigador de algoritmos en el Centro de Visión del Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing. Sus intereses de investigación son los modelos multimodales, los modelos generativos y la visión por computadora, y su trabajo principal incluye la serie Emu.

Recientemente, la investigación sobre modelos grandes multimodales ha estado en pleno apogeo y la industria ha invertido cada vez más en esto. Se han lanzado modelos populares en el extranjero, como GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) y Grok-1.5V (xAI), etc. Al mismo tiempo, los modelos domésticos GLM-4V (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba), etc. floreciente.

El modelo de lenguaje visual (VLM) actual generalmente se basa en el codificador visual (Vision Encoder, VE) para extraer características visuales y luego combina las instrucciones del usuario con el modelo de lenguaje grande (LLM) para procesar y responder. Codificador visual y separación de entrenamiento de modelos de lenguaje grande. Esta separación hace que los codificadores visuales introduzcan problemas de sesgo de inducción visual al interactuar con modelos de lenguaje grandes, como resolución de imagen y relación de aspecto limitadas, y antecedentes semánticos visuales fuertes. A medida que la capacidad de los codificadores visuales continúa expandiéndose, la eficiencia de implementación de grandes modelos multimodales en el procesamiento de señales visuales también es muy limitada. Además, cómo encontrar la configuración de capacidad óptima de codificadores visuales y modelos de lenguaje grandes se ha vuelto cada vez más complejo y desafiante.

En este contexto, rápidamente surgieron algunas ideas más vanguardistas:

  • ¿Podemos eliminar el codificador visual, es decir, construir directamente un modelo multimodal nativo grande sin un codificador visual?
  • ¿Cómo evolucionar de manera eficiente y fluida un modelo de lenguaje grande a un modelo grande multimodal nativo sin codificadores visuales?
  • ¿Cómo cerrar la brecha de rendimiento entre los marcos multimodales nativos sin codificador y los paradigmas multimodales convencionales basados ​​en codificadores?

Adept AI lanzó la serie de modelos Fuyu a finales de 2023 e hizo algunos intentos relacionados, pero no reveló ninguna estrategia de entrenamiento, recursos de datos ni información del equipo. Al mismo tiempo, existe una brecha de rendimiento significativa entre el modelo Fuyu y los algoritmos convencionales en los indicadores de evaluación de textos visuales públicos. Durante el mismo período, algunos experimentos piloto que realizamos mostraron que incluso si la escala de los datos previos al entrenamiento aumenta a gran escala, el modelo grande multimodal nativo sin codificador todavía enfrenta problemas espinosos como una velocidad de convergencia lenta y un rendimiento deficiente.

En respuesta a estos desafíos, el equipo de visión del Instituto de Investigación Zhiyuan se asoció con universidades nacionales como la Universidad Tecnológica de Dalian y la Universidad de Pekín para lanzar una nueva generación de modelo de lenguaje visual sin codificadores EVE. A través de estrategias de capacitación refinadas y supervisión visual adicional, EVE integra representación, alineación e inferencia visual-lingüística en una arquitectura decodificadora pura unificada. Utilizando datos disponibles públicamente, EVE se desempeña bien en múltiples puntos de referencia visual-lingüísticos, compitiendo con métodos multimodales basados ​​en codificadores convencionales de capacidad similar y superando significativamente a su compañero Fuyu-8B. Se propone EVE para proporcionar un camino transparente y eficiente para el desarrollo de arquitecturas multimodales nativas para decodificadores puros.





  • Dirección del artículo: https://arxiv.org/abs/2406.11832
  • Código del proyecto: https://github.com/baaivision/EVE
  • Dirección del modelo: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

1. Aspectos técnicos destacados

  • Modelo de lenguaje visual nativo: rompe el paradigma fijo de los modelos multimodales convencionales, elimina el codificador visual y puede manejar cualquier relación de aspecto de la imagen. Es significativamente mejor que el mismo tipo de modelo Fuyu-8B en múltiples puntos de referencia de lenguaje visual y está cerca de la arquitectura de lenguaje visual convencional basada en codificadores visuales.
  • Bajos costos de datos y capacitación: el entrenamiento previo del modelo EVE solo examinó datos públicos de OpenImages, SAM y LAION, y utilizó 665.000 datos de instrucciones LLaVA y 1,2 millones de datos de diálogo visual adicionales para crear versiones regulares y de alto nivel, respectivamente. versión de EVE-7B. La capacitación tarda aproximadamente 9 días en completarse en dos nodos 8-A100 (40G) o 5 días en cuatro nodos 8-A100.
  • Exploración transparente y eficiente: EVE intenta explorar un camino eficiente, transparente y práctico hacia el modelo de lenguaje visual nativo, proporcionando nuevas ideas y experiencia valiosa para el desarrollo de una nueva generación de arquitectura de modelo de lenguaje visual decodificador puro para el futuro desarrollo multimodal. de modelos abre nuevas direcciones para la exploración.

2. Estructura del modelo



Primero, se inicializa a través del modelo de lenguaje Vicuña-7B, para que tenga un rico conocimiento del lenguaje y potentes capacidades de seguimiento de instrucciones. Sobre esta base, se elimina el codificador visual profundo, se construye una capa de codificación visual liviana, la entrada de la imagen se codifica de manera eficiente y sin pérdidas y se ingresa en un decodificador unificado junto con los comandos del lenguaje del usuario. Además, la capa de alineación visual realiza la alineación de características con un codificador visual general para mejorar la codificación y representación de información visual detallada.



2.1 Capa de incrustación de parches

  • Primero use una única capa convolucional para obtener el mapa de características 2D de la imagen y luego realice una reducción de resolución a través de una capa de agrupación promedio;
  • Utilice el módulo de atención cruzada (CA1) para interactuar en un campo receptivo limitado para mejorar las características locales de cada parche;
  • Utilice el token <CLS> y combínelo con el módulo de atención cruzada (CA2) para proporcionar información global para cada característica de parche posterior;
  • Se inserta un token <SPL> que se puede aprender al final de cada línea característica del parche para ayudar a la red a comprender la estructura espacial bidimensional de la imagen.

2.2 Capa de alineación de parches

  • Registre la forma 2D de un parche válido; descarte <CLS>/
  • tokens y utilice la capa de agrupación adaptativa para restaurar la forma bidimensional original;
  • A través del módulo jerárquico de atención cruzada (CA3), se integran características visuales de red multicapa para lograr una alineación detallada con la salida del codificador visual.

3. Estrategia de formación



  • La etapa de preformación guiada por el modelo de lenguaje grande: establece la conexión inicial entre la visión y el lenguaje, sentando las bases para una posterior preformación a gran escala estable y eficiente;
  • Etapa de preentrenamiento generativo: mejorar aún más la capacidad del modelo para comprender el contenido visual-lingüístico y lograr una transición sin problemas de un modelo de lenguaje puro a un modelo multimodal;
  • Etapa de ajuste fino supervisada: estandarice aún más la capacidad del modelo para seguir instrucciones del lenguaje y aprender patrones de diálogo para cumplir con los requisitos de varios puntos de referencia del lenguaje visual.



  • En la etapa previa al entrenamiento, se examinaron 33 millones de datos públicos de SA-1B, OpenImages y LAION, y solo se retuvieron muestras de imágenes con una resolución superior a 448 × 448. En particular, para abordar el problema de la alta redundancia en las imágenes LAION, se generaron 50.000 grupos aplicando agrupamiento de K-medias en las características de la imagen extraídas por EVA-CLIP, y se seleccionaron las 300 imágenes más cercanas a cada centro del grupo, y finalmente. seleccionó 15 millones de muestras de imágenes de LAION. Posteriormente, se regeneran descripciones de imágenes de alta calidad utilizando Emu2 (17B) y LLaVA-1.5 (13B).
  • En la etapa de ajuste fino supervisado, el conjunto de datos de ajuste fino LLaVA-mix-665K se utiliza para entrenar la versión estándar de EVE-7B y conjuntos de datos mixtos como AI2D, Synthdog, DVQA, ChartQA, DocVQA, Vision-Flan. y Bunny-695K están integrados para entrenar la versión de alta resolución del EVE-7B.

4. Análisis cuantitativo



El modelo EVE supera significativamente al modelo similar Fuyu-8B en múltiples pruebas de lenguaje visual y funciona a la par con una variedad de modelos de lenguaje visual basados ​​en codificadores convencionales. Sin embargo, debido al uso de una gran cantidad de datos del lenguaje visual para el entrenamiento, existen desafíos para responder con precisión a instrucciones específicas y es necesario mejorar su rendimiento en algunas pruebas de referencia. Lo interesante es que a través de estrategias de capacitación eficientes, el EVE sin codificador puede lograr un rendimiento comparable al modelo de lenguaje visual basado en codificador, resolviendo fundamentalmente los problemas de flexibilidad del tamaño de entrada, eficiencia de implementación y modalidad de los problemas de coincidencia de capacidad.



En comparación con los modelos con codificadores, que son susceptibles a problemas como la simplificación de la estructura del lenguaje y la pérdida de conocimientos ricos, EVE ha mostrado una mejora gradual y estable en el rendimiento a medida que aumenta el tamaño de los datos, acercándose gradualmente al nivel de rendimiento de los modelos basados ​​en codificadores. Esto puede deberse a que codificar y alinear modalidades visuales y de lenguaje en una red unificada es más desafiante, lo que hace que los modelos sin codificadores sean menos propensos a sobreadaptarse en comparación con los modelos con codificadores.

5. ¿Qué piensan tus compañeros?

Ali Hatamizadeh, investigador senior de NVIDIA, dijo que EVE es refrescante e intenta proponer una nueva narrativa, que es diferente de la construcción de estándares de evaluación complejos y mejoras progresivas en los modelos de lenguaje visual.



Armand Joulin, investigador principal de Google Deepmind, dijo que es emocionante construir un modelo de lenguaje visual decodificador puro.



El ingeniero de aprendizaje automático de Apple, Prince Canuma, dijo que la arquitectura EVE es muy interesante y es una buena adición al conjunto de proyectos MLX VLM.



6.Perspectivas futuras

Como modelo de lenguaje visual nativo sin codificador, EVE ha logrado actualmente resultados alentadores. En este camino, hay algunas direcciones interesantes que vale la pena explorar en el futuro:

  • Mayor mejora del rendimiento: los experimentos encontraron que el entrenamiento previo utilizando solo datos visual-lingüísticos redujo significativamente la capacidad lingüística del modelo (la puntuación SQA cayó del 65,3% al 63,0%), pero mejoró gradualmente el rendimiento multimodal del modelo. Esto indica que hay un olvido interno catastrófico del conocimiento del lenguaje cuando se actualizan grandes modelos lingüísticos. Se recomienda integrar adecuadamente los datos previos al entrenamiento del lenguaje puro o utilizar una estrategia mixta de expertos (MoE) para reducir la interferencia entre las modalidades visuales y lingüísticas.
  • La visión de una arquitectura sin codificador: con estrategias adecuadas y capacitación con datos de alta calidad, los modelos de lenguaje visual sin codificador pueden rivalizar con los modelos con codificadores. Entonces, con la misma capacidad del modelo y datos de entrenamiento masivos, ¿cuál es el rendimiento de los dos? Especulamos que al expandir la capacidad del modelo y la cantidad de datos de entrenamiento, la arquitectura sin codificador puede alcanzar o incluso superar la arquitectura basada en codificador, porque la primera ingresa imágenes casi sin pérdidas y evita el sesgo a priori del codificador visual.
  • Construcción de modelos multimodales nativos: EVE demuestra completamente cómo construir modelos multimodales nativos de manera eficiente y estable, lo que abre una manera transparente y factible de integrar más modalidades (como audio, video, imágenes térmicas, profundidad, etc.) en el futuro. La idea central es prealinear estas modalidades a través de un modelo de lenguaje grande congelado antes de introducir la capacitación unificada a gran escala, y utilizar codificadores monomodales correspondientes y alineación de conceptos de lenguaje para la supervisión.