Mi informacion de contacto
Correo[email protected]
2024-07-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informarnos. Correo electrónico de envío: [email protected]; [email protected];
Diao Haiwen es estudiante de doctorado en la Universidad Tecnológica de Dalian y su supervisor es el profesor Lu Huchuan. Actualmente trabaja como pasante en el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing, bajo la dirección del Dr. Wang Xinlong. Sus intereses de investigación son visión y lenguaje, transferencia eficiente de grandes modelos, grandes modelos multimodales, etc. El coautor Cui Yufeng se graduó de la Universidad de Beihang y es investigador de algoritmos en el Centro de Visión del Instituto de Investigación de Inteligencia Artificial Zhiyuan de Beijing. Sus intereses de investigación son los modelos multimodales, los modelos generativos y la visión por computadora, y su trabajo principal incluye la serie Emu.
Recientemente, la investigación sobre modelos grandes multimodales ha estado en pleno apogeo y la industria ha invertido cada vez más en esto. Se han lanzado modelos populares en el extranjero, como GPT-4o (OpenAI), Gemini (Google), Phi-3V (Microsoft), Claude-3V (Anthropic) y Grok-1.5V (xAI), etc. Al mismo tiempo, los modelos domésticos GLM-4V (Wisdom Spectrum AI), Step-1.5V (Step Star), Emu2 (Beijing Zhiyuan), Intern-VL (Shanghai AI Laboratory), Qwen-VL (Alibaba), etc. floreciente.
El modelo de lenguaje visual (VLM) actual generalmente se basa en el codificador visual (Vision Encoder, VE) para extraer características visuales y luego combina las instrucciones del usuario con el modelo de lenguaje grande (LLM) para procesar y responder. Codificador visual y separación de entrenamiento de modelos de lenguaje grande. Esta separación hace que los codificadores visuales introduzcan problemas de sesgo de inducción visual al interactuar con modelos de lenguaje grandes, como resolución de imagen y relación de aspecto limitadas, y antecedentes semánticos visuales fuertes. A medida que la capacidad de los codificadores visuales continúa expandiéndose, la eficiencia de implementación de grandes modelos multimodales en el procesamiento de señales visuales también es muy limitada. Además, cómo encontrar la configuración de capacidad óptima de codificadores visuales y modelos de lenguaje grandes se ha vuelto cada vez más complejo y desafiante.
En este contexto, rápidamente surgieron algunas ideas más vanguardistas:
Adept AI lanzó la serie de modelos Fuyu a finales de 2023 e hizo algunos intentos relacionados, pero no reveló ninguna estrategia de entrenamiento, recursos de datos ni información del equipo. Al mismo tiempo, existe una brecha de rendimiento significativa entre el modelo Fuyu y los algoritmos convencionales en los indicadores de evaluación de textos visuales públicos. Durante el mismo período, algunos experimentos piloto que realizamos mostraron que incluso si la escala de los datos previos al entrenamiento aumenta a gran escala, el modelo grande multimodal nativo sin codificador todavía enfrenta problemas espinosos como una velocidad de convergencia lenta y un rendimiento deficiente.
En respuesta a estos desafíos, el equipo de visión del Instituto de Investigación Zhiyuan se asoció con universidades nacionales como la Universidad Tecnológica de Dalian y la Universidad de Pekín para lanzar una nueva generación de modelo de lenguaje visual sin codificadores EVE. A través de estrategias de capacitación refinadas y supervisión visual adicional, EVE integra representación, alineación e inferencia visual-lingüística en una arquitectura decodificadora pura unificada. Utilizando datos disponibles públicamente, EVE se desempeña bien en múltiples puntos de referencia visual-lingüísticos, compitiendo con métodos multimodales basados en codificadores convencionales de capacidad similar y superando significativamente a su compañero Fuyu-8B. Se propone EVE para proporcionar un camino transparente y eficiente para el desarrollo de arquitecturas multimodales nativas para decodificadores puros.
1. Aspectos técnicos destacados
2. Estructura del modelo
Primero, se inicializa a través del modelo de lenguaje Vicuña-7B, para que tenga un rico conocimiento del lenguaje y potentes capacidades de seguimiento de instrucciones. Sobre esta base, se elimina el codificador visual profundo, se construye una capa de codificación visual liviana, la entrada de la imagen se codifica de manera eficiente y sin pérdidas y se ingresa en un decodificador unificado junto con los comandos del lenguaje del usuario. Además, la capa de alineación visual realiza la alineación de características con un codificador visual general para mejorar la codificación y representación de información visual detallada.
2.1 Capa de incrustación de parches
2.2 Capa de alineación de parches
3. Estrategia de formación
4. Análisis cuantitativo
El modelo EVE supera significativamente al modelo similar Fuyu-8B en múltiples pruebas de lenguaje visual y funciona a la par con una variedad de modelos de lenguaje visual basados en codificadores convencionales. Sin embargo, debido al uso de una gran cantidad de datos del lenguaje visual para el entrenamiento, existen desafíos para responder con precisión a instrucciones específicas y es necesario mejorar su rendimiento en algunas pruebas de referencia. Lo interesante es que a través de estrategias de capacitación eficientes, el EVE sin codificador puede lograr un rendimiento comparable al modelo de lenguaje visual basado en codificador, resolviendo fundamentalmente los problemas de flexibilidad del tamaño de entrada, eficiencia de implementación y modalidad de los problemas de coincidencia de capacidad.
En comparación con los modelos con codificadores, que son susceptibles a problemas como la simplificación de la estructura del lenguaje y la pérdida de conocimientos ricos, EVE ha mostrado una mejora gradual y estable en el rendimiento a medida que aumenta el tamaño de los datos, acercándose gradualmente al nivel de rendimiento de los modelos basados en codificadores. Esto puede deberse a que codificar y alinear modalidades visuales y de lenguaje en una red unificada es más desafiante, lo que hace que los modelos sin codificadores sean menos propensos a sobreadaptarse en comparación con los modelos con codificadores.
5. ¿Qué piensan tus compañeros?
Ali Hatamizadeh, investigador senior de NVIDIA, dijo que EVE es refrescante e intenta proponer una nueva narrativa, que es diferente de la construcción de estándares de evaluación complejos y mejoras progresivas en los modelos de lenguaje visual.
Armand Joulin, investigador principal de Google Deepmind, dijo que es emocionante construir un modelo de lenguaje visual decodificador puro.
El ingeniero de aprendizaje automático de Apple, Prince Canuma, dijo que la arquitectura EVE es muy interesante y es una buena adición al conjunto de proyectos MLX VLM.
6.Perspectivas futuras
Como modelo de lenguaje visual nativo sin codificador, EVE ha logrado actualmente resultados alentadores. En este camino, hay algunas direcciones interesantes que vale la pena explorar en el futuro: