noticias

¡Mira una película de 2 horas en 4 segundos! Alibaba lanza el modelo grande multimodal universal mPLUG-Owl3 |

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Después de ver una película de 2 horas en 4 segundos, se dieron a conocer oficialmente los nuevos logros del equipo de Alibaba——

desenrollarModelo grande multimodal universal mPLUG-Owl3, especialmente utilizado para comprender múltiples imágenes y videos largos.



En concreto, tomando LLaVA-Next-Interleave como punto de referencia, mPLUG-Owl3La latencia del primer token se redujo 6 veces, y la cantidad de imágenes que se pueden modelar con un solo A100 se ha multiplicado por 8, alcanzando400 fotosSegún la prueba real, puedes ver una película de 2 horas en 4 segundos.

En otras palabras, la eficiencia del razonamiento del modelo ha mejorado enormemente.

ySin sacrificar la precisión del modelo

mPLUG-Owl3 también logró muchos puntos de referencia en varios escenarios involucrados en modelos grandes multimodales, incluidos campos de imagen única, imágenes múltiples y video.SOTA



El autor del artículo es deEquipo Alibaba mPLUG, han estado profundamente involucrados en bases de modelos grandes multimodales, y antes de eso también propusieron:

  • Serie mPLUG de base multimodal eficiente
  • Base modular multimodal de modelo de lenguaje grande serie mPLUG-Owl
  • Base de comprensión de documentos serie mPLUG-DocOwl

Echemos un vistazo a la tecnología negra que trae esta versión de mPLUG-Owl3.

Jugabilidad desbloqueada

El equipo demostró varios usos comunes de mPLUG-Owl3.

Mejora de la recuperación multimodal

En general, es una práctica común complementar el conocimiento que el modelo no ha aprendido a través del sistema de recuperación. Esto requiere que el modelo comprenda con precisión el conocimiento multimodal entrante y lo utilice para responder preguntas.

En el siguiente ejemplo, mPLUG-Owl3 no solo puede responder correctamente según el conocimiento recuperado, sino que también puede brindarle¿En qué conocimiento se basa el juicio?y proporcionar una base de juicio detallada. Esto es muy amigable para el personal de I + D posterior para el desarrollo y la depuración.

Buscar parte: A continuación se recuperan varios conocimientos multimodales para que pueda tomar una decisión.

hacer una pregunta: Según tus observaciones de las cuatro fotos de perros de arriba, ¿puedes clasificar al perro de la imagen 5? Dar razones.

respuesta: Según las observaciones de las cuatro fotografías de perros, el perro de la imagen 5 puede clasificarse como Terrier irlandés. El perro de la imagen 1 se describe como un Terrier irlandés y el perro de la imagen 5 tiene características físicas similares al perro de la imagen 1...



Razonamiento multigráfico

Situaciones como esta ocurren a menudo en la vida——

Muchos usuarios no solo tienen una conversación en torno a una imagen, sino que el usuario puede tener varios materiales, y el modelo debe poder comprender correctamente la relación entre el contenido de diferentes materiales.

En el siguiente ejemplo, mPLUG-Owl3 puede activar el conocimiento de sentido común del modelo de lenguaje a través de lo que ve en dos imágenes y razonar en torno a las dos imágenes.

hacer una pregunta: ¿Puede el animal de la izquierda sobrevivir en el entorno de la derecha? Se requieren respuestas y explicaciones.

respuesta(La respuesta correcta está marcada en verde): La idea general es que no puede sobrevivir porque el ambiente es demasiado frío.



En otro ejemplo, mPLUG-Owl3 no solo puede detectar la diferencia de estilo entre dos imágenes, sino que también puede darse cuenta de que aunque los personajes de las dos imágenes tienen estilos diferentes, en realidad son el mismo personaje.

pregunta por primera vez: ¿Qué estilos artísticos se representan en la imagen y en qué se diferencian?

respuesta: La primera imagen está en estilo píxel, la segunda imagen está en estilo dibujos animados... (da las razones)

segunda pregunta: ¿Quién aparece en ambos cuadros? ¿Cuáles son sus características?

respuesta: En ambas pinturas aparece un hombre con sombrero de vaquero, representado en dos estilos diferentes.



Comprensión de video larga

Ver videos muy largos es una tarea que la mayoría de los modelos actuales no pueden completar de un extremo a otro. Si se basa en el marco del Agente, es difícil garantizar la velocidad de respuesta.

mPLUG-Owl3 puede ver una película de 2 horas yComience a responder preguntas de los usuarios en 4 segundos

Ya sea que el usuario haga preguntas sobre clips muy detallados al principio, a la mitad y al final de la película, mPLUG-Owl3 puede responderlas con fluidez.



¿Cómo lo hiciste?

A diferencia de los modelos tradicionales, mPLUG-Owl3No es necesario unir de antemano la secuencia visual con la secuencia de texto del modelo de lenguaje.

En otras palabras, no importa lo que se ingrese (docenas de imágenes u horas de video), no ocupa la capacidad de secuencia del modelo de lenguaje, lo que evita la enorme sobrecarga computacional y el uso de memoria de video causados ​​por largas secuencias visuales.

Alguien podría preguntar, ¿cómo se integra la información visual en el modelo del lenguaje?



Para lograr esto, el equipo propuso unMódulo ligero de hiperatención, que puede extender un Transformer Block existente que solo puede modelar texto en un nuevo módulo que puede realizar interacción de características gráficas y de texto y modelado de texto.



Al difundirse escasamente por todo el modelo lingüístico4Transformer Block, mPLUG-Owl3 puede actualizar LLM a LLM multimodal a un costo muy pequeño.

Después de extraer las características visuales del codificador visual, las dimensiones se alinean con las dimensiones del modelo de lenguaje mediante un mapeo lineal simple.

Posteriormente, las características visuales solo interactuarán con el texto en estas cuatro capas de Transformer Block. Dado que el token visual no ha sufrido ninguna compresión, se puede conservar información detallada.

Echa un vistazo a continuación¿Cómo se diseña la HiperAtención?

Para permitir que el modelo de lenguaje perciba características visuales, Hyper Attention introduce unaAtención cruzadaEn la operación, las características visuales se utilizan como clave y valor, y el estado oculto del modelo de lenguaje se utiliza como consulta para extraer las características visuales.

En los últimos años, otras investigaciones han considerado utilizar Cross-Attention para la fusión multimodal, como Flamingo e IDEFICS, pero estos esfuerzos no han logrado un buen rendimiento.

En un informe técnico sobre mPLUG-Owl3, el equipoComparando el diseño de Flamingo, para explicar más detalladamente la hiperatenciónPuntos técnicos clave



En primer lugar, Hyper Attention no adopta el diseño de cascada de atención cruzada y autoatención, sino que está integrado en el bloque de autoatención.

Su ventaja es que reduce en gran medida la cantidad de nuevos parámetros adicionales introducidos, lo que hace que el modelo sea más fácil de entrenar y la eficiencia del entrenamiento y la inferencia se puede mejorar aún más.

En segundo lugar, selección de hiperatención.LayerNorm para modelos de lenguaje compartido, porque la salida de distribución de LayerNorm es la distribución estable que ha sido entrenada por la capa de Atención. Compartir esta capa es crucial para el aprendizaje estable de la atención cruzada recientemente introducida.

De hecho, Hyper Attention adopta una estrategia paralela de atención cruzada y autoatención, utilizando una consulta compartida para interactuar con funciones visuales e integrando las dos funciones a través de una puerta adaptativa.

Esto permite a Query seleccionar selectivamente características visuales relevantes en función de su propia semántica.

Descubrimiento del equipo, imagenPosición relativa al texto en el contexto original.Es muy importante que el modelo comprenda mejor la entrada multimodal.

Para modelar esta propiedad, introdujeron una posición de rotación entrelazada multimodal que codifica MI-Rope para modelar la información de posición para la clave visual.

Específicamente, grabaron previamente la información de posición de cada imagen en el texto original y usaron esta posición para calcular la incrustación de cuerda correspondiente, y cada parche de la misma imagen compartiría esta incrustación.

Además, también están haciendo Atención Cruzada.Se introduce la máscara de atención., de modo que el texto antes de la imagen en el contexto original no pueda ver las características correspondientes a las imágenes posteriores.

En resumen, estos puntos de diseño de Hyper Attention han aportado más mejoras de eficiencia a mPLUG-Owl3 y han garantizado que aún pueda tener capacidades multimodales de primera clase.



Resultados experimentales

Al realizar experimentos en una amplia gama de conjuntos de datos, mPLUG-Owl3La mayoría de los puntos de referencia multimodales de una sola imagenTodos pueden lograr resultados SOTA y muchas pruebas pueden incluso superar modelos con tamaños de modelo más grandes.



al mismo tiempo,En la evaluación de múltiples imágenes., mPLUG-Owl3 también superó a LLAVA-Next-Interleave y Mantis, que están especialmente optimizados para escenas de múltiples imágenes.



Además, en LongVideoBench (52,1 puntos), un modelo de evaluación especializadoEntendiendo videos largosSupera a los modelos existentes en la lista.



El equipo de I+D también propuso una interesanteMétodo de evaluación de secuencia visual larga.

Como todos sabemos, en escenarios reales de interacción persona-computadora, no todas las imágenes solucionan los problemas del usuario. El contexto histórico estará lleno de contenido multimodal que es irrelevante para el problema. Cuanto más larga sea la secuencia, más grave será este fenómeno.

Evaluar el rendimiento del modelo en entradas de secuencia visual larga.Capacidad antiinterferencia, construyeron uno basado en MMBench-devNuevo conjunto de datos de evaluación

Al introducir imágenes irrelevantes para cada muestra de evaluación del ciclo MMBench y alterar el orden de las imágenes, luego se hacen preguntas sobre las imágenes originales para ver si el modelo puede responder de manera correcta y estable. (Para la misma pregunta, se construirán cuatro muestras con diferente orden de opciones e imágenes de interferencia, y solo se registrará una respuesta correcta si todas se responden correctamente).

El experimento se divide en varios niveles según la cantidad de imágenes de entrada.

Se puede ver que los modelos sin entrenamiento de gráficos múltiples, como Qwen-VL y mPLUG-Owl2, fallaron rápidamente.



LLAVA-Next-Interleave y Mantis, que han sido entrenados con múltiples imágenes, pueden mantener una curva de atenuación similar a la de mPLUG-Owl3 al principio, pero a medida que el número de imágenes alcanza50A esta magnitud, estos modelos ya no pueden responder correctamente.

Y mPLUG-Owl3 persistió400 fotostodavía puede mantener40% de precisión

Sin embargo, hay una cosa que decir: aunque mPLUG-Owl3 supera a los modelos existentes, su precisión está lejos de alcanzar un nivel excelente. Sólo se puede decir que este método de evaluación revela la capacidad antiinterferente de todos los modelos en secuencias largas. mejorar aún más en el futuro.

Para obtener más detalles, consulte el documento y el código.