No espere el GPT-4o de código abierto de OpenAI, espere la versión de código abierto VITA

2024-08-14

Informe del corazón de la máquina

Departamento editorial de Machine Heart

Nuevamente hay buenas noticias en el campo del código abierto.

Los modelos de lenguajes grandes (LLM) han experimentado una evolución significativa y, recientemente, también hemos sido testigos de un auge en los modelos de lenguajes grandes multimodales (MLLM), que exhiben capacidades multimodales sorprendentes.

En particular, la aparición de GPT-4o ha contribuido significativamente al desarrollo del campo MLLM. Sin embargo, los modelos de código abierto correspondientes a estos modelos son significativamente insuficientes. No se puede subestimar la necesidad urgente de que la comunidad de código abierto promueva aún más el desarrollo de este campo.

En este artículo, investigadores de Tencent Youtu Lab y otras instituciones proponen VITA, que es el primer modelo de lenguaje grande multimodal (MLLM) de código abierto, que puede procesar y analizar modalidades de video, imagen, texto y audio al mismo tiempo. Al mismo tiempo, cuenta con una experiencia interactiva multimodal avanzada.

Los investigadores utilizaron Mixtral 8×7B como base lingüística, luego ampliaron su vocabulario chino y perfeccionaron las instrucciones bilingües. Además, los investigadores dotaron al modelo de lenguaje de capacidades visuales y de audio a través del aprendizaje multitarea en dos etapas de alineación multimodal y ajuste de la instrucción.

VITA demuestra sólidas capacidades de comprensión visual y de audio en varios idiomas, como lo demuestra su excelente desempeño en puntos de referencia unimodales y multimodales.

Además de las capacidades básicas, esta investigación también ha logrado grandes avances en la mejora de la experiencia de interacción natural multimodal entre humanos y computadoras. Hasta donde sabemos, este es el primer estudio que explota las interacciones sin activación y las interrupciones de audio en MLLM. Los investigadores también diseñaron tokens de estado adicionales y los datos y estrategias de entrenamiento correspondientes para percibir diversos escenarios de interacción.

VITA se implementa utilizando un enfoque dúplex, con un modelo responsable de generar respuestas a las consultas de los usuarios y otro modelo que rastrea continuamente las aportaciones ambientales. Esto dota a VITA de unas impresionantes capacidades de interacción entre personas y ordenadores.

VITA es el primer paso para que la comunidad de código abierto explore la integración perfecta de la comprensión e interacción multimodal. Aunque todavía queda mucho trabajo por hacer en VITA para acercarse a sus homólogos de código cerrado, el estudio espera que el papel de VITA como pionero pueda servir como piedra angular para investigaciones posteriores.

Dirección del artículo: https://arxiv.org/pdf/2408.05211
Página de inicio del artículo: https://vita-home.github.io/
Título del artículo: VITA: Hacia un LLM omnimodal interactivo de código abierto

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15ede2 b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

En el video de arriba, los usuarios pueden tener una comunicación sin barreras con VITA. Después de ver la camiseta blanca que lleva el usuario, se le indicará el color de los pantalones que debe combinar cuando se le haga una pregunta de matemáticas y podrá ver el tipo de pregunta. en tiempo real y hacer inferencias, y luego dar respuestas precisas cuando esté hablando con otros, VITA no interrumpirá, porque sabe que el usuario no se está comunicando con él cuando viaja, VITA también le dará algunas sugerencias; de salida VITA, también puede interrumpir una conversación en tiempo real y comenzar otro tema.

En este vídeo, el usuario sostiene una galleta y le pregunta a VITA qué está comiendo. VITA le responde que está comiendo galletas y le sugiere que las galletas sepan mejor con leche o té.

Cuando haga ejercicio, actúe como su compañero de chat:

Nota: Los videos anteriores se reproducen en tiempo real a una velocidad 1x y no se han acelerado.

Según el diagrama de flujo proporcionado por el usuario, VITA puede escribir código:

Proporcione una imagen y VITA también podrá responder preguntas basadas en el contenido de la imagen:

También puede ver vídeos y responder preguntas cuando los usuarios hacen la pregunta "Describe en detalle los movimientos del perro", VITA también puede dar respuestas precisas:

Introducción al método

Como se muestra en la Figura 3, el proceso de capacitación general de VITA incluye tres etapas: ajuste de la instrucción LLM, alineación multimodal y ajuste de la instrucción multimodal.

Ajuste de la instrucción LLM

El rendimiento de Mixtral 8x7B se encuentra entre los mejores LLM de código abierto, por lo que se utilizó como base para este estudio. Sin embargo, los investigadores observaron que el modelo oficial Mixtral tiene una capacidad limitada para comprender el chino. Para inyectar capacidades de comprensión bilingüe (chino e inglés), el estudio amplió el vocabulario chino al modelo base, aumentando el vocabulario de 32.000 a 51.747. Después de ampliar el vocabulario, los investigadores utilizaron un corpus bilingüe sintético de 5 millones para afinar las instrucciones en texto plano.

Alineación multimodal

Cerrar la brecha de representación entre el texto y otras modalidades, sentando así las bases para la comprensión multimodal. Los conectores visuales se entrenan sólo durante la fase de alineación visual. La Tabla 1 resume los datos de entrenamiento utilizados, excepto la parte de texto sin formato.

modalidad visual

El primero es el codificador visual. Los investigadores utilizaron InternViT-300M-448px como codificador visual, que tomó una imagen con una resolución de 448 × 448 como entrada y generó 256 tokens después de usar un conector visual como un MLP simple de dos capas. Para la entrada de imágenes de alta resolución, los investigadores utilizan estrategias de parcheo dinámico para capturar detalles locales.

El vídeo se considera un caso de uso especial para las imágenes. Si la duración del vídeo es inferior a 4 segundos, se muestrearán 4 fotogramas por segundo de manera uniforme. Si la duración del vídeo está entre 4 y 16 segundos, se muestrea un fotograma cada segundo. Para vídeos de más de 16 segundos, se muestrean 16 fotogramas de manera uniforme.

En segundo lugar está la alineación visual. Entrenamos al conector visual solo durante la fase de alineación visual y no utilizamos preguntas de audio durante esta fase.

Finalmente, está la cascada de datos. Para datos de texto sin formato y datos de imágenes, esta investigación tiene como objetivo concatenar la longitud del contexto en tokens de 6K, como se muestra en la Figura 4. Vale la pena señalar que los datos del vídeo no están concatenados.

La conexión en cascada de datos dispares tiene dos beneficios:

Admite longitudes de contexto más largas, lo que permite escalar desde interacciones de preguntas con una sola imagen a interacciones con preguntas con múltiples imágenes, lo que da como resultado formularios de entrada más flexibles y longitudes de contexto extendidas.
Mejora la eficiencia computacional ya que los fotogramas de vídeo suelen contener una gran cantidad de tokens visuales. Al concatenar pares de imagen-pregunta, este estudio puede mantener una cantidad equilibrada de tokens en el lote de entrenamiento, mejorando así la eficiencia computacional.

Además, el estudio encontró que los modelos entrenados con datos en cascada tuvieron un rendimiento comparable a los modelos entrenados con datos sin procesar.

modalidad de audio

En un lado está el codificador de audio. El audio de entrada se procesa inicialmente a través de un bloque de filtro Mel, que descompone la señal de audio en bandas de frecuencia individuales dentro del rango de frecuencia mel, imitando la percepción humana no lineal del sonido. Posteriormente, los investigadores utilizaron una capa de reducción de resolución de 4×CNN y un transformador de 24 capas, con un total de 341 millones de parámetros, para procesar las características de entrada. También utilizan un MLP simple de dos capas como conector modal de audio-texto. Finalmente, cada 2 segundos de entrada de audio se codifica en 25 tokens.

Otro aspecto es la alineación del audio. Para la tarea de alineación, los investigadores utilizaron reconocimiento automático de voz (ASR). Los conjuntos de datos incluyen Wenetspeech (con más de 10.000 horas de datos de reconocimiento de voz multidominio, centrados principalmente en tareas chinas) y Gigaspeech (con 10.000 horas de datos de audio de alta calidad, la mayoría de los cuales están orientados a tareas de reconocimiento de voz en inglés). Para la tarea de subtítulos de audio, los investigadores utilizaron el subconjunto AudioSet SL de Wavcaps, que contiene 400.000 clips de audio con los subtítulos de audio correspondientes. Durante el proceso de alineación, se entrenan los codificadores y conectores de audio.

Ajuste de instrucción multimodal

El estudio adaptó el modelo para mejorar su capacidad de seguir instrucciones, ya sean de texto o de audio.

Construcción de datos. Las fuentes de datos para la fase de ajuste de instrucciones son las mismas que las de la fase de alineación en la Tabla 1, pero este estudio realizó las siguientes mejoras:

Las preguntas se reemplazan aleatoriamente (aproximadamente la mitad) con sus versiones de audio (usando tecnología TTS, como GPT-SoVITS6), con el objetivo de mejorar la comprensión del modelo de las consultas de audio y su capacidad para seguir instrucciones.

Configure diferentes mensajes del sistema para evitar conflictos entre diferentes tipos de datos, como se muestra en la Tabla 2. Por ejemplo, algunas preguntas pueden responderse basándose en información visual o en base al propio conocimiento del modelo, lo que genera conflictos. Además, los datos de la imagen han sido parcheados, de forma similar a los datos de vídeo de varios fotogramas, lo que puede confundir al modelo. El mensaje del sistema distingue explícitamente diferentes tipos de datos, lo que ayuda a comprenderlos de manera más intuitiva.

Para realizar dos funciones interactivas, a saber, la interacción sin despertar y la interacción con interrupción de audio, este estudio propone un marco de implementación dúplex, es decir, se implementan dos modelos VITA al mismo tiempo, como se muestra en la Figura 1.

Normalmente, un modelo de generación responde a las consultas de los usuarios. Al mismo tiempo, el modelo de Monitoreo detecta sonidos ambientales durante el proceso de generación. Ignora las voces de los usuarios que no son de consulta, pero detiene el progreso de generación del modelo cuando se reconoce el audio de la consulta. Luego, el modelo de monitoreo integra el contexto histórico y responde a las últimas consultas de los usuarios, y se cambian las identidades de los modelos de generación y monitoreo.

Evaluación experimental

rendimiento lingüístico. Para verificar la eficacia del proceso de formación del modelo de lenguaje, los investigadores utilizaron cuatro conjuntos de datos, a saber, C-EVAL, AGIEVAL, MMLU y GSM8K. Estos conjuntos de datos cubren una variedad de escenarios, incluidas preguntas generales de opción múltiple, preguntas de cuestionarios multidisciplinarios y tareas de razonamiento matemático y lógico, que cubren contextos tanto en chino como en inglés.

Los resultados en la Tabla 3 a continuación muestran que la capacitación en este artículo mejora significativamente la capacidad del modelo de idioma en el conjunto de evaluación de chino (C-EVAL y AGIEVAL), al tiempo que mantiene el nivel de desempeño original en el punto de referencia relacionado con el inglés (MMLU) y mejorar el razonamiento matemático Se ha logrado una mejora significativa en la tarea (GSM8K).

rendimiento de audio. Para verificar la solidez de la representación del habla aprendida por el modelo, los investigadores realizaron pruebas en dos conjuntos de datos: Wenetspeech y Librispeech.

Entre ellos, Wenetspeech tiene dos indicadores de evaluación, a saber, test_net y test_meeting. La primera fuente de datos es más consistente con los datos de entrenamiento, por lo que el segundo plantea un mayor desafío. Como conjunto de datos reservado del modelo, Librispeech evalúa la capacidad de generalización del modelo en conjuntos de datos invisibles. Tiene cuatro conjuntos de evaluación. El que comienza con "dev" es el conjunto de verificación y el que comienza con "test". es el conjunto de prueba, "limpio" representa un conjunto menos desafiante y "otro" representa un conjunto más desafiante.

Como puede verse en los resultados de la Tabla 4 a continuación, VITA logró muy buenos resultados en la prueba de referencia ASR.

Rendimiento multimodal. Para evaluar las capacidades multimodales, el estudio evaluó a VITA en cuatro puntos de referencia, incluidos MME, OCRBench, HalllusionBench y Video-MME. Los resultados se muestran en la Figura 5.

En términos de comprensión de imágenes, VITA es mejor que el modelo de código abierto específico de imágenes LLaVA-Next y está cerca del modelo de código cerrado Gemini 1.5 Pro.

En términos de comprensión de vídeo, VITA supera a Video-CCAM, un modelo de vídeo de código abierto. Aunque existe una brecha entre VITA y LLaVA-Next-Video específico de video, esto es aceptable dado que VITA admite una gama más amplia de modalidades y prioriza la interactividad.

Finalmente, vale la pena señalar que todavía existe una gran brecha en las capacidades de comprensión de video entre los modelos de código abierto y los modelos propietarios.

noticias

No espere el GPT-4o de código abierto de OpenAI, espere la versión de código abierto VITA

Introducción

Mi información de contacto