noticias

¡La IA también puede "actualizar TikTok"! La Universidad de Tsinghua toma la iniciativa en el lanzamiento de un nuevo modelo para la comprensión modal completa de videos cortos ICML 2024 |

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuevo informe de sabiduría

Editor: LRST Qué sueño

[Introducción a la Nueva Sabiduría] Los modelos de lenguaje grande de audio y video a menudo no logran aprovechar plenamente el papel del habla al procesar contenido de video. El modelo video-SALMONN innova a través de tres partes: codificación de audio y video y alineación temporal, Q-Former causal de resolución múltiple, función de pérdida de diversidad y entrenamiento de datos mixtos de audio y video no emparejados. El modelo no sólo funciona bien en tareas de una sola modalidad, sino que también demuestra un rendimiento excelente en tareas audiovisuales conjuntas, lo que demuestra su exhaustividad y precisión.

Si desea comprender videos cortos, además del contenido visual, la información auditiva como la voz y el audio, como la música de video, los efectos de sonido, el contenido de voz, etc., también desempeñan un papel clave en la comprensión de videos cortos.

Los modelos audiovisuales de lenguaje grande (av-LLM) han logrado avances significativos en los últimos años, pero el habla, como principal portador del lenguaje humano en videos, aún no se ha explorado completamente en estos modelos. El habla no sólo proporciona rica información lingüística y semántica, sino que también ayuda a comprender la emoción y el significado subyacente del vídeo.

Al mismo tiempo, las señales del habla también contienen rica información paralingüística, como el tono y el tono, así como diversos atributos del hablante (como la edad, el género, el acento y la identidad), que son elementos indispensables en la comprensión del vídeo.

Sin embargo, mejorar las capacidades del habla de los modelos audiovisuales de lenguaje grande de uso general es extremadamente desafiante, ya que requiere un modelado temporal fino e interacciones complejas con otras modalidades en escalas de tiempo gruesas (por ejemplo, tema de video) y finas (por ejemplo, movimientos de los labios).

Recientemente, el artículo "video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models" publicado en ICML 2024 se convirtió en el primer modelo a gran escala que integra todos los elementos de audio y video en video (imágenes naturales, texto, voz, eventos de audio, música) Modelo.


vídeo-enlace del artículo SALMONN: https://openreview.net/pdf?id=nYsh5GFIqX

Enlace del artículo SALMONN: https://arxiv.org/abs/2310.13289

Página de Github: https://github.com/bytedance/SALMONN

A través de los siguientes ejemplos, echemos un vistazo a cómo video-SALMONN interpreta el contenido de video a través de información de voz, audio y video.

Primero, aquí hay un clip clásico de "Titanic".

Deje que Video-SALMONN hable sobre por qué este video es tan romántico:


pregunta:

Combine el video, el audio y el diálogo de los personajes para explicar por qué el video es romántico.

respuesta:

El vídeo muestra una escena romántica entre un hombre y una mujer en un barco. El hombre sostuvo a la mujer en sus brazos y contemplaron juntos el atardecer. La música de fondo es una canción que contribuye a la atmósfera romántica. Las mujeres dicen "Estoy volando" y "Jack", lo que demuestra que están felices y disfrutando el momento. El fondo del barco y la puesta de sol crea un ambiente hermoso y tranquilo que realza la sensación romántica del vídeo. El lenguaje corporal y las expresiones faciales de hombres y mujeres también transmiten su amor y afecto mutuo. En general, el video captura a la perfección un momento romántico e íntimo entre los dos.

Además de describir las escenas que vio, video-SALMONN también integró la música que escuchó y el diálogo de los personajes en su descripción.

Lo que es aún más sorprendente es que en el video SALMONN también se puede saber que fue una mujer la que dijo "Estoy volando".

Además, Video-SALMONN también puede deducir que el nombre del hombre es "Jack".

Todos sabemos que fueron estas dos líneas de diálogo las que crearon esta escena clásica, ¡y el video-SALMONN simplemente capturó la esencia de esta escena!

Aquí hay otro clip animado de “Zootopia”:

Echa un vistazo a cómo Video-SALMONN entiende las cosas divertidas de los perezosos:


pregunta:

Hay un conejo, un zorro y un perezoso en la escena. ¿Qué dijo el perezoso? ¿Por qué son interesantes los perezosos?

respuesta:

El perezoso dice "Nick" al final del vídeo. El perezoso es divertido porque es un animal que se mueve lentamente y en el vídeo aparece muy perezoso, tardando mucho en hacer las cosas. Esto contrasta con la naturaleza activa y enérgica de otros animales, como conejos y zorros, lo que hace que el perezoso destaque y añade humor. Además, la cámara lenta y las expresiones faciales del perezoso en el video aumentan su efecto cómico.

Este ejemplo muestra el reconocimiento del hablante a través de la combinación de audio y video. Solo con el oído, no sabemos que el perezoso está hablando, solo con la visión, no sabemos lo que dijo el perezoso, solo con el audio y lo visual. combinación podemos realmente entender el vídeo!

Y este meme muy popular:

Pregúntale a video-SALMONN por qué este video es gracioso:


pregunta:

¿Puedes explicar por qué este vídeo es divertido?

respuesta:

El video es divertido porque muestra a un hombre haciendo una mueca y luego diciendo "agradable". El contraste entre su expresión seria y la palabra "agradable" crea humor y una sensación de sorpresa. Además, los efectos de sonido de un hombre eructando y fuertes estallidos añaden valor de entretenimiento al video.

Echemos otro vistazo a un documental de National Geographic para ver cómo puede ayudar comprender el habla:

Déjame preguntarte qué tipo de tiburón es el del vídeo-VIDEO SALMONN:


pregunta:

¿Qué tipo de tiburón es el del video?

Responder con entrada de audio:

El tiburón del vídeo es un tiburón ballena.

Responder sin entrada de audio:

El tiburón del vídeo es un gran tiburón blanco.

Con solo ver el video, realmente no sé qué tipo de tiburón es sin ningún conocimiento profesional, por lo que el modelo solo puede adivinar, que es propenso a alucinaciones.


Pero después de escuchar la explicación en audio, video-SALMONN puede saber con precisión que el video trata sobre tiburones ballena, por lo que no es necesario adivinar.

También hay un vídeoclip de la conversación entre los grandes:

No sólo entiende el contenido de la conversación, video-SALMONN también conecta al hablante y el contenido de la conversación:


Pregunta:

Según el video y la voz, ¿fue un hombre o una mujer quien voló a Florencia en el video?

respuesta:

Fue una mujer la que voló a Florencia‍‍

Este ejemplo demuestra aún más la comprensión integral de video-SALMONN del habla en videos.

Si ingresa directamente el texto de la transcripción del discurso, es imposible que el modelo sepa quién voló a Florencia, pero video-SALMONN puede combinar estrechamente el contenido del discurso y la información del orador.

La siguiente es la parte práctica: ¡echemos un vistazo a cómo video-SALMONN logra una comprensión integral de voz-audio-video!

Tecnología del núcleo


vídeo-modelo SALMONN

Al enfrentar el desafío de la comprensión del habla en grandes modelos de audio y video, video-SALMONN tiene las siguientes tres partes de innovación que le permiten manejar varios elementos básicos de video, como imágenes naturales, secuencias de cuadros visuales, habla, eventos de audio y elementos musicales:

Parte 1: Codificación de audio y vídeo y alineación temporal.

video-SALMONN utiliza el codificador de voz Whisper y el codificador de audio BEATs para obtener las secuencias vectoriales de codificación de voz y audio respectivamente (50 vectores por cada segundo de audio), y también utiliza el codificador visual InstructBLIP para obtener lo visual con una frecuencia de muestreo de video. de 2 FPS de secuencia de vectores de codificación (2 fotogramas por 1 segundo de vídeo, correspondientes a 64 vectores).

En la dimensión de tiempo, las tres secuencias se alinean y empalman cada 0,5 segundos según el cuadro de video (sincronización temporal detallada), porque la secuencia de audio del habla es ligeramente más corta que la secuencia visual y se agrega relleno cero a la parte corta.

Parte 2: Q-Former causal de resolución múltiple

La estructura Q-Former causal de resolución múltiple (MRC) es el núcleo innovador de video-SALMONN, que no solo alinea espacialmente características de entrada audiovisuales sincronizadas en el tiempo con representaciones textuales en múltiples escalas de tiempo diferentes, satisfaciendo tareas que dependen de diferentes videos. requisitos de elementos, y para fortalecer la causalidad temporal de eventos entre fotogramas de video consecutivos, se introduce una estructura de autoatención causal con una máscara causal especial.


Estructura MRC Q-Former

Primero, MRC Q-Former divide la secuencia de entrada en ventanas de diferentes longitudes. Luego, dentro de cada ventana, se utiliza Q-Former para asignar la representación multimodal empalmada al espacio de representación semántica. Finalmente, los vectores generados por cada ventana Q-Former en cada nivel de resolución se concatenan para formar una secuencia de vectores en el espacio semántico.

Al garantizar que el número de vectores de salida y la relación de longitud de la ventana sean constantes, MRC Q-Former garantiza que las secuencias de salida con diferentes niveles de resolución se puedan unir directamente en la dimensión de la característica. Los vectores empalmados se asignan a través de una capa lineal. y se utiliza como entrada para el modelo de lenguaje grande.

A través del entrenamiento, el Q-Former de alta resolución puede capturar información detallada, como el contenido del habla y la conexión entre el habla y los movimientos de los labios. El Q-Former de baja resolución puede extraer de manera efectiva información a nivel de video y el contenido general. el vídeo y una mejor comprensión de las relaciones entre múltiples fotogramas.

(Nota: la estructura MRC Q-Former también es adecuada para resolución múltiple en el espacio. El artículo propone por primera vez el método de foco de imagen, que puede dividir la imagen en secuencias de subimágenes de diferentes precisiones como entrada, mejorando así en gran medida el rendimiento de la comprensión de imágenes)

Parte 3: Función de pérdida de diversidad y entrenamiento en datos mixtos de audio y video no emparejados

Además, para evitar el dominio de un cuadro específico en el video, video-SALMONN propone y utiliza una nueva función de pérdida de diversidad basada en la entropía cruzada, que anima al modelo a explorar diferentes partes de la secuencia completa.

Al mismo tiempo, para evitar el predominio de una única modalidad en los datos de audio y video emparejados (por ejemplo, el audio que no es de voz en los videos a menudo solo proporciona una cantidad muy pequeña de información auxiliar y se ignora fácilmente), video-SALMONN utiliza una estrategia de mezclar audio y video no emparejados. Se realiza entrenamiento para que video-SALMONN tenga que prestar atención a la información de dos modalidades al mismo tiempo.

Resultados principales

El artículo de Video-SALMONN propone el punto de referencia de evaluación del habla y audiovisual (SAVE) para las pruebas y muestra un rendimiento excelente en tareas de habla, audio no hablada, imagen y video.

Las tareas de prueba de SAVE incluyen reconocimiento de voz (ASR), descripción de audio (AAC), descripción de imagen (IC), reconocimiento visual de texto (OCR), preguntas y respuestas con imágenes (VQA), preguntas y respuestas en video (Video QA) y otras pruebas visuales y auditivas. modalidades de entrada única Las tareas también incluyen reconocimiento de voz audiovisual (AVSR), respuesta a preguntas de audio y video (AVQA), detección de fuente de sonido de audio y video (AVSSD) y coincidencia de audio y video (AVM), cuatro entradas comunes de audio y video. Tareas de percepción.

Entre ellos, AVQA es un conjunto de pruebas propuesto recientemente y AVM es una tarea propuesta recientemente que requiere que el modelo determine si el audio y el video coinciden.


En primer lugar, video-SALMONN logra los mismos o incluso mejores resultados en tareas de entrada unimodal que los modelos que solo pueden procesar entrada modal visual o auditiva.

En comparación con Video-LLaMA, un modelo grande que también puede procesar audio y video, video-SALMONN no solo aumenta su capacidad para comprender la entrada de voz, sino que también supera con creces su rendimiento en diversas tareas unimodales.


En la tarea de comprensión de la entrada conjunta de audio y vídeo, video-SALMONN ha demostrado un rendimiento muy superior al de otros modelos.


Gracias a su capacidad para comprender el habla, video-SALMONN supera significativamente al modelo similar de gran tamaño Video-LLaMA en AVQA.

Más importante aún, video-SALMONN demuestra excelentes capacidades de emergencia de muestra cero para el razonamiento conjunto de voz y audiovisual en AVM y AVSSD, dos tareas completamente no entrenadas.


El surgimiento de estas capacidades de razonamiento conjunto requiere que el modelo preste igual atención a la información visual y auditiva de entrada simultáneamente, y pueda comprender las complejas conexiones entre audio y visual.


Sin embargo, los modelos de código abierto existentes no pueden comprender completamente el audio o solo pueden describir cada modalidad de entrada por separado.

Conclusión

El lanzamiento de video-SALMONN ayudará a mejorar la amplitud y precisión de la tecnología de comprensión de video y brindará nuevas oportunidades para el análisis de contenido de video, el reconocimiento de emociones, la interacción multimodal y otros campos.


Este modelo no sólo es de gran importancia en la investigación académica, sino que también proporciona un sólido soporte técnico para aplicaciones prácticas.

Referencias:

https://openreview.net/pdf?id=nYsh5GFIqX