noticias

Agregue ojos rápidos y lentos al modelo de video, el nuevo método sin capacitación de Apple supera todo lo SOTA en segundos

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Desde el lanzamiento de Sora, el campo de la generación de videos con IA se ha vuelto más "ocupado". En los últimos meses, hemos sido testigos de cómo Jimeng, Runway Gen-3, Luma AI y Kuaishou Keling se turnaban para explotar.

A diferencia del pasado, donde se puede ver de un vistazo que los modelos son generados por IA, este lote de modelos de video de gran tamaño puede ser el "mejor" que jamás hayamos visto.

Sin embargo, el sorprendente rendimiento de los modelos de lenguaje grande de video (LLM) es inseparable de un conjunto de datos de video grande y finamente anotado, lo que requiere un costo muy alto. Recientemente, han surgido una serie de métodos innovadores en el campo de la investigación que no requieren capacitación adicional: el uso de modelos de lenguaje de imágenes grandes entrenados para procesar directamente tareas de video, evitando así el "costoso" proceso de capacitación.

Además, la mayoría de los LLM de vídeo existentes adolecen de dos deficiencias importantes: (1) solo pueden manejar la entrada de vídeo con un número limitado de fotogramas, lo que dificulta que el modelo capture el contenido espacial y temporal sutil del vídeo (2; ) Carecen de diseño de modelado temporal, pero simplemente ingresan funciones de video en LLM, confiando completamente en la capacidad de LLM para modelar movimiento.

En respuesta a las cuestiones anteriores,Los investigadores de Apple propusieron SlowFast-LLaVA (SF-LLaVA para abreviar). Este modelo se basa en la arquitectura LLaVA-NeXT desarrollada por el equipo de Byte. No requiere ajustes adicionales y se puede utilizar de inmediato.. Inspirándose en la exitosa red de dos flujos en el campo del reconocimiento de acciones, el equipo de investigación diseñó un novedoso mecanismo de entrada SlowFast para video LLM.

En pocas palabras, SF-LLaVA comprenderá los detalles y el movimiento de los vídeos a través de dos velocidades de visualización diferentes (lenta y rápida).

Ruta lenta: extraiga características a una velocidad de fotogramas baja mientras conserva tantos detalles espaciales como sea posible (por ejemplo, conservando tokens de 24 × 24 cada 8 fotogramas).

Ruta rápida: ejecute a una velocidad de fotogramas alta, pero reduzca la resolución del vídeo con un paso de agrupación espacial más grande para simular un contexto temporal más amplio y centrarse más en comprender la coherencia de las acciones.

Esto equivale a que el modelo tenga dos "ojos": uno mira lentamente y presta atención a los detalles; el otro mira rápidamente y presta atención a los movimientos. Esto resuelve los puntos débiles de la mayoría de los LLM en vídeo existentes y puede capturar tanto la semántica espacial detallada como un contexto temporal más largo.



Enlace del artículo: https://arxiv.org/pdf/2407.15841

Los resultados experimentales muestran que SF-LLaVA supera los métodos existentes sin entrenamiento con ventajas significativas en todas las pruebas de referencia. En comparación con el modelo SFT cuidadosamente ajustado, SF-LLaVA puede lograr el mismo rendimiento o incluso mejor.



Arquitectura modelo

Como se muestra en la figura siguiente, SF-LLaVA sigue el proceso estándar de LLM en video sin capacitación. Toma el video V y la pregunta Q como entrada y genera la respuesta correspondiente A.



Para la entrada, se muestrean uniformemente N fotogramas de cada vídeo de cualquier tamaño y duración, I = {I_1, I_2, ..., I_N}, y no se requiere ninguna combinación o disposición especial de los fotogramas de vídeo seleccionados. La característica de frecuencia extraída independientemente en la unidad de marco es F_v ∈ R^N×H×W, donde H y W son la altura y el ancho de la característica de marco respectivamente.





Resultados experimentales

El equipo de investigación realizó una evaluación integral del desempeño de SF-LLaVA, comparándolo con los modelos actuales sin capacitación SOTA (como IG-VLM y LLoVi) en múltiples tareas de respuesta a preguntas en video. Además, lo compararon con LLM de video como VideoLLaVA y PLLaVA que fueron supervisados ​​y ajustados (SFT) en conjuntos de datos de video.

Abrir vídeo de preguntas y respuestas

Como se muestra en la siguiente tabla, en la tarea abierta de respuesta a preguntas en video, SF-LLaVA funciona mejor que los métodos existentes sin capacitación en todos los puntos de referencia. Específicamente, cuando está equipado con LLM de tamaños de parámetros 7B y 34B respectivamente, SF-LLaVA es 2,1% y 5,0% más alto que IGVLM en MSRVTT-QA, 5,7% y 1,5% más alto en TGIF-QA, y 5,7% y 1,5% más alto en ActivityNet -2,0% y 0,8% más en QA.

Incluso en comparación con el método SFT ajustado, SF-LLaVA muestra un rendimiento comparable en la mayoría de los puntos de referencia, solo en el punto de referencia ActivityNet-QA, PLLaVA y LLaVA-NeXT-VideoDPO son ligeramente mejores.



Preguntas y respuestas en vídeo de opción múltiple

Como se puede ver en la siguiente tabla, SF-LLaVA supera a otros métodos sin capacitación en respuesta a preguntas en video de opción múltiple en todos los puntos de referencia. En el conjunto de datos de EgoSchema que requiere un razonamiento complejo a largo plazo, las versiones SF-LLaVA7B y 34B obtuvieron puntuaciones un 11,4 % y un 2,2 % más altas que el modelo IG-VLM, respectivamente.

Aunque VideoTree lidera la prueba comparativa, debido a que es un modelo propietario basado en GPT-4, su rendimiento es mucho mayor que el del LLM de código abierto. En comparación con el método SFT, el modelo SF-LLaVA 34B también logra mejores resultados en EgoSchema, lo que confirma la gran capacidad del diseño SlowFast para manejar vídeos largos.

Generación de texto



Vídeo de Vicente

Como se muestra en la Tabla 3, SF-LLaVA también muestra algunas ventajas para la tarea de generación de texto en vídeo. El SF-LLaVA-34B superó todos los puntos de referencia sin entrenamiento en rendimiento general. Aunque en términos de orientación detallada, SF-LLaVA es ligeramente inferior a LLaVA-NeXT-Image. Basado en el diseño de SlowFast, SF-LLaVA puede cubrir un contexto temporal más largo con menos tokens visuales, por lo que funciona particularmente bien en tareas de comprensión temporal.

Además, SF-LLaVA-34B también supera a la mayoría de los métodos SFT en términos de rendimiento de vídeo Vincent.



Para obtener más detalles, consulte el artículo original.