Моя контактная информация
Почта[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
С момента выпуска Sora область генерации видео с помощью ИИ стала более «загруженной». За последние несколько месяцев мы стали свидетелями того, как Джимэн, Runway Gen-3, Luma AI и Kuaishou Keling по очереди взрывались.
В отличие от прошлого, когда с первого взгляда можно было сказать, что модели создаются искусственным интеллектом, эта партия больших видеомоделей может быть «лучшей», которую мы когда-либо видели.
Однако потрясающая производительность моделей большого языка видео (LLM) неотделима от большого и тщательно аннотированного набора видеоданных, который требует очень высоких затрат. В последнее время в исследовательской сфере появился ряд инновационных методов, не требующих дополнительного обучения: использование обученных изображений больших языковых моделей для непосредственной обработки видеозадач, минуя «дорогой» процесс обучения.
Кроме того, большинство существующих видео LLM страдают от двух основных недостатков: (1) они могут обрабатывать входной видеосигнал только с ограниченным количеством кадров, что затрудняет передачу модели тонкого пространственного и временного содержания в видео (2); ) им не хватает конструкции временного моделирования, а они просто вводят видеофункции в LLM, полностью полагаясь на способность LLM моделировать движение.
В ответ на вышеуказанные проблемы,Исследователи Apple предложили SlowFast-LLaVA (сокращенно SF-LLaVA). Данная модель основана на архитектуре LLaVA-NeXT, разработанной командой Byte. Она не требует дополнительной тонкой настройки и может использоваться «из коробки».. Вдохновленная успешной двухпоточной сетью в области распознавания действий, исследовательская группа разработала новый механизм ввода SlowFast для видео LLM.
Проще говоря, SF-LLaVA распознает детали и движение видео на двух разных скоростях просмотра (медленной и быстрой).
Медленный путь: извлекайте объекты с низкой частотой кадров, сохраняя при этом как можно больше пространственных деталей (например, сохраняя токены 24×24 каждые 8 кадров).
Быстрый путь: запускайте с высокой частотой кадров, но уменьшите разрешение видео с большим шагом пространственного объединения, чтобы имитировать больший временной контекст и больше сосредоточиться на понимании последовательности действий.
Это эквивалентно тому, что у модели два «глаза»: один смотрит медленно и обращает внимание на детали; другой смотрит быстро и обращает внимание на движения. Это решает проблемы большинства существующих видео LLM и может захватывать как подробную пространственную семантику, так и более длительный временной контекст.
Ссылка на документ: https://arxiv.org/pdf/2407.15841.
Результаты экспериментов показывают, что SF-LLaVA превосходит существующие методы без обучения по значительным преимуществам во всех тестах производительности. По сравнению с тщательно настроенной моделью SFT, SF-LLaVA может достичь такой же производительности или даже лучше.
Модельная архитектура
Как показано на рисунке ниже, SF-LLaVA следует стандартному процессу видео LLM без обучения. Он принимает видео V и вопрос Q в качестве входных данных и выводит соответствующий ответ A.
Для входа равномерно выбираются N кадров из каждого видео любого размера и длины, I = {I_1, I_2, ..., I_N}, и никакого специального сочетания или расположения выбранных видеокадров не требуется. Независимо извлекаемый частотный признак в единице кадра равен F_v ∈ R^N×H×W, где H и W — высота и ширина признака кадра соответственно.
Результаты эксперимента
Исследовательская группа провела всестороннюю оценку производительности SF-LLaVA, сравнив ее с текущими моделями SOTA, не требующими обучения (такими как IG-VLM и LLoVi), в нескольких видеозадачах с ответами на вопросы. Кроме того, они сравнили его с видео LLM, такими как VideoLLaVA и PLLaVA, которые были тщательно настроены (SFT) на наборах видеоданных.
Открыть видео вопросов и ответов
Как показано в таблице ниже, в открытой видеозадаче с ответами на вопросы SF-LLaVA работает лучше, чем существующие методы без обучения во всех тестах. В частности, при оснащении LLM размерами параметров 7B и 34B соответственно, SF-LLaVA на 2,1% и 5,0% выше, чем IGVLM на MSRVTT-QA, на 5,7% и 1,5% выше на TGIF-QA и на 5,7% и 1,5% выше на TGIF-QA и на 5,7% и 1,5% выше на ActivityNet -2,0% и повышение качества на 0,8%.
Даже по сравнению с доработанным методом SFT SF-LLaVA показывает сопоставимую производительность в большинстве тестов, только в тесте ActivityNet-QA PLLaVA и LLaVA-NeXT-VideoDPO немного лучше.
Видео с несколькими вариантами ответов: вопросы и ответы
Как видно из таблицы ниже, SF-LLaVA превосходит другие методы, не требующие обучения, при ответах на видеовопросы с несколькими вариантами ответов во всех тестах. В наборе данных EgoSchema, требующем сложных долгосрочных рассуждений, версии SF-LLaVA7B и 34B набрали на 11,4% и 2,2% больше, чем модель IG-VLM соответственно.
Хотя VideoTree лидирует в тесте производительности, поскольку это запатентованная модель, основанная на GPT-4, ее производительность намного выше, чем у LLM с открытым исходным кодом. По сравнению с методом SFT модель SF-LLaVA 34B также достигает лучших результатов в EgoSchema, что подтверждает сильные способности конструкции SlowFast обрабатывать длинные видео.
Генерация текста
Винсент Видео
Как показано в таблице 3, SF-LLaVA также демонстрирует некоторые преимущества для задачи генерации видеотекста. По общим характеристикам SF-LLaVA-34B превзошел все тесты без тренировок. Хотя по детальности SF-LLaVA немного уступает LLaVA-NeXT-Image. Основанный на дизайне SlowFast, SF-LLaVA может охватывать более длительный временной контекст с меньшим количеством визуальных токенов, поэтому он особенно хорошо справляется с задачами временного понимания.
Кроме того, SF-LLaVA-34B превосходит большинство методов SFT с точки зрения производительности видео Vincent.
Более подробную информацию можно найти в оригинальной статье.