ИИ также может «обновить TikTok»! Университет Цинхуа лидирует в выпуске новой модели для полномодального понимания коротких видео ICML 2024

ИИ также может «обновить TikTok»! Университет Цинхуа лидирует в выпуске новой модели для полномодального понимания коротких видео ICML 2024 |

2024-07-31

Новый отчет мудрости

Редактор: LRST Так хочется спать

[Введение в новую мудрость] Модели большого языка аудио и видео часто не в полной мере отражают роль речи при обработке видеоконтента. Модель видео-SALMONN включает в себя три части: кодирование аудио и видео и временное выравнивание, причинный Q-формер с несколькими разрешениями, функцию потери разнесения и обучение смешанным непарным аудио- и видеоданным. Модель не только хорошо справляется с одномодальными задачами, но и демонстрирует отличную производительность в совместных аудиовизуальных задачах, доказывая свою полноту и точность.

Если вы хотите понимать короткие видеоролики, помимо визуального контента, ключевую роль в понимании коротких видеороликов также играет слуховая информация, такая как голос и аудио, например, видеомузыка, звуковые эффекты, голосовой контент и т. д.

Аудиовизуальные модели большого языка (av-LLM) добились значительного прогресса за последние годы, но речь, как основной носитель человеческого языка в видео, до сих пор не полностью исследована в этих моделях. Речь не только предоставляет богатую лингвистическую и семантическую информацию, но также помогает понять эмоции и основной смысл видео.

В то же время речевые сигналы также содержат богатую паралингвистическую информацию, такую как высота тона и высота тона, а также разнообразные атрибуты говорящего (такие как возраст, пол, акцент и личность), которые являются незаменимыми элементами понимания видео.

Однако улучшение речевых возможностей аудиовизуальных моделей большого языка общего назначения является чрезвычайно сложной задачей, требующей точного по времени моделирования и сложного взаимодействия с другими модальностями как в грубом (например, видеообъект), так и в точном (например, движения губ) временном масштабе.

Недавно статья «видео-SALMONN: аудиовизуальные модели большого языка с улучшенной речью», опубликованная в ICML 2024, стала первой крупномасштабной моделью, объединяющей все аудио- и видеоэлементы в видео (естественные изображения, текст, речь, аудиособытия, музыка) Модель.

ссылка на статью видео-ЛОСОСЬ: https://openreview.net/pdf?id=nYsh5GFIqX

Ссылка на статью ЛОСОСЬ: https://arxiv.org/abs/2310.13289

Страница Github: https://github.com/bytedance/SALMONN

На следующих примерах давайте посмотрим, как video-SALMONN интерпретирует видеоконтент посредством голосовой-аудио-видеоинформации!

Для начала классический отрывок из «Титаника»

Пусть видео-САЛМОНН расскажет о том, почему это видео такое романтичное:

вопрос:

Пожалуйста, объедините видео, аудио и диалоги персонажей, чтобы объяснить, почему видео романтичное.

отвечать:

На видео показана романтическая сцена между мужчиной и женщиной на лодке. Мужчина держал женщину на руках, и они вместе наблюдали закат. Фоновая музыка — это песня, которая добавляет романтической атмосферы. Женщины говорят «Я лечу» и «Джек», что показывает, что они счастливы и наслаждаются моментом. Фон лодки и заката создает красивую и умиротворяющую обстановку, которая усиливает романтическую атмосферу видео. Язык тела и мимика мужчин и женщин также передают их любовь и привязанность друг к другу. В целом видео прекрасно передает романтический и интимный момент между ними.

Помимо описания увиденных сцен, видео-САЛМОНН также интегрировал в свое описание услышанную музыку и диалоги персонажей.

Что еще более удивительно, так это то, что видео-САЛМОНН также может знать, что это была женщина, которая сказала: «Я лечу». Если вы спросите дальше, то это будет еще более удивительно.

Кроме того, видео-САЛМОНН также может сделать вывод, что мужчину зовут «Джек».

Мы все знаем, что именно эти две строки диалога создали эту классическую сцену, а видео-ЛОСОСЬ просто передало суть этой сцены!

Вот еще один анимационный ролик из «Зверополиса»:

Посмотрите, как видео-ЛОСОСЬ разбирается в забавных вещах о ленивцах:

вопрос:

В сцене присутствуют кролик, лиса и ленивец. Что сказал ленивец? Чем интересны ленивцы?

отвечать:

В конце видео ленивец говорит «Ник». Ленивец забавный, потому что это медлительное животное, и на видео он выглядит очень ленивым, и ему требуется много времени, чтобы что-то сделать. Это контрастирует с активным и энергичным характером других животных, таких как кролики и лисы, выделяя ленивца и добавляя юмора. Кроме того, замедленная съемка и мимика ленивца в видео добавляют ему комедийного эффекта.

В этом примере показано распознавание говорящего посредством сочетания аудио и видео. Только слухом мы не знаем, что ленивец говорит. Только зрением. Мы не знаем, что сказал ленивец. Только звуком и визуалом. Сможем ли мы по-настоящему понять видео!

И этот очень популярный мем:

Спросите видео-SALMONN, почему это видео смешное:

вопрос:

Можете ли вы объяснить, почему это видео смешное?

отвечать:

Видео забавное, потому что на нем видно, как мужчина делает смешное лицо, а затем говорит «хорошо». Контраст между его серьезным выражением лица и словом «милый» создает юмор и чувство удивления. Кроме того, звуковые эффекты отрыжки мужчины и громких хлопков повышают развлекательную ценность видео.

Давайте еще раз посмотрим на документальный клип National Geographic, чтобы увидеть, как понимание речи может помочь:

Позвольте поинтересоваться, что это за акула в ролике-ЛОСОСЬ:

вопрос:

Что за акула на видео?

Ответ с помощью аудиовхода:

Акула в видео - китовая акула.

Ответ без аудиовхода:

Акула на видео — большая белая акула.

Просто смотря видео, я действительно не знаю, что это за акула без каких-либо профессиональных знаний, поэтому модель может только догадываться, которая склонна к галлюцинациям.

Но прослушав аудиообъяснение, видео-ЛОСОСЬ может точно знать, что ролик о китовых акулах, поэтому гадать не надо.

Также есть видеозапись разговора больших парней:

Видео-ЛОСОСЬ не только понимает содержание разговора, но и связывает говорящего и содержание разговора:

Вопрос:

Судя по видео и голосу, кто на видео прилетел во Флоренцию, мужчина или женщина?

отвечать:

Это была женщина, прилетевшая во Флоренцию.

Этот пример дополнительно демонстрирует всестороннее понимание видео-SALMONN речи в видео.

Если вы напрямую введете текст транскрипции речи, модель не сможет узнать, кто прилетел во Флоренцию, но видео-SALMONN может точно объединить содержание речи и информацию о говорящем.

Дальше — практическая часть: давайте посмотрим, как видео-САЛМОНН достигает комплексного понимания голоса-аудио-видео!

Основная технология

видео-модель ЛОСОСЬ

Столкнувшись с проблемой понимания речи в больших аудио- и видеомоделях, video-SALMONN имеет следующие три части инноваций, которые позволяют ему обрабатывать различные основные видеоэлементы, такие как естественные изображения, последовательности визуальных кадров, речь, аудиособытия и музыкальные элементы:

Часть 1. Кодирование аудио и видео и выравнивание по времени.

video-SALMONN использует речевой кодер Whisper и аудиокодер BEATs для получения векторных последовательностей кодирования речи и аудио соответственно (50 векторов на каждую секунду аудио), а также использует визуальный кодер InstructBLIP для получения визуального изображения с частотой дискретизации видео. 2 кадра в секунду Кодирование векторной последовательности (2 кадра на 1 секунду видео, что соответствует 64 векторам).

Во временном измерении три последовательности выравниваются и соединяются каждые 0,5 секунды на основе видеокадра (временная мелкозернистая синхронизация), поскольку речевая аудиопоследовательность немного короче, чем визуальная последовательность, и к короткая часть.

Часть 2: Причинный Q-формер с несколькими разрешениями

Каузальная структура Q-Former с несколькими разрешениями (MRC) является инновационным ядром видео-SALMONN, которое не только пространственно выравнивает синхронизированные по времени функции аудиовизуального ввода с текстовыми представлениями в нескольких различных временных масштабах, удовлетворяя задачи, основанные на различных видео. Требования к элементам, а для усиления временной причинности событий между последовательными видеокадрами вводится каузальная структура самовнимания со специальной причинной маской.

MRC Q-Former Структура

Во-первых, MRC Q-Former делит входную последовательность на окна разной длины. Затем внутри каждого окна Q-Former используется для отображения склеенного мультимодального представления в пространство семантического представления. Наконец, векторы, выводимые каждым оконным Q-Former на каждом уровне разрешения, объединяются для формирования векторной последовательности в семантическом пространстве.

Обеспечивая постоянство количества выходных векторов и соотношения длин окон, MRC Q-Former гарантирует, что выходные последовательности с разными уровнями разрешения могут быть напрямую склеены в измерении объекта. Склеенные векторы отображаются через линейный слой. и используется в качестве входных данных для большой языковой модели.

Благодаря обучению Q-Former с высоким разрешением может захватывать детальную информацию, такую как содержание речи и связь между речью и движениями губ. Q-Former с низким разрешением может эффективно извлекать информацию на уровне видео и общее содержание. видео и лучшее понимание взаимосвязей между несколькими кадрами.

(Примечание: структура MRC Q-Former также подходит для мультиразрешения в пространстве. В документе впервые предлагается метод прожектора изображения, который может разделить изображение на последовательности фрагментов изображений различной точности в качестве входных данных, что значительно улучшает производительность понимания изображений)

Часть 3. Функция потери разнесения и обучение на смешанных непарных аудио- и видеоданных.

Кроме того, чтобы избежать доминирования определенного кадра в видео, video-SALMONN предлагает и использует новую функцию потери разнообразия, основанную на перекрестной энтропии, которая побуждает модель исследовать различные части всей последовательности.

В то же время, чтобы не допустить доминирования одной модальности в парных аудио- и видеоданных (например, неречевой звук в видео зачастую несет лишь очень небольшое количество вспомогательной информации и легко игнорируется), видео-САЛМОНН использует стратегию смешивания непарного аудио и видео. Обучение проводится таким образом, чтобы видео-SALMONN обращало внимание на информацию двух модальностей одновременно.

Основные результаты

В документе Video-SALMONN предлагается тест речевой-аудиовизуальной оценки (SAVE) для тестирования и демонстрируется отличная производительность в задачах с речью, неречевым звуком, изображением и видео.

Тестовые задачи SAVE включают распознавание речи (ASR), аудиоописание (AAC), описание изображения (IC), визуальное распознавание текста (OCR), вопрос и ответ по изображению (VQA), видеовопрос и ответ (Video QA) и другие визуальные и слуховые задачи. В задачи также входит аудиовизуальное распознавание речи (AVSR), аудио- и видеоответ на вопросы (AVQA), обнаружение аудио- и видеоисточника звука (AVSSD) и согласование аудио- и видеосигнала (AVM), четыре общих аудио- и видеовхода. задачи восприятия.

Среди них AVQA — это недавно предложенный набор тестов, а AVM — это недавно предложенная задача, которая требует от модели определения соответствия аудио и видео.

Прежде всего, video-SALMONN достигает тех же или даже лучших результатов в задачах одномодального ввода, чем модели, которые могут обрабатывать только визуальный или слуховой модальный ввод.

По сравнению с Video-LLaMA, большой моделью, которая также может обрабатывать аудио и видео, Video-SALMONN не только увеличивает ее способность понимать речевой ввод, но и значительно превосходит ее производительность в различных одномодальных задачах.

В решении задачи совместного ввода аудио и видео видео-SALMONN продемонстрировал гораздо лучшие результаты, чем другие модели.

Благодаря способности понимать речь, видео-ЛОСОСЬ значительно превосходит аналогичную крупную модель Видео-LLaMA по AVQA.

Что еще более важно, video-SALMONN демонстрирует превосходные возможности возникновения нулевой выборки для совместного речевого, аудиовизуального рассуждения на AVM и AVSSD, двух совершенно необученных задачах.

Появление этих возможностей совместного рассуждения требует, чтобы модель уделяла одинаковое внимание входной визуальной и слуховой информации одновременно и могла понимать сложные связи между аудио и визуальным.

Однако существующие модели с открытым исходным кодом либо не могут полностью понимать звук, либо могут описывать только каждую модальность ввода отдельно.

Заключение

Запуск video-SALMONN поможет повысить полноту и точность технологии распознавания видео, а также откроет новые возможности для анализа видеоконтента, распознавания эмоций, мультимодального взаимодействия и других областей.

Эта модель имеет не только большое значение в академических исследованиях, но и обеспечивает мощную техническую поддержку для практических приложений.

Использованная литература:

https://openreview.net/pdf?id=nYsh5GFIqX

Новости

ИИ также может «обновить TikTok»! Университет Цинхуа лидирует в выпуске новой модели для полномодального понимания коротких видео ICML 2024 |

Введение

моя контактная информация