моя контактная информация
Почтамезофия@protonmail.com
2024-07-31
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Новый отчет мудрости
Редактор: LRST Так хочется спать
[Введение в новую мудрость] Модели большого языка аудио и видео часто не в полной мере отражают роль речи при обработке видеоконтента. Модель видео-SALMONN включает в себя три части: кодирование аудио и видео и временное выравнивание, причинный Q-формер с несколькими разрешениями, функцию потери разнесения и обучение смешанным непарным аудио- и видеоданным. Модель не только хорошо справляется с одномодальными задачами, но и демонстрирует отличную производительность в совместных аудиовизуальных задачах, доказывая свою полноту и точность.
Если вы хотите понимать короткие видеоролики, помимо визуального контента, ключевую роль в понимании коротких видеороликов также играет слуховая информация, такая как голос и аудио, например, видеомузыка, звуковые эффекты, голосовой контент и т. д.
Аудиовизуальные модели большого языка (av-LLM) добились значительного прогресса за последние годы, но речь, как основной носитель человеческого языка в видео, до сих пор не полностью исследована в этих моделях. Речь не только предоставляет богатую лингвистическую и семантическую информацию, но также помогает понять эмоции и основной смысл видео.
В то же время речевые сигналы также содержат богатую паралингвистическую информацию, такую как высота тона и высота тона, а также разнообразные атрибуты говорящего (такие как возраст, пол, акцент и личность), которые являются незаменимыми элементами понимания видео.
Однако улучшение речевых возможностей аудиовизуальных моделей большого языка общего назначения является чрезвычайно сложной задачей, требующей точного по времени моделирования и сложного взаимодействия с другими модальностями как в грубом (например, видеообъект), так и в точном (например, движения губ) временном масштабе.
Недавно статья «видео-SALMONN: аудиовизуальные модели большого языка с улучшенной речью», опубликованная в ICML 2024, стала первой крупномасштабной моделью, объединяющей все аудио- и видеоэлементы в видео (естественные изображения, текст, речь, аудиособытия, музыка) Модель.
ссылка на статью видео-ЛОСОСЬ: https://openreview.net/pdf?id=nYsh5GFIqX
Ссылка на статью ЛОСОСЬ: https://arxiv.org/abs/2310.13289
Страница Github: https://github.com/bytedance/SALMONN
На следующих примерах давайте посмотрим, как video-SALMONN интерпретирует видеоконтент посредством голосовой-аудио-видеоинформации!
Для начала классический отрывок из «Титаника»
Пусть видео-САЛМОНН расскажет о том, почему это видео такое романтичное:
вопрос:
Пожалуйста, объедините видео, аудио и диалоги персонажей, чтобы объяснить, почему видео романтичное.
отвечать:
На видео показана романтическая сцена между мужчиной и женщиной на лодке. Мужчина держал женщину на руках, и они вместе наблюдали закат. Фоновая музыка — это песня, которая добавляет романтической атмосферы. Женщины говорят «Я лечу» и «Джек», что показывает, что они счастливы и наслаждаются моментом. Фон лодки и заката создает красивую и умиротворяющую обстановку, которая усиливает романтическую атмосферу видео. Язык тела и мимика мужчин и женщин также передают их любовь и привязанность друг к другу. В целом видео прекрасно передает романтический и интимный момент между ними.
Помимо описания увиденных сцен, видео-САЛМОНН также интегрировал в свое описание услышанную музыку и диалоги персонажей.
Что еще более удивительно, так это то, что видео-САЛМОНН также может знать, что это была женщина, которая сказала: «Я лечу». Если вы спросите дальше, то это будет еще более удивительно.
Кроме того, видео-САЛМОНН также может сделать вывод, что мужчину зовут «Джек».
Мы все знаем, что именно эти две строки диалога создали эту классическую сцену, а видео-ЛОСОСЬ просто передало суть этой сцены!
Вот еще один анимационный ролик из «Зверополиса»:
Посмотрите, как видео-ЛОСОСЬ разбирается в забавных вещах о ленивцах:
вопрос:
В сцене присутствуют кролик, лиса и ленивец. Что сказал ленивец? Чем интересны ленивцы?
отвечать:
В конце видео ленивец говорит «Ник». Ленивец забавный, потому что это медлительное животное, и на видео он выглядит очень ленивым, и ему требуется много времени, чтобы что-то сделать. Это контрастирует с активным и энергичным характером других животных, таких как кролики и лисы, выделяя ленивца и добавляя юмора. Кроме того, замедленная съемка и мимика ленивца в видео добавляют ему комедийного эффекта.
В этом примере показано распознавание говорящего посредством сочетания аудио и видео. Только слухом мы не знаем, что ленивец говорит. Только зрением. Мы не знаем, что сказал ленивец. Только звуком и визуалом. Сможем ли мы по-настоящему понять видео!
И этот очень популярный мем:
Спросите видео-SALMONN, почему это видео смешное:
вопрос:
Можете ли вы объяснить, почему это видео смешное?
отвечать:
Видео забавное, потому что на нем видно, как мужчина делает смешное лицо, а затем говорит «хорошо». Контраст между его серьезным выражением лица и словом «милый» создает юмор и чувство удивления. Кроме того, звуковые эффекты отрыжки мужчины и громких хлопков повышают развлекательную ценность видео.
Давайте еще раз посмотрим на документальный клип National Geographic, чтобы увидеть, как понимание речи может помочь:
Позвольте поинтересоваться, что это за акула в ролике-ЛОСОСЬ:
вопрос:
Что за акула на видео?
Ответ с помощью аудиовхода:
Акула в видео - китовая акула.
Ответ без аудиовхода:
Акула на видео — большая белая акула.
Просто смотря видео, я действительно не знаю, что это за акула без каких-либо профессиональных знаний, поэтому модель может только догадываться, которая склонна к галлюцинациям.
Но прослушав аудиообъяснение, видео-ЛОСОСЬ может точно знать, что ролик о китовых акулах, поэтому гадать не надо.
Также есть видеозапись разговора больших парней:
Видео-ЛОСОСЬ не только понимает содержание разговора, но и связывает говорящего и содержание разговора:
Вопрос:
Судя по видео и голосу, кто на видео прилетел во Флоренцию, мужчина или женщина?
отвечать:
Это была женщина, прилетевшая во Флоренцию.
Этот пример дополнительно демонстрирует всестороннее понимание видео-SALMONN речи в видео.
Если вы напрямую введете текст транскрипции речи, модель не сможет узнать, кто прилетел во Флоренцию, но видео-SALMONN может точно объединить содержание речи и информацию о говорящем.
Дальше — практическая часть: давайте посмотрим, как видео-САЛМОНН достигает комплексного понимания голоса-аудио-видео!
Основная технология
видео-модель ЛОСОСЬ
Столкнувшись с проблемой понимания речи в больших аудио- и видеомоделях, video-SALMONN имеет следующие три части инноваций, которые позволяют ему обрабатывать различные основные видеоэлементы, такие как естественные изображения, последовательности визуальных кадров, речь, аудиособытия и музыкальные элементы:
Часть 1. Кодирование аудио и видео и выравнивание по времени.
video-SALMONN использует речевой кодер Whisper и аудиокодер BEATs для получения векторных последовательностей кодирования речи и аудио соответственно (50 векторов на каждую секунду аудио), а также использует визуальный кодер InstructBLIP для получения визуального изображения с частотой дискретизации видео. 2 кадра в секунду Кодирование векторной последовательности (2 кадра на 1 секунду видео, что соответствует 64 векторам).
Во временном измерении три последовательности выравниваются и соединяются каждые 0,5 секунды на основе видеокадра (временная мелкозернистая синхронизация), поскольку речевая аудиопоследовательность немного короче, чем визуальная последовательность, и к короткая часть.
Часть 2: Причинный Q-формер с несколькими разрешениями
Каузальная структура Q-Former с несколькими разрешениями (MRC) является инновационным ядром видео-SALMONN, которое не только пространственно выравнивает синхронизированные по времени функции аудиовизуального ввода с текстовыми представлениями в нескольких различных временных масштабах, удовлетворяя задачи, основанные на различных видео. Требования к элементам, а для усиления временной причинности событий между последовательными видеокадрами вводится каузальная структура самовнимания со специальной причинной маской.
MRC Q-Former Структура
Во-первых, MRC Q-Former делит входную последовательность на окна разной длины. Затем внутри каждого окна Q-Former используется для отображения склеенного мультимодального представления в пространство семантического представления. Наконец, векторы, выводимые каждым оконным Q-Former на каждом уровне разрешения, объединяются для формирования векторной последовательности в семантическом пространстве.
Обеспечивая постоянство количества выходных векторов и соотношения длин окон, MRC Q-Former гарантирует, что выходные последовательности с разными уровнями разрешения могут быть напрямую склеены в измерении объекта. Склеенные векторы отображаются через линейный слой. и используется в качестве входных данных для большой языковой модели.
Благодаря обучению Q-Former с высоким разрешением может захватывать детальную информацию, такую как содержание речи и связь между речью и движениями губ. Q-Former с низким разрешением может эффективно извлекать информацию на уровне видео и общее содержание. видео и лучшее понимание взаимосвязей между несколькими кадрами.
(Примечание: структура MRC Q-Former также подходит для мультиразрешения в пространстве. В документе впервые предлагается метод прожектора изображения, который может разделить изображение на последовательности фрагментов изображений различной точности в качестве входных данных, что значительно улучшает производительность понимания изображений)
Часть 3. Функция потери разнесения и обучение на смешанных непарных аудио- и видеоданных.
Кроме того, чтобы избежать доминирования определенного кадра в видео, video-SALMONN предлагает и использует новую функцию потери разнообразия, основанную на перекрестной энтропии, которая побуждает модель исследовать различные части всей последовательности.
В то же время, чтобы не допустить доминирования одной модальности в парных аудио- и видеоданных (например, неречевой звук в видео зачастую несет лишь очень небольшое количество вспомогательной информации и легко игнорируется), видео-САЛМОНН использует стратегию смешивания непарного аудио и видео. Обучение проводится таким образом, чтобы видео-SALMONN обращало внимание на информацию двух модальностей одновременно.
Основные результаты
В документе Video-SALMONN предлагается тест речевой-аудиовизуальной оценки (SAVE) для тестирования и демонстрируется отличная производительность в задачах с речью, неречевым звуком, изображением и видео.
Тестовые задачи SAVE включают распознавание речи (ASR), аудиоописание (AAC), описание изображения (IC), визуальное распознавание текста (OCR), вопрос и ответ по изображению (VQA), видеовопрос и ответ (Video QA) и другие визуальные и слуховые задачи. В задачи также входит аудиовизуальное распознавание речи (AVSR), аудио- и видеоответ на вопросы (AVQA), обнаружение аудио- и видеоисточника звука (AVSSD) и согласование аудио- и видеосигнала (AVM), четыре общих аудио- и видеовхода. задачи восприятия.
Среди них AVQA — это недавно предложенный набор тестов, а AVM — это недавно предложенная задача, которая требует от модели определения соответствия аудио и видео.
Прежде всего, video-SALMONN достигает тех же или даже лучших результатов в задачах одномодального ввода, чем модели, которые могут обрабатывать только визуальный или слуховой модальный ввод.
По сравнению с Video-LLaMA, большой моделью, которая также может обрабатывать аудио и видео, Video-SALMONN не только увеличивает ее способность понимать речевой ввод, но и значительно превосходит ее производительность в различных одномодальных задачах.
В решении задачи совместного ввода аудио и видео видео-SALMONN продемонстрировал гораздо лучшие результаты, чем другие модели.
Благодаря способности понимать речь, видео-ЛОСОСЬ значительно превосходит аналогичную крупную модель Видео-LLaMA по AVQA.
Что еще более важно, video-SALMONN демонстрирует превосходные возможности возникновения нулевой выборки для совместного речевого, аудиовизуального рассуждения на AVM и AVSSD, двух совершенно необученных задачах.
Появление этих возможностей совместного рассуждения требует, чтобы модель уделяла одинаковое внимание входной визуальной и слуховой информации одновременно и могла понимать сложные связи между аудио и визуальным.
Однако существующие модели с открытым исходным кодом либо не могут полностью понимать звук, либо могут описывать только каждую модальность ввода отдельно.
Заключение
Запуск video-SALMONN поможет повысить полноту и точность технологии распознавания видео, а также откроет новые возможности для анализа видеоконтента, распознавания эмоций, мультимодального взаимодействия и других областей.
Эта модель имеет не только большое значение в академических исследованиях, но и обеспечивает мощную техническую поддержку для практических приложений.
Использованная литература:
https://openreview.net/pdf?id=nYsh5GFIqX