Alibaba выпускает «Версию Соры от Ма Ляна», которая заставляет кошек поворачиваться одним прикосновением, 20 демонстрационных видеороликов и 10 страниц технического отчета

Alibaba выпускает «Версию Соры от Magic Pen Ма Ляна», которая заставляет кошек поворачиваться одним прикосновением, 20 демонстрационных видеороликов и 10 страниц технического отчета

2024-08-03

Умные вещи (паблик аккаунт:zhidxcom）
автор ваниль
редактировать Ли Шуйцин

Область создания видео с помощью искусственного интеллекта переживает бум, и новые видеопродукты, такие как Wensheng и Tusheng, в стране и за рубежом появляются одна за другой. Благодаря «инволюции» крупных производителей нынешняя модель генерации видео близка к эффекту «фейковое и настоящее» во всех аспектах.

Но в то же время точность и способность следовать инструкциям большинства моделей генерации видео все еще нуждаются в улучшении. Создание видео по-прежнему представляет собой процесс «рисования карточек», который часто требует от пользователей многократного создания для получения результатов, соответствующих их потребностям. . Это также вызывает такие проблемы, как чрезмерные затраты вычислительной мощности и нерациональное использование ресурсов.

Как повысить точность генерации видео, сократить количество «карточек для рисования» и использовать как можно меньше ресурсов для получения видео, отвечающего потребностям?

Чжидунси сообщил 3 августа, что команда Alibaba недавно запустилаМодель генерации видео Тора, может быть основано наТреки, изображения, текстИли их комбинация позволяет быстро создавать точные видеоролики с управлением движением всего за несколько движений, а также поддерживаетКонтроль первого и последнего кадра, поднимая управляемость генерации видео на новый уровень.

//oss.zhidx.com/uploads/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

Тора этоПервая траекторно-ориентированная рамочная модель DiTИспользуя преимущества масштабируемости DiT, движение объекта, генерируемое Tora, может не только точно следовать траектории, но и эффективно моделировать динамику физического мира. Соответствующая статья была опубликована на arXiv 1 августа.

▲Бумага Тора

В настоящее время Tora предоставляет только видеодемонстрации, а на домашней странице проекта указано, что в будущем компания выпустит онлайн-демонстрации, а также коды вывода и обучения.

Бумажный адрес:

https://arxiv.org/abs/2407.21705

адрес проекта:

https://ali-videoai.github.io/tora_video/

1. Три модальных комбинированных входа для точного управления траекториями движения.

Поддержка ТорыТреки, текст, изображенияТри режима или их комбинированные входы обеспечивают динамичное и точное управление видеоконтентом различной длительности, соотношений сторон и разрешений.

Входные данные траектории могут представлять собой множество прямых и кривых, имеющих направления, а также можно комбинировать несколько траекторий в разных направлениях. Например, вы можете использовать S-образную кривую для управления движением плавающего объекта и использовать текстовые описания для управления его скоростью. В видео ниже в словах-подсказках используются такие наречия, как «медленно», «элегантно» и «нежно».

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_curve trajectory.mp4

Одна и та же траектория может неоднократно перемещаться по оси, создавая картину, которая трясется вперед и назад.

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_Вперед и назад track.mp4

Рисование разных траекторий на одном изображении также позволяет Tora создавать видеоролики с разными направлениями движения.

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_same image.mp4

На основе одной и той же траектории Тора будет генерировать разные режимы движения в зависимости от различий между объектами.

//oss.zhidx.com/uploads/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

Отличие от текущей функции обычной кисти для движения состоит в том, что даже при отсутствии входного изображения Tora может генерировать соответствующее видео на основе комбинации траектории и текста.

Например, два видеоролика 1 и 3 на видео ниже созданы без начальных кадров, только траектории и текст.

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track text.mp4

Tora также поддерживает управление первым и последним кадром, но в статье этот случай отображается только в виде изображения, а видеодемонстрация не приводится.

▲Тора управления первым и последним кадром

Итак, если есть только два модальных ввода текста и изображения, можно ли добиться того же эффекта? Помня об этом вопросе, я попытался передать те же начальные кадры и слова-подсказки в другие видеогенераторы искусственного интеллекта.

На видео ниже слева направо и сверху вниз показаны видеоролики, созданные Торой, Виду, Цинъингом и Келингом. Видно, что когда траектория представляет собой прямую линию, генерация видео без ввода траектории едва отвечает требованиям.

//oss.zhidx.com/uploads/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

Но когда требуемая траектория движения становится кривой, традиционный ввод текста + изображения не может удовлетворить спрос.

//oss.zhidx.com/uploads/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. На основеOpenSoraКаркас, два инновационных модуля обработки движений

Тора усыновленаOpenSoraВ качестве базовой модели архитектуры DiT OpenSora представляет собой структуру модели генерации видео, разработанную и открытую для искусственного интеллекта стартапом Luchen Technology.

Чтобы обеспечить генерацию видео для управления траекторией на основе DiT, Tora представляет два новых модуля обработки движения:Экстрактор траектории(Экстрактор траектории) иуправление движением слияние(Motion-Guidance Fuser), используемый для кодирования предоставленной траектории в многоуровневые пространственно-временные фрагменты движения.

На рисунке ниже показана общая архитектура Tora. Этот подход соответствует масштабируемости DiT, позволяя создавать видеоролики с высоким разрешением и управлением движением, которые сохраняются дольше.

▲Общая архитектура Торы

в,Экстрактор траекторииИспользуя VAE 3D-движения (вариационный автокодировщик), вектор траектории внедряется в то же скрытое пространство, что и видеопатчи, что позволяет эффективно сохранять информацию о движении между последовательными кадрами, а затем для извлечения иерархических признаков движения используются сложенные сверточные слои.

управление движением слияниеЗатем используется слой адаптивной нормализации для плавного ввода этих многоуровневых условий движения в соответствующие блоки DiT, чтобы гарантировать, что создание видео всегда следует определенной траектории.

Чтобы объединить генерацию видео на основе DiT с траекториями, авторы исследовали три варианта архитектуры Fusion, добавляя патчи движения в каждый блок STDiT, при этом Adaptive Norm продемонстрировала лучшую производительность.

▲Три архитектурных проекта термоядерного устройства управления движением

В конкретном процессе обучения автор применяет разные стратегии обучения для разных входных условий.

При обучении траектории Tora использует двухэтапный метод обучения траектории. Первый этап извлекает плотный оптический поток из обучающего видео. Второй этап случайным образом выбирает от 1 до N объектов из оптического потока на основе результатов сегментации движения и оптического потока. Выборки траекторий окончательно уточняются с применением фильтра Гаусса.

При обучении изображений Tora следует стратегии маскирования, принятой OpenSora для поддержки визуальной настройки. В процессе обучения кадры разблокируются случайным образом. На видеофрагменты немаскированных кадров не влияет шум, что позволяет Tora интегрировать текст, изображения и траектории без каких-либо помех. Шум плавно интегрируется в единую модель.

При количественном сравнении с усовершенствованными моделями генерации видео, управляемыми движением, Tora имеет возрастающее преимущество в производительности перед методами на основе UNet по мере увеличения количества генерируемых кадров, сохраняя более высокую стабильность управления траекторией.

▲Сравнение Tora с другими управляемыми моделями генерации видео

Например, на основе одних и тех же входных данных видео, созданное Tora, более плавное, чем видео, созданное моделями DragNUWA и MotionCtrl, и более точно следует траектории движения.

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_Comparison video.mp4

3. «Будущее» реализовано, а Alibaba продолжает строить планыИИвидео

Игроки в области генерации видео с помощью искусственного интеллекта сражаются полным ходом, и Alibaba постоянно осаждает видеодорожку с использованием искусственного интеллекта. По сравнению с Sora и другими общими моделями, ориентированными на длину и качество генерации видео, проект команды Alibaba, похоже, больше фокусируется на конкретном применении алгоритма в различных формах генерации видео.

В январе этого года Тонги Цяньвэнь запустил «Короля национального танца» и прославился благодаря «Терракотовым воинам и танцующим лошадям 3», а в феврале Alibaba выпустила систему создания портретных видео EMO, которая может заставить людей на фотографии появляться; только с одной картинкой.

В то время Чжидунчжи подсчитал макет Alibaba в видеороликах с искусственным интеллектом и обнаружил, что за четыре месяца компания запустила как минимум 7 новых проектов, охватывающих видеоролики Винсента, видеоролики Тушенг, танцы персонажей, портретные разговоры и т. д. (Появляется внутренний ИИ уровня бога! Гао Цицян превращается в Ло Сяна, Цай Сюкунь становится королем рэпа и соединяется с Сорой)

Теперь, полгода спустя, EMO превратилась из функции «будущего» в функцию «национального пения и исполнения» в приложении Tongyi, доступную каждому. Alibaba также выпустила больше видеопроектов с искусственным интеллектом.

1、AtomoВидео: Высококачественное преобразование изображения в видео.

AtomoVideo был выпущен 5 марта. Это высокоточная видеоплатформа Tusheng, основанная на внедрении изображений с высокой степенью детализации, высококачественных наборах данных и стратегиях обучения, которая может поддерживать высокую точность между сгенерированным видео и заданным эталонным изображением. достижение высокой интенсивности упражнений и хорошей согласованности времени.

▲AtomoVideo генерирует видеоэффекты

Домашняя страница проекта:https://atomo-video.github.io/

2、EasyAnimate-v3:Одно изображение+Создавайте длинные видео высокого разрешения из текста

EasyAnimate — это процесс обработки видео, запущенный Alibaba 12 апреля и доведенный до версии v3 всего за 3 месяца. Он представляет модуль движения, расширяя структуру DiT, который расширяет возможности захвата временной динамики и обеспечивает плавность и согласованность создаваемых видео. Он может генерировать видеоролики продолжительностью около 6 секунд с различным разрешением и частотой кадров 24 кадра в секунду.

▲EasyAnimate v3 создает видеоэффекты

Домашняя страница проекта:https://github.com/aigc-apps/EasyAnimate

Заключение:ИИГенерация видео теперь более управляема

Когда продолжительность и качество генерации видео с помощью ИИ достигают определенного уровня, важным вопросом на данный момент становится то, как сделать генерируемые видео более управляемыми и более соответствующими потребностям.

Благодаря постоянной оптимизации точности, управляемости и эффективности использования ресурсов опыт использования продуктов для создания видео с использованием искусственного интеллекта перейдет на новый этап, а цена станет более доступной, что позволит участвовать большему количеству авторов.

Новости

Введение

моя контактная информация