Новости

Kuaishou с открытым исходным кодом LivePortrait, GitHub 6.6K Star, для достижения чрезвычайно быстрой миграции выражений и поз.

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Сердце машины выпущено

Редакция «Машинное сердце»

Недавно команда крупных моделей Куайшоу Келинг открыла исходный код проекта под названиемLivePortrait Управляемая платформа создания портретного видео, которая может точно и в режиме реального времени передавать выражения и позы, превращая видео в статические или динамические портретные видео, для создания очень выразительных видеорезультатов. Как показано на следующей анимации:



От пользователей сети, тестирующих LivePortrait



От пользователей сети, тестирующих LivePortrait

Соответствующее название статьи LivePortrait с открытым исходным кодом Kuaishou:

《 LivePortrait: эффективная портретная анимация с управлением сшиванием и ретаргетингом 》



Домашняя страница бумаги LivePortrait

Более того, LivePortrait доступен сразу после его выпуска, придерживаясь стиля Kuaishou, соединяя документы, домашние страницы и коды одним щелчком мыши. Как только LivePortrait стал открытым исходным кодом, он сталКлеман Деланг, генеральный директор HuggingFaceПодписывайтесь и делайте репосты,Директор по стратегии Томас ВольфЯ также лично испытал эту функцию, это потрясающе!



И вызвало внимание пользователей сети по всему миру.Масштабная оценка



Все материалы видеоклипа взяты из X

视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0 da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

В то же время LivePotrait привлек широкое внимание сообщества разработчиков программного обеспечения с открытым исходным кодом. Всего за неделю его число возросло.6.4K звезд, 550 форков, 140 выпусков и PR, получил широкую похвалу, и внимание к нему продолжает расти:



Кроме того, HuggingFace Space, документы со списком тенденций кода.На первом месте неделю подряд, недавно возглавил рейтинг всех тем HuggingFaceПервый в списке



HuggingFace Space № 1



Документы с кодовым списком 1



HuggingFace все темы занимают первое место

Для получения дополнительной информации о ресурсах вы можете просмотреть:

  • Адрес кода: https://github.com/KwaiVGI/LivePortrait
  • Ссылка на документ: https://arxiv.org/abs/2407.03168.
  • Домашняя страница проекта: https://liveportrait.github.io/
  • Онлайн-опыт HuggingFace Space в один клик: https://huggingface.co/spaces/KwaiVGI/LivePortrait

Какую технологию использует LivePortrait, чтобы быстро стать популярным во всем Интернете?

Введение метода

В отличие от нынешних основных методов, основанных на диффузионных моделях, LivePortrait исследует и расширяет потенциал неявной структуры, основанной на ключевых точках, тем самым балансируя эффективность расчета модели и управляемость. LivePortrait ориентирован на лучшее обобщение, управляемость и практическую эффективность. Чтобы улучшить возможности генерации и управляемость, LivePortrait использует 69M высококачественных обучающих кадров, гибридную стратегию обучения видео-изображения, модернизирует структуру сети и разработал улучшенные методы моделирования и оптимизации действий. Кроме того, LivePortrait рассматривает неявные ключевые точки как эффективное неявное представление деформации слияния лица (Blendshape) и тщательно предлагает основанные на этом модули сшивания и перенацеливания. Эти два модуля представляют собой легкие сети MLP, поэтому при улучшении управляемости вычислительные затраты можно игнорировать. Даже по сравнению с некоторыми существующими методами, основанными на модели диффузии, LivePortrait по-прежнему очень эффективен. В то же время на графическом процессоре RTX4090 скорость генерации одного кадра LivePortrait может достигать 12,8 мс. При дальнейшей оптимизации, например TensorRT, ожидается, что она достигнет менее 10 мс!

Обучение модели в LivePortrait разделено на два этапа. Первый этап — базовое обучение модели, второй этап — обучение модулю подгонки и перенаправления.

Первый этап базового обучения модели



Первый этап базового обучения модели

На первом этапе обучения модели LivePortrait внес ряд улучшений в неявные точечные структуры, такие как Face Vid2vid[1], в том числе:

Качественный сбор данных обучения : LivePortrait использует общедоступный набор видеоданных Voxceleb[2], MEAD[3], RAVDESS[4] и набор данных стилизованных изображений AAHQ[5]. Кроме того, используются крупномасштабные портретные видеоролики с разрешением 4K, включающие различные выражения и позы, более 200 часов разговорных портретных видеороликов, частный набор данных LightStage [6], а также несколько стилизованных видеороликов и изображений. LivePortrait разбивает длинные видео на сегменты продолжительностью менее 30 секунд и гарантирует, что каждый сегмент содержит только одного человека. Чтобы обеспечить качество обучающих данных, LivePortrait использует KVQ собственной разработки Kuaishou [7] (метод оценки качества видео собственной разработки Kuaishou, который позволяет всесторонне воспринимать качество, контент, сцену, эстетику, кодирование, звук и другие характеристики видео). видео для выполнения многомерной оценки) для фильтрации видеоклипов низкого качества. Общие данные обучения включают 69 миллионов видеороликов, в том числе 18,9 тысяч личностей и 60 тысяч статичных стилизованных портретов.

Гибридное обучение видео-изображению : модель, обученная с использованием только видеороликов реальных людей, хорошо работает для реальных людей, но плохо обобщается на стилизованных людей (например, аниме). Стилизованные портретные видео встречаются реже: LivePortrait собрал всего около 1,3 тыс. видеоклипов менее чем со 100 личностями. Напротив, высококачественных стилизованных портретных изображений больше. LivePortrait собрал около 60 тысяч изображений с разными личностями, предоставляя разнообразную идентификационную информацию. Чтобы воспользоваться преимуществами обоих типов данных, LivePortrait обрабатывает каждое изображение как видеоклип и обучает модель одновременно как на видео, так и на изображениях. Такое гибридное обучение улучшает способность модели к обобщению.

Модернизированная структура сети : LivePortrait объединяет каноническую сеть оценки неявных ключевых точек (L), сеть оценки положения головы (H) и сеть оценки деформации выражений (Δ) в единую модель (M) и использует ConvNeXt-V2-Tiny[8] в качестве Он построен так, чтобы напрямую оценивать канонические неявные ключевые точки, положения головы и деформации выражения входных изображений. Кроме того, LivePortrait, вдохновленный аналогичной работой face vid2vid, использует в качестве генератора (G) более эффективный декодер SPADE [9]. Скрытые признаки (fs) после деформации тщательно передаются в декодер SPADE, где каждый канал скрытых признаков служит семантической картой для генерации управляемого изображения. Чтобы повысить эффективность, LivePortrait также вставляет слой PixelShuffle[10] в качестве последнего слоя (G), тем самым увеличивая разрешение с 256 до 512.

Более гибкое моделирование трансформации действий : метод расчета и моделирования исходных неявных ключевых точек игнорирует коэффициент масштабирования, в результате чего масштабирование легко преобразуется в коэффициент выражения, что усложняет обучение. Чтобы решить эту проблему, LivePortrait вводит в моделирование коэффициенты масштабирования. LivePortrait обнаружил, что масштабирование обычных проекций может привести к чрезмерно гибким обучаемым коэффициентам выражения, что приводит к слипанию текстур при переходе между идентификаторами. Таким образом, трансформация, принятая LivePortrait, представляет собой компромисс между гибкостью и управляемостью.

Неявная оптимизация ключевых точек на основе ключевых точек : исходная система неявных точек, по-видимому, лишена способности ярко управлять выражениями лица, такими как моргание и движения глаз. В частности, направление глазных яблок и ориентация головы на портрете в результатах вождения имеют тенденцию оставаться параллельными. LivePortrait объясняет эти ограничения сложностью обучения тонким выражениям лица без присмотра. Чтобы решить эту проблему, LivePortrait вводит 2D-ключевые точки для захвата микровыражений, используя потери с учетом ключевых точек (Lguide) в качестве руководства для неявной оптимизации ключевых точек.

Функция каскадных потерь : LivePortrait использует неявную потерю инварианта ключевой точки лица vid2vid (LE), предварительную потерю ключевой точки (LL), потерю положения головы (LH) и предварительную потерю деформации (LΔ). Для дальнейшего улучшения качества текстур LivePortrait использует потери восприятия и GAN, которые применяются не только к глобальной области входного изображения, но также и к локальной области лица и рта, записываемой как каскадная потеря восприятия (LP, cascade ) и каскадная потеря ГАН (LG,каскад). Области лица и рта определяются двухмерными семантическими ключевыми точками. LivePortrait также использует потерю идентичности лица (Lfaceid) для сохранения идентичности эталонного изображения.

Все модули на первом этапе обучаются с нуля, а общая функция оптимизации обучения (Lbase) представляет собой взвешенную сумму вышеуказанных членов потерь.

Второй этап обучения модулю адаптации и перенаправления

LivePortrait рассматривает неявные ключевые точки как неявную гибридную деформацию и обнаруживает, что эту комбинацию можно лучше изучить с помощью облегченного MLP, а вычислительные затраты незначительны. Учитывая реальные потребности, LivePortrait разработал модуль подгонки, модуль перенаправления глаз и модуль перенаправления рта. Когда эталонный портрет обрезан, управляемый портрет будет вставлен обратно в исходное пространство изображения из пространства кадрирования. Добавляется модуль подгонки, чтобы избежать смещения пикселей во время процесса вставки, например области плеч. В результате LivePortrait может управлять действиями для изображений большего размера или групповых фотографий. Модуль ретаргетинга глаз предназначен для решения проблемы неполного закрытия глаз при проезде по личностям, особенно когда портрет с маленькими глазами управляет портретом с большими глазами. Идея конструкции модуля перенаправления рта аналогична идее модуля перенаправления глаз. Он нормализует ввод, переводя рот эталонного изображения в закрытое состояние для лучшего вождения.



Второй этап обучения модели: обучение модулю подгонки и перенаправления

Подходящий модуль : Во время процесса обучения входными данными модуля подбора (S) являются неявные ключевые точки (xs) эталонного изображения и неявные ключевые точки (xd) другого кадра, управляемого идентичностью, а также управляющие неявные ключевые точки (xd ) оцениваются Величина изменения экспрессии (Δst). Видно, что, в отличие от первого этапа, LivePortrait использует действия с перекрестной идентификацией для замены действий с одной и той же идентификацией, чтобы увеличить сложность обучения, стремясь обеспечить лучшее обобщение модуля подгонки. Затем обновляется неявная ключевая точка драйвера (xd), и соответствующий выходной сигнал драйвера равен (Ip,st). На этом этапе LivePortrait также выводит самовосстановленные изображения (Ip, recon). Наконец, функция потерь (Lst) модуля аппроксимации вычисляет потерю согласованности пикселей двух плечевых областей и потерю регуляризации вариации аппроксимации.

Модуль перенаправления глаз и рта : Входные данные модуля переориентации глаз (Рейес) представляют собой неявную ключевую точку опорного изображения (xs), кортеж условий открытия глаза эталонного изображения и случайный коэффициент открытия ведущего глаза, тем самым оценивая деформацию ключевой точки ведущего изображения. Величина изменения (Δeyes ). Кортеж условий открытия глаз представляет собой коэффициент открытия глаз, и чем он больше, тем больше степень открытия глаз. Аналогично, входными данными модуля перенаправления рта (Rlip) являются неявные ключевые точки (xs) эталонного изображения, коэффициент условия открытия рта эталонного изображения и случайный управляющий коэффициент открытия рта, а управляющие ключевые точки оцениваются по формуле это Величина изменения (Δlip). Затем ключевые точки управления (xd) обновляются соответствующими изменениями деформации глаз и рта соответственно, и соответствующими выходными данными управления являются (Ip, глаза) и (Ip, губы). Наконец, целевыми функциями модулей ретаргетинга глаз и рта являются (Leyes) и (Llip) соответственно, которые вычисляют потерю согласованности пикселей в областях глаз и рта, потерю регуляризации вариации глаз и рта и случайную потерю. Потеря между коэффициентом привода и коэффициентом условия открытия выходного сигнала привода. Изменения глаз и рта (Δeyes) и (Δlip) независимы друг от друга, поэтому на этапе вывода их можно линейно добавлять и обновлять для управления неявными ключевыми точками.

Экспериментальное сравнение





та же идентичность, движимая : Из приведенных выше результатов сравнения одного и того же драйвера идентификации видно, что по сравнению с существующим методом недиффузионной модели и методом на основе диффузионной модели LivePortrait имеет лучшее качество генерации и точность управления, а также может фиксировать детали глаза и рот движущегося кадра, сохраняя при этом текстуру и идентичность эталонного изображения. Даже при больших положениях головы LivePortrait работает более стабильно.





Перекрестная идентичность : Из приведенных выше результатов сравнения драйверов с перекрестной идентификацией видно, что по сравнению с существующими методами LivePortrait может точно наследовать тонкие движения глаз и рта в видео водителя, а также относительно стабилен, когда поза большая. LivePortrait немного уступает методу AniPortrait, основанному на диффузионной модели [11], с точки зрения качества генерации, но по сравнению с последним LivePortrait имеет чрезвычайно быструю эффективность вывода и требует меньше FLOP.

расширять

Многопользовательская игра: Благодаря подходящему модулю LivePortrait для групповых фотографий LivePortrait может использовать определенные видео с драйверами для съемки определенных лиц, тем самым реализуя съемку нескольких человек и расширяя практическое применение LivePortrait.



视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0 da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

животный драйв: LivePortrait не только имеет хорошее обобщение для портретов, но также может быть точно использован для портретов животных после точной настройки наборов данных о животных.

Монтаж портретного видео : Помимо портретных фотографий, при наличии портретного видео, например танцевального видео, LivePortrait может использовать видео вождения для редактирования движения в области головы. Благодаря модулю подгонки LivePortrait может точно редактировать движения в области головы, такие как выражения, позы и т. д., не затрагивая изображения в областях, не относящихся к голове.



视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0 da7b8d223f28c5ed51095e53a449ea8e341ddd5f71576595776c02109b6&token=1755385124&lang=zh_CN#rd

Реализация и перспективы

Соответствующие технические моменты LivePortrait были реализованы во многих предприятиях Kuaishou, в том числеВолшебные часы Kuaishou, личные сообщения Kuaishou, игровой процесс со смайликами на основе искусственного интеллекта Kuaishou, прямая трансляция Kuaishou и приложение Puji, разработанное Kuaishou для молодежи. и т. д., а также будет изучать новые методы реализации, чтобы продолжать создавать ценность для пользователей. Кроме того, LivePortrait продолжит изучение создания мультимодального портретного видео на основе базовой модели Келинга с целью достижения более качественных эффектов.

Рекомендации

[1] Тин-Чун Ван, Арун Маллья и Минг-Ю Лю. Синтез нейронной говорящей головы для видеоконференций в режиме одиночного кадра со свободным обзором. В CVPR, 2021.

[2] Арша Награни, Джун Сон Чунг и Эндрю Зиссерман. Voxceleb: крупномасштабный набор данных для идентификации говорящих. В Interspeech, 2017.

[3] Кайсиюань Ван, Цяньи У, Линьсэнь Сун, Чжуоцянь Ян, Уэйн У, Чэнь Цянь, Ран Хэ, Юй Цяо и Чэнь Чанг Лой. Мид: Крупномасштабный аудиовизуальный набор данных для генерации эмоционального говорящего лица. В ECCV, 2020.

[4] Стивен Р. Ливингстон и Фрэнк А. Руссо. Аудиовизуальная база данных Райерсона эмоциональной речи и песни (Ravdess): Динамичный, мультимодальный набор выражений лица и голоса в североамериканском английском. В PloS one, 2018

[5] Минцун Лю, Цян Ли, Цзэкуй Цинь, Госинь Чжан, Пэнфэй Ван и Вэнь Чжэн. Blendgan: неявное смешивание для произвольной генерации стилизованного лица. В НейриПС, 2021 год.

[6] Хаотянь Ян, Минву Чжэн, Ваньцюань Фэн, Хайбинь Хуан, Ю-Кунь Лай, Пэнфэй Ван, Чжунюань Ван и Чунъян Ма. На пути к практическому захвату высококачественных аватаров с возможностью повторной подсветки. В SIGGRAPH Asia, 2023 г.

[7] Кай Чжао, Кунь Юань, Мин Сан, Мадинг Ли и Син Вэнь. Модели с предварительной подготовкой, учитывающие качество, для слепого качества изображения

оценка. В CVPR, 2023.

[8] Санхён У, Шубхик Дебнат, Ронхан Ху, Синлэй Чен, Чжуан Лю, Ин Со Квеон и Сайнин Се. Против-

vnext v2: Совместное проектирование и масштабирование convnets с маскированными автоэнкодерами. В CVPR, 2023.

[9] Taesung Park, Ming-Yu Liu, Ting-Chun Wang и Jun-Yan Zhu. Семантический синтез изображений с пространственно-адаптивной нормализацией. В CVPR, 2019.

[10] Вэньчжэ Ши, Хосе Кабальеро, Ференц Хусар, Йоханнес Тотц, Эндрю П. Эйткен, Роб Бишоп, Дэниел Рюкерт и Зехан Ван. Суперразрешение отдельных изображений и видео в реальном времени с использованием эффективной субпиксельной сверточной нейронной сети. В CVPR, 2016.

[11] Huawei Wei, Zejun Yang и Zhisheng Wang. Aniportrait: аудиоуправляемый синтез фотореалистичной портретной анимации. Препринт arXiv:2403.17694, 2024.