новости

ECCV 2024 | Новая парадигма трехмерного цифрового человеческого поколения Наньянского политехнического института: модель структурной диффузии

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет колонка Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected];

Все авторы этой статьи — представители команды S-Lab Наньянского технологического университета в Сингапуре, в том числе постдок Ху Тао, докторант Хун Фанчжоу и профессор Лю Цзивэй из Школы вычислений и данных (MIT Technology Review Asia-Pacific Innovator под руководством 35 лет). В последние годы S-Lab опубликовала множество исследовательских работ, связанных с CV/CG/AIGC, на ведущих конференциях, таких как CVPR, ICCV, ECCV, NeurIPS и ICLR, а также активно сотрудничала с известными университетами и научно-исследовательскими институтами в стране. и за рубежом.

Трехмерная цифровая человеческая генерация и редактирование широко используются в цифровых двойниках, метавселенных, играх, голографических коммуникациях и других областях. Традиционное трехмерное цифровое человеческое производство часто требует много времени и труда. В последние годы исследователи предложили изучать трехмерных цифровых людей по 2D-изображениям на основе трехмерных генеративно-состязательных сетей (3D GAN), что значительно улучшает качество обработки изображений. эффективность цифрового человеческого производства.

Эти методы часто моделируют цифровых людей в одномерном скрытом векторном пространстве, а одномерные скрытые векторы не могут представлять геометрическую структуру и семантическую информацию человеческого тела, что ограничивает качество их генерации и возможности редактирования.

Чтобы решить эту проблему,Команда S-Lab из Наньянского технологического университета в Сингапуре предложила новую трехмерную парадигму цифрового поколения человека StructLDM, основанную на модели структурированной скрытой диффузии.. Эта парадигма включает в себя три ключевых конструкции: структурированное многомерное представление человеческого тела, структурированный автоматический декодер и структурированную модель диффузии скрытого пространства.

StructLDM — это генеративная 3D-модель с прямой связью, которая обучается на изображениях и видео. По сравнению с существующими методами 3D GAN, она может создавать высококачественных, разнообразных и последовательных цифровых 3D-людей с согласованными перспективами и поддерживает различные уровни управляемых функций генерации и редактирования, таких как. такие как частичное редактирование одежды, трехмерная виртуальная примерка и другие задачи редактирования с учетом деталей, не зависят от конкретных типов одежды или условий маскировки и имеют высокую применимость.



Название статьи: StructLDM: Структурированная латентная диффузия для трехмерного человеческого поколения

Адрес статьи: https://arxiv.org/pdf/2404.01241.

Домашняя страница проекта: https://taohuumd.github.io/projects/StructLDM.

Домашняя страница лаборатории: https://www.ntu.edu.sg/s-lab.



Обзор метода



Процесс обучения StructLDM состоит из двух этапов:

Структурированное автоматическое декодирование: Учитывая SMPL информацию о позе человека и параметры камеры, автоматический декодер подбирает структурированный латентный UV для каждого отдельного персонажа в обучающем наборе. Сложность этого процесса заключается в том, как совместить изображения людей с разными позами, разными углами обзора и разной одеждой в единое скрытое УФ-излучение. С этой целью StructLDM предлагает структурированный локальный NeRF для моделирования каждой части тела отдельно и использует глобальные. стили для Блендер объединяет части тела и изучает общий внешний вид персонажа. Кроме того, чтобы решить проблему ошибки оценки позы, в процесс автоматического обучения декодера вводится состязательное обучение. На этом этапе автоматический декодер преобразует каждый отдельный символ обучающего набора в серию латентных UV.

модель структурной диффузии: Эта диффузионная модель изучает скрытое УФ-пространство, полученное на первом этапе изучения трехмерного состояния человеческого тела.

На этапе вывода StructLDM может случайным образом генерировать трехмерного цифрового человека: шум случайным образом отбирается и очищается от шума для получения скрытого УФ-излучения, которое может быть преобразовано в изображение человеческого тела с помощью автоматического декодера.

Результаты эксперимента

В этом исследовании были проведены экспериментальные оценки на четырех наборах данных: наборе данных однопрофильных изображений DeepFashion [Liu et al. 2016], наборе видеоданных UBCFashion [Zablotskaia et al. 2019] и реальном трехмерном наборе данных человеческого тела THUman 2.0 [Yu et al. al. 2021] и набор виртуальных трехмерных данных человеческого тела RenderPeople.

3.1 Сравнение качественных результатов

StructLDM сравнивался с существующими методами 3D GAN в наборе данных UBCFashion, такими как EVA3D, AG3D и StyleSDF. По сравнению с существующими методами, StructLDM может создавать высококачественных, разнообразных и последовательных цифровых 3D-людей с одинаковыми перспективами, такими как разные цвета кожи, разные прически и детали одежды (например, высокие каблуки).



StructLDM сравнивается с существующими методами 3D GAN (такими как EG3D, StyleSDF и EVA3D) и моделью диффузии PrimDiff в наборе данных RenderPeople. По сравнению с существующими методами, StructLDM может создавать высококачественные трехмерные цифровые изображения людей с разными позами и внешним видом, а также генерировать высококачественные детали лица.



3.2 Сравнение количественных результатов

Исследователи сравнили количественные результаты с известными методами UBCFashion, RenderPeople и THUman 2.0. Они случайным образом выбрали 50 000 изображений в каждом наборе данных для расчета FID, который может значительно снизить FID. Кроме того, исследование пользователей показывает, что около 73% пользователей считают, что результаты, полученные с помощью StructLDM, более выгодны, чем AG3D, с точки зрения детализации лица и качества изображения всего тела.



3.3 Применение

3.3.1 Управляемая генерация

StructLDM поддерживает управляемую генерацию, например перспективу камеры, позу, контроль формы тела и трехмерную виртуальную подгонку, а также может интерполировать в двумерном скрытом пространстве.



3.3.2 Комбинированная генерация

StructLDM поддерживает комбинированное создание, например объединение частей ①②③④⑤ для создания нового цифрового человека, а также поддерживает различные задачи редактирования, такие как редактирование личности, рукавов (4), юбок (5), трехмерная виртуальная примерка (6) и стилизация всего тела. (7).



3.3.3 Редактирование изображений из Интернета

StructLDM может редактировать Интернет-изображения. Сначала соответствующий скрытый УФ-излучение получается с помощью технологии инверсии, а затем сгенерированные цифровые люди могут быть отредактированы с помощью редактирования скрытого УФ-излучения, например, редактирования обуви, топов, брюк и т. д.



3.4 Эксперимент по абляции

3.4.1 Диффузия скрытого пространства

Модель диффузии скрытого пространства, предложенная StructLDM, может использоваться для различных задач редактирования, таких как комбинаторная генерация. На рисунке ниже показано влияние параметров модели диффузии, таких как количество шагов диффузии и масштаб шума, на полученные результаты. StructLDM повышает производительность генерации за счет управления параметрами модели диффузии.



3.4.2 Одномерное и двухмерное изображение человеческого тела

Исследователи сравнили эффекты одномерного и двумерного скрытого представления человеческого тела и обнаружили, что двумерное скрытое изображение может генерировать высокочастотные детали (например, текстуры одежды и выражения лица), а добавление состязательного обучения может одновременно улучшить качество и точность изображения. .



3.4.3 Нормализация с учетом структуры

Чтобы повысить эффективность обучения диффузионной модели, StructLDM предлагает технологию структурно-выровненной нормализации (structure-aligned Normalization), которая заключается в нормализации каждого скрытого пикселя за пикселем. Исследования показали, что нормализованное скрытое распределение ближе к распределению Гаусса, что более способствует изучению диффузионной модели.