ニュース

ECCV 2024 | 南洋工科大学の 3D デジタル ヒューマン生成の新しいパラダイム: 構造拡散モデル

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

この論文の著者は全員、シンガポールの南洋理工大学の S-Lab チームの出身で、その中にはポスドクの Hu Tao 氏、博士課程の学生 Hon Fangzhou 氏、コンピューティングおよびデータ学部の Liu Ziwei 教授 (MIT Technology Review アジア太平洋イノベーター) も含まれます。 35歳)。近年、S-LabはCVPR、ICCV、ECCV、NeurIPS、ICLRなどのトップカンファレンスで多くのCV/CG/AIGC関連の研究成果を発表しており、国内の有名な大学や科学研究機関と幅広く協力しています。そして海外。

3次元デジタルヒューマンの生成と編集は、デジタルツイン、メタバース、ゲーム、ホログラフィック通信などの分野で広く使用されています。従来の 3 次元デジタル ヒューマンの制作は、多くの場合時間と労力がかかり、研究者らは 3 次元敵対的生成ネットワーク (3D GAN) に基づいて 2D 画像から 3 次元デジタル ヒューマンを学習することを提案しています。デジタルヒューマン生産の効率化。

これらの手法では、デジタル ヒューマンを 1 次元の潜在ベクトル空間でモデル化することが多く、1 次元の潜在ベクトルでは人体の幾何学的構造や意味情報を表現できないため、生成品質や編集能力が制限されます。

この問題を解決するには、シンガポールの南洋理工大学の S-Lab チームは、構造化潜在拡散モデルに基づいた新しい 3 次元デジタル ヒューマン生成パラダイム StructLDM を提案しました。。このパラダイムには、構造化された高次元人体表現、構造化自動デコーダ、および構造化潜在空間拡散モデルという 3 つの主要な設計が含まれています。

StructLDM は、画像やビデオから学習するフィードフォワード 3D 生成モデルであり、既存の 3D GAN 手法と比較して、一貫した視点を持つ高品質で多様かつ一貫した 3D デジタル人物を生成でき、さまざまなレベルの制御可能な生成および編集機能をサポートします。部分的な服装編集や3次元バーチャルフィッティングなど、部位を意識した編集作業として、特定の服装やマスキング条件に依存せず応用性が高いです。



論文タイトル: StructLDM: 3D ヒューマン生成のための構造化潜在拡散

論文アドレス: https://arxiv.org/pdf/2404.01241

プロジェクトのホームページ: https://taohumd.github.io/projects/StructLDM

研究室ホームページ:https://www.ntu.edu.sg/s-lab



手法の概要



StructLDM トレーニング プロセスは、次の 2 つの段階で構成されます。

構造化された自動デコード: 人間のポーズ情報 SMPL とカメラ パラメーターが与えられると、自動デコーダーはトレーニング セット内の個々のキャラクターごとに構造化された UV 潜在を適合させます。このプロセスの難しさは、異なる姿勢、異なるカメラ角度、異なる服装を持つ人間の画像を統合された UV 潜在にどのように適合させるかということです。この目的のために、StructLDM は、グローバル スタイルを通じて体の各部分を個別にモデル化する構造化されたローカル NeRF を提案します。ブレンダーは体のパーツを結合し、キャラクター全体の外観を学習します。さらに、姿勢推定誤差の問題を解決するために、自動デコーダトレーニングプロセスに敵対的学習が導入されています。この段階で、自動デコーダはトレーニング セット内の個々の文字を一連の UV 潜在文字に変換します。

構造拡散モデル: この拡散モデルは、人体の 3 次元事前学習の第一段階で得られた UV 潜在空間を学習します。

推論段階では、StructLDM は 3 次元のデジタル人物をランダムに生成できます。ノイズがランダムにサンプリングされ、ノイズ除去されて UV 潜在が取得され、自動デコーダーによって人体の画像にレンダリングできます。

実験結果

この研究では、シングルビュー画像データセット DeepFashion [Liu et al. 2016]、ビデオデータセット UBCFashion [Zablotskaia et al. 2019]、およびリアル 3D 人体データセット THUman 2.0 [Yu et al. .2021]、および仮想 3D 人体データ セット RenderPeople。

3.1 定性的結果の比較

StructLDM は、EVA3D、AG3D、StyleSDF などの UBCFashion データセット上の既存の 3D GAN メソッドと比較されました。既存の方法と比較して、StructLDM は、さまざまな肌の色、さまざまなヘアスタイル、衣服の詳細 (ハイヒールなど) など、一貫した視点を持つ、高品質で多様かつ一貫した 3D デジタル 人物を生成できます。



StructLDM は、既存の 3D GAN メソッド (EG3D、StyleSDF、EVA3D など) および RenderPeople データセット上の拡散モデル PrimDiff と比較されます。既存の方法と比較して、StructLDM は、さまざまな姿勢や外観を持つ高品質の 3 次元デジタル人物を生成し、高品質の顔の詳細を生成できます。



3.2 定量的結果の比較

研究者らは、定量的結果を UBCFashion、RenderPeople、および THUman 2.0 の既知の方法と比較し、StructLDM を計算するために各データセットから 50,000 枚の画像をランダムに選択しました。さらに、ユーザー調査によると、ユーザーの約 73% が、顔の詳細と全身の画質の点で、StructLDM によって生成された結果が AG3D よりも優れていると考えています。



3.3 アプリケーション

3.3.1 制御可能な発電量

StructLDM は、カメラの視点、姿勢、体型制御、3 次元仮想フィッティングなどの制御可能な生成をサポートし、2 次元潜在空間で補間できます。



3.3.2 複合発電

StructLDM は、パーツ①②③④⑤を組み合わせて新しいデジタル人物を生成するなどの組み合わせ生成をサポートし、アイデンティティ編集、袖 (4)、スカート (5)、3 次元仮想フィッティング (6)、全身様式化などのさまざまな編集タスクをサポートします。 (7)。



3.3.3 インターネット画像の編集

StructLDM はインターネット画像を編集できます。まず、対応する UV 潜在を反転技術を通じて取得し、生成されたデジタル人物を靴、トップス、パンツなどの UV 潜在編集を通じて編集できます。



3.4 アブレーション実験

3.4.1 隠れ空間拡散

StructLDM によって提案された潜在空間拡散モデルは、組み合わせ生成などのさまざまな編集タスクに使用できます。以下の図は、拡散ステップ数やノイズ スケールなどの拡散モデル パラメーターが生成された結果に及ぼす影響を調べています。 StructLDM は、拡散モデルのパラメーターを制御することで生成パフォーマンスを向上させます。



3.4.2 1 次元および 2 次元の人体表現

研究者らは、1 次元と 2 次元の潜在的な人体表現の効果を比較し、2 次元の潜在的な表現では高周波の詳細 (衣服の質感や顔の表情など) を生成でき、敵対的学習を追加することで画質と忠実度を同時に向上できることを発見しました。 。



3.4.3 構造を意識した正規化

拡散モデルの学習効率を向上させるために、StructLDM は構造を意識した潜在正規化技術 (構造整合正規化)、つまり各潜在ピクセルをピクセルごとに正規化する技術を提案しています。研究の結果、正規化された潜在分布はガウス分布に近く、拡散モデルの学習に適していることが判明しました。