ニュース

複雑な組み合わせの 3D シーン生成、LLM の会話型 3D 制御可能な生成および編集フレームワークが登場

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxivコラムは、マシンハートが学術的・技術的な内容を掲載するコラムです。過去数年間で、Heart of the Machine AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: [email protected]; [email protected]

この論文の筆頭著者と責任著者は、どちらも北京大学王宣コンピュータサイエンス研究所の VDIG (Visual Data Interpreting and Generation) Laboratory の出身であり、筆頭著者は博士課程の学生である Zhou Xiaoyu であり、責任著者は博士課程の指導教員である Wang Yongtao です。 。 近年、VDIG ラボは、IJCV、CVPR、AAAI、ICCV、ICML、ECCV などのトップカンファレンスで数々の代表的な成果を発表しており、CV 分野のヘビー級大会で優勝および準優勝を獲得しています。国内外の著名な大学から何度も賞を受賞しており、科学研究機関とも幅広く協力しています。

近年、単一オブジェクトの Text-to-3D 手法は一連の画期的な進歩を遂げてきましたが、テキストから制御可能で高品質で複雑なマルチオブジェクト 3D シーンを生成するには、依然として大きな課題に直面しています。以前の方法には、生成されたシーンの複雑さ、幾何学的品質、テクスチャの一貫性、マルチオブジェクトの相互作用、制御性および編集性において大きな欠陥がありました。

最近、北京大学王宣コンピュータサイエンス研究所の VDIG 研究チームとその協力者は、最新の研究結果 GALA3D を発表しました。マルチオブジェクトの複雑な 3D シーンの生成のために、この研究では、複数のオブジェクトと複雑なインタラクティブな関係を含む高品質で一貫性の高い 3D シーンを生成できる、複雑な 3D シーン用の LLM ガイドによる制御可能な生成フレームワーク GALA3D を提案します。会話型インタラクションの編集者である論文は ICML 2024 に受理されました。



論文タイトル:GALA3D: レイアウトガイド付き生成ガウススプラッティングによるテキストから 3D への複雑なシーン生成に向けて

論文リンク: https://arxiv.org/pdf/2402.07207

ペーパーコード: https://github.com/VDIGPKU/GALA3D

プロジェクトWebサイト:https://gala3d.github.io/



GALA3D は、高品質の Text-to-3D 複合シーン生成と制御可能な編集フレームワークを組み合わせたものです。ユーザーが説明テキストを入力すると、GALA3D は複数のオブジェクトと複雑なインタラクティブな関係を含む対応する 3 次元シーンをゼロショットで生成できます。 GALA3D は、生成された 3D シーンがテキストと高度に一致していることを保証しながら、シーンの品質、複数のオブジェクトの複雑な相互作用、およびシーンの幾何学的一貫性の生成において優れたパフォーマンスを発揮します。さらに、GALA3D はユーザーフレンドリーなエンドツーエンドの生成と制御可能な編集もサポートしており、一般ユーザーが会話中に 3D シーンを簡単にカスタマイズおよび編集できるようになります。 GALA3D は、ユーザーとのコミュニケーションにおいて、複雑な 3D シーンの会話型の制御可能な編集を正確に実現し、複雑な 3D シーンのレイアウト変換、デジタル アセットの埋め込み、ユーザーの対話に基づく装飾スタイルの変更など、さまざまな制御可能な編集ニーズを実現します。

手法の紹介

GALA3D の全体的なアーキテクチャを次の図に示します。



GALA3D は、大規模言語モデル (LLM) を利用して初期レイアウトを生成し、複雑な 3D シーンを構築するためのレイアウトに基づいた生成 3D ガウス表現を提案します。 GALA3D Design は、適応ジオメトリ制御を通じて 3D ガウスの形状と分布を最適化し、一貫したジオメトリ、テクスチャ、スケール、正確なインタラクションを備えた 3D シーンを生成します。さらに、GALA3D は、条件付き拡散事前分布とヴィンセンチアン グラフ モデルを組み合わせて、一貫したスタイルを持つ 3D マルチオブジェクト シーンを共同生成すると同時に、LLM から抽出された初期レイアウト事前分布を繰り返し最適化して、よりリアルで正確な実際のシーンを取得する複合最適化メカニズムも提案しています。空間レイアウト。広範な定量的実験と定性的研究により、GALA3D はテキストから複雑な 3D シーンを生成する際に、既存の Vincent 3D シーン手法を上回る重要な結果を達成することが示されています。

a. LLM に基づいた事前のシーン レイアウト

大規模言語モデルは、優れた自然言語理解および推論機能を実証します。この記事では、3D 複雑なシーンにおける LLM の大規模言語モデルの推論およびレイアウト生成機能についてさらに詳しく説明します。手動設計を行わずに比較的合理的なレイアウトを事前に取得する方法は、シーンのモデリングと生成のコストを削減するのに役立ちます。この目的を達成するために、LLM (GPT-3.5 など) を使用してテキスト入力のインスタンスとその空間関係を抽出し、対応するレイアウト事前分布を生成します。ただし、3D 空間レイアウトと、LLM によって解釈されるシーン以前のレイアウトと実際のシーンの間には一定のギャップがあり、その結果、通常、浮遊オブジェクトや通過オブジェクト、プロポーションが過度に異なるオブジェクトの組み合わせなどが生成されます。さらに、ビジョンベースの事前拡散とレイアウトガイドによる生成 3D ガウスを通じて、上記で生成された大まかなレイアウトを調整および最適化するレイアウト調整モジュールを提案します。

b、レイアウトの改良

GALA3D は、上記の LLM によって事前に生成されたレイアウトを最適化する前に、拡散に基づくレイアウト レイアウト最適化モジュールを使用します。具体的には、レイアウトガイド付き 3D ガウス空間レイアウトの勾配最適化を 3D 生成プロセスに追加し、ControlNet を通じて LLM で生成されたレイアウトの空間位置、回転角度、サイズ比を調整しました。図は、その前と前の 3D シーンとレイアウトを示しています。最適化後。最適化されたレイアウトでは、より正確な空間位置とスケールが得られ、3D シーン内の複数のオブジェクトのインタラクティブな関係がより合理的になります。



c. レイアウトに基づいた生成 3D ガウス表現

我々は、3D レイアウト制約を 3D ガウス表現に初めて導入し、複雑な 3D シーン向けにレイアウトに基づいて生成される 3D ガウスを提案します。 レイアウトガイド付き 3D ガウス表現には、意味的に抽出された複数のインスタンス オブジェクトが含まれており、各インスタンス オブジェクトの優先レイアウトは次のようにパラメータ化できます。

このうち、N はシーン内のインスタンス オブジェクトの総数を表します。具体的には、各インスタンスの 3D ガウスは、適応ジオメトリ制御を通じて最適化され、インスタンス レベルのオブジェクトの 3D ガウス表現が取得されます。さらに、相対的な位置関係に従って複数のオブジェクト ガウスをシーン全体に結合し、レイアウトに基づいてグローバル 3D ガウスを生成し、グローバル ガウス スプラッティングを通じてシーン全体をレンダリングします。

d. 適応型ジオメトリ制御

生成プロセス中に 3D ガウスの空間分布と幾何学的形状をより適切に制御するために、生成 3D ガウスの適応幾何制御方法を提案します。まず、初期ガウスのセットが与えられると、3D ガウスをレイアウト範囲内に制限するために、GALA3D は一連の密度分布関数を使用してガウス楕円体の空間位置を制限します。次に、レイアウト サーフェス付近のガウスをサンプリングして、分布関数に適合させます。その後、形状正則化を使用して 3D ガウスのジオメトリを制御することを提案します。 3D 生成プロセス中、適応ジオメトリ制御によりガウス分布とジオメトリが継続的に最適化され、より詳細なテクスチャと標準化されたジオメトリを備えた 3D マルチオブジェクトとシーンが生成されます。また、アダプティブ ジオメトリ制御により、レイアウトに基づいて生成される 3D ガウスの制御性と一貫性が向上します。

実験結果

既存の Text-to-3D 生成方法と比較して、GALA3D は 3D シーン生成の品質と一貫性が優れています。定量的な実験結果を次の表に示します。



また、125 人の参加者 (そのうち 39.2% は関連分野の専門家および実践者) を対象とした広範かつ効果的なユーザー調査を実施し、この方法と既存の方法の生成シナリオを多角的に評価しました。その結果を図に示します。次の表:



実験の結果、GALA3Dはシーンの品質、幾何学的忠実度、テキストの一貫性、シーンの一貫性などの多次元評価指標において既存の手法を上回り、最適な生成品質を実現していることがわかりました。

以下の定性的な実験結果に示されているように、GALA3D は複雑なマルチオブジェクトの組み合わせ 3D シーンをゼロショット方式で一貫性よく生成できます。



以下の図は、GALA3D がユーザーフレンドリーで会話型の制御可能な生成と編集をサポートできることを示しています。



研究の詳細については、元の論文を参照してください。