Pembuatan adegan 3D gabungan yang kompleks, pembuatan 3D percakapan LLM yang dapat dikontrol, dan kerangka pengeditan ada di sini

Kombinasi kompleks pembuatan adegan 3D, pembuatan 3D percakapan LLM yang dapat dikontrol, dan kerangka pengeditan ada di sini

2024-07-31

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Penulis pertama dan penulis koresponden makalah ini berasal dari Laboratorium VDIG (Visual Data Interpreting and Generation) Institut Ilmu Komputer Wangxuan, Universitas Peking. Penulis pertama adalah mahasiswa doktoral Zhou Xiaoyu, dan penulis koresponden adalah pembimbing doktoral Wang Yongtao . Dalam beberapa tahun terakhir, laboratorium VDIG telah menerbitkan sejumlah hasil representatif di konferensi terkemuka seperti IJCV, CVPR, AAAI, ICCV, ICML, ECCV, dll., dan telah memenangkan penghargaan kejuaraan dan runner-up dalam kompetisi kelas berat di dalam negeri. dan bidang CV luar negeri berkali-kali. Juga telah memenangkan penghargaan dari universitas ternama di dalam dan luar negeri, Lembaga penelitian ilmiah bekerja sama secara luas.

Dalam beberapa tahun terakhir, metode Text-to-3D untuk objek tunggal telah membuat serangkaian terobosan, namun menghasilkan adegan 3D multi-objek kompleks yang dapat dikontrol dan berkualitas tinggi dari teks masih menghadapi tantangan besar. Metode sebelumnya memiliki kelemahan besar dalam kompleksitas, kualitas geometris, konsistensi tekstur, interaksi multi-objek, kemampuan kontrol dan pengeditan adegan yang dihasilkan.

Baru-baru ini, tim peneliti VDIG dari Institut Ilmu Komputer Wangxuan di Universitas Peking dan kolaboratornya mengumumkan hasil penelitian terbaru GALA3D. Untuk pembuatan adegan 3D kompleks multi-objek, karya ini mengusulkan kerangka kerja pembuatan terkontrol yang dipandu LLM untuk adegan 3D kompleks, GALA3D, yang dapat menghasilkan adegan 3D berkualitas tinggi dan konsistensi tinggi dengan banyak objek dan hubungan interaktif yang kompleks, serta mendukung interaksi percakapan. Editor pengontrol, makalah telah diterima oleh ICML 2024.

Artikel terkait: GALA3D: Menuju Pembuatan Adegan Kompleks dari Teks ke 3D melalui Generative Gaussian Splatting yang dipandu Tata Letak

Tautan makalah: https://arxiv.org/pdf/2402.07207

Kode kertas: https://github.com/VDIGPKU/GALA3D

Situs web proyek: https://gala3d.github.io/

GALA3D adalah pembuatan adegan gabungan kompleks Text-to-3D berkualitas tinggi dan kerangka pengeditan yang dapat dikontrol. Pengguna memasukkan teks deskripsi, dan GALA3D dapat menghasilkan adegan tiga dimensi yang sesuai dengan banyak objek dan hubungan interaktif yang kompleks dalam zero-shot. Sambil memastikan bahwa adegan 3D yang dihasilkan sangat selaras dengan teks, GALA3D menunjukkan kinerja luar biasa dalam menghasilkan kualitas pemandangan, interaksi kompleks beberapa objek, dan konsistensi geometri pemandangan. Selain itu, GALA3D juga mendukung pembuatan end-to-end yang mudah digunakan dan pengeditan yang dapat dikontrol, memungkinkan pengguna biasa dengan mudah menyesuaikan dan mengedit adegan 3D selama percakapan percakapan. Dalam berkomunikasi dengan pengguna, GALA3D dapat secara akurat mewujudkan pengeditan adegan 3D yang kompleks dan dapat dikontrol, serta mewujudkan berbagai kebutuhan pengeditan yang dapat dikontrol seperti transformasi tata letak adegan 3D yang kompleks, penyematan aset digital, dan perubahan gaya dekorasi berdasarkan dialog pengguna.

Pengenalan metode

Arsitektur keseluruhan GALA3D ditunjukkan pada gambar di bawah ini:

GALA3D menggunakan model bahasa besar (LLM) untuk menghasilkan tata letak awal dan mengusulkan representasi Gaussian 3D generatif yang dipandu tata letak untuk membuat adegan 3D yang kompleks. Desain GALA3D mengoptimalkan bentuk dan distribusi Gaussian 3D melalui kontrol geometri adaptif untuk menghasilkan pemandangan 3D dengan geometri, tekstur, skala, dan interaksi yang presisi. Selain itu, GALA3D juga mengusulkan mekanisme pengoptimalan gabungan yang menggabungkan prior difusi bersyarat dan model grafik Vinsensian untuk secara kolaboratif menghasilkan adegan multi-objek 3D dengan gaya yang konsisten, sekaligus mengoptimalkan secara berulang prior tata letak awal yang diekstraksi dari LLM untuk mendapatkan pemandangan nyata yang lebih realistis dan akurat. tata ruang. Eksperimen kuantitatif dan studi kualitatif yang ekstensif menunjukkan bahwa GALA3D mencapai hasil yang signifikan dalam pembuatan adegan 3D teks hingga kompleks, melampaui metode adegan 3D Vincent yang ada.

a.Tata letak adegan sebelumnya berdasarkan LLM

Model bahasa besar menunjukkan pemahaman bahasa alami dan kemampuan penalaran yang sangat baik. Artikel ini mengeksplorasi lebih jauh kemampuan penalaran dan pembuatan tata letak model bahasa besar LLM dalam adegan kompleks 3D. Cara mendapatkan tata letak yang relatif masuk akal tanpa desain manual dapat membantu mengurangi biaya pemodelan dan pembuatan adegan. Untuk mencapai tujuan ini, kami menggunakan LLM (seperti GPT-3.5) untuk mengekstrak contoh input teks dan hubungan spasialnya, serta menghasilkan Layout prior yang sesuai. Namun, terdapat kesenjangan tertentu antara tata ruang 3D dan Tata Letak sebelum pemandangan yang diinterpretasikan oleh LLM dan pemandangan sebenarnya, yang biasanya menghasilkan objek yang ditangguhkan/melewati, kombinasi objek dengan proporsi yang sangat berbeda, dll. Selanjutnya, kami mengusulkan modul Penyempurnaan Tata Letak untuk menyesuaikan dan mengoptimalkan tata letak kasar yang dihasilkan di atas melalui Difusi berbasis visi sebelumnya dan Gaussian 3D generatif yang dipandu Tata Letak.

b、Penyempurnaan Tata Letak

GALA3D menggunakan modul Optimasi tata letak tata letak berdasarkan Difusi sebelum mengoptimalkan tata letak yang sebelumnya dihasilkan oleh LLM di atas. Secara khusus, kami menambahkan optimasi gradien tata letak ruang 3D Gaussian yang dipandu Tata Letak ke dalam proses pembuatan 3D, dan menyesuaikan posisi spasial, sudut rotasi, dan rasio ukuran Tata Letak yang dihasilkan LLM melalui ControlNet setelah optimasi. Tata Letak yang dioptimalkan memiliki posisi spasial dan skala proporsional yang lebih akurat, serta membuat hubungan interaksi beberapa objek dalam pemandangan 3D menjadi lebih masuk akal.

c. Representasi Gaussian 3D generatif yang dipandu tata letak

Kami memperkenalkan batasan Tata Letak 3D ke dalam representasi Gaussian 3D untuk pertama kalinya, dan mengusulkan Gaussian 3D generatif yang dipandu tata letak untuk pemandangan 3D yang kompleks. Representasi Gaussian 3D yang dipandu tata letak berisi beberapa objek instance yang diekstraksi secara semantik, dengan Layout sebelum setiap objek instance dapat diparameterisasi sebagai:

Diantaranya, N mewakili jumlah total objek contoh dalam adegan. Secara khusus, setiap instance 3D Gaussian dioptimalkan melalui kontrol geometri adaptif untuk mendapatkan representasi objek 3D Gaussian di tingkat instance. Selanjutnya, kami menggabungkan beberapa objek Gaussians ke dalam keseluruhan adegan sesuai dengan hubungan posisi relatif, menghasilkan Gaussians 3D global yang dipandu tata letak, dan merender seluruh adegan melalui Gaussian Splatting global.

d.Kontrol geometri adaptif

Untuk mengontrol distribusi spasial dan bentuk geometris Gaussian 3D dengan lebih baik selama proses pembangkitan, kami mengusulkan metode kontrol geometri adaptif untuk Gaussian 3D generatif. Pertama, dengan himpunan Gaussian awal, untuk membatasi Gaussian 3D dalam rentang Tata Letak, GALA3D menggunakan serangkaian fungsi distribusi kepadatan untuk membatasi posisi spasial ellipsoid Gaussian. Kami kemudian mengambil sampel Gauss di dekat permukaan Layout agar sesuai dengan fungsi distribusi. Setelah itu, kami mengusulkan untuk menggunakan regularisasi bentuk untuk mengontrol geometri Gaussians 3D. Selama proses pembuatan 3D, kontrol geometri adaptif terus mengoptimalkan distribusi dan geometri Gaussian untuk menghasilkan multi-objek dan pemandangan 3D dengan lebih banyak detail tekstur dan geometri standar. Kontrol geometri adaptif juga memastikan Gaussians 3D generatif yang dipandu tata letak dengan kemampuan kontrol dan konsistensi yang lebih baik.

Hasil percobaan

Dibandingkan dengan metode pembuatan Text-to-3D yang ada, GALA3D menunjukkan kualitas dan konsistensi pembuatan adegan 3D yang lebih baik. Hasil eksperimen kuantitatif ditunjukkan pada tabel berikut:

Kami juga melakukan survei pengguna yang ekstensif dan efektif, mengundang 125 peserta (39,2% di antaranya adalah pakar dan praktisi di bidang terkait) untuk melakukan evaluasi multi-sudut terhadap skenario pembuatan metode ini dan metode yang ada tabel berikut:

Hasil eksperimen menunjukkan bahwa GALA3D melampaui metode yang ada dalam indikator evaluasi multidimensi seperti kualitas pemandangan, fidelitas geometris, konsistensi teks, dan konsistensi pemandangan, serta mencapai kualitas pembuatan yang optimal.

Seperti yang ditunjukkan pada hasil eksperimen kualitatif di bawah, GALA3D dapat menghasilkan adegan 3D kombinasi multi-objek yang kompleks dengan cara zero-shot dengan konsistensi yang baik:

Gambar di bawah menunjukkan bahwa GALA3D dapat mendukung pembuatan dan pengeditan yang ramah pengguna, percakapan, dan dapat dikontrol:

Untuk rincian penelitian lebih lanjut, silakan merujuk ke makalah asli.

berita

Kombinasi kompleks pembuatan adegan 3D, pembuatan 3D percakapan LLM yang dapat dikontrol, dan kerangka pengeditan ada di sini

Perkenalan

informasi kontak saya