Informasi kontak saya
Surat[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]
Penulis makalah ini semuanya berasal dari tim S-Lab Universitas Teknologi Nanyang di Singapura, termasuk postdoc Hu Tao, mahasiswa doktoral Hong Fangzhou, dan Profesor Liu Ziwei dari School of Computing and Data (MIT Technology Review Asia-Pacific Innovator under 35 tahun). Dalam beberapa tahun terakhir, S-Lab telah menerbitkan banyak karya penelitian terkait CV/CG/AIGC di konferensi ternama seperti CVPR, ICCV, ECCV, NeurIPS, dan ICLR, serta telah bekerja sama secara luas dengan universitas ternama dan lembaga penelitian ilmiah di dalam negeri. dan luar negeri.
Pembuatan dan pengeditan manusia digital tiga dimensi banyak digunakan dalam digital twins, metaverse, game, komunikasi holografik, dan bidang lainnya. Produksi manusia digital tiga dimensi secara tradisional seringkali memakan waktu dan tenaga. Dalam beberapa tahun terakhir, para peneliti telah mengusulkan pembelajaran manusia digital tiga dimensi dari gambar 2D berdasarkan jaringan permusuhan generatif tiga dimensi (3D GAN), yang sangat meningkatkan kualitas manusia. efisiensi produksi manusia digital.
Metode ini sering kali memodelkan manusia digital dalam ruang vektor laten satu dimensi, dan vektor laten satu dimensi tidak dapat mewakili struktur geometris dan informasi semantik tubuh manusia, sehingga membatasi kualitas pembangkitan dan kemampuan pengeditannya.
Untuk mengatasi masalah ini,Tim S-Lab dari Nanyang Technological University di Singapura mengusulkan paradigma baru generasi manusia digital tiga dimensi StructLDM berdasarkan Model Difusi Laten Terstruktur.. Paradigma ini mencakup tiga desain utama: representasi tubuh manusia berdimensi tinggi terstruktur, decoder otomatis terstruktur, dan model difusi ruang laten terstruktur.
StructLDM adalah Model Generatif 3D feedforward yang belajar dari gambar dan video. Dibandingkan dengan metode GAN 3D yang ada, StructLDM dapat menghasilkan orang-orang digital 3D yang berkualitas tinggi, beragam, dan konsisten dengan perspektif yang konsisten, dan mendukung berbagai tingkat fungsi pembuatan dan pengeditan yang dapat dikontrol, seperti seperti pengeditan sebagian pakaian, pemasangan virtual tiga dimensi, dan tugas pengeditan sadar bagian lainnya, tidak bergantung pada jenis pakaian atau kondisi penyamaran tertentu, dan memiliki penerapan yang tinggi.
Judul makalah: StructLDM: Difusi Laten Terstruktur untuk Generasi Manusia 3D
Alamat makalah: https://arxiv.org/pdf/2404.01241
Beranda proyek: https://taohuumd.github.io/projects/StructLDM
Beranda laboratorium: https://www.ntu.edu.sg/s-lab
Ikhtisar metode
Proses pelatihan StructLDM terdiri dari dua tahap:
Decoding otomatis terstruktur: Mengingat informasi SMPL pose manusia dan parameter kamera, dekoder otomatis menyesuaikan laten UV terstruktur untuk setiap karakter individu dalam set pelatihan. Kesulitan dari proses ini terletak pada bagaimana menyesuaikan gambar manusia dengan postur berbeda, sudut kamera berbeda, dan pakaian berbeda ke dalam laten UV terpadu. Untuk tujuan ini, StructLDM mengusulkan NeRF lokal terstruktur untuk memodelkan setiap bagian tubuh secara terpisah, dan menggunakan global gaya ke Blender menggabungkan bagian-bagian tubuh menjadi satu dan mempelajari penampilan karakter secara keseluruhan. Selain itu, untuk mengatasi masalah kesalahan estimasi pose, pembelajaran adversarial diperkenalkan dalam proses pelatihan decoder otomatis. Pada tahap ini, decoder otomatis mengubah setiap karakter individu dalam set pelatihan menjadi serangkaian UV laten.
model difusi struktural: Model difusi ini mempelajari ruang laten UV yang diperoleh pada tahap pertama untuk mempelajari prior tiga dimensi tubuh manusia.
Pada tahap inferensi, StructLDM dapat secara acak menghasilkan orang digital tiga dimensi: kebisingan diambil sampelnya secara acak dan ditolak untuk mendapatkan laten UV, yang dapat diubah menjadi gambar tubuh manusia melalui dekoder otomatis.
Hasil percobaan
Penelitian ini melakukan evaluasi eksperimental pada 4 dataset: dataset gambar tampilan tunggal DeepFashion [Liu et al. 2016], dataset video UBCFashion [Zablotskaia et al. 2019], dan dataset tubuh manusia tiga dimensi nyata THUman 2.0 [Yu et al. .2021], dan kumpulan data tubuh manusia 3D virtual RenderPeople.
3.1 Perbandingan hasil kualitatif
StructLDM dibandingkan dengan metode GAN 3D yang ada pada kumpulan data UBCFashion, seperti EVA3D, AG3D, dan StyleSDF. Dibandingkan dengan metode yang ada, StructLDM dapat menghasilkan orang-orang digital 3D yang berkualitas tinggi, beragam, dan konsisten dengan perspektif yang konsisten, seperti warna kulit berbeda, gaya rambut berbeda, dan detail pakaian (seperti sepatu hak tinggi).
StructLDM dibandingkan dengan metode GAN 3D yang ada (seperti EG3D, StyleSDF, dan EVA3D) dan model difusi PrimDiff pada kumpulan data RenderPeople. Dibandingkan dengan metode yang ada, StructLDM dapat menghasilkan orang digital tiga dimensi berkualitas tinggi dengan postur dan penampilan berbeda, serta menghasilkan detail wajah berkualitas tinggi.
3.2 Perbandingan hasil kuantitatif
Para peneliti membandingkan hasil kuantitatif dengan metode yang diketahui di UBCFashion, RenderPeople, dan THUman 2.0. Mereka secara acak memilih 50.000 gambar di setiap kumpulan data untuk menghitung StructLDM yang dapat mengurangi FID secara signifikan. Selain itu, Studi Pengguna menunjukkan bahwa sekitar 73% pengguna percaya bahwa hasil yang dihasilkan oleh StructLDM lebih menguntungkan dibandingkan AG3D dalam hal detail wajah dan kualitas gambar seluruh tubuh.
3.3 Aplikasi
3.3.1 Pembangkitan yang dapat dikontrol
StructLDM mendukung pembuatan yang dapat dikontrol, seperti perspektif kamera, postur, kontrol bentuk tubuh, dan pemasangan virtual tiga dimensi, dan dapat melakukan interpolasi dalam ruang laten dua dimensi.
3.3.2 Generasi gabungan
StructLDM mendukung generasi gabungan, seperti menggabungkan bagian ①②③④⑤ untuk menghasilkan orang digital baru, dan mendukung tugas pengeditan yang berbeda, seperti pengeditan identitas, lengan (4), rok (5), pemasangan virtual tiga dimensi (6) dan gaya seluruh tubuh (7).
3.3.3 Mengedit gambar Internet
StructLDM dapat mengedit gambar Internet. Pertama, laten UV yang sesuai diperoleh melalui teknologi Inversi, dan kemudian orang digital yang dihasilkan dapat diedit melalui pengeditan laten UV, seperti mengedit sepatu, atasan, celana, dll.
3.4 Eksperimen ablasi
3.4.1 Difusi ruang tersembunyi
Model difusi ruang laten yang diusulkan oleh StructLDM dapat digunakan untuk tugas pengeditan yang berbeda, seperti pembuatan kombinatorial. Gambar di bawah mengeksplorasi dampak parameter model difusi, seperti jumlah langkah difusi dan skala kebisingan, terhadap hasil yang dihasilkan. StructLDM meningkatkan kinerja pembangkitan dengan mengontrol parameter model difusi.
3.4.2 Representasi tubuh manusia satu dimensi dan dua dimensi
Para peneliti membandingkan efek representasi tubuh manusia laten satu dimensi dan dua dimensi dan menemukan bahwa laten dua dimensi dapat menghasilkan detail frekuensi tinggi (seperti tekstur pakaian dan ekspresi wajah), dan menambahkan pembelajaran permusuhan secara bersamaan dapat meningkatkan kualitas dan fidelitas gambar. .
3.4.3 Normalisasi sadar struktur
Untuk meningkatkan efisiensi pembelajaran model difusi, StructLDM mengusulkan teknologi normalisasi penyelarasan struktur (structure-aligned normalization), yaitu menormalkan setiap piksel laten demi piksel. Penelitian menemukan bahwa distribusi laten yang dinormalisasi lebih mendekati distribusi Gaussian, sehingga lebih kondusif untuk pembelajaran model difusi.