Monimutkainen yhdistetty 3D-kohtausten luominen, LLM:iden keskustelullinen 3D-ohjattava luonti- ja muokkauskehys on täällä

Monimutkainen yhdistelmä 3D-kohtausten luomista, LLM-keskustelullista 3D-ohjattavaa luonti- ja muokkauskehystä on täällä

2024-07-31

AIxiv-sarake on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

Tämän artikkelin ensimmäinen kirjoittaja ja vastaava kirjoittaja ovat molemmat Pekingin yliopiston Wangxuan Institute of Computer Science -laboratoriosta (Visual Data Interpreting and Generation). Ensimmäinen kirjoittaja on tohtoriopiskelija Zhou Xiaoyu ja vastaava kirjoittaja on tohtoriohjaaja Wang Yongtao. . Viime vuosina VDIG-laboratorio on julkaissut useita edustavia tuloksia huippukonferensseissa, kuten IJCV, CVPR, AAAI, ICCV, ICML, ECCV jne., ja on voittanut mestaruuden ja kakkospalkinnon raskaansarjan kilpailuissa kotimaisissa kilpailuissa. ja ulkomailla CV alalla useita kertoja Se on myös voittanut palkintoja tunnetuista yliopistoista kotimaassa ja ulkomailla, tieteelliset tutkimuslaitokset tekevät laajaa yhteistyötä.

Viime vuosina yksittäisten objektien tekstistä 3D:ksi -menetelmät ovat tehneet läpimurtoja, mutta hallittavien, korkealaatuisten monimutkaisten moniobjektisten 3D-kohtausten luominen tekstistä on edelleen valtavien haasteiden edessä. Aikaisemmissa menetelmissä on suuria puutteita luodun kohtauksen monimutkaisuuden, geometrisen laadun, tekstuurin johdonmukaisuuden, usean kohteen vuorovaikutuksen, ohjattavuuden ja muokattavuuden suhteen.

Äskettäin Pekingin yliopiston Wangxuan Institute of Computer Science -instituutin VDIG-tutkimusryhmä ja sen yhteistyökumppanit julkistivat uusimmat tutkimustulokset GALA3D. Moniobjektisten monimutkaisten 3D-kohtausten luomiseksi tässä työssä ehdotetaan LLM-ohjattua ohjattavaa sukupolvikehystä monimutkaisille 3D-kohtauksille, GALA3D, joka voi luoda korkealaatuisia, johdonmukaisia 3D-kohtauksia, joissa on useita objekteja ja monimutkaisia interaktiivisia suhteita, ja tukee ICML 2024 on hyväksynyt keskustelun.

论文标题：GALA3D: Kohti tekstistä 3D:ksi monimutkaisten kohtausten luomista asetteluohjatun generatiivisen Gaussin splattingin avulla

Paperilinkki: https://arxiv.org/pdf/2402.07207

Paperikoodi: https://github.com/VDIGPKU/GALA3D

Hankkeen kotisivut: https://gala3d.github.io/

GALA3D on korkealaatuinen tekstistä 3D:ksi monimutkainen yhdistetty kohtausten luonti ja hallittava muokkauskehys. Käyttäjä syöttää kuvaustekstin, ja GALA3D voi luoda vastaavan kolmiulotteisen kohtauksen, jossa on useita objekteja ja monimutkaisia interaktiivisia suhteita nollakuvassa. Samalla kun varmistetaan, että luotu 3D-kohtaus on tarkasti kohdistettu tekstiin, GALA3D osoittaa erinomaisen suorituskyvyn näkymän laadun luomisessa, useiden objektien monimutkaisen vuorovaikutuksen ja kohtauksen geometrisen johdonmukaisuuden. Lisäksi GALA3D tukee myös käyttäjäystävällistä päästä päähän -tuotantoa ja ohjattavaa editointia, jolloin tavalliset käyttäjät voivat helposti mukauttaa ja muokata 3D-kohtauksia keskustelujen aikana. Kommunikoidessaan käyttäjien kanssa GALA3D voi toteuttaa tarkasti monimutkaisten 3D-kohtausten keskustelun muokkauksen ja toteuttaa erilaisia hallittavia muokkaustarpeita, kuten monimutkaisten 3D-kohtausten asettelun muunnoksia, digitaalisten resurssien upottamista ja sisustustyylin muutoksia käyttäjän dialogin perusteella.

Menetelmän esittely

GALA3D:n yleinen arkkitehtuuri näkyy alla olevassa kuvassa:

GALA3D käyttää suuria kielimalleja (LLM) alkuperäisten asettelujen luomiseen ja ehdottaa asetteluohjattua generatiivista 3D Gauss-esitystä monimutkaisten 3D-kohtausten rakentamiseen. GALA3D Design optimoi 3D Gaussin muodon ja jakautumisen mukautuvan geometrian ohjauksen avulla luodakseen 3D-kohtauksia, joissa on johdonmukainen geometria, tekstuuri, mittakaava ja tarkka vuorovaikutus. Lisäksi GALA3D ehdottaa myös yhdistettyä optimointimekanismia, joka yhdistää ehdolliset diffuusiopriorit ja Vincentiläiset kaaviomallit luodakseen yhdessä 3D-moniobjektikohtauksia yhdenmukaisilla tyyleillä, samalla kun iteratiivisesti optimoidaan LLM:istä poimitut alkuperäiset asettelupriorit realistisemman ja tarkemman todellisen kohtauksen saamiseksi. tilan asettelu. Laajat kvantitatiiviset kokeet ja laadulliset tutkimukset osoittavat, että GALA3D saavuttaa merkittäviä tuloksia monimutkaisten 3D-kohtausten luomisessa tekstistä, ylittäen olemassa olevat Vincentin 3D-kuvausmenetelmät.

a. Aiempi kohtauksen asettelu perustuu LLM:iin

Suuret kielimallit osoittavat erinomaisen luonnollisen kielen ymmärtämisen ja päättelyn. Suhteellisen kohtuullisen asettelun saaminen etukäteen ilman manuaalista suunnittelua voi auttaa vähentämään kohtausten mallintamisen ja luomisen kustannuksia. Tätä tarkoitusta varten käytämme LLM:itä (kuten GPT-3.5) poimimaan tekstinsyötön esiintymiä ja niiden tilasuhteita ja luomaan vastaavat Layout priorit. LLM:n tulkitseman näkymän 3D-tilaasettelun ja Layout before -asettelun ja todellisen kohtauksen välillä on kuitenkin tietty aukko, mikä yleensä johtaa riippuvien/ ohittavien kohteiden syntymiseen, kohteiden yhdistelmiin, joilla on liian erilaiset mittasuhteet jne. Lisäksi ehdotamme Layout Refinement -moduulia edellä luodun karkean asettelun säätämiseksi ja optimoimiseksi visiopohjaisen diffuusiopriorijan ja asetteluohjatun generatiivisen 3D Gaussin avulla.

b、Asettelun tarkentaminen

GALA3D käyttää Diffusioniin perustuvaa Layout layout -optimointimoduulia ennen edellä olevien LLM:ien luoman asettelun optimointia. Erityisesti lisäsimme asetteluohjatun 3D Gaussin avaruusasettelun gradientin optimoinnin 3D-luontiprosessiin ja säätimme LLM:n luomien asettelujen tilakohtaa, kiertokulmaa ja kokosuhdetta ControlNetin kautta. Kuvassa näkyy 3D-näkymä ja Layout ennen ja optimoinnin jälkeen. Optimoidulla asettelulla on tarkempi paikka ja suhteellinen asteikko, ja se tekee useiden kohteiden vuorovaikutussuhteesta 3D-näkymässä järkevämmän.

c. Asetteluohjattu generatiivinen 3D Gaussin esitys

Esittelemme 3D-asettelun rajoitukset 3D-Gaussin esitykseen ensimmäistä kertaa ja ehdotamme layout-ohjattua generatiivista 3D-Gaussia monimutkaisille 3D-kohtauksille. Asetteluohjattu 3D Gaussin esitys sisältää useita semanttisesti erotettuja ilmentymäobjekteja, joissa kunkin ilmentymäobjektin Layout prior voidaan parametroida seuraavasti:

Niiden joukossa N edustaa esiintymän objektien kokonaismäärää kohtauksessa. Tarkemmin sanottuna jokainen ilmentymä 3D Gaussian on optimoitu adaptiivisen geometrian ohjauksen avulla instanssitason objektin 3D Gaussin esityksen saamiseksi. Lisäksi yhdistämme useita objektin Gausseja koko näkymään suhteellisten sijaintisuhteiden mukaisesti, luomme layout-ohjattuja globaaleja 3D-Gaussianeita ja renderöimme koko näkymän globaalin Gaussian Splattingin avulla.

d. Mukautuva geometrian ohjaus

Jotta voitaisiin paremmin hallita 3D-Gaussian spatiaalista jakautumista ja geometrista muotoa generointiprosessin aikana, ehdotamme adaptiivista geometrian ohjausmenetelmää generatiivisille 3D-gausseille. Ensinnäkin GALA3D käyttää joukon tiheysjakauman funktioita rajoittaakseen Gaussin ellipsoidin spatiaalista sijaintia 3D- Gaussien rajoittamiseksi Layout-alueella. Otamme sitten näytteitä Gausseista lähellä Layout-pintaa jakaumafunktion sovittamiseksi. Jälkeenpäin ehdotamme muodon regularisoinnin käyttöä 3D Gaussin geometrian ohjaamiseen. 3D-luontiprosessin aikana adaptiivinen geometrian ohjaus optimoi jatkuvasti Gaussin jakauman ja geometrian luodakseen 3D-moniobjekteja ja -kohtauksia, joissa on enemmän pintakuvioita ja standardoitua geometriaa. Mukautuva geometrian ohjaus varmistaa myös layout-ohjatut generatiiviset 3D Gaussilaiset, joilla on parempi ohjattavuus ja johdonmukaisuus.

Kokeelliset tulokset

Verrattuna olemassa oleviin tekstistä 3D:ksi luomismenetelmiin, GALA3D näyttää paremman 3D-näkymän luomisen laadun ja johdonmukaisuuden.

Teimme myös laajan ja tehokkaan käyttäjäkyselyn, johon kutsuttiin 125 osallistujaa (joista 39,2 % oli vastaavien alojen asiantuntijoita ja toimijoita) suorittamaan monikulmaisen arvioinnin tämän menetelmän ja olemassa olevien menetelmien syntyskenaarioista seuraava taulukko:

Kokeet osoittavat, että GALA3D ylittää olemassa olevat menetelmät moniulotteisissa arviointiindikaattoreissa, kuten kohtauksen laadussa, geometrisessa tarkkuudessa, tekstin yhtenäisyydessä ja kohtauksen johdonmukaisuudessa, ja saavuttaa optimaalisen sukupolven laadun.

Kuten alla olevissa kvalitatiivisissa kokeellisissa tuloksissa näkyy, GALA3D voi luoda monimutkaisia useiden objektien yhdistelmänä 3D-kohtauksia nollakuvalla hyvällä johdonmukaisuudella:

Alla olevasta kuvasta näkyy, että GALA3D voi tukea käyttäjäystävällistä, keskustelevaa ja ohjattavaa luomista ja muokkausta:

Lisätietoja tutkimuksesta löytyy alkuperäisestä artikkelista.

uutiset

Monimutkainen yhdistelmä 3D-kohtausten luomista, LLM-keskustelullista 3D-ohjattavaa luonti- ja muokkauskehystä on täällä

Johdanto

yhteystietoni