notizia

La combinazione complessa di generazione di scene 3D, generazione controllabile 3D conversazionale di LLM e struttura di modifica è qui

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Il primo autore e l'autore corrispondente di questo articolo provengono entrambi dal Laboratorio VDIG (Visual Data Interpreting and Generation) dell'Istituto di Informatica Wangxuan, Università di Pechino. Il primo autore è il dottorando Zhou Xiaoyu, e l'autore corrispondente è il supervisore del dottorato Wang Yongtao . Negli ultimi anni, il laboratorio VDIG ha pubblicato una serie di risultati rappresentativi in ​​occasione di conferenze importanti come IJCV, CVPR, AAAI, ICCV, ICML, ECCV, ecc., e ha vinto il campionato e il secondo posto nelle competizioni dei pesi massimi a livello nazionale. e CV stranieri per molte volte. Ha anche vinto premi da rinomate università in patria e all'estero, e gli istituti di ricerca scientifica collaborano ampiamente.

Negli ultimi anni, i metodi Text-to-3D per singoli oggetti hanno fatto una serie di scoperte, ma la generazione di scene 3D multi-oggetto complesse, controllabili e di alta qualità dal testo deve ancora affrontare enormi sfide. I metodi precedenti presentano grossi difetti in termini di complessità, qualità geometrica, consistenza della trama, interazione multi-oggetto, controllabilità e modificabilità della scena generata.

Recentemente, il gruppo di ricerca VDIG dell'Istituto Wangxuan di Informatica dell'Università di Pechino e i suoi collaboratori hanno annunciato gli ultimi risultati della ricerca GALA3D. Per la generazione di scene 3D complesse multi-oggetto, questo lavoro propone un framework di generazione controllabile guidato da LLM per scene 3D complesse, GALA3D, che può generare scene 3D di alta qualità e ad alta coerenza con più oggetti e relazioni interattive complesse e supporta interazione conversazionale. Editor di controllo, l'articolo è stato accettato da ICML 2024.



Titolo della discussione: GALA3D: Verso la generazione di scene complesse da testo a 3D tramite splatting gaussiano generativo guidato dal layout

Link al documento: https://arxiv.org/pdf/2402.07207

Codice cartaceo: https://github.com/VDIGPKU/GALA3D

Sito web del progetto: https://gala3d.github.io/



GALA3D è una complessa generazione di scene combinate da testo a 3D di alta qualità e un framework di editing controllabile. L'utente inserisce un testo descrittivo e GALA3D può generare la scena tridimensionale corrispondente con più oggetti e complesse relazioni interattive in zero-shot. Pur garantendo che la scena 3D generata sia altamente allineata al testo, GALA3D dimostra le sue eccellenti prestazioni nel generare qualità della scena, interazione complessa di più oggetti e coerenza della geometria della scena. Inoltre, GALA3D supporta anche la generazione end-to-end intuitiva e l'editing controllabile, consentendo agli utenti ordinari di personalizzare e modificare facilmente le scene 3D durante le conversazioni conversazionali. Nel comunicare con gli utenti, GALA3D può realizzare con precisione l'editing conversazionale e controllabile di scene 3D complesse e realizzare varie esigenze di editing controllabili come la trasformazione del layout di scene 3D complesse, l'incorporamento di risorse digitali e le modifiche allo stile di decorazione basate sul dialogo dell'utente.

Introduzione al metodo

L'architettura complessiva di GALA3D è mostrata nella figura seguente:



GALA3D utilizza modelli di linguaggio di grandi dimensioni (LLM) per generare layout iniziali e propone una rappresentazione gaussiana 3D generativa guidata dal layout per costruire scene 3D complesse. GALA3D Design ottimizza la forma e la distribuzione delle gaussiane 3D attraverso il controllo della geometria adattiva per generare scene 3D con geometria, trama, scala e interazioni precise coerenti. Inoltre, GALA3D propone anche un meccanismo di ottimizzazione combinato che combina i priori di diffusione condizionale e i modelli di grafici vincenziani per generare in modo collaborativo scene 3D multi-oggetto con stili coerenti, ottimizzando in modo iterativo i priori di layout iniziali estratti da LLM per ottenere una scena reale più realistica e accurata. disposizione dello spazio. Esperimenti quantitativi e studi qualitativi approfonditi mostrano che GALA3D raggiunge risultati significativi nella generazione di scene 3D complesse da testo a complesse, superando i metodi esistenti di scene 3D Vincent.

a. Layout della scena precedente basato su LLM

I modelli linguistici di grandi dimensioni dimostrano eccellenti capacità di comprensione e ragionamento del linguaggio naturale. Questo articolo esplora ulteriormente le capacità di ragionamento e di generazione di layout dei modelli linguistici di grandi dimensioni LLM in scene complesse 3D. Come ottenere un layout relativamente ragionevole in anticipo senza la progettazione manuale può aiutare a ridurre i costi di modellazione e generazione delle scene. A tal fine, utilizziamo LLM (come GPT-3.5) per estrarre le istanze di input di testo e le loro relazioni spaziali e generare i corrispondenti layout a priori. Tuttavia, esiste un certo divario tra il layout spaziale 3D e il Layout precedente della scena interpretata dagli LLM e la scena reale, che di solito si traduce nella generazione di oggetti sospesi/passanti, combinazioni di oggetti con proporzioni eccessivamente diverse, ecc. Inoltre, proponiamo un modulo di perfezionamento del layout per regolare e ottimizzare il layout approssimativo precedentemente generato sopra attraverso la diffusione basata sulla visione e la gaussiana 3D generativa guidata dal layout.

b、Raffinamento del layout

GALA3D utilizza il modulo di ottimizzazione del layout del layout basato sulla diffusione prima di ottimizzare il layout precedentemente generato dai LLM di cui sopra. Nello specifico, abbiamo aggiunto l'ottimizzazione del gradiente del layout dello spazio gaussiano 3D guidato dal layout nel processo di generazione 3D e regolato la posizione spaziale, l'angolo di rotazione e il rapporto dimensionale dei layout generati da LLM tramite ControlNet. La figura mostra la scena 3D e il layout prima e dopo l'ottimizzazione. Il layout ottimizzato ha una posizione spaziale e una scala proporzionale più precise e rende più ragionevole la relazione di interazione di più oggetti nella scena 3D.



c. Rappresentazione gaussiana 3D generativa guidata dal layout

Introduciamo per la prima volta i vincoli di layout 3D nella rappresentazione gaussiana 3D e proponiamo una gaussiana 3D generativa guidata dal layout per scene 3D complesse. La rappresentazione gaussiana 3D guidata dal layout contiene più oggetti istanza estratti semanticamente, dove il layout precedente di ciascun oggetto istanza può essere parametrizzato come:

Tra questi, N rappresenta il numero totale di oggetti istanza nella scena. Nello specifico, ciascuna istanza gaussiana 3D è ottimizzata tramite il controllo della geometria adattiva per ottenere una rappresentazione gaussiana 3D dell'oggetto a livello di istanza. Inoltre, combiniamo più gaussiane di oggetti nell'intera scena in base alle relazioni di posizione relativa, generiamo gaussiane 3D globali guidate dal layout e rendiamo l'intera scena tramite splatting gaussiano globale.

d. Controllo della geometria adattiva

Per controllare meglio la distribuzione spaziale e la forma geometrica delle gaussiane 3D durante il processo di generazione, proponiamo un metodo di controllo della geometria adattiva per le gaussiane 3D generative. Innanzitutto, dato un insieme di gaussiane iniziali, per vincolare le gaussiane 3D all'interno dell'intervallo di layout, GALA3D utilizza un insieme di funzioni di distribuzione della densità per vincolare la posizione spaziale dell'ellissoide gaussiano. Quindi campioniamo le gaussiane vicino alla superficie del layout per adattarle alla funzione di distribuzione. Successivamente, proponiamo di utilizzare la regolarizzazione della forma per controllare la geometria delle gaussiane 3D. Durante il processo di generazione 3D, il controllo della geometria adattiva ottimizza continuamente la distribuzione e la geometria delle gaussiane per generare multi-oggetti e scene 3D con più dettagli di texture e geometria standardizzata. Il controllo adattivo della geometria garantisce inoltre gaussiane 3D generative guidate dal layout con maggiore controllabilità e coerenza.

Risultati sperimentali

Rispetto ai metodi di generazione Text-to-3D esistenti, GALA3D mostra una migliore qualità e coerenza della generazione di scene 3D. I risultati sperimentali quantitativi sono mostrati nella tabella seguente:



Abbiamo inoltre condotto un ampio ed efficace sondaggio tra gli utenti, invitando 125 partecipanti (il 39,2% dei quali erano esperti e professionisti in campi correlati) a condurre una valutazione multi-angolo degli scenari di generazione di questo metodo e dei metodi esistenti tabella seguente:



I risultati sperimentali mostrano che GALA3D supera i metodi esistenti negli indicatori di valutazione multidimensionali come la qualità della scena, la fedeltà geometrica, la coerenza del testo e la coerenza della scena, e raggiunge una qualità di generazione ottimale.

Come mostrato nei risultati sperimentali qualitativi di seguito, GALA3D può generare scene 3D complesse con combinazioni di più oggetti in modo zero-shot con buona coerenza:



La figura seguente mostra che GALA3D può supportare la generazione e la modifica user-friendly, conversazionale e controllabile:



Per ulteriori dettagli sulla ricerca, fare riferimento al documento originale.