Geração complexa combinada de cenas 3D, geração conversacional 3D controlável de LLMs e estrutura de edição estão aqui

Combinação complexa de geração de cena 3D, geração conversacional 3D controlável de LLMs e estrutura de edição está aqui

2024-07-31

A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

O primeiro autor e o autor correspondente deste artigo são ambos do Laboratório VDIG (Visual Data Interpreting and Generation) do Instituto Wangxuan de Ciência da Computação, Universidade de Pequim. O primeiro autor é o estudante de doutorado Zhou Xiaoyu, e o autor correspondente é o supervisor de doutorado Wang Yongtao. . Nos últimos anos, o laboratório VDIG publicou uma série de resultados representativos em conferências importantes, como IJCV, CVPR, AAAI, ICCV, ICML, ECCV, etc., e ganhou prêmios de campeonato e vice-campeão em competições de peso pesado no mercado nacional. e campo de currículo estrangeiro por muitas vezes. Também ganhou prêmios de universidades conhecidas no país e no exterior. As instituições de pesquisa científica cooperam extensivamente.

Nos últimos anos, os métodos de conversão de texto em 3D para objetos únicos fizeram uma série de avanços, mas a geração de cenas 3D complexas de vários objetos controláveis e de alta qualidade a partir de texto ainda enfrenta enormes desafios. Os métodos anteriores apresentam grandes falhas na complexidade, qualidade geométrica, consistência de textura, interação multiobjeto, controlabilidade e editabilidade da cena gerada.

Recentemente, a equipe de pesquisa VDIG do Instituto Wangxuan de Ciência da Computação da Universidade de Pequim e seus colaboradores anunciaram os últimos resultados da pesquisa GALA3D. Para a geração de cenas 3D complexas multiobjetos, este trabalho propõe uma estrutura de geração controlável guiada por LLM para cenas 3D complexas, GALA3D, que pode gerar cenas 3D de alta qualidade e alta consistência com múltiplos objetos e relacionamentos interativos complexos, e suporta interação conversacional. Editor controlador, o artigo foi aceito pelo ICML 2024.

Artigo anteriorGALA3D: Rumo à geração de cenas complexas de texto para 3D por meio de splatting gaussiano generativo guiado por layout

Link do artigo: https://arxiv.org/pdf/2402.07207

Código do papel: https://github.com/VDIGPKU/GALA3D

Site do projeto: https://gala3d.github.io/

GALA3D é uma geração de cena complexa combinada de texto para 3D de alta qualidade e estrutura de edição controlável. O usuário insere um texto descritivo e o GALA3D pode gerar a cena tridimensional correspondente com vários objetos e relacionamentos interativos complexos em disparo zero. Ao garantir que a cena 3D gerada esteja altamente alinhada com o texto, o GALA3D demonstra seu excelente desempenho na geração de qualidade de cena, interação complexa de vários objetos e consistência da geometria da cena. Além disso, o GALA3D também suporta geração ponta a ponta amigável e edição controlável, permitindo que usuários comuns personalizem e editem facilmente cenas 3D durante conversas. Ao se comunicar com os usuários, o GALA3D pode realizar com precisão a edição conversacional e controlável de cenas 3D complexas e realizar várias necessidades de edição controláveis, como transformação de layout de cenas 3D complexas, incorporação de ativos digitais e mudanças de estilo de decoração com base no diálogo do usuário.

Introdução ao método

A arquitetura geral do GALA3D é mostrada na figura abaixo:

GALA3D utiliza grandes modelos de linguagem (LLMs) para gerar layouts iniciais e propõe uma representação gaussiana 3D generativa guiada por layout para construir cenas 3D complexas. O GALA3D Design otimiza a forma e a distribuição de gaussianas 3D por meio do controle de geometria adaptativa para gerar cenas 3D com geometria, textura, escala consistentes e interações precisas. Além disso, GALA3D também propõe um mecanismo de otimização combinado que combina anteriores de difusão condicional e modelos gráficos vicentinos para gerar colaborativamente cenas multiobjetos 3D com estilos consistentes, enquanto otimiza iterativamente os anteriores de layout iniciais extraídos de LLMs para obter cenas reais mais realistas e precisas. disposição do espaço. Extensos experimentos quantitativos e estudos qualitativos mostram que o GALA3D alcança resultados significativos na geração de texto para cenas 3D complexas, superando os métodos existentes de cenas 3D Vincent.

a. Layout da cena anterior baseado em LLMs

Modelos de linguagem grande demonstram excelentes capacidades de compreensão e raciocínio de linguagem natural. Este artigo explora ainda mais os recursos de raciocínio e geração de layout de modelos de linguagem grande LLMs em cenas complexas 3D. Como obter um layout relativamente razoável antes, sem projeto manual, pode ajudar a reduzir o custo de modelagem e geração de cena. Para este fim, usamos LLMs (como GPT-3.5) para extrair instâncias de entrada de texto e seus relacionamentos espaciais, e gerar anteriores de Layout correspondentes. Porém, existe uma certa lacuna entre o layout espacial 3D e o Layout anterior da cena interpretada pelos LLMs e a cena real, o que geralmente resulta na geração de objetos suspensos/passantes, combinações de objetos com proporções excessivamente diferentes, etc. Além disso, propomos um módulo de Refinamento de Layout para ajustar e otimizar o layout aproximado gerado acima por meio de Difusão anterior baseada em visão e Gaussiano 3D generativo guiado por Layout.

b、Refinamento de Layout

GALA3D usa o módulo de otimização de layout de layout baseado em difusão antes de otimizar o layout gerado anteriormente pelos LLMs acima. Especificamente, adicionamos a otimização de gradiente do layout de espaço gaussiano 3D guiado por Layout ao processo de geração 3D e ajustamos a posição espacial, o ângulo de rotação e a proporção de tamanho dos Layouts gerados pelo LLM por meio do ControlNet. A figura mostra a cena 3D e o Layout antes e. após a otimização. O Layout otimizado possui posição espacial mais precisa e escala proporcional, e torna a relação de interação de vários objetos na cena 3D mais razoável.

c. Representação gaussiana 3D generativa guiada por layout

Introduzimos restrições de layout 3D na representação gaussiana 3D pela primeira vez e propomos uma gaussiana 3D generativa guiada por layout para cenas 3D complexas. A representação gaussiana 3D guiada por layout contém vários objetos de instância extraídos semanticamente, onde o Layout anterior de cada objeto de instância pode ser parametrizado como:

Entre eles, N representa o número total de objetos de instância na cena. Especificamente, cada instância 3D Gaussiana é otimizada por meio do controle de geometria adaptativa para obter uma representação gaussiana 3D do objeto em nível de instância. Além disso, combinamos vários objetos Gaussianos em toda a cena de acordo com relações de posição relativa, geramos Gaussianos 3D globais guiados pelo layout e renderizamos a cena inteira por meio de Gaussian Splatting global.

d. Controle de geometria adaptativa

A fim de controlar melhor a distribuição espacial e a forma geométrica das Gaussianas 3D durante o processo de geração, propomos um método de controle de geometria adaptativo para Gaussianas 3D generativas. Primeiro, dado um conjunto de Gaussianos iniciais, a fim de restringir os Gaussianos 3D dentro da faixa de Layout, o GALA3D usa um conjunto de funções de distribuição de densidade para restringir a posição espacial do elipsóide gaussiano. Em seguida, amostramos Gaussianos próximos à superfície do Layout para ajustar a função de distribuição. Posteriormente, propomos o uso da regularização de forma para controlar a geometria das Gaussianas 3D. Durante o processo de geração 3D, o controle de geometria adaptativo otimiza continuamente a distribuição e a geometria das gaussianas para gerar multiobjetos e cenas 3D com mais detalhes de textura e geometria padronizada. O controle de geometria adaptativo também garante Gaussianos 3D generativos guiados por layout com maior controlabilidade e consistência.

Resultados experimentais

Comparado com os métodos existentes de geração de texto para 3D, o GALA3D apresenta melhor qualidade e consistência de geração de cena 3D. Os resultados experimentais quantitativos são mostrados na tabela a seguir:

Também conduzimos uma pesquisa extensa e eficaz com usuários, convidando 125 participantes (39,2% dos quais eram especialistas e profissionais em áreas afins) para realizar uma avaliação multiângulo dos cenários de geração deste método e dos métodos existentes. seguinte tabela:

Os resultados experimentais mostram que o GALA3D supera os métodos existentes em indicadores de avaliação multidimensionais, como qualidade de cena, fidelidade geométrica, consistência de texto e consistência de cena, e atinge qualidade de geração ideal.

Conforme mostrado nos resultados experimentais qualitativos abaixo, o GALA3D pode gerar cenas 3D complexas de combinação de vários objetos de maneira zero-shot com boa consistência:

A figura abaixo mostra que o GALA3D pode suportar geração e edição fáceis de usar, conversacionais e controláveis:

Para obter mais detalhes da pesquisa, consulte o artigo original.

notícias

Combinação complexa de geração de cena 3D, geração conversacional 3D controlável de LLMs e estrutura de edição está aqui

Introdução

minhas informações de contato