Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];
Os autores deste artigo são todos da equipe S-Lab da Universidade Tecnológica de Nanyang em Cingapura, incluindo o pós-doutorado Hu Tao, o estudante de doutorado Hong Fangzhou e o professor Liu Ziwei da Escola de Computação e Dados (MIT Technology Review Asia-Pacific Innovator sob 35 anos). Nos últimos anos, o S-Lab publicou muitos trabalhos de pesquisa relacionados a CV/CG/AIGC em conferências importantes, como CVPR, ICCV, ECCV, NeurIPS e ICLR, e cooperou extensivamente com universidades e instituições de pesquisa científica bem conhecidas em casa. e no exterior.
A geração e edição humana digital tridimensional são amplamente utilizadas em gêmeos digitais, metaversos, jogos, comunicações holográficas e outros campos. A produção humana digital tridimensional tradicional é muitas vezes demorada e trabalhosa. Nos últimos anos, os pesquisadores propuseram aprender humanos digitais tridimensionais a partir de imagens 2D baseadas em redes adversárias generativas tridimensionais (3D GAN), o que melhora muito a capacidade. eficiência da produção humana digital.
Esses métodos geralmente modelam humanos digitais em espaço vetorial latente unidimensional, e vetores latentes unidimensionais não podem representar a estrutura geométrica e a informação semântica do corpo humano, limitando assim sua qualidade de geração e capacidade de edição.
Para resolver este problema,A equipe S-Lab da Universidade Tecnológica de Nanyang, em Cingapura, propôs um novo paradigma tridimensional de geração humana digital, StructLDM, baseado no Modelo Estruturado de Difusão Latente.. Este paradigma inclui três designs principais: representação estruturada do corpo humano de alta dimensão, decodificador automático estruturado e modelo estruturado de difusão de espaço latente.
StructLDM é um modelo generativo 3D feedforward que aprende a partir de imagens e vídeos. Em comparação com os métodos GAN 3D existentes, ele pode gerar pessoas digitais 3D diversificadas e consistentes de alta qualidade com perspectivas consistentes e suporta diferentes níveis de geração controlável e funções de edição, como. como edição parcial de roupas, montagem virtual tridimensional e outras tarefas de edição com reconhecimento parcial, não dependem de tipos específicos de roupas ou condições de máscara e têm alta aplicabilidade.
Título do artigo: StructLDM: Difusão Latente Estruturada para Geração Humana 3D
Endereço do artigo: https://arxiv.org/pdf/2404.01241
Página inicial do projeto: https://taohuumd.github.io/projects/StructLDM
Página inicial do laboratório: https://www.ntu.edu.sg/s-lab
Visão geral do método
O processo de treinamento do StructLDM consiste em duas etapas:
Decodificação automática estruturada: Dadas as informações de pose humana SMPL e os parâmetros da câmera, o decodificador automático ajusta um UV latente estruturado para cada caractere individual no conjunto de treinamento. A dificuldade desse processo é como encaixar imagens humanas com diferentes posturas, diferentes ângulos de câmera e diferentes roupas em uma latente UV unificada. Para esse fim, o StructLDM propõe NeRF local estruturado para modelar cada parte do corpo separadamente e por meio de um estilo global. O liquidificador mescla partes do corpo e aprende a aparência geral do personagem. Além disso, para resolver o problema do erro de estimativa de pose, o aprendizado adversário é introduzido no processo de treinamento do decodificador automático. Nesta fase, o decodificador automático converte cada caractere individual do conjunto de treinamento em uma série de UV latentes.
modelo de difusão estrutural: Este modelo de difusão aprende o espaço latente UV obtido no primeiro estágio para aprender o anterior tridimensional do corpo humano.
No estágio de inferência, o StructLDM pode gerar aleatoriamente uma pessoa digital tridimensional: o ruído é amostrado aleatoriamente e eliminado para obter um UV latente, que pode ser transformado em uma imagem do corpo humano por um decodificador automático.
Resultados experimentais
Este estudo conduziu avaliações experimentais em 4 conjuntos de dados: conjunto de dados de imagem de visualização única DeepFashion [Liu et al. 2016], conjunto de dados de vídeo UBCFashion [Zablotskaia et al. . 2021], e conjunto de dados virtuais 3D do corpo humano RenderPeople.
3.1 Comparação de resultados qualitativos
StructLDM foi comparado com métodos GAN 3D existentes no conjunto de dados UBCFashion, como EVA3D, AG3D e StyleSDF. Em comparação com os métodos existentes, o StructLDM pode gerar pessoas digitais 3D diversificadas, consistentes e de alta qualidade com perspectivas consistentes, como diferentes cores de pele, diferentes estilos de cabelo e detalhes de roupas (como salto alto).
StructLDM é comparado com métodos GAN 3D existentes (como EG3D, StyleSDF e EVA3D) e o modelo de difusão PrimDiff no conjunto de dados RenderPeople. Comparado com os métodos existentes, o StructLDM pode gerar pessoas digitais tridimensionais de alta qualidade com diferentes posturas e aparências e gerar detalhes faciais de alta qualidade.
3.2 Comparação de resultados quantitativos
Os pesquisadores compararam os resultados quantitativos com métodos conhecidos em UBCFashion, RenderPeople e THUman 2.0. Eles selecionaram aleatoriamente 50.000 imagens em cada conjunto de dados para calcular o StructLDM que pode reduzir significativamente o FID. Além disso, o estudo do usuário mostra que cerca de 73% dos usuários acreditam que os resultados gerados pelo StructLDM são mais vantajosos que o AG3D em termos de detalhes faciais e qualidade de imagem de corpo inteiro.
3.3 Aplicação
3.3.1 Geração controlável
StructLDM suporta geração controlável, como perspectiva de câmera, postura, controle de formato corporal e ajuste virtual tridimensional, e pode interpolar em espaço latente bidimensional.
3.3.2 Geração combinada
StructLDM suporta geração combinada, como combinar peças ①②③④⑤ para gerar uma nova pessoa digital, e suporta diferentes tarefas de edição, como edição de identidade, mangas (4), saias (5), encaixe virtual tridimensional (6) e corpo inteiro estilizado (7).
3.3.3 Editar imagens da Internet
StructLDM pode editar imagens da Internet. Primeiro, o UV latente correspondente é obtido por meio da tecnologia de inversão e, em seguida, as pessoas digitais geradas podem ser editadas por meio de edição de UV latente, como edição de sapatos, tops, calças, etc.
3.4 Experimento de ablação
3.4.1 Difusão em espaço oculto
O modelo de difusão em espaço latente proposto pelo StructLDM pode ser utilizado para diversas tarefas de edição, como geração combinatória. A figura abaixo explora o impacto dos parâmetros do modelo de difusão, como o número de etapas de difusão e a escala de ruído, nos resultados gerados. StructLDM melhora o desempenho da geração controlando os parâmetros do modelo de difusão.
3.4.2 Representação unidimensional e bidimensional do corpo humano
Os pesquisadores compararam os efeitos da representação latente unidimensional e bidimensional do corpo humano e descobriram que a latente bidimensional pode gerar detalhes de alta frequência (como texturas de roupas e expressões faciais), e adicionar aprendizado adversário pode melhorar simultaneamente a qualidade e a fidelidade da imagem .
3.4.3 Normalização com reconhecimento de estrutura
A fim de melhorar a eficiência de aprendizagem do modelo de difusão, o StructLDM propõe uma tecnologia de normalização latente com reconhecimento de estrutura (normalização alinhada à estrutura), ou seja, normalizar cada pixel latente por pixel. A pesquisa descobriu que a distribuição latente normalizada está mais próxima da distribuição gaussiana, o que é mais propício ao aprendizado do modelo de difusão.