nuntium

ECCV 2024 | . Nanyang Polytechnici novum paradigma 3D generationis humanae digitalis: structural diffusionis exemplar

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter senties nos conferendi vel nuntiandi contactum. Submissio inscriptio: [email protected];

Auctores chartae huius omnes ex S-Lab manipulus Nanyang technologicus Universitatis in Singapore, inter postdoc Hu Tao, discipulus doctoralis Hong Fangzhou, et professor Liu Ziwei scholae computationis et Datae (Mit Technology Review Asia-Pacific Innovator sub XXXV annos natus). Nuper S-Lab multa CV/CG/AIGC inquisitionis relatas opera in colloquiis summorum edidit ut CVPR, ICCV, ECCV, NeurIPS, et ICLR, et late cooperavit apud notissimas universitates et institutiones scientificas inquisitionis domi. forisque.

Tres dimensiva digitalis generationis humanae et edendi late utuntur in geminis digitalibus, metaversis, ludis, communicationibus holographicis aliisque agris. Traditional tres dimensivas digitales productio humana saepe consumit et labor intensiva est. His annis investigatores proposuerunt eruditionem tres digitales dimensivas homines ex imaginibus 2D tribus dimensivis generativis retis adversariis innixis (3D GAN), quae valde meliores sunt. efficientia digitalis productionis humanae.

Saepe modi digitales homines effingunt in spatio vectoris unius dimensionis latentis, et vector latens unus dimensiva structuram geometricam et semanticam humani corporis informationem repraesentare non potest, ita limitando qualitatem generationis et facultatem edendi.

Ut hanc quaestionem solvamus;Turma S-Lab ab Universitate technologica Nanyang in Singapore novum digitales generationis humanae dimensiva paradigma StructLDM proposuit secundum exemplar diffusionis Latentis exstructa.. Hoc paradigma tria consilia clavis comprehendit: summus dimensivus corporis humani repraesentatio structa, decoder latae structurae, ac latens spatii diffusionis exemplar exstructa.

StructLDM est ante 3D exemplar generativum quod ab imaginibus et videos discit. Comparatus cum modis 3D GAN existentibus, generare potest altum qualitatem, diversam et constantem 3D digitales cum congruentibus prospectibus, et sustinet gradus diversos generationis moderatricis et functionum edendi, tales. sicut indumentum partiale edendi, tres dimensiones virtualis decorum, et alia negotia edendi parte conscia, non dependent ab speciebus indumentis speciebus vel conditionibus larvatis, et altam applicabilitatem habent.



Paper title: StructLDM: Latens Diffusio Structurae pro 3D Generatione Humana

Charta inscriptio: https://arxiv.org/pdf/2404.01241

Project homepage: https://taohuumd.github.io/projects/StructLDM

Laboratorium protocollum: https://www.ntu.edu.sg/s-lab



Methodus overview



Processus paedagogicus StructLDM duobus gradibus consistit:

Exstructus automatic decoding: Datae informationis humanae SMPL et parametri camerae, decoder latae sententiae aptat structuram UV latentem pro singulis characteribus in institutione statuto. Difficultas huius processus consistit in quomodo imagines humanas diversis positionibus, diversis angulis camerae, et diversis vestimentis in una UV latente aptare proponat styles to The blender merges body parts together and learns the overall character appearance. Praeterea ut problema aestimationem erroris solvendam, doctrina adversaria in processu disciplinae decoder automatico introducitur. Hac in scaena, decoder automatic singulas mores convertit in disciplina posita in serie UV latentium.

diffusio exemplar fabricaHoc exemplar discit diffusio UV latentis spatii in primo gradu ad discendum tres dimensivas priores corporis humani.

In scena consequenti, StructLDM passim generare potest tres dimensivas digitales personas: strepitus passim gustatus et deprehensus est ad latentem UV obtinendam, quae reddi potest in imaginem corporis humanam ab ipso decoder.

Eventus experimentalis

Hoc studium experimentalis aestimationes perduxit in 4 datasets: the single-view image dataset DeepFashion [Liu et al al.

3.1 Comparatio eventi qualitivi

StructLDM comparabatur cum 3D GAN modis existentibus in UBCFashion datarum copiarum, ut EVA3D, AG3D et StyleSDF. Comparatus cum methodis existentibus, StructLDM generare potest summus qualitatem, diversam, et 3D digitales consistentes cum perspectivis consistentibus, sicut colores pellis diversi, crinibus diversis, et singula indumenta (qualia sunt alta calcibus).



StructLDM comparatur cum modis 3D GAN existentibus (ut EG3D, StyleSDF, et EVA3D) et exemplar diffusionis PrimDiff in RenderPeople dataset. Cum exsistentibus modis comparatus, StructLDM summus qualitas tres digitales dimensivas homines cum diversis positionibus et apparentiis generare potest, ac singularia faciei qualitatem generare.



3.2 Comparatio quantitatis eventuum

Investigatores comparaverunt quantitatis proventus notis rationibus in UBCFashion, RenderPeople, et THUman 2.0. Illi passim 50.000 imagines in singulis datae notis ad FID calculandum appositis comparaverunt. Praeter, Usor Study ostendit circa 73% usorum utentium credere eventus quos a StructLDM generatos esse utiliores quam AG3D secundum singularum facialium et qualitatum imaginis integri corporis.



3.3 Application

3.3.1 Controllable generation

StructLDM generationem moderabilem sustinet, ut prospectum camerae, corporis habitudinem, figuram corporis moderantem, et tres dimensiones virtualis convenientes, et in spatio latentium duo dimensiva interponere possunt.



3.3.2 Generatio composita

StructLDM generationem compositam sustinet, ut partes copulantes ad novam personam digitalem generandam, ac diversa opera edendi sustinet, ut identitas edens, manicas (4), fimbrias (5), tres dimensivas virtualis conveniens (6) et corpus plenum stylisatum. (7).



3.3.3 Edit Internet pictures

StructLDM imagines interretiales recensere potest. Primum, latentis UV respondentis per technologiam inversionem obtinetur, et postea generatus digitales homines per UV latentes edendas emendare possunt, ut calceos, capita, braccas, etc.



3.4 ablatio experimentum

3.4.1 Spatium absconditum diffusionis

Latens spatium diffusionis exemplar a StructLDM propositum adhiberi potest pro diversis officiis edendis, sicut generationis combinatorialis. Figura inferius explorat ictum diffusionis parametri exemplar, sicut numerus gradus diffusionis et soni scalae in generato consequitur. StructLDM generationi perficiendi melioris exemplum parametri diffusionis moderans.



3.4.2 Unus dimensivus et duo dimensiva corporis humani repraesentatio

Investigatores comparaverunt effecta unius dimensionis et duo dimensiva corporis humani latentis repraesentationis et invenerunt duos dimensiva latentes posse generare singularia frequentia (ut vestis texturas et vultus vultus), et addendo doctrinam adversariam simul emendare posse imaginem qualitatem et fidelitatem. .



3.4.3 Structura-conscius ordinationem

Ad meliorem discendi vim diffusionis exemplar, StructLDM proponit technologiam technologiam-aligned ordinationem (ordinationem structure-aligneditatem), quae singula pixel latentia normalizare est per pixel. Investigatio deprehendit distributionem latentem normalizatam propius esse distributioni Gaussianae, quae magis ad exemplar diffusionis cognoscendae conducit.