2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];
अस्य पत्रस्य लेखकाः सर्वे सिङ्गापुरस्य नान्याङ्ग-प्रौद्योगिकीविश्वविद्यालयस्य एस-लैब-दलस्य सन्ति, येषु पोस्टडॉक् हू ताओ, डॉक्टरेट्-छात्रः हाङ्ग-फाङ्गझौ, तथा च स्कूल् आफ् कम्प्यूटिङ्ग् एण्ड् डाटा (MIT Technology Review Asia-Pacific Innovator under ३५ वर्षीयः)। अन्तिमेषु वर्षेषु एस-लैब् इत्यनेन CVPR, ICCV, ECCV, NeurIPS, ICLR इत्यादिषु शीर्षसम्मेलनेषु CV/CG/AIGC-सम्बद्धानि अनेकानि शोधकार्यं प्रकाशितानि, तथा च गृहे सुप्रसिद्धविश्वविद्यालयैः वैज्ञानिकसंशोधनसंस्थाभिः च सह व्यापकरूपेण सहकार्यं कृतवान् विदेशेषु च।
त्रिविम-अङ्कीय-मानव-जननं सम्पादनं च अङ्कीय-युग्मेषु, मेटावर्स्-क्रीडासु, होलोग्राफिक-सञ्चार-आदिषु क्षेत्रेषु व्यापकरूपेण उपयुज्यते । पारम्परिकं त्रि-आयामी डिजिटल-मानव-उत्पादनं प्रायः समय-ग्राहकं श्रम-प्रधानं च भवति, अन्तिमेषु वर्षेषु शोधकर्तारः त्रि-आयामी जननात्मक-प्रतिद्वन्द्वी-जालस्य (3D GAN) आधारेण 2D-प्रतिमाभ्यः त्रि-आयामी-अङ्कीय-मानवानां शिक्षणं प्रस्तावितवन्तः, येन... अङ्कीयमानवनिर्माणस्य दक्षता।
एताः पद्धतयः प्रायः एक-आयामी गुप्त-सदिश-अन्तरिक्षे अङ्कीय-मानवानां प्रतिरूपणं कुर्वन्ति, एक-आयामी-गुप्त-सदिशः च मानवशरीरस्य ज्यामितीय-संरचनायाः अर्थ-सूचनायाः च प्रतिनिधित्वं कर्तुं न शक्नुवन्ति, अतः तेषां जनन-गुणवत्ता सम्पादन-क्षमता च सीमिताः भवन्ति
एतस्याः समस्यायाः समाधानार्थं .सिङ्गापुरस्य नान्याङ्ग-प्रौद्योगिकीविश्वविद्यालयस्य एस-लैब-दलेन संरचित-सुप्त-प्रसार-प्रतिरूपस्य आधारेण नूतनं त्रि-आयामी-डिजिटल-मानव-जनन-प्रतिमानं StructLDM प्रस्तावितं. अस्मिन् प्रतिमाने त्रयः प्रमुखाः डिजाइनाः सन्ति: संरचितं उच्च-आयामी मानवशरीर-प्रतिनिधित्वं, संरचितं स्वचालित-डिकोडरं, संरचितं गुप्त-अन्तरिक्ष-प्रसार-प्रतिरूपं च
StructLDM एकः फीडफोरवर्ड 3D जनरेटिव मॉडलः अस्ति यः चित्रेभ्यः विडियोभ्यः च शिक्षते, विद्यमानस्य 3D GAN पद्धतीनां तुलने, एतत् सुसंगतदृष्टिकोणैः सह उच्चगुणवत्तायुक्तं, विविधं, सुसंगतं च 3D डिजिटलजनं जनयितुं शक्नोति, तथा च Controllable जनरेशनस्य सम्पादनकार्यस्य च विभिन्नस्तरस्य समर्थनं करोति, यथा आंशिकवस्त्रसम्पादनं, त्रिविम-आभासी-फिटिंग् इत्यादीनि अंश-जागरूक-सम्पादन-कार्यत्वेन, विशिष्टवस्त्र-प्रकारेषु अथवा मास्किंग्-स्थितौ न निर्भराः, उच्च-प्रयोज्यता च सन्ति
पत्रस्य शीर्षकम्: StructLDM: 3D मानवजननस्य कृते संरचितः अव्यक्तप्रसारः
पेपर पता: https://arxiv.org/pdf/2404.01241
परियोजनायाः मुखपृष्ठम् : https://taohuumd.github.io/projects/StructLDM
प्रयोगशालायाः मुखपृष्ठम् : https://www.ntu.edu.sg/s-lab
विधि अवलोकन
StructLDM प्रशिक्षणप्रक्रियायां द्वौ चरणौ भवतः : १.
संरचित स्वचालित डिकोडिंग: मानव-मुद्रा-सूचना SMPL तथा कैमरा-मापदण्डान् दृष्ट्वा, स्वचालित-डिकोडरः प्रशिक्षण-समूहे प्रत्येकस्य व्यक्तिगत-पात्रस्य कृते संरचितं UV-गुप्तं फिट् करोति अस्याः प्रक्रियायाः कठिनता अस्ति यत् भिन्न-भिन्न-मुद्राभिः, भिन्न-भिन्न-कैमरा-कोणैः, भिन्न-भिन्न-वस्त्रैः च सह मानव-प्रतिमाः एकीकृत-यूवी-गुप्त-रूपेण कथं समायोजयितुं शक्यन्ते, तदर्थं, StructLDM शरीरस्य प्रत्येकस्य भागस्य पृथक् पृथक्, वैश्विकशैल्याः च प्रतिरूपणं कर्तुं संरचितं स्थानीयं NeRF प्रस्तावयति मिश्रकः शरीरस्य अङ्गानाम् एकत्र विलीनीकरणं कृत्वा समग्रं चरित्ररूपं ज्ञायते । तदतिरिक्तं मुद्रा-अनुमान-दोषस्य समस्यायाः समाधानार्थं स्वचालित-डिकोडर-प्रशिक्षण-प्रक्रियायां प्रतिद्वन्द्वी-शिक्षणं प्रवर्तते । अस्मिन् स्तरे स्वचालितः डिकोडरः प्रशिक्षणसमूहे प्रत्येकं व्यक्तिगतं पात्रं पराबैंगनीगुप्तस्य श्रृङ्खलायां परिवर्तयति ।
संरचनात्मक प्रसार प्रतिरूप: एतत् प्रसारप्रतिरूपं मानवशरीरस्य त्रिविमपूर्वं ज्ञातुं प्रथमचरणस्य प्राप्तं पराबैंगनीगुप्तस्थानं शिक्षते।
अनुमानपदे StructLDM यादृच्छिकरूपेण त्रिविमीयं डिजिटलव्यक्तिं जनयितुं शक्नोति: शोरस्य यादृच्छिकरूपेण नमूनाकरणं भवति तथा च UV गुप्तं प्राप्तुं शोरविहीनं भवति, यत् स्वचालितविकोडकेन मानवशरीरस्य प्रतिबिम्बे प्रतिपादयितुं शक्यते
प्रयोगात्मकाः परिणामाः
अस्मिन् अध्ययने 4 आँकडा-समूहेषु प्रयोगात्मकं मूल्याङ्कनं कृतम्: एकल-दृश्य-प्रतिबिम्ब-आँकडा-समूहः DeepFashion [Liu et al 2021], तथा आभासी 3D मानवशरीरस्य आँकडा सेट् RenderPeople.
३.१ गुणात्मकपरिणामानां तुलना
StructLDM इत्यस्य तुलना UBCFashion डाटा सेट् इत्यत्र विद्यमानैः 3D GAN पद्धतैः सह कृता, यथा EVA3D, AG3D तथा StyleSDF च । विद्यमानविधिभिः सह तुलने StructLDM उच्चगुणवत्तायुक्ताः, विविधाः, सुसंगताः च 3D डिजिटलजनाः सुसंगतदृष्टिकोणैः सह जनयितुं शक्नोति, यथा भिन्नत्वक्वर्णाः, भिन्नाः केशविन्यासाः, वस्त्रविवरणं च (यथा उच्चा एड़िः)
StructLDM इत्यस्य तुलना विद्यमानेन 3D GAN-विधिभिः (यथा EG3D, StyleSDF, EVA3D च) तथा च RenderPeople-दत्तांशसमूहे प्रसार-प्रतिरूपेण PrimDiff इत्यनेन सह क्रियते । विद्यमानविधिभिः सह तुलने StructLDM भिन्न-भिन्न-मुद्राभिः, रूपैः च उच्च-गुणवत्तायुक्ताः त्रि-आयामी-अङ्कीय-जनाः जनयितुं शक्नोति, उच्च-गुणवत्तायुक्ताः चेहरे-विवरणं च जनयितुं शक्नोति
३.२ परिमाणात्मकपरिणामानां तुलना
शोधकर्तारः UBCFashion, RenderPeople, THUman 2.0 इत्येतयोः विषये ज्ञातविधिभिः सह परिमाणात्मकपरिणामानां तुलनां कृतवन्तः येन ते FID इत्यस्य गणनां कर्तुं प्रत्येकस्मिन् आँकडा-समूहे 50,000 चित्राणि यादृच्छिकरूपेण चयनं कृतवन्तः। तदतिरिक्तं उपयोक्तृ-अध्ययनेन ज्ञायते यत् प्रायः ७३% उपयोक्तारः मन्यन्ते यत् StructLDM द्वारा उत्पन्नाः परिणामाः मुखविवरणस्य, सम्पूर्णशरीरस्य चित्रस्य गुणवत्तायाः च दृष्ट्या AG3D इत्यस्मात् अधिकं लाभप्रदाः सन्ति
३.३ अनुप्रयोगः
३.३.१ नियन्त्रणीयजननम्
StructLDM नियन्त्रणीय-जननस्य समर्थनं करोति, यथा कॅमेरा-दृष्टिकोणं, मुद्रा, शरीरस्य आकार-नियन्त्रणं, त्रि-आयामी आभासी-फिटिंग् च, तथा च द्वि-आयामी गुप्त-अन्तरिक्षे प्रक्षेपं कर्तुं शक्नोति
३.३.२ संयुक्तजननम्
StructLDM संयुक्तजननस्य समर्थनं करोति, यथा नूतनं डिजिटलव्यक्तिं जनयितुं भागानां संयोजनं 12345, तथा च भिन्नसंपादनकार्यं समर्थयति, यथा परिचयसम्पादनं, आस्तीनानि (4), स्कर्ट्स् (5), त्रि-आयामी वर्चुअल् फिटिंग् (6) तथा च पूर्णशरीरशैलीकृतम् (७) ।
३.३.३ अन्तर्जालचित्रं सम्पादयतु
StructLDM अन्तर्जालस्य चित्राणि सम्पादयितुं शक्नोति प्रथमं तत्सम्बद्धं UV latent Inversion प्रौद्योगिक्याः माध्यमेन प्राप्तं भवति, ततः उत्पन्नं डिजिटलजनं UV latent सम्पादनस्य माध्यमेन सम्पादयितुं शक्यते, यथा जूता, टॉप, पैण्ट् इत्यादीनां सम्पादनं
३.४ विच्छेदनप्रयोगः
३.४.१ गुप्ताकाशप्रसारः
StructLDM द्वारा प्रस्तावितं गुप्तस्थानप्रसारप्रतिरूपं भिन्नसम्पादनकार्यस्य कृते उपयोक्तुं शक्यते, यथा संयोजनात्मकजननम् । अधोलिखितं चित्रं उत्पन्नपरिणामेषु प्रसारणमाडलमापदण्डानां, यथा प्रसारपदानां संख्या, शोरपरिमाणं च, प्रभावं अन्वेषयति StructLDM प्रसारप्रतिरूपमापदण्डान् नियन्त्र्य जननप्रदर्शने सुधारं करोति ।
३.४.२ एकविमीयं द्विविधं च मानवशरीरप्रतिपादनम्
शोधकर्तारः एक-आयामी-द्वि-आयामी-गुप्त-मानवशरीर-प्रतिनिधित्वस्य प्रभावस्य तुलनां कृतवन्तः तथा च ज्ञातवन्तः यत् द्वि-आयामी-गुप्तः उच्च-आवृत्ति-विवरणानि (यथा वस्त्र-बनावटाः, मुख-अभिव्यक्तयः च) जनयितुं शक्नोति, तथा च प्रतिद्वन्द्वी-शिक्षणं योजयित्वा एकत्रैव चित्रस्य गुणवत्तायां निष्ठायां च सुधारं कर्तुं शक्नोति .
३.४.३ संरचना-जागरूकसामान्यीकरणम्
प्रसारप्रतिरूपस्य शिक्षणदक्षतां सुधारयितुम् StructLDM संरचना-जागरूकं सुप्तसामान्यीकरणप्रौद्योगिकी (संरचना-संरेखितसामान्यीकरणं) प्रस्तावयति, अर्थात् प्रत्येकं सुप्तपिक्सेलं पिक्सेलद्वारा सामान्यीकरणं करोति अनुसन्धानेन ज्ञातं यत् सामान्यीकृतं गुप्तवितरणं गाउसीयवितरणस्य समीपे एव भवति, यत् प्रसारप्रतिरूपस्य शिक्षणाय अधिकं अनुकूलं भवति