समाचारं

जटिलसंयोजनं 3D दृश्यजननम्, LLMs संभाषणात्मकं 3D नियन्त्रणीयं जननं सम्पादनरूपरेखा च अत्र अस्ति

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

अस्य पत्रस्य प्रथमः लेखकः तदनुरूपलेखकः च पेकिङ्गविश्वविद्यालयस्य वाङ्गक्सुआन् कम्प्यूटरविज्ञानसंस्थायाः VDIG (Visual Data Interpreting and Generation) प्रयोगशालायाः प्रथमलेखकः डॉक्टरेट्-छात्रः झोउ जिओयुः अस्ति, तत्सम्बद्धः लेखकः च डॉक्टरेट्-परिवेक्षकः वाङ्ग योङ्गताओ अस्ति . अन्तिमेषु वर्षेषु वीडीआईजी प्रयोगशालायाः IJCV, CVPR, AAAI, ICCV, ICML, ECCV इत्यादिषु शीर्षसम्मेलनेषु प्रतिनिधिपरिणामानां संख्या प्रकाशिता अस्ति, तथा च घरेलुक्षेत्रे भारीभारप्रतियोगितासु चॅम्पियनशिप-उपविजेतापुरस्काराः प्राप्ताः तथा विदेशीय सीवी क्षेत्रं बहुवारं देशे विदेशे च सुप्रसिद्धविश्वविद्यालयेभ्यः पुरस्कारं प्राप्तवान्, वैज्ञानिकसंशोधनसंस्थाः व्यापकरूपेण सहकार्यं कुर्वन्ति।

अन्तिमेषु वर्षेषु एकवस्तूनाम् कृते Text-to-3D-पद्धतिभिः सफलतानां श्रृङ्खला कृता, परन्तु पाठात् नियन्त्रणीयानि, उच्चगुणवत्तायुक्तानि जटिलबहुवस्तु-3D-दृश्यानि जनयितुं अद्यापि महतीः आव्हानाः सन्ति पूर्वविधिषु उत्पन्नदृश्यस्य जटिलता, ज्यामितीयगुणवत्ता, बनावटस्य स्थिरता, बहुवस्तुपरस्परक्रिया, नियन्त्रणक्षमता, सम्पादनक्षमता च प्रमुखदोषाः सन्ति

अद्यैव पेकिङ्ग् विश्वविद्यालयस्य वाङ्गक्सुआन् इन्स्टिट्यूट् आफ् कम्प्यूटर साइंस इत्यस्य VDIG शोधदलेन तस्य सहकारिभिः च नवीनतमं शोधपरिणामं GALA3D इति घोषितम्। बहु-वस्तु-जटिल-3D-दृश्यानां जननार्थं, एतत् कार्यं जटिल-3D-दृश्यानां कृते LLM-निर्देशितं नियन्त्रणीय-जनन-रूपरेखां प्रस्तावयति, GALA3D, यत् बहु-वस्तुभिः सह जटिल-अन्तर्क्रियाशील-सम्बन्धैः सह उच्च-गुणवत्तायुक्तानि, उच्च-सङ्गति-3D-दृश्यानि जनयितुं शक्नोति, तथा च समर्थनं करोति conversational interaction controlling editor, पत्रं ICML 2024 द्वारा स्वीकृतम् अस्ति।



论文标题:GALA3D: लेआउट-निर्देशित जनरेटिव गाउसीयन स्प्लैटिंग् मार्गेण पाठ-तः-3D जटिल-दृश्य-जनरेशनस्य प्रति

पेपर लिङ्कः https://arxiv.org/pdf/2402.07207

पेपर कोडः https://github.com/VDIGPKU/GALA3D

परियोजनायाः जालपुटम् : https://gala3d.github.io/



GALA3D उच्चगुणवत्तायुक्तं Text-to-3D जटिलं संयुक्तदृश्यजननं नियन्त्रणीयं सम्पादनरूपरेखा च अस्ति । उपयोक्ता वर्णनपाठं निवेशयति, तथा च GALA3D शून्य-शॉट् मध्ये बहुभिः वस्तुभिः जटिलैः अन्तरक्रियाशीलसम्बन्धैः सह तत्सम्बद्धं त्रिविमदृश्यं जनयितुं शक्नोति । उत्पन्नं 3D दृश्यं पाठेन सह अत्यन्तं संरेखितं भवति इति सुनिश्चितं कुर्वन् GALA3D दृश्यगुणवत्ता, बहुवस्तूनाम् जटिलपरस्परक्रिया, दृश्यज्यामितीयसङ्गतिः च जनयितुं स्वस्य उत्तमं प्रदर्शनं प्रदर्शयति तदतिरिक्तं GALA3D उपयोक्तृ-अनुकूलं अन्ततः अन्तः जननं नियन्त्रणीयं सम्पादनं च समर्थयति, येन साधारणाः उपयोक्तारः वार्तालाप-वार्तालापस्य समये 3D-दृश्यानि सहजतया अनुकूलितुं सम्पादयितुं च शक्नुवन्ति उपयोक्तृभिः सह संवादं कुर्वन् GALA3D जटिल 3D दृश्यानां संभाषणात्मकं नियन्त्रणीयं च सम्पादनं सटीकरूपेण साकारं कर्तुं शक्नोति, तथा च जटिल 3D दृश्यानां लेआउटरूपान्तरणं, डिजिटलसम्पत्त्याः एम्बेडिंग्, उपयोक्तृसंवादस्य आधारेण सजावटशैलीपरिवर्तनं च इत्यादीनां विविधानां नियन्त्रणीयानां सम्पादनानाम् आवश्यकतानां साक्षात्कारं कर्तुं शक्नोति

विधि परिचय

GALA3D इत्यस्य समग्रं वास्तुकला अधोलिखिते चित्रे दर्शितम् अस्ति ।



GALA3D प्रारम्भिकविन्यासानां जननार्थं बृहत्भाषाप्रतिमानानाम् (LLMs) उपयोगं करोति तथा च जटिल 3D दृश्यानां निर्माणार्थं लेआउट्-निर्देशितं जननात्मकं 3D Gaussian प्रतिनिधित्वं प्रस्तावयति GALA3D Design अनुकूलज्यामितिनियन्त्रणद्वारा 3D Gaussians इत्यस्य आकारं वितरणं च अनुकूलितं करोति यत् सुसंगतज्यामितिः, बनावटः, स्केलः, सटीकपरस्परक्रियाः च सह 3D दृश्यानि जनयति तदतिरिक्तं, GALA3D एकं संयुक्तं अनुकूलनतन्त्रमपि प्रस्तावयति यत् सशर्तप्रसारपूर्वं विन्सेन्टियनग्राफप्रतिरूपं च संयोजयति यत् सहकारिरूपेण सुसंगतशैल्याः सह 3D बहु-वस्तुदृश्यानि जनयति, यदा तु LLMs तः निष्कासितानां प्रारम्भिकविन्यासप्राइयरानाम् पुनरावर्तनीयरूपेण अनुकूलनं करोति यत् अधिकं यथार्थं सटीकं च The real scene प्राप्तुं शक्नोति अन्तरिक्षविन्यासः । व्यापकाः मात्रात्मकाः प्रयोगाः गुणात्मकाः अध्ययनाः च दर्शयन्ति यत् GALA3D पाठात् जटिल-3D-दृश्यानि जनयितुं महत्त्वपूर्णं परिणामं प्राप्नोति, विद्यमान-विन्सेन्ट्-3D-दृश्य-विधिभ्यः अतिक्रम्य

क. एलएलएम आधारितं दृश्यविन्यासः पूर्वम्

बृहत् भाषाप्रतिमानं उत्तमं प्राकृतिकभाषाबोधं तर्कक्षमतां च प्रदर्शयति अयं लेखः 3D जटिलदृश्येषु LLMs बृहत्भाषाप्रतिमानानाम् तर्कस्य विन्यासजननक्षमतां च अधिकं अन्वेषयति। मैनुअल् डिजाइनं विना पूर्वं तुल्यकालिकं उचितं विन्यासं कथं प्राप्तुं शक्यते इति दृश्यप्रतिरूपणस्य, जननस्य च व्ययस्य न्यूनीकरणे सहायकं भवितुम् अर्हति । अस्य कृते वयं पाठनिवेशस्य उदाहरणानि तेषां स्थानिकसम्बन्धान् च निष्कासयितुं, तदनुरूपं Layout priors जनयितुं LLMs (यथा GPT-3.5) इत्यस्य उपयोगं कुर्मः । परन्तु LLMs द्वारा व्याख्यातस्य दृश्यस्य 3D स्थानिकविन्यासस्य Layout prior इत्यस्य च वास्तविकदृश्यस्य च मध्ये एकः निश्चितः अन्तरः भवति, यस्य परिणामः सामान्यतया निलम्बित/गतवस्तूनाम्, अत्यन्तं भिन्नानुपातयुक्तानां वस्तूनाम् संयोजनम् इत्यादिषु भवति अपि च, वयं दृष्टि-आधारित-प्रसार-पूर्वं तथा लेआउट-निर्देशित-जननात्मक-3D-गॉसियन-माध्यमेन उपरि उत्पन्नं रूक्ष-विन्यास-पूर्वं समायोजयितुं अनुकूलितुं च Layout Refinement-मॉड्यूल् प्रस्तावयामः

ख、लेआउट परिष्कार

GALA3D उपर्युक्तैः LLMs द्वारा उत्पन्नं लेआउट् पूर्वं अनुकूलितुं पूर्वं Diffusion इत्यस्य आधारेण Layout layout optimization module इत्यस्य उपयोगं करोति । विशेषतया, वयं 3D जनरेशन प्रक्रियायां Layout-निर्देशितस्य 3D Gaussian space layout इत्यस्य gradient optimization इत्येतत् योजितवन्तः, तथा च ControlNet इत्यस्य माध्यमेन LLM-generated Layouts इत्यस्य स्थानिकस्थानं, rotation angle, size ratio च समायोजितवन्तः आकृतिः 3D scene तथा Layout इत्यस्य पूर्वं तथा च दर्शयति अनुकूलनानन्तरं पत्राचारः। अनुकूलितलेआउट् अधिकं सटीकं स्थानिकस्थानं आनुपातिकं च स्केलं धारयति, तथा च 3D दृश्ये बहुविधवस्तूनाम् अन्तरक्रियासम्बन्धं अधिकं उचितं करोति



ग. लेआउट-निर्देशित जननात्मक 3D गाउसीय प्रतिनिधित्व

वयं प्रथमवारं 3D-Gaussian प्रतिनिधित्वे 3D-Layout बाधाः प्रवर्तयामः, तथा च जटिल 3D दृश्यानां कृते लेआउट-निर्देशितं जननात्मकं 3D Gaussian प्रस्तावयामः लेआउट-निर्देशित 3D Gaussian प्रतिनिधित्वं बहुविधं शब्दार्थरूपेण निष्कासितानि उदाहरणवस्तूनि समाविष्टानि सन्ति, यत्र प्रत्येकस्य उदाहरणवस्तुनः Layout prior इत्येतत् यथा पैरामीटर् कर्तुं शक्यते:

तेषु N दृश्ये दृष्टान्तवस्तूनाम् कुलसङ्ख्यां प्रतिनिधियति । विशेषतया, प्रत्येकं उदाहरणं 3D Gaussian अनुकूलज्यामितिनियन्त्रणद्वारा अनुकूलितं भवति यत् उदाहरणस्तरीयं वस्तु 3D Gaussian प्रतिनिधित्वं प्राप्तुं शक्यते । अपि च, वयं सापेक्षिकस्थानसम्बन्धानुसारं सम्पूर्णदृश्ये बहुविधं वस्तुगाउसियनं संयोजयामः, लेआउट्-निर्देशितवैश्विक-3D-गाउसियनं जनयामः, वैश्विकगाउसीयस्पलैटिङ्गद्वारा सम्पूर्णं दृश्यं प्रतिपादयामः च

घ.अनुकूली ज्यामिति नियन्त्रण

जननप्रक्रियायाः कालखण्डे 3D Gaussians इत्यस्य स्थानिकवितरणं ज्यामितीयरूपं च उत्तमरीत्या नियन्त्रयितुं वयं जननात्मक 3D Gaussians कृते अनुकूली ज्यामितिनियन्त्रणपद्धतिं प्रस्तावयामः प्रथमं, प्रारम्भिकगॉसियनानाम् एकं समुच्चयं दत्त्वा, Layout परिधिमध्ये 3D गाउसीयान् बाध्यं कर्तुं, GALA3D गाउसीयन् दीर्घवृत्तस्य स्थानिकस्थानं बाध्यं कर्तुं घनत्ववितरणकार्यस्य समुच्चयस्य उपयोगं करोति ततः वयं distribution function इत्यस्य अनुकूलतायै Layout surface इत्यस्य समीपे Gaussians इत्यस्य नमूनाकरणं कुर्मः । तदनन्तरं वयं 3D Gaussians इत्यस्य ज्यामितिं नियन्त्रयितुं shape regularization इत्यस्य उपयोगं प्रस्तावयामः । 3D जननप्रक्रियायाः कालखण्डे अनुकूली ज्यामितिनियन्त्रणं गाउसीयानां वितरणं ज्यामितिं च निरन्तरं अनुकूलयति यत् अधिकबनावटविवरणैः मानकीकृतज्यामितिभिः च 3D बहु-वस्तूनाम् दृश्यानि च जनयति अनुकूली ज्यामितिनियन्त्रणं अधिकनियन्त्रणक्षमतां स्थिरतां च सह लेआउट-निर्देशितजननात्मकं 3D Gaussians अपि सुनिश्चितं करोति ।

प्रयोगात्मकाः परिणामाः

विद्यमान-Text-to-3D-जनन-विधिभिः सह तुलने GALA3D-इत्यनेन उत्तम-3D-दृश्य-जनन-गुणवत्ता, स्थिरता च दृश्यते ।



अस्माभिः एकं विस्तृतं प्रभावी च उपयोक्तृसर्वक्षणमपि कृतम्, येषु १२५ प्रतिभागिनः (येषु ३९.२% सम्बन्धितक्षेत्रेषु विशेषज्ञाः अभ्यासकारिणः च आसन्) अस्याः पद्धतेः जननपरिदृश्यानां तथा विद्यमानपद्धतीनां बहुकोणमूल्यांकनं कर्तुं आमन्त्रिताः परिणामाः दर्शिताः सन्ति निम्नलिखित सारणी : १.



प्रयोगात्मकपरिणामाः दर्शयन्ति यत् GALA3D दृश्यगुणवत्ता, ज्यामितीयनिष्ठा, पाठस्य स्थिरता, दृश्यसङ्गतिः इत्यादिषु बहुआयामीमूल्यांकनसूचकेषु विद्यमानपद्धतीनां अतिक्रमणं करोति, इष्टतमजननगुणवत्तां च प्राप्नोति

यथा अधोलिखितेषु गुणात्मकप्रयोगपरिणामेषु दर्शितं, GALA3D उत्तमसङ्गतियुक्तेन शून्य-शॉट-प्रकारेण जटिलबहु-वस्तुसंयोजन-3D-दृश्यानि जनयितुं शक्नोति:



अधोलिखितं चित्रं दर्शयति यत् GALA3D उपयोक्तृ-अनुकूलं, संभाषणात्मकं, नियन्त्रणीयं च जननं सम्पादनं च समर्थयितुं शक्नोति:



अधिकसंशोधनविवरणार्थं मूलपत्रं पश्यन्तु ।