2024-08-17
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- क्रेसी आओफेइ मन्दिरात् आगच्छति
Qubit |. आधिकारिक खाता QbitAI
प्रशिक्षणमापदण्डानां १०% तः न्यूनेन सह ControlNet इव नियन्त्रणीयं जननं प्राप्तुं शक्यते!
अपि च, Stable Diffusion परिवारस्य सामान्यानि मॉडल् यथा SDXL तथा SD1.5 अनुकूलितुं शक्यन्ते, अद्यापि प्लग-एण्ड्-प्ले च सन्ति ।
तस्मिन् एव काले SVD इत्यनेन सह तस्य उपयोगः विडियोजननं नियन्त्रयितुं शक्यते, अङ्गुलीपर्यन्तं गतिविवरणं च समीचीनतया नियन्त्रयितुं शक्यते ।
एतेषां चित्राणां विडियोनां च पृष्ठतः हाङ्गकाङ्गस्य चीनीयजियाजियाया-दलेन प्रारब्धं मुक्तस्रोत-प्रतिबिम्ब/वीडियो-जनन-मार्गदर्शन-उपकरणम् अस्ति——ControlNeXt。
नामतः द्रष्टुं शक्यते यत् अनुसंधानविकासदलेन अग्रिमपीढीयाः ControlNet इति स्थानं स्थापितं अस्ति ।
यथा, He Kaiming, Xie Saining इत्येतयोः महान् देवयोः ResNeXt (ResNet इत्यस्य विस्तारः) इति शास्त्रीयं ग्रन्थम् अपि अस्य नामकरणार्थं एतस्याः पद्धतेः उपयोगं कृतवान् ।
केचन नेटिजन्स् मन्यन्ते यत् एतत् नाम सुयोग्यम् अस्ति, तथा च एतत् खलु अग्रिमपीढीयाः उत्पादः अस्ति, येन ControlNet इत्येतत् उच्चस्तरं प्रति उन्नतं भवति ।
अन्ये तु स्पष्टतया अवदन् यत् ControlNeXt इति क्रीडापरिवर्तकः अस्ति, यत् नियन्त्रणीयजन्मस्य कार्यक्षमतां बहु उन्नतयति ते तस्य उपयोगं कुर्वतां जनानां कृते निर्मितं कार्याणि द्रष्टुं प्रतीक्षन्ते।
ControlNeXt बहुविध SD श्रृङ्खला मॉडल् समर्थयति तथा च प्लग-एण्ड्-प्ले अस्ति ।
एतेषु इमेज जनरेशन मॉडल् SD1.5, SDXL, SD3 (Super Resolution समर्थयति), तथा च विडियो जनरेशन मॉडल SVD च सन्ति ।
अग्रे विना केवलं परिणामं पश्यामः ।
द्रष्टुं शक्यते यत् SDXL मध्ये edge (Canny) मार्गदर्शनं योजयित्वा आकृष्टा द्वि-आयामी बालिका नियन्त्रणरेखाः च प्रायः सम्यक् उपयुज्यन्ते ।
नियन्त्रणसमोच्चयः बहुसंख्याकाः विखण्डिताः च सन्ति चेदपि आदर्शः आवश्यकतां पूरयन्तः चित्राणि आकर्षितुं शक्नोति ।
तथा च अतिरिक्तप्रशिक्षणं विना अन्यैः LoRA भारैः सह निर्विघ्नतया एकीकृतं कर्तुं शक्यते।
उदाहरणार्थं, SD1.5 इत्यस्मिन्, भिन्नशैल्याः अथवा आयामानां पारमपि, परन्तु समानगतिभिः सह पात्राणि निर्मातुं विविध LoRAs इत्यनेन सह posture (Pose) नियन्त्रणस्थितीनां उपयोगं कर्तुं शक्नुवन्ति
तदतिरिक्तं ControlNeXt इत्यनेन mask तथा depth control modes इत्यपि समर्थितम् अस्ति ।
SD3 Super Resolution इत्यपि समर्थयति, यत् अति-उच्च-परिभाषा-चित्रं जनयितुं शक्नोति ।
विडियो जननस्य समये ControlNeXt वर्णस्य गतिं नियन्त्रयितुं शक्नोति ।
यथा, स्पाइडर-मैन् टिकटोक्-मध्ये सौन्दर्य-नृत्यं अपि नृत्यं कर्तुं शक्नोति, अङ्गुलीनां गतिः अपि अत्यन्तं समीचीनतया अनुकरणं भवति ।
इदं कुर्सीम् अपि हस्तं वर्धयति तथा च समानं नृत्यं करोति यद्यपि किञ्चित् अमूर्तं तथापि क्रियाप्रजननं बहु उत्तमम् अस्ति।
तथा च मूल ControlNet इत्यस्य तुलने ControlNeXt इत्यस्य प्रशिक्षणमापदण्डानां आवश्यकता न्यूना भवति तथा च शीघ्रं अभिसरणं भवति ।
उदाहरणार्थं, SD1.5 तथा SDXL इत्यत्र ControlNet इत्यत्र क्रमशः 361 मिलियन तथा 1.251 अरब शिक्षणीयमापदण्डानां आवश्यकता भवति, परन्तु ControlNeXt इत्यस्य कृते केवलं क्रमशः 30 मिलियन तथा 108 मिलियन इत्यस्य आवश्यकता भवतिControlNet इत्यस्य १०% तः न्यूनम्。
प्रशिक्षणप्रक्रियायाः कालखण्डे ControlNeXt प्रायः ४०० चरणेषु अभिसरणस्य समीपे भवति, परन्तु ControlNet इत्यस्य कृते दशगुणं वा दर्जनगुणं वा पदानां संख्यायाः आवश्यकता भवति ।
जनरेशनवेगः अपि ControlNet इत्यस्मात् द्रुततरः अस्ति औसतेन ControlNet इत्यनेन मूलभूतप्रतिरूपे ४१.९% विलम्बः भवति, परन्तु ControlNeXt केवलं १०.४% विलम्बः आनयति ।
अतः, ControlNeXt कथं कार्यान्वितं भवति, ControlNet इत्यत्र किं किं सुधारं कृतम् अस्ति?
प्रथमं ControlNeXt इत्यस्य सम्पूर्णं कार्यप्रवाहं अवगन्तुं चित्रस्य उपयोगं कुर्वन्तु ।
लघुभारस्य कुञ्जी ControlNeX अस्तिtControlNet इत्यस्मिन् विशालं नियन्त्रणशाखां हृत्वा तस्य स्थाने अल्पसंख्याकानां ResNet ब्लॉक् इत्यनेन निर्मितं हल्कं convolution module परिचययति。
अयं मॉड्यूलः नियन्त्रणस्थितीनां (यथा शब्दार्थविभाजनमास्कः, मुख्यबिन्दुप्राइयर् इत्यादीनां) विशेषताप्रतिपादनानि निष्कासयितुं उत्तरदायी अस्ति ।
प्रशिक्षणमापदण्डानां मात्रा सामान्यतया ControlNet इत्यस्मिन् पूर्वप्रशिक्षितस्य मॉडलस्य १०% तः न्यूना भवति, परन्तु अद्यापि एतत् इनपुट् सशर्तनियन्त्रणसूचनाः सम्यक् ज्ञातुं शक्नोति
विशेषतः, पूर्वप्रशिक्षितस्य प्रतिरूपस्य विभिन्नजालस्तरात् समानान्तरेण नमूनानि गृहीत्वा प्रशिक्षणार्थं प्रयुक्तानां मापदण्डानां उपसमूहं निर्माति, शेषमापदण्डाः तु जमेन भवन्ति
तदतिरिक्तं ControlNeXt इत्यस्य आर्किटेक्चरस्य डिजाइनं कुर्वन् शोधदलेन मूल आर्किटेक्चरेन सह मॉडल् संरचनायाः संगतिः अपि निर्वाहिता, अतः प्लग-एण्ड्-प्ले इति प्राप्तिः अभवत्
ControlNet अथवा ControlNeXt इति सशर्तनियन्त्रणसूचनायाः इन्जेक्शन् महत्त्वपूर्णः लिङ्कः अस्ति ।
अस्मिन् क्रमे ControlNeXt शोधदलेन द्वयोः प्रमुखयोः विषययोः गहनं शोधं कृतम्-इञ्जेक्शनस्थानस्य चयनं, इन्जेक्शनपद्धतेः डिजाइनं च।
शोधदलेन अवलोकितं यत् अधिकांशेषु नियन्त्रणीयजननकार्येषु सशर्तसूचनामार्गदर्शकजननस्य रूपं तुल्यकालिकरूपेण सरलं भवति तथा च शोरविहीनीकरणप्रक्रियायां विशेषताभिः सह अत्यन्तं सहसंबद्धं भवति
अतः दलं चिन्तयति,शोरविहीनजालस्य प्रत्येकस्मिन् स्तरे नियन्त्रणसूचनाः प्रविष्टुं आवश्यकता नास्ति, अतः अहं चितवान्केवलं जालस्य मध्यस्तरस्य सशर्तविशेषताः, ध्वनिरहितविशेषताः च समुच्चयतु。
समुच्चयस्य विधिः यथाशक्ति सरलः अस्ति - प्रयोगेपार सामान्यीकरणद्वयोः विशेषतासमूहयोः वितरणं संरेखयित्वा प्रत्यक्षतया योजयन्तु ।
एतेन न केवलं सुनिश्चितं भवति यत् नियन्त्रणसंकेतः शोरविहीनीकरणप्रक्रियाम् प्रभावितं करोति, अपितु ध्यानतन्त्रादिजटिलक्रियाभिः अतिरिक्तशिक्षणमापदण्डानां, अस्थिरतायाः च परिचयः अपि परिहृतः भवति
क्रॉस् नॉर्मलाइजेशन इत्येतत् ControlNeXt इत्यस्य अन्यत् मूलप्रौद्योगिकी अस्ति, यत् पूर्वं सामान्यतया प्रयुक्तानां प्रगतिशील-आरम्भीकरण-रणनीतयः यथा शून्य-कन्वोल्यूशन-इत्यस्य स्थाने भवति ।
पारम्परिकपद्धतयः क्रमेण नूतनमॉड्यूलस्य प्रभावं आद्यतः मुक्तं कृत्वा पतनस्य समस्यां न्यूनीकरोति, परन्तु एतस्य परिणामः प्रायः मन्दं अभिसरणं भवति
क्रॉस् नॉर्मलाइजेशन प्रत्यक्षतया नियन्त्रणमॉड्यूलेन विशेषतानिर्गमस्य सामान्यीकरणाय मेरुदण्डजालस्य ध्वनिविच्छेदनविशेषतानां औसत μ तथा विचरण σ इत्यस्य उपयोगं करोति, येन द्वयोः आँकडावितरणं यथासम्भवं संरेखितं भवति
(टिप्पणी: ε संख्यात्मकस्थिरतायै योजितः लघुः नित्यः अस्ति, γ च स्केलिंग् पैरामीटर् अस्ति ।)
ततः सामान्यीकृतनियन्त्रणविशेषताः स्केल-ऑफसेट्-मापदण्डानां माध्यमेन आयामं आधाररेखां च समायोजयन्ति, ततः तान् डिनोइजिंग-विशेषतासु योजयन्ति, यत् न केवलं पैरामीटर्-प्रारम्भस्य संवेदनशीलतां परिहरति, अपितु नियन्त्रण-स्थितीनां प्रारम्भिक-पदेषु प्रभावं कर्तुं शक्नोति प्रशिक्षणं च अभिसरणप्रक्रियाम् त्वरयति।
तदतिरिक्तं, ControlNeXt अपि नियन्त्रणमॉड्यूलस्य उपयोगं करोति यत् कण्डिशन् सूचनायाः सुप्तस्थानविशेषतासु मैपिंगं ज्ञातुं शक्नोति, येन इदं अधिकं अमूर्तं शब्दार्थं च भवति, अदृष्टनियन्त्रणस्थितीनां सामान्यीकरणाय च अधिकं अनुकूलं भवति
परियोजनायाः मुखपृष्ठम् : १.
https://pbihao.github.io/परियोजना/नियंत्रणअगला/सूचकाङ्क.html
कागजस्य सम्बोधनम् : १.
https://arxiv.org/abs/2408.06070
गिटहबः २.
https://github.com/dvlab-research/ControlNeXt