समाचारं

MotionClone: ​​प्रशिक्षणस्य आवश्यकता नास्ति, विडियो-गतिषु एक-क्लिक् क्लोनिङ्ग्

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा रिपोर्टिंग् कर्तुं शक्नोति। प्रस्तुति ईमेल: [email protected];

प्रशिक्षणस्य वा सूक्ष्म-समायोजनस्य वा आवश्यकता नास्ति, तथा च प्रॉम्प्ट्-शब्देन निर्दिष्टे नूतने दृश्ये सन्दर्भ-वीडियो-गतिम् क्लोन् कर्तुं शक्यते, भवेत् तत् वैश्विक-कॅमेरा-गतिम् अथवा स्थानीय-शरीर-गतिम्, तत् एकेन क्लिक्-द्वारा कर्तुं शक्यते



पत्रः https://arxiv.org/abs/2406.05338

मुखपृष्ठम् : https://bujiazi.github.io/motionclone.github.io/

कोडः https://github.com/Bujiazi/MotionClone इति

अस्मिन् पत्रे MotionClone इति नूतनं रूपरेखा प्रस्तावितं भवति यत् तत्सम्बद्धं गतिसूचना मॉडलप्रशिक्षणं वा सूक्ष्म-समायोजनं वा विना निष्कासयितुं शक्यते पाठ-जनित-वीडियो-सहितं प्रत्यक्षतया नूतन-वीडियो-जननस्य मार्गदर्शनं कर्तुं शक्नोति अनुकूलितगतिना सह (text2video)।



पूर्वसंशोधनस्य तुलने MotionClone इत्यस्य निम्नलिखितलाभाः सन्ति ।

प्रशिक्षणस्य वा सूक्ष्म-समायोजनस्य वा आवश्यकता नास्ति: पूर्व-दृष्टिकोणेषु प्रायः गति-संकेतानां संकेतनार्थं प्रशिक्षण-प्रतिमानानाम् अथवा विशिष्ट-गति-प्रतिमानानाम् अनुकूलतायै विडियो-प्रसार-प्रतिरूपाणां सूक्ष्म-समायोजनस्य आवश्यकता आसीत् गतिसंकेतानां संकेतनार्थं प्रशिक्षणप्रतिमानानाम् प्रशिक्षणक्षेत्रात् बहिः गतिं कर्तुं दुर्बलसामान्यीकरणक्षमता भवति, तथा च विद्यमानविडियोजननप्रतिमानानाम् सूक्ष्म-समायोजनेन आधारप्रतिरूपस्य अन्तर्निहितविडियोजननगुणवत्तायाः क्षतिः भवितुम् अर्हति MotionClone इत्यस्य कस्यापि अतिरिक्तप्रशिक्षणस्य अथवा सूक्ष्म-समायोजनस्य आरम्भस्य आवश्यकता नास्ति, आधार-प्रतिरूपस्य जनन-गुणवत्तां अधिकतमं यावत् धारयन् गतिसामान्यीकरण-क्षमतासु सुधारः भवति

उच्चतरगतिगुणवत्ता: विद्यमानस्य मुक्तस्रोतस्य वेनशेङ्ग-वीडियो-माडलस्य कृते बृहत्-उचित-गति-उत्पादनं कठिनम् अस्ति

उत्तमः स्थानिकस्थानसम्बन्धः : प्रत्यक्षगतिक्लोनिङ्गस्य कारणेन भवितुम् अर्हति इति स्थानिकशब्दार्थविसंगतिं परिहरितुं MotionClone स्थानिकशब्दार्थसूचनायाः स्थानिककालगतगतिसूचनायाश्च सम्यक्युग्मने सहायतार्थं पार-ध्यानमास्कानाम् आधारेण स्थानिकशब्दार्थसूचनामार्गदर्शनं प्रस्तावयति

कालगत ध्यानमॉड्यूले गतिसूचना



पाठ-जनित-वीडियो-कार्य्ये, टेम्पोरल्-एटेन्शन-मॉड्यूल् (Temporal Attention) इत्यस्य व्यापकरूपेण उपयोगः विडियो-मध्ये अन्तर-फ्रेम-सहसंबन्धस्य प्रतिरूपणार्थं भवति । यतो हि कालगत-अवधान-मॉड्यूले ध्यान-नक्शा-अङ्कः फ्रेम-मध्ये सहसंबन्धं प्रतिनिधियति, अतः एकः सहज-विचारः अस्ति यत् गति-क्लोनिङ्ग-प्राप्त्यर्थं ध्यान-अङ्कान् बाध्यं कृत्वा अन्तर-फ्रेम-संयोजनानां प्रतिकृतिं कर्तुं शक्यते वा इति

परन्तु प्रयोगेषु ज्ञातं यत् सम्पूर्णं ध्याननक्शं (सादां नियन्त्रणं) प्रत्यक्षतया प्रतिलिपिं कृत्वा केवलं अत्यन्तं रूक्षगतिस्थापनं प्राप्तुं शक्यते यतोहि ध्याने अधिकांशः भारः कोलाहलस्य अथवा अत्यन्तं सूक्ष्मगतिसूचनायाः अनुरूपः भवति, यस्य संयोजनं कठिनं भवति पाठः एकतः विहितानाम् नवीनपरिदृश्यानां संयोजनेन सम्भाव्यं प्रभावी गतिमार्गदर्शनं मुखमण्डनं भवति।

एतस्याः समस्यायाः समाधानार्थं MotionClone मुख्यघटकस्य काल-ध्यान-मार्गदर्शन-तन्त्रस्य (Primary temporal-attention guidance) परिचयं करोति, यत् केवलं टेम्पोरल-अध्यान-मार्गदर्शने मुख्यघटकानाम् उपयोगं कृत्वा विरले विडियो-जननस्य मार्गदर्शनं करोति, येन शोर-सूक्ष्म-गति-सूचनाः नकारात्मक-प्रभावः च छानति , पाठेन निर्दिष्टेषु नवीनपरिदृश्येषु गतिस्य प्रभावी क्लोनिङ्गं प्राप्तुं।



स्थानिक शब्दार्थ सुधार

मुख्यघटकस्य कालगतं ध्यानं गतिमार्गदर्शनं सन्दर्भविडियोस्य गतिक्लोनिङ्गं प्राप्तुं शक्नोति, परन्तु एतत् सुनिश्चितं कर्तुं न शक्नोति यत् चलविषयः उपयोक्तुः अभिप्रायेन सह सङ्गतः अस्ति, यत् विडियोजननस्य गुणवत्तां न्यूनीकरिष्यति अपि च केषुचित् चलविषयस्य विसंगतिं अपि जनयिष्यति प्रकरणाः ।

उपर्युक्तसमस्यानां समाधानार्थं MotionClone एकं स्थानिकशब्दार्थमार्गदर्शनतन्त्रं (Location-aware semantic guidance) परिचययति, Cross Attention Mask इत्यस्य माध्यमेन विडियोस्य अग्रे पृष्ठे च पृष्ठभूमिक्षेत्रं विभजति, तथा च क्रमशः इत्यस्य शब्दार्थसूचनाः बाध्यं कृत्वा स्थानिकशब्दार्थविज्ञानं सुनिश्चितं करोति the front and rear background of the video तर्कसंगतविन्यासः कालगतेः स्थानिकशब्दार्थस्य च सम्यक् युग्मनं प्रवर्धयति।

MotionClone कार्यान्वयनविवरणम्



DDIM Inversion: MotionClone DDIM Inversion इत्यस्य उपयोगं करोति यत् सन्दर्भविडियोस्य अस्थायी ध्यानं प्रधानघटकनिष्कासनं प्राप्तुं निवेशसन्दर्भविडियों सुप्तस्थाने विपर्यस्तं करोति

मार्गदर्शनचरणम् : प्रत्येकस्य शोरविहीनीकरणस्य समये, MotionClone एकत्रैव मुख्यघटकस्य अस्थायी ध्यानगतिमार्गदर्शनस्य तथा स्थानिकशब्दार्थसूचनामार्गदर्शनस्य परिचयं करोति, ये नियन्त्रणीयवीडियोजननार्थं व्यापकगतिः शब्दार्थमार्गदर्शनं च प्रदातुं एकत्र कार्यं कुर्वन्ति

गाउसीयन मास्क : स्थानिकशब्दार्थमार्गदर्शनतन्त्रे सम्भाव्यसंरचनात्मकसूचनायाः प्रभावं समाप्तुं पार-ध्यानमास्कं धुन्धलं कर्तुं गाउसीय-कर्नेल्-कार्यस्य उपयोगः भवति

परीक्षणार्थं DAVIS-दत्तांशसमूहात् ३० विडियो-प्रयोगः कृतः । प्रयोगात्मकपरिणामाः दर्शयन्ति यत् MotionClone इत्यनेन पाठस्य फिट्, समयस्य संगतिः, बहुविधप्रयोक्तृसर्वक्षणसूचकाः च महत्त्वपूर्णाः सुधाराः प्राप्ताः, येन पूर्वगतिस्थापनविधिः अतिक्रान्ताः विशिष्टाः परिणामाः अधोलिखिते सारणीयां दर्शिताः सन्ति



MotionClone इत्यस्य जननपरिणामानां तथा विद्यमानस्य गतिस्थानांतरणविधिनाम् तुलना अधोलिखिते चित्रे दर्शिता अस्ति यत् MotionClone इत्यस्य अग्रणी कार्यक्षमता अस्ति ।



सारांशतः, MotionClone एकः नूतनः गतिस्थानांतरणरूपरेखा अस्ति यः प्रभावीरूपेण उपयोक्तुः दत्तेन प्रॉम्प्ट् शब्देन निर्दिष्टस्य नूतनदृश्यस्य कृते सन्दर्भ-वीडियो-मध्ये गतिं क्लोन कर्तुं शक्नोति, यत्र प्रशिक्षणस्य अथवा सूक्ष्म-ट्यूनिङ्गस्य आवश्यकता नास्ति क्रीडा अनुकूलन।

MotionClone विद्यमानस्य आधारप्रतिरूपस्य जननगुणवत्तां धारयितुं आधारेण कुशलं मुख्यघटकगतिसूचनामार्गदर्शनं च परिचययति, पाठेन सह शब्दार्थसंरेखणक्षमतां सुनिश्चित्य, सन्दर्भविडियोसहितं गतिसङ्गतिं महत्त्वपूर्णतया सुधारयति तथा च उच्चगुणवत्तां प्राप्नोति -नियन्त्रित विडियो जनरेशन।

तदतिरिक्तं, MotionClone विविधं विडियोजननं प्राप्तुं समृद्धसमुदायप्रतिरूपेषु प्रत्यक्षतया अनुकूलतां प्राप्तुं शक्नोति, अत्यन्तं उच्चमापनीयता च अस्ति ।