समाचारं

अलीबाबा इत्यनेन "सोरा इत्यस्य मैजिक पेन् मा लिआङ्ग इत्यस्य संस्करणं" प्रकाशितम्, यत् केवलं स्पर्शेन, २० प्रदर्शनवीडियोभिः, १० पृष्ठैः तकनीकीप्रतिवेदनैः च बिडालाः परिवर्तयन्ति

2024-08-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


स्मार्ट वस्तूनि (सार्वजनिकलेखः : १.झीड्क्सकोम्
लेखकः वेनिला
सम्पादन ली शुइकिंग्

एआइ-वीडियो-जनरेशनस्य क्षेत्रं प्रफुल्लितं वर्तते, देशे विदेशे च वेनशेङ्ग्, तुशेङ्ग् इत्यादयः नवीन-वीडियो-उत्पादाः अनन्तधारायां उद्भवन्ति प्रमुखनिर्मातृणां "आवृत्तेः" कारणात् वर्तमानं विडियोजननप्रतिरूपं सर्वेषु पक्षेषु "नकली-वास्तविक" इत्यस्य प्रभावस्य समीपे अस्ति ।

परन्तु तत्सह, अधिकांशस्य विडियो-जनन-माडलस्य सटीकतायां, निर्देशानां अनुसरणस्य क्षमता च अद्यापि सुधारणीया अस्ति . एतेन अत्यधिकं कम्प्यूटिंगशक्तिव्ययः, संसाधनानाम् अपव्ययः इत्यादयः समस्याः अपि उत्पद्यन्ते ।

कथं विडियोजननस्य सटीकतायां सुधारः, "ड्राइंग कार्ड्स्" इत्यस्य संख्यां न्यूनीकर्तुं, आवश्यकतां पूरयन्तः विडियो प्राप्तुं यथासम्भवं न्यूनानि संसाधनानि उपयुज्यन्ते?

झीडोङ्गक्सी इत्यनेन अगस्तमासस्य ३ दिनाङ्के अलीबाबा-दलस्य आरम्भः कृतः इति वृत्तान्तःविडियो जनरेशन मॉडल तोरा, आधारितं भवितुम् अर्हतिपटलाः, चित्राणि, पाठःअथवा तस्य संयोजनं, शीघ्रं केवलं कतिपयैः आघातैः सटीकं गतिनियन्त्रण-वीडियो जनयन्तु, अपि च समर्थयतिप्रथमं अन्तिमं च फ्रेम नियन्त्रणम्, विडियोजननस्य नियन्त्रणक्षमताम् अन्यस्तरं प्रति नेतुम्।

//oss.zhidx.com/अपलोड्स/2024/08/66acd09cc2d2b_66acd09cbf165_66acd09cbf141_Opening.mp4

तोरा इतिप्रथमं प्रक्षेपवक्र-उन्मुखं DiT-रूपरेखाप्रतिरूपम्, DiT इत्यस्य मापनीयतायाः लाभं गृहीत्वा, Tora द्वारा उत्पन्नं वस्तुगतिः न केवलं प्रक्षेपवक्रस्य सटीकरूपेण अनुसरणं कर्तुं शक्नोति, अपितु भौतिकजगतः गतिशीलतायाः प्रभावीरूपेण अनुकरणं अपि कर्तुं शक्नोति सम्बन्धितपत्रं arXiv इत्यत्र अगस्तमासस्य १ दिनाङ्के प्रकाशितम् आसीत्


▲तोरा कागज

तोरा सम्प्रति केवलं विडियो प्रदर्शनं प्रदाति, तस्य परियोजनायाः मुखपृष्ठं च दर्शयति यत् भविष्ये सः ऑनलाइन-प्रदर्शनानि अनुमान-प्रशिक्षण-सङ्केतानि च प्रकाशयिष्यति ।

कागजस्य सम्बोधनम् : १.

https://arxiv.org/abs/2407.21705

परियोजना पता : १.

https://ali-videoai.github.io/tora_video/ ८.

1. गतिप्रक्षेपवक्राणां सटीकनियन्त्रणार्थं त्रीणि मोडलसंयोजननिवेशाः

तोरा समर्थनपटलाः, पाठः, चित्राणित्रयः मोडालिटीः, अथवा तेषां संयुक्तनिवेशाः, भिन्नकालस्य, आस्पेक्ट् रेश्योः, रिजोल्यूशनस्य च विडियोसामग्रीणां गतिशीलं सटीकं च नियन्त्रणं सक्षमं कुर्वन्ति ।

प्रक्षेपवक्रनिवेशः विविधाः ऋजुरेखाः वक्राः च भवितुम् अर्हन्ति, येषां दिशाः सन्ति, भिन्नदिशि बहुविधाः प्रक्षेपवक्राः अपि संयोजिताः भवितुम् अर्हन्ति यथा, प्लवमानस्य वस्तुनः प्रक्षेपवक्रतां नियन्त्रयितुं S-आकारस्य वक्रस्य उपयोगं कर्तुं शक्नुवन्ति, तस्य वेगं नियन्त्रयितुं पाठवर्णनानां उपयोगं कर्तुं शक्नुवन्ति । अधोलिखिते विडियोमध्ये प्रयुक्ताः प्रॉम्प्ट् शब्दाः "मन्द", "सुरुचिपूर्ण", "मृदु" इत्यादीनां विशेषणानां प्रयोगं कुर्वन्ति ।

//oss.zhidx.com/uploads/2024/08/66acd0922df15_66acd0921dea0_66acd0921de7e_वक्र प्रक्षेपवक्र.mp4

स एव प्रक्षेपवक्रता अक्षे अपि पुनः पुनः गन्तुं शक्नोति, अग्रे पश्चात् कम्पमानं चित्रं निर्माति ।

//oss.zhidx.com/uploads/2024/08/66acd09e8ab1e_66acd09e86884_66acd09e86862_अग्रे-पश्चात् track.mp4

एकस्मिन् चित्रे भिन्नानि प्रक्षेपवक्राणि आकर्षयित्वा तोरा भिन्नगतिदिशायुक्तानि विडियो जनयितुं अपि शक्नोति ।

//oss.zhidx.com/uploads/2024/08/66acd0948ef53_66acd0948af6b_66acd0948af47_सही चित्र.mp4

समानप्रक्षेपवक्रनिवेशस्य आधारेण तोरा विषयाणां मध्ये भेदानाम् आधारेण भिन्नानि गतिविधानानि जनयिष्यति ।

//oss.zhidx.com/अपलोड्स/2024/08/66acd09285368_66acd09281598_66acd09281575_circle.mp4

वर्तमानसामान्यगतिब्रशकार्यात् किं भिन्नं यत् यदि निवेशप्रतिबिम्बं नास्ति चेदपि तोरा प्रक्षेपवक्रस्य पाठस्य च संयोजनस्य आधारेण तत्सम्बद्धं विडियो जनयितुं शक्नोति

यथा, अधोलिखिते विडियोमध्ये द्वौ विडियो १, ३ च प्रारम्भिकचक्रं विना, केवलं प्रक्षेपवक्रं पाठं च विना उत्पद्यते ।

//oss.zhidx.com/uploads/2024/08/66acd09712f12_66acd0970ea1c_66acd0970e9fa_track पाठ.mp4

तोरा प्रथमं अन्तिमं च फ्रेम नियन्त्रणम् अपि समर्थयति, परन्तु एषः प्रकरणः केवलं चित्ररूपेण कागदपत्रे दृश्यते, तथा च कोऽपि वीडियो प्रदर्शनः न प्रदत्तः ।


▲तोरा प्रथमं अन्तिमं च फ्रेम नियन्त्रणम्

अतः यदि पाठस्य बिम्बस्य च केवलं द्वौ मोडल-निवेशौ स्तः तर्हि समानः प्रभावः प्राप्तुं शक्यते वा ? एतत् प्रश्नं मनसि कृत्वा अहं अन्येषु एआइ-वीडियो-जनरेटर्-मध्ये समानानि प्रारम्भिक-फ्रेम्-प्रोम्प्ट्-शब्दानि च पोषयितुं प्रयतितवान् ।

अधोलिखिते विडियोमध्ये वामतः दक्षिणतः उपरितः अधः च तोरा, विडु, किङ्ग्यिंग्, केलिंग् इत्यनेन निर्मिताः विडियोः सन्ति । द्रष्टुं शक्यते यत् यदा प्रक्षेपवक्रता ऋजुरेखा भवति तदा प्रक्षेपवक्रनिवेशं विना विडियोजननम् आवश्यकताः कष्टेन एव पूरयति ।

//oss.zhidx.com/अपलोड/2024/08/66acd5287df2f_66acd5287a1b5_66acd5287a197_鱼.mp4

परन्तु यदा आवश्यकः गतिप्रक्षेपवक्रः वक्रः भवति तदा पारम्परिकः पाठः + चित्रनिवेशः माङ्गं पूरयितुं न शक्नोति ।

//oss.zhidx.com/अपलोड/2024/08/66acd51822425_66acd5181dfab_66acd5181df87_花.mp4

2. आधारितम्ओपनसोरारूपरेखा, अभिनवौ गतिसंसाधनमॉड्यूलद्वयम्

तोरा दत्तकओपनसोराअस्य मूलभूतं मॉडल् DiT आर्किटेक्चररूपेण OpenSora इति एआइ स्टार्टअप लुचेन् टेक्नोलॉजी इत्यनेन डिजाइनं कृत्वा मुक्तस्रोतः इति विडियो जनरेशन मॉडल फ्रेमवर्क् अस्ति ।

DiT-आधारित-प्रक्षेपवक्र-नियन्त्रण-वीडियो-जननम् प्राप्तुं Tora द्वौ नूतनौ गति-प्रक्रिया-मॉड्यूलौ परिचययति:प्रक्षेपवक्र निष्कर्षक(प्रक्षेपवक्र निष्कर्षक)和गति मार्गदर्शन संलयन(Motion-guidance Fuser), प्रदत्तं प्रक्षेपवक्रं बहुस्तरीयं स्थानिककालगतगतिपैचेषु एन्कोड् कर्तुं प्रयुक्तम् ।

अधोलिखिते चित्रे तोरा-नगरस्य समग्रं वास्तुकला दृश्यते । एषः उपायः DiT इत्यस्य मापनीयतायाः सह सङ्गतः अस्ति, येन उच्च-संकल्प-गति-नियन्त्रित-वीडियो-निर्माणं सक्षमं भवति, ये दीर्घकालं यावत् स्थास्यन्ति ।


▲तोरा समग्र वास्तुकला

इत्यस्मिन्‌,प्रक्षेपवक्र निष्कर्षक3D गति VAE (variational autoencoder) इत्यस्य उपयोगेन, प्रक्षेपवक्रसदिशं विडियो पैच्स् इत्यस्य समाने गुप्तस्थाने एम्बेडेड् भवति, यत् प्रभावीरूपेण क्रमशः फ्रेम्स मध्ये गतिसूचनाः धारयितुं शक्नोति, ततः पदानुक्रमितगतिविशेषताः निष्कासयितुं स्टैक्ड् कन्वोल्यूशनल् लेयर्स् इत्यस्य उपयोगः भवति

गति मार्गदर्शन संलयनततः, एतान् बहुस्तरीयगतिस्थितीनां निर्विघ्नतया तत्सम्बद्धेषु DiT-खण्डेषु निवेशयितुं अनुकूलसामान्यीकरणस्तरस्य उपयोगः भवति यत् सुनिश्चितं भवति यत् विडियोजननम् सर्वदा परिभाषितप्रक्षेपवक्रस्य अनुसरणं करोति

DiT-आधारित-वीडियो-जनरेशनं प्रक्षेपवक्रैः सह संयोजयितुं लेखकाः संलयन-वास्तुकलायां त्रीणि रूपाणि अन्वेषितवन्तः, प्रत्येकस्मिन् STDiT-खण्डे गति-पैच्-इञ्जेक्शन्-इत्येतत्, यत्र Adaptive Norm-इत्यनेन सर्वोत्तम-प्रदर्शनं प्रदर्शितम्


▲गतिमार्गदर्शनसंलयनयन्त्रस्य त्रयः वास्तुशिल्पविन्यासाः

विशिष्टप्रशिक्षणप्रक्रियायाः कालखण्डे लेखकेन भिन्ननिवेशस्थितीनां कृते भिन्नाः प्रशिक्षणरणनीतयः स्वीकृताः ।

प्रक्षेपवक्रप्रशिक्षणे तोरा प्रक्षेपवक्रशिक्षणार्थं द्विचरणीयप्रशिक्षणपद्धतिं प्रयुङ्क्ते प्रथमचरणं प्रशिक्षणविडियोतः सघन प्रकाशीयप्रवाहं निष्कासयति द्वितीयचरणं गतिविभाजनपरिणामानां प्रकाशीयप्रवाहस्य च आधारेण प्रकाशीयप्रवाहात् १ तः Nपर्यन्तं वस्तुनां चयनं यादृच्छिकरूपेण करोति स्कोरः अन्ततः गाउसीय-छिद्रकं प्रयोज्य प्रक्षेपवक्र-नमूनानि परिष्कृतानि भवन्ति ।

चित्रप्रशिक्षणे, Tora दृश्यसमायोजनस्य समर्थनार्थं OpenSora द्वारा स्वीकृतायाः मास्किंग् रणनीत्याः अनुसरणं करोति प्रशिक्षणप्रक्रियायाः समये फ्रेम्स यादृच्छिकरूपेण अनलॉक्ड् भवन्ति कोलाहलः एकीकृतप्रतिरूपे निर्विघ्नतया एकीकृतः।

उन्नतगतिनियन्त्रणीयवीडियोजननप्रतिमानैः सह परिमाणात्मकरूपेण तुलनां कुर्वन्, UNet-आधारितविधिषु Tora इत्यस्य कार्यक्षमतायाः लाभः वर्धमानः भवति यतः उत्पन्नचतुष्कोणानां संख्या वर्धते, प्रक्षेपवक्रनियन्त्रणस्य उच्चतरं स्थिरतां निर्वाहयति


▲तोरा अन्येषां च नियन्त्रणीयानां विडियोजननमाडलानाम् मध्ये तुलना

यथा, समाननिवेशस्य आधारेण, Tora द्वारा उत्पन्नः विडियो DragNUWA तथा MotionCtrl मॉडल् इत्यनेन उत्पन्नस्य विडियो इत्यस्मात् अधिकं सुचारुः भवति, तथा च सः गतिप्रक्षेपवक्रस्य अधिकसटीकतया अनुसरणं करोति

//oss.zhidx.com/uploads/2024/08/66acd0bd4936e_66acd0bd456db_66acd0bd456b9_तुलना video.mp4

3. “भविष्याः” साकाराः अभवन्, अलीबाबा योजनाः निरन्तरं कुर्वन् अस्तिविडिओ

एआइ-वीडियो-जनरेशन-क्रीडकाः पूर्णरूपेण प्रचलन्ति, अलीबाबा-संस्था च एआइ-वीडियो-पट्टिकां निरन्तरं व्याप्तवती अस्ति । सोरा इत्यादिभिः सामान्यमाडलैः सह तुलने ये विडियोजननदीर्घतायां गुणवत्तायां च केन्द्रीभवन्ति, अलीबाबा-दलस्य परियोजना भिन्न-भिन्न-वीडियो-जनन-रूपेषु एल्गोरिदम्-विशिष्ट-अनुप्रयोगे अधिकं केन्द्रीभूता प्रतीयते

अस्मिन् वर्षे जनवरीमासे टोङ्गी किआन्वेन् इत्यनेन "राष्ट्रीयनृत्यराजा" इत्यस्य आरम्भः कृतः तथा च "टेराकोटा योद्धानां अश्वानाम् नृत्यविषयः ३" इत्यनेन प्रसिद्धः अभवत्, अलीबाबा इत्यनेन चित्रस्य विडियो जनरेशन ढाञ्चः ईएमओ इति प्रकाशितम्, यत् फोटोमध्ये जनान् प्रकटयितुं शक्नोति केवलं एकेन चित्रेण सह।

तस्मिन् समये ज़िडोङ्गझी इत्यनेन एआइ-वीडियोषु अलीबाबा-महोदयस्य विन्यासस्य गणना कृता, ततः चतुर्मासेषु न्यूनातिन्यूनं ७ नूतनानि परियोजनानि प्रारब्धाः इति ज्ञातम्, येषु विन्सेन्ट्-वीडियो, तुशेङ्ग-वीडियो, चरित्र-नृत्यं, चित्र-वार्तालापम् इत्यादीनि सन्ति (घरेलू देवस्तरीयः एआइ प्रकटितः भवति! गाओ किकियाङ्गः लुओ क्षियाङ्गरूपेण परिणमति, कै ज़ुकुनः रैपस्य राजा भवति, सोरा इत्यनेन सह च सम्बद्धः भवति)

अधुना अर्धवर्षेण अनन्तरं EMO “futures” इत्यस्मात् Tongyi App इत्यस्मिन् “national singing and performing” इति कार्ये परिणतम् अस्ति, यत् सर्वेषां कृते उपलभ्यते। अलीबाबा इत्यनेन अधिकानि एआइ-वीडियो-प्रकल्पानि अपि प्रकाशितानि सन्ति ।

1AtomoVideo इति: उच्च-निष्ठा-प्रतिबिम्ब-वीडियो-जननम्

AtomoVideo इति 5 मार्च दिनाङ्के विमोचितः अभवत् ।इदं उच्च-निष्ठायुक्तं तुशेङ्ग-वीडियो-रूपरेखा अस्ति बहु-दानेदार-प्रतिबिम्ब-इञ्जेक्शन्-उच्च-गुणवत्ता-युक्तानां आँकडा-समूहानां प्रशिक्षण-रणनीतीनां च आधारेण, एतत् उत्पन्नस्य विडियो-दत्त-सन्दर्भ-प्रतिबिम्बस्य च मध्ये उच्च-निष्ठां निर्वाहयितुं शक्नोति, यदा तु achieving समृद्धव्यायामतीव्रता तथा उत्तमसमयस्य स्थिरता।


▲AtomoVideo विडियो प्रभावं जनयति

परियोजनायाः मुखपृष्ठम् : १.https://atomo-video.github.io/ इति वृत्तान्तः ।

2EasyAnimate-v3:एकं चित्रम्+पाठात् उच्च-संकल्प-दीर्घ-वीडियो जनयन्तु

EasyAnimate इति अलीबाबा इत्यनेन एप्रिल-मासस्य १२ दिनाङ्के आरब्धा, केवलं ३ मासेषु एव v3 संस्करणं प्रति पुनरावृत्तिः कृता । एतत् DiT-रूपरेखायाः विस्तारं कृत्वा गति-मॉड्यूल्-प्रवर्तनं करोति, यत् कालगत-गतिशीलतां गृहीतुं क्षमतां वर्धयति तथा च उत्पन्न-वीडियानां सुचारुतां स्थिरतां च सुनिश्चितं करोति यत् एतत् भिन्न-भिन्न-संकल्पैः 24fps-रूपरेखाभिः सह प्रायः 6 सेकण्ड्-पर्यन्तं विडियो-जननं कर्तुं शक्नोति


▲EasyAnimate v3 विडियो प्रभावं जनयति

परियोजनायाः मुखपृष्ठम् : १.https://github.com/aigc-apps/ईजीएनिमेट

निगमन:अधुना विडियो जनरेशन अधिकं नियन्त्रणीयम् अस्ति

यदा एआइ-वीडियो-जननस्य दीर्घता गुणवत्ता च एकं निश्चितं स्तरं प्राप्तवती अस्ति तदा उत्पन्न-वीडियो-निर्माणं कथं अधिकं नियन्त्रणीयं आवश्यकतानुसारं च अधिकं करणीयम् इति अस्मिन् क्षणे महत्त्वपूर्णः प्रस्तावः अस्ति

सटीकता, नियन्त्रणक्षमता, संसाधन-उपयोग-दक्षतायाः च निरन्तर-अनुकूलनेन एआइ-वीडियो-जनन-उत्पादानाम् उपयोगस्य अनुभवः नूतन-चरणस्य आरम्भं करिष्यति, मूल्यं च अधिकं किफायती भविष्यति, येन अधिकाः निर्मातारः भागं ग्रहीतुं शक्नुवन्ति