Zhipu open source Qingying CogVideoX 2B मॉडल, एकस्य RTX 4090 इत्यस्य उपयोगः inference

Zhipu open source Qingying CogVideoX 2B मॉडल, एकस्य RTX 4090 इत्यस्य उपयोगः अनुमानार्थं कर्तुं शक्यते

2024-08-06

लेखक|बृहत् मॉडल मोबाईल समूह
ईमेल[email protected]

बृहत्-परिमाणस्य आदर्श-प्रौद्योगिक्याः निरन्तर-विकासेन सह विडियो-जनन-प्रौद्योगिकी क्रमेण परिपक्वा भवति । सोरा, जेन्-३ इत्यादिभिः बन्द-स्रोत-वीडियो-जनरेशन-माडलैः प्रतिनिधित्वं कृताः प्रौद्योगिकयः उद्योगस्य भविष्यस्य परिदृश्यं पुनः परिभाषयन्ति । परन्तु अधुना यावत् अद्यापि कोऽपि मुक्तस्रोत-वीडियो-जनन-प्रतिरूपः नास्ति यत् वाणिज्यिक-स्तरीय-अनुप्रयोगानाम् आवश्यकतां पूरयितुं शक्नोति ।

"उन्नतप्रौद्योगिक्या सह वैश्विकविकासकानाम् सेवा" इति अवधारणायाः पालनम्, Zhipu AI इत्यनेन घोषितं यत् सः "Qingying" इत्यस्य समानमूलस्य विडियो जनरेशन मॉडलं CogVideoX इति मुक्तस्रोतं करिष्यति, एतस्याः आशायां यत् प्रत्येकं विकासकः प्रत्येकः उद्यमः च स्वतन्त्रतया भवतः Develop कर्तुं शक्नोति सम्पूर्णस्य उद्योगस्य द्रुतपुनरावृत्तिं अभिनवविकासं च प्रवर्धयितुं स्वस्य विडियो जनरेशन मॉडल्।

Cog Video Perform अनुमानं, तथा च सूक्ष्म-समायोजनं एकेन A6000 ग्राफिक्स् कार्डेन कर्तुं शक्यते ।

CogVideoX-2B कृते प्रॉम्प्ट् शब्दानां उपरि सीमा 226 टोकन, विडियो दीर्घता 6 सेकण्ड्, फ्रेम रेट् 8 फ्रेम/सेकेण्ड्, विडियो रिजोल्यूशन च 720*480 अस्ति वयं विडियो गुणवत्तायाः उन्नयनार्थं विस्तृतं स्थानं आरक्षितवन्तः तथा च शब्द-अनुकूलनं, विडियो-दीर्घतां, फ्रेम-दरं, रिजोल्यूशनं, दृश्य-सूक्ष्म-ट्यूनिङ्गं, विडियो-परिसरस्य विविध-कार्यस्य विकासं च प्रेरयितुं विकासकानां मुक्त-स्रोत-योगदानस्य प्रतीक्षां कुर्मः

दृढतरं प्रदर्शनं बृहत्तरं च मापदण्डं युक्ताः मॉडल् मार्गे सन्ति, अतः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः भवन्तः।

कोड भण्डारः : १.
https://github.com/THUDM/कोगवीडियो

मॉडल डाउनलोड् : १.
https://huggingface.co/THUDM/CogVideoX-2b

तकनीकी प्रतिवेदनम् : https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf

प्रतिकृति

वाए: ९.

यतः विडियो-दत्तांशेषु स्थानिक-काल-सूचना भवति, तस्य दत्तांश-आयतनं, गणना-भारं च चित्र-दत्तांशस्य अपेक्षया दूरम् अतिक्रमति । एतस्याः आव्हानस्य निवारणाय वयं 3D variational autoencoder (3D VAE) इत्यस्य आधारेण विडियो संपीडनपद्धतिं प्रस्तावयामः । 3D VAE एकत्रैव त्रि-आयामी-परिवर्तनस्य माध्यमेन विडियोस्य स्थानिक-काल-आयामान् संपीडयति, येन उच्चतर-संपीडन-दराः, उत्तम-पुनर्निर्माण-गुणवत्ता च प्राप्यन्ते

मॉडल् संरचनायां एन्कोडरः, डिकोडरः, गुप्तस्थाननियमितकर्ता च सन्ति, तथा च डाउनसैम्पलिंग्, अपसैम्पलिंग् इत्येतयोः चतुर्णां चरणानां माध्यमेन संपीडनं प्राप्यते कालगतकारणविक्षेपः सूचनायाः कारणत्वं सुनिश्चितं करोति तथा च संचारस्य उपरिभारं न्यूनीकरोति । वयं बृहत्-परिमाणस्य विडियो-प्रक्रियाकरणस्य अनुकूलतायै सन्दर्भ-समानता-प्रविधिं नियोजयामः । प्रयोगेषु वयं पश्यामः यत् बृहत्-संकल्प-सङ्केतनं सामान्यीकरणं सुलभं भवति, परन्तु फ्रेम-सङ्ख्यां वर्धयितुं अधिकं चुनौतीपूर्णं भवति । अतः वयं मॉडलं द्वयोः चरणयोः प्रशिक्षयामः : प्रथमं न्यूनफ्रेम-दरेषु लघु-बैचेषु च, ततः सन्दर्भ-समानान्तरतायाः माध्यमेन उच्चतर-फ्रेम-दरेषु सूक्ष्म-समायोजनं कुर्मः प्रशिक्षणहानिकार्यं 3D भेदकस्य L2 हानिः, LPIPS बोधहानिः, GAN हानिः च संयोजयति ।

विशेषज्ञपरिवर्तक

वयं VAE इत्यस्य एन्कोडरस्य उपयोगं कुर्मः यत् विडियो एकस्मिन् गुप्तस्थाने संपीडयितुं शक्नुमः, ततः सुप्तस्थानं खण्डेषु विभज्य दीर्घक्रमस्य एम्बेडिंग्स् z_vision इत्यत्र विस्तारयामः । तस्मिन् एव काले वयं T5 इत्यस्य उपयोगं कुर्मः यत् पाठनिवेशं z_text एम्बेडिंग् कृत्वा पाठं एन्कोड् कर्तुं, ततः क्रमपरिमाणेन सह z_text तथा z_vision इत्येतयोः संयोजनं कुर्मः । स्प्लिस्ड् एम्बेडिङ्ग्स् प्रसंस्करणार्थं विशेषज्ञ ट्रांसफॉर्मर ब्लॉक् इत्यस्य स्तम्भे फीड भवन्ति । अन्ते वयं मूलगुप्तस्थानस्य आकारं पुनः प्राप्तुं एम्बेडिंग्स् बैक-स्टिच कुर्मः तथा च विडियो पुनर्निर्माणार्थं VAE इत्यस्य उपयोगेन डिकोड् कुर्मः ।

दत्तांश

वीडियो जनरेशन मॉडल प्रशिक्षणं वास्तविक-जगतः गतिशीलतां ज्ञातुं उच्चगुणवत्तायुक्तं विडियो-आँकडानां परीक्षणस्य आवश्यकता भवति । मानवीयसम्पादनस्य अथवा चलच्चित्रस्य विषयेषु विडियो अशुद्धः भवितुम् अर्हति। वयं न्यूनगुणवत्तायुक्तानां विडियोनां पहिचानाय बहिष्काराय च नकारात्मकलेबल् विकसितवन्तः यथा अति-सम्पादित, चपल-गति, न्यून-गुणवत्ता, व्याख्यान-शैली, पाठ-प्रधानं, स्क्रीन-शोर-वीडियो च। वयं २०,००० विडियो-दत्तांशबिन्दून् विडियो-लामा-प्रशिक्षितैः फ़िल्टरैः टिप्पणीं कृत्वा फ़िल्टर कृतवन्तः । तस्मिन् एव काले प्रकाशीयप्रवाहस्य सौन्दर्यस्य च स्कोरस्य गणना भवति, तथा च उत्पन्नस्य विडियोस्य गुणवत्तां सुनिश्चित्य दहलीजं गतिशीलरूपेण समायोजितं भवति

सामान्यतया विडियो-दत्तांशस्य पाठविवरणं नास्ति, पाठ-विडियो-प्रतिरूप-प्रशिक्षणार्थं पाठ-विवरणेषु परिवर्तनस्य आवश्यकता वर्तते । विद्यमान-वीडियो-उपशीर्षकदत्तांशसमूहेषु लघुउपशीर्षकाणि सन्ति, ते च विडियो-सामग्रीणां पूर्णतया वर्णनं कर्तुं न शक्नुवन्ति । वयं चित्र उपशीर्षकात् विडियो उपशीर्षकाणां जननार्थं पाइपलाइनं प्रस्तावयामः तथा च सघनतर उपशीर्षकाणां प्राप्त्यर्थं अन्त्यतः अन्तः विडियो उपशीर्षकप्रतिरूपं सूक्ष्मरूपेण ट्यून कुर्मः। एषा पद्धतिः Panda70M मॉडल् इत्यस्य माध्यमेन लघु उपशीर्षकाणि, CogView3 मॉडल् इत्यस्य उपयोगेन सघनानि इमेज उपशीर्षकाणि जनयति, ततः अन्तिम लघु विडियो जनयितुं GPT-4 मॉडल् इत्यस्य उपयोगेन सारांशं ददाति वयं CogVLM2-Video तथा Llama 3 इत्येतयोः आधारेण CogVLM2-Caption मॉडल् अपि सूक्ष्मरूपेण ट्यून् कृतवन्तः, यत् विडियो उपशीर्षकजननप्रक्रियायाः त्वरिततायै सघन उपशीर्षकदत्तांशस्य उपयोगेन प्रशिक्षितम्।

प्रदर्शनम्‌

पाठ-तः-वीडियो-जननस्य गुणवत्तायाः मूल्याङ्कनार्थं वयं VBench मध्ये बहुविध-मेट्रिक-उपयोगं कुर्मः, यथा मानवीयक्रियाः, दृश्यानि, गतिशीलता इत्यादयः । वयं द्वौ अतिरिक्तौ विडियो मूल्याङ्कनसाधनौ अपि उपयुज्यन्तः: Devil इत्यस्मिन् Dynamic Quality तथा Chrono-Magic इत्यस्मिन् GPT4o-MT Score, ये विडियोषु गतिशीललक्षणेषु केन्द्रीभवन्ति। यथा अधोलिखिते सारणीयां दर्शितम्।

वयं विडियोजनने स्केलिंग्-कानूनस्य प्रभावशीलतां सत्यापितवन्तः भविष्ये, यदा वयं डाटा-स्केल-माडल-स्केल-इत्येतत् निरन्तरं स्केल-अपं कुर्मः, तदा वयं अधिक-सफलता-नवाचार-सहितं नूतन-माडल-आर्किटेक्चर-अन्वेषणं करिष्यामः, विडियो-सूचनाः अधिक-कुशलतया संपीडयिष्यामः, अधिकतया च एकीकृत्य स्थापयिष्यामः | .पाठः तथा च विडियो सामग्री।

डेमो

समुद्रस्य तरङ्गानाम् अनुकरणं कृत्वा आलीशाननीलकालीनस्य उपरि जटिलतया उत्कीर्णमस्तकैः, पालैः च विस्तृतं काष्ठक्रीडापोतं स्खलितं दृश्यते पोतस्य पतङ्गं समृद्धं भूरेण वर्णितं, लघुजालकैः सह । मृदुः, बनावटयुक्तः च कालीनः समुद्रविस्तारसदृशं सम्यक् पृष्ठभूमिं प्रदाति । जहाजस्य परितः अन्ये विविधाः क्रीडनकाः बालवस्तूनि च सन्ति, येन लीलामयवातावरणस्य संकेतः प्राप्यते । दृश्यं बाल्यकालस्य निर्दोषतां कल्पनाञ्च गृह्णाति, यत्र क्रीडाजहाजस्य यात्रा विचित्रे, आन्तरिकपरिवेशे अनन्तसाहसिककार्यक्रमस्य प्रतीकं भवति

कॅमेरा कृष्णवर्णीयस्य छतस्य रैकयुक्तस्य श्वेतस्य विंटेज-एसयूवी-इत्यस्य पृष्ठतः अनुसरणं करोति यतः सः खड्ग-पर्वत-सानुषु पाइन-वृक्षैः परितः एकं तीव्रं कच्चि-मार्गं वेगं करोति, तस्य टायर-धूलिः उपरि पादं पातयति, सूर्यप्रकाशः एसयूवी-इत्यस्य उपरि प्रकाशते यतः सा गन्दगीं गच्छति | मार्गे, दृश्यस्य उपरि उष्णकान्तिं निक्षिप्य। कच्चामार्गः मन्दं दूरं वक्रः भवति, अन्ये यानानि वा वाहनानि वा न दृश्यन्ते । मार्गस्य उभयतः वृक्षाः रक्तकाष्ठाः सन्ति, येषु सर्वत्र हरितपटलाः विकीर्णाः सन्ति । वक्रतां अनुसृत्य पृष्ठतः सहजतया दृश्यते, येन उष्ट्रभूभागे उष्ट्रवाहने इव दृश्यते कच्चामार्गः एव तीव्रैः पर्वतैः परितः अस्ति, उपरि विस्पी मेघैः सह निर्मलं नीलं आकाशम् अस्ति ।

युद्धग्रस्तस्य नगरस्य भूतायां पृष्ठभूमिः यत्र भग्नावशेषाः, विध्वस्तभित्तिः च विनाशस्य कथां कथयन्ति, तत्र मार्मिकः निकटचित्रः एकां बालिकां फ्रेमं करोति तस्याः मुखं भस्मना लिप्तं भवति, यत् तस्याः परितः अराजकतायाः मौनसाक्ष्यम् अस्ति । तस्याः नेत्राणि शोक-लचीलता-मिश्रणेन स्फुरन्ति, विग्रह-विध्वंसेन स्वस्य निर्दोषतां नष्टस्य जगतः कच्चा भावम् आकर्षयन्

एकः भृङ्गः काचसदृशपक्षः पुष्पक्षेत्रे भ्रमति । शॉट् सुकुमारपक्षेषु गच्छन् प्रकाशं गृह्णाति, सजीवं, रङ्गिणं प्रदर्शनं निर्माति । HD.

हिमवने दृश्यं यस्य कच्चा मार्गः धावति। मार्गः पार्श्वतः हिमवृतवृक्षैः, भूमिः अपि हिमवृता अस्ति । सूर्यः प्रकाशते, उज्ज्वलं शान्तं च वातावरणं निर्माति । मार्गः शून्यः दृश्यते, तत्र जनाः वा पशवः वा भिडियायां न दृश्यन्ते । भिडियोस्य शैली प्राकृतिकः परिदृश्यस्य शॉट् अस्ति, यत्र हिमवने सौन्दर्यं, मार्गस्य शान्तिं च केन्द्रितम् अस्ति ।

ज्वालाभिः सह बारबेक्यू इत्यत्र ग्रिल करणाय कुक्कुटस्य हरितमरिचस्य च कबाबस्य अत्यन्तं निकटचित्रम्। उथलं ध्यानं लघुधूमः च। सजीववर्णाः

"" नुत्वा गच्छामः

समाचारं

Zhipu open source Qingying CogVideoX 2B मॉडल, एकस्य RTX 4090 इत्यस्य उपयोगः अनुमानार्थं कर्तुं शक्यते

आमुख

मम सम्पर्कसूचना