सोरा इत्यस्य घरेलुसंस्करणं मुक्तस्रोतम् अस्ति! अनुमानं 18G, 4090 एकल कार्डं यावत् अनुकूलितं run

सोरा इत्यस्य घरेलुसंस्करणं मुक्तस्रोतम् अस्ति!अनुमानं 18G यावत् अनुकूलितं भवति, 4090 एककार्डं चालयितुं शक्नोति

2024-08-06

स्मार्ट वस्तूनि
लेखकZeR0
सम्पादक मो यिंग

Zhidongxi इत्यनेन अगस्तमासस्य ६ दिनाङ्के ज्ञापितं यत् शुभसमाचारः अस्ति यत् Zhipu AI इत्यस्य video generation model CogVideoX-2B इति गतरात्रौ आधिकारिकतया मुक्तस्रोतः अभवत् ।

मॉडल् GitHub तथा Hugging Face इत्यत्र स्थापितं अस्ति FP16 सटीकतायां केवलं 18GB विडियो मेमोरी आवश्यकी भवति, यदा तु फाइन-ट्यूनिङ्ग् कृते केवलं 40GB इत्यस्य आवश्यकता भवति अनुमानार्थं एकस्य 4090 ग्राफिक्स् कार्ड् इत्यस्य उपयोगः कर्तुं शक्यते तथा च एकस्य A6000 इत्यस्य उपयोगः फाइन- कृते कर्तुं शक्यते । ट्यूनिङ्ग् ।

CogVideoX-2B कृते प्रॉम्प्ट् शब्दानां उपरि सीमा 226 टोकन, विडियो दीर्घता 6 सेकण्ड्, फ्रेम रेट् 8 फ्रेम/सेकेण्ड्, विडियो रिजोल्यूशन च 720 * 480 अस्ति

मुक्तस्रोतमाडलस्य CogVideoX श्रृङ्खलायाः उत्पत्तिः Zhipu AI इत्यस्य व्यावसायिकविडियोजननमाडलस्य "Qingying" इत्यस्य समाना अस्ति । 2B संस्करणस्य प्रारम्भानन्तरं भविष्ये दृढतरप्रदर्शनयुक्तानि बृहत्तरमापदण्डानि च युक्तानि मुक्तस्रोतमाडलाः अलमार्यां स्थापितानि भविष्यन्ति ।

कोड भण्डारः : १.https://github.com/THUDM/कोगवीडियो
मॉडल डाउनलोड् : १.https://huggingface.co/THUDM/CogVideoX-2b
तकनीकी प्रतिवेदनम् : १.https://github.com/THUDM/CogVideo/blob/मुख्य/संसाधन/CogVideoX.pdf

पत्रस्य अनुसारं CogVideoX रडार-चार्ट्-मध्ये अन्येषां कतिपयानां विडियो-जनन-माडलानाम् अपेक्षया बृहत्तरः अस्ति, यत्र विशेषता-मूल्यानि षट्कोणस्य समीपं गच्छन्ति ।

विन्सेन्ट् इत्यस्य विडियोनां गुणवत्तायाः मूल्याङ्कनार्थं Zhipu AI VBench इत्यस्मिन् बहुविधसूचकानाम् उपयोगं करोति, यथा मानवस्य गतिविधिः, दृश्यानि, गतिशीलता इत्यादयः अपि अत्र द्वौ अतिरिक्तौ विडियो मूल्याङ्कनसाधनौ अपि उपयुज्यते: Dynamic Quality in Devil तथा Chrono-Magic GPT4o-MT स्कोर, एते साधनानि विडियोनां गतिशीललक्षणेषु केन्द्रीभूतानि सन्ति । यथा अधोलिखिते सारणीतः दृश्यते, CogVideoX बहुषु सूचकेषु अग्रणी अस्ति ।

अन्धमानवमूल्यांकने पञ्चसु सूचकेषु CogVideoX इत्यनेन Kuaishou Keling इत्यस्मात् अधिकं स्कोरः प्राप्तः ।

GitHub पृष्ठे CogVideoX-2B द्वारा उत्पन्नानि अनेकानि विडियोकार्यं दर्शयति:

▲提示词:जटिलरूपेण उत्कीर्णमस्तकैः, पालैः च सह विस्तृतं काष्ठक्रीडाजहाजं समुद्रस्य तरङ्गानाम् अनुकरणं कृत्वा आलीशाननीलकालीनस्य उपरि सुचारुतया स्खलितं दृश्यते पोतस्य पतङ्गं समृद्धं भूरेण वर्णितं, लघुजालकैः सह । मृदुः, बनावटयुक्तः च कालीनः समुद्रविस्तारसदृशं सम्यक् पृष्ठभूमिं प्रदाति । जहाजस्य परितः अन्ये विविधाः क्रीडनकाः बालवस्तूनि च सन्ति, येन लीलामयवातावरणस्य संकेतः प्राप्यते । दृश्यं बाल्यकालस्य निर्दोषतां कल्पनाञ्च गृह्णाति, यत्र क्रीडाजहाजस्य यात्रा विचित्रे, आन्तरिकपरिवेशे अनन्तसाहसिककार्यक्रमस्य प्रतीकं भवति

▲提示词:कॅमेरा कृष्णवर्णीयस्य छतस्य रैकयुक्तस्य श्वेतस्य विंटेज-एसयूवी-इत्यस्य पृष्ठतः अनुसरणं करोति यतः सः खड्ग-पर्वत-सानुषु पाइन-वृक्षैः परितः स्थितस्य खड्ग-कच्च-मार्गस्य गतिं करोति, तस्य टायर-धूलिः उपरि पादं पातयति, सूर्यप्रकाशः एसयूवी-इत्यस्य उपरि यथा प्रकाशते कच्चे मार्गे वेगं कृत्वा दृश्यस्य उपरि उष्णकान्तिं निक्षिपन्ति। कच्चामार्गः मन्दं दूरं वक्रः भवति, अन्ये यानानि वा वाहनानि वा न दृश्यन्ते । मार्गस्य उभयतः वृक्षाः रक्तकाष्ठाः सन्ति, येषु सर्वत्र हरितपटलाः विकीर्णाः सन्ति । वक्रतां अनुसृत्य पृष्ठतः सहजतया दृश्यते, येन उष्ट्रभूभागे उष्ट्रवाहने इव दृश्यते कच्चामार्गः एव तीव्रैः पर्वतैः परितः अस्ति, उपरि विस्पी मेघैः सह निर्मलं नीलं आकाशम् अस्ति ।

▲提示词:एकः वीथिकलाकारः, जीर्णं डेनिमजाकेटं, रङ्गिणं बन्दना च परिधाय, हृदये विशालस्य कंक्रीटस्य भित्तिस्य पुरतः स्थित्वा, स्प्रे-रङ्गस्य डिब्बाम् आदाय, धब्बेदार-भित्ति-उपरि रङ्गिणः पक्षिणः स्प्रे-चित्रणं करोति।

▲提示词:युद्धग्रस्तस्य नगरस्य भूतप्रिया पृष्ठभूमिः यत्र भग्नावशेषाः, क्षुण्णाः भित्तिः च विनाशस्य कथां कथयन्ति, तत्र मार्मिकः निकटचित्रः एकां युवतीं फ्रेमं करोति तस्याः मुखं भस्मना लिप्तं भवति, यत् तस्याः परितः अराजकतायाः मौनसाक्ष्यम् अस्ति । तस्याः नेत्राणि शोक-लचीलता-मिश्रणेन स्फुरन्ति, विग्रह-विध्वंसेन स्वस्य निर्दोषतां नष्टस्य जगतः कच्चा भावम् आकर्षयन्

CogVideoX सुसंगतदीर्घविडियो जनयितुं 3D VAE तथा विशेषज्ञ Transformer आर्किटेक्चरस्य उपयोगं करोति, तथा च स्वविकसितस्य विडियो अवगमनप्रतिरूपस्य माध्यमेन पाठविवरणसहितं विडियोक्लिप्स् इत्यस्य अपेक्षाकृतं उच्चगुणवत्तायुक्तं संग्रहं निर्माति

यतः विडियो-दत्तांशेषु स्थानिक-काल-सूचना भवति, तस्य दत्तांश-आयतनं, गणना-भारं च चित्र-दत्तांशस्य अपेक्षया दूरम् अतिक्रमति ।ज़िपु ए आई प्रस्तावित आधार पर3D भिन्नात्मक स्वएन्कोडर (3D VAE) .विडियो संपीडन पद्धतिः एकत्रैव त्रिविमीय-संपीडन-माध्यमेन विडियो-स्थानिक-काल-आयामान् संपीडयति, येन उच्चतर-संपीडन-दरः, उत्तम-पुनर्निर्माण-गुणवत्ता च प्राप्यते

▲3D CogVideoX मध्ये VAE वास्तुकला

मॉडल् संरचनायां एन्कोडरः, डिकोडरः, गुप्तस्थाननियमितकर्ता च सन्ति, तथा च डाउनसैम्पलिंग्, अपसैम्पलिंग् इत्येतयोः चतुर्णां चरणानां माध्यमेन संपीडनं प्राप्यते अस्थायी कारणात्मकं परिवर्तनं सूचनायाः कारणत्वं सुनिश्चितं करोति तथा च संचारस्य उपरितनं न्यूनीकरोति।

प्रयोगे ज़िपु एआइ इत्यनेन ज्ञातं यत् बृहत्-संकल्प-सङ्केतनं सामान्यीकरणं सुलभं भवति, तथा च फ्रेम-सङ्ख्यां वर्धयितुं अधिका आव्हानं भवति अतः मॉडल-प्रशिक्षणं द्वयोः चरणयोः विभक्तम् अस्ति : प्रथमं न्यून-फ्रेम-दरेण प्रशिक्षणं लघु-बैच् च , ततः च उच्चतरस्य Fine-tuning the frame rate इत्यस्य प्रशिक्षणार्थं सन्दर्भसमानान्तरतायाः उपयोगः । प्रशिक्षणहानिकार्यं 3D भेदकस्य L2 हानिः, LPIPS बोधहानिः, GAN हानिः च संयोजयति ।

Zhipu AI VAE इत्यस्य एन्कोडरस्य उपयोगं कृत्वा विडियों गुप्तस्थाने संपीडयति, ततः सुप्तस्थानं खण्डेषु विभजति तथा च z_vision एम्बेड् कर्तुं दीर्घक्रमेषु विस्तारयति तस्मिन् एव काले, पाठनिवेशं z_text मध्ये एन्कोड् कर्तुं T5 इत्यस्य उपयोगं करोति, तथा च ततः क्रमेण सह z_text तथा z_vision, spliced embedding मध्ये फीड भवतिविशेषज्ञपरिवर्तकब्लॉक-स्टैक्स्-मध्ये संसाधितं, एम्बेडिंग्स् अन्ततः मूल-गुप्त-अन्तरिक्ष-आकारं पुनः प्राप्तुं पृष्ठ-सिले भवन्ति तथा च विडियो-पुनर्निर्माणार्थं VAE इत्यस्य उपयोगेन डिकोड् भवन्ति

▲CogVideoX वास्तुकला

प्रशिक्षणदत्तांशस्य दृष्ट्या ज़िपु एआइ इत्यनेन न्यूनगुणवत्तायुक्तानां विडियोनां पहिचानाय बहिष्काराय च नकारात्मकलेबलाः विकसिताः, तथा च विडियो-लामाद्वारा प्रशिक्षितानां फ़िल्टरद्वारा २०,००० विडियोदत्तांशनमूनानां चिह्नं कृत्वा स्क्रीनिंगं कृतम्, प्रकाशीयप्रवाहस्य सौन्दर्यस्य च स्कोरस्य गणना कृता, तथा च थ्रेशोल्ड्स् गतिशीलरूपेण समायोजिताः आसन् उत्पन्नस्य विडियोस्य गुणवत्तां सुनिश्चितं कुर्वन्तु।

विडियो उपशीर्षकदत्तांशस्य अभावस्य समस्यायाः प्रतिक्रियारूपेण Zhipu AI इत्यनेन प्रस्तावितं यत् कचित्र उपशीर्षकात् विडियो उपशीर्षकं जनयितुं पाइपलाइनम् , तथा च सघनतर उपशीर्षकाणां प्राप्त्यर्थं अन्तः अन्तः विडियो उपशीर्षकप्रतिरूपं सूक्ष्मरूपेण ट्यून कुर्वन्तु । एषा पद्धतिः लघुउपशीर्षकाणि जनयितुं Panda70M मॉडलस्य उपयोगं करोति, सघनप्रतिमा उपशीर्षकाणि जनयितुं CogView3 मॉडलस्य उपयोगं करोति, ततः अन्तिमलघुविडियो जनयितुं सारांशं कर्तुं GPT-4 मॉडलस्य उपयोगं करोति

दलेन CogVLM2-Video तथा Llama 3-आधारितं च सूक्ष्मतया ट्यून् कृतम्CogVLM2-Caption मॉडल, विडियो उपशीर्षकजननप्रक्रियायाः त्वरिततायै सघन उपशीर्षकदत्तांशस्य उपयोगेन प्रशिक्षितः ।

▲घन उपशीर्षक डेटा जनन प्रक्रिया

Zhipu AI दलम् अद्यापि जटिलगतिशीलतां गृहीतुं, नूतनं मॉडल आर्किटेक्चरं अन्वेष्टुं, विडियो सूचनां अधिकतया संपीडयितुं, विडियो जनरेशन मॉडलस्य स्केलिंग् नियमस्य अन्वेषणं निरन्तरं कर्तुं पाठं विडियो सामग्रीं च अधिकतया एकीकृत्य, लक्ष्यं कृत्वा, CogVideoX इत्यस्य क्षमतां सुधारयितुम् कठिनं कार्यं कुर्वन् अस्ति to train दीर्घतरं, उच्चगुणवत्तायुक्तं विडियो जनयितुं बृहत्तराणि अधिकशक्तिशालिनः च मॉडल्।

अधुना अधिकाधिकाः विडियोजननप्रतिमानाः अनुप्रयोगाः च सन्ति, तथा च प्रौद्योगिकी क्रमेण परिपक्वा भवति तथापि व्यावसायिकस्तरस्य अनुप्रयोगानाम् आवश्यकतां पूरयितुं शक्नुवन्तं मुक्तस्रोतविडियोजननप्रतिरूपं न अभवत् वयं अधिकानि विडियो जनरेशन मॉडल् मुक्तस्रोतरूपेण भवितुं, अधिकाधिकविकासकानाम् उद्यमानाञ्च विडियो जनरेशन मॉडल् तथा अनुप्रयोगानाम् विकासे भागं ग्रहीतुं प्रचारं कुर्मः, तथा च विडियो जनरेशनस्य परितः विविधतकनीकी अनुकूलने कार्यात्मकविकासे च योगदानं दातुं प्रतीक्षामहे।

समाचारं

सोरा इत्यस्य घरेलुसंस्करणं मुक्तस्रोतम् अस्ति!अनुमानं 18G यावत् अनुकूलितं भवति, 4090 एककार्डं चालयितुं शक्नोति

आमुख

मम सम्पर्कसूचना