सोरा इत्यस्य एआइ संस्करणं मुक्तस्रोतम् अस्ति! प्रथमं व्यावसायिकप्रयोगाय उपलब्धं GitHub 5 घण्टेषु 3.7K ताराणि प्राप्तवान्

सोरा इत्यस्य एआइ संस्करणं मुक्तस्रोतम् अस्ति!प्रथमं व्यावसायिकरूपेण उपलब्धं GitHub इत्यनेन ५ घण्टेषु ३.७K ताराणि संग्रहितानि

2024-08-06

जिन् लेई आओफेइ मन्दिरात् आगच्छति
Qubits |.सार्वजनिक खाता QbitAI

सोरा इत्यस्य घरेलुसंस्करणं वस्तुतः उन्मत्तम् अस्ति।

अधुना एव,बुद्धि स्पेक्ट्रम ऐप्रत्यक्षम्स्पष्ट छायाविडियो जनरेशनस्य पृष्ठतः बृहत् मॉडलः ददातिमुक्तस्रोत。

अस्ति चप्रथमं व्यावसायिकरूपेण उपलब्धम्तत्प्रकारकं वस्तु !

अस्य आदर्शस्य नाम अस्तिCogVideoX, केवलं GitHub इत्यत्र एव विमोचितम्५ घण्टाः, अतः सः तत् वन्यरूपेण गृहीतवान्३.७K तारा️。

प्रत्यक्षतया प्रभावं पश्यामः ।

प्रॉम्प्ट् १, २.जनानां निकटचित्रम्：

युद्धग्रस्तस्य नगरस्य भूतायां पृष्ठभूमिः यत्र भग्नावशेषाः, विध्वस्तभित्तिः च विनाशस्य कथां कथयन्ति, तत्र मार्मिकः निकटचित्रः एकां बालिकां फ्रेमं करोति तस्याः मुखं भस्मना लिप्तं भवति, यत् तस्याः परितः अराजकतायाः मौनसाक्ष्यम् अस्ति । तस्याः नेत्राणि शोक-लचीलता-मिश्रणेन स्फुरन्ति, विग्रह-विध्वंसेन स्वस्य निर्दोषतां नष्टस्य जगतः कच्चा भावम् आकर्षयन्

न केवलं पात्राणां नेत्रादिविवरणानि अतीव उच्चपरिभाषानि, अपितु निमिषात् पूर्वं पश्चात् च निरन्तरता अपि धारिता इति द्रष्टुं शक्यते ।

पुनः प्रॉम्प्ट् २ आगच्छन्तु,एकः शॉट् अन्ते यावत्：

कॅमेरा कृष्णवर्णीयस्य छतस्य रैकयुक्तस्य श्वेतस्य विंटेज-एसयूवी-इत्यस्य पृष्ठतः अनुसरणं करोति यतः सः खड्ग-पर्वत-सानुषु पाइन-वृक्षैः परितः एकं तीव्रं कच्चि-मार्गं वेगं करोति, तस्य टायर-धूलिः उपरि पादं पातयति, सूर्यप्रकाशः एसयूवी-इत्यस्य उपरि प्रकाशते यतः सा गन्दगीं गच्छति | मार्गे, दृश्यस्य उपरि उष्णकान्तिं निक्षिप्य। कच्चामार्गः मन्दं दूरं वक्रः भवति, अन्ये यानानि वा वाहनानि वा न दृश्यन्ते । मार्गस्य उभयतः वृक्षाः रक्तकाष्ठाः सन्ति, येषु सर्वत्र हरितपटलाः विकीर्णाः सन्ति । वक्रतां अनुसृत्य पृष्ठतः सहजतया दृश्यते, येन उष्ट्रभूभागे उष्ट्रवाहने इव दृश्यते कच्चामार्गः एव तीव्रैः पर्वतैः परितः अस्ति, उपरि विस्पी मेघैः सह निर्मलं नीलं आकाशम् अस्ति ।

प्रकाशः छाया च, दूरस्थदृश्यानि, निकटशॉट्, वाहनस्य चालनप्रक्रिया च सर्वाणि गृह्यन्ते ।

तथा च एते प्रभावाः केवलं आधिकारिकविमोचनक्रियाः न सन्ति, ते सर्वैः ऑनलाइन क्रीडितुं शक्यन्ते~

एकं कार्ड् A100, ९० सेकेण्ड् मध्ये उत्पन्नं कर्तुं शक्यते

उल्लेखनीयं यत् Zhipu AI इत्यस्य CogVideoX इत्यस्मिन् बहुविधाः आकाराः समाविष्टाः सन्ति, अस्मिन् समये च मुक्तस्रोतस्य एकः CogVideoX-2B अस्ति ।

अस्य प्रासंगिकाः मूलभूतसूचनाः निम्नलिखितरूपेण सन्ति ।

अस्य कृते FP-16 सटीकतायां अनुमानार्थं केवलं 18GB विडियो स्मृतिः आवश्यकी भवति, तथा च सूक्ष्म-ट्यूनिङ्गार्थं केवलं 40GB विडियो स्मृतिः आवश्यकी भवति अस्य अर्थः अस्ति यत् एकः 4090 ग्राफिक्स् कार्ड् अनुमानं कर्तुं शक्नोति, तथा च एकः A6000 ग्राफिक्स् कार्ड् सूक्ष्म-ट्यूनिङ्गं सम्पूर्णं कर्तुं शक्नोति

अवगम्यते यत् एतत् प्रतिरूपं पूर्वमेव HuggingFace इत्यस्य diffusers पुस्तकालये परिनियोजनस्य समर्थनं करोति, तथा च संचालनम् अतीव सरलम् अस्ति, केवलं 2 चरणानि सन्ति:

1. तत्सम्बद्धानि आश्रयाणि संस्थापयन्तु

पिप प्रतिस्था --upgrade opencv-python ट्रांसफार्मर पिप प्रतिस्था git+https://github.com/हग्गिंगफेस/डिफ्यूजर्स.git@878f609aa5ce4a78fea0f048726889debde1d7e8#अण्ड=विसारकाः # अद्यापि जनसंपदायां

2. कोडं चालयन्तु

विसारकात् मशालं आयातयन्तु विसारकात् CogVideoXPipeline आयातयन्तु.utils आयात निर्यात_तः_वीडियो प्रॉम्प्ट = "एकः पाण्डा, लघु, रक्तजाकेटं, लघुटोपीं च धारयति, शान्तवेणुवने काष्ठमलस्य उपरि उपविशति। पाण्डायाः मृदुपङ्गुः लघुध्वनिगिटारं वादयन्ति, मृदु, सुरीलधुनानि उत्पादयन्ति। समीपे अन्ये कतिचन पाण्डाः समागच्छन्ति , कौतुकेन पश्यन् तालमेलेन च केचन ताडयन्ति सूर्यप्रकाशः दृश्ये मृदुकान्तिं पातयति, यत्र क्रीडति तदा एकाग्रतां आनन्दं च दर्शयति , अस्य अद्वितीयस्य सङ्गीतप्रदर्शनस्य शान्तिपूर्णं जादुई च वातावरणं वर्धयन्।" पाइप = CogVideoXPipeline.from_pretrained ("THUDM/CogVideoX-2b" इति ।, मशाल_dप्रकार=मशाल.फ्लोट16 ).to(to("कुडा" इति ।) prompt_embeds, _ = pipe.encode_prompt( प्रॉम्प्ट = प्रॉम्प्ट, do_classifier_free_guidance = सत्य, num_videos_per_prompt = 1, अधिकतम_अनुक्रम_लंबाई = 226, उपकरण ="कुडा" इति ।, dtype=torch.float16, ) video = pipe( num_inference_steps=50, मार्गदर्शन_स्केल=6, prompt_embeds=प्रोम्प्ट_एम्बेड्स्, ).frames[0] निर्यात_विडियो(वीडियो, "निर्गम.mp4", fps=८) २.

तथा च एककार्ड-A100 इत्यस्मिन् अधुना एव पदानि अनुसृत्य, केवलं 90 सेकेण्ड् यावत् समयः भवति, एकं विडियो जनयितुं ।

न केवलं तत्, HuggingFace इत्यत्र Zhipu AI इत्यनेन अपि कृतम् अस्तिऑनलाइन प्लेयबलडेमो, ९.व्यक्तिगत परीक्षण प्रभावयथा- १.

यथा भवान् पश्यति, उत्पन्नं परिणामं न केवलं .mp4 प्रारूपेण, अपितु GIF प्रारूपेण अपि डाउनलोड् कर्तुं शक्यते ।

अतः अग्रिमः प्रश्नः अस्ति यत्, Zhipu AI कथं करोति?

पत्रं सार्वजनिकमपि कृतम् अस्ति

झीपु एआइ न केवलं अस्मिन् समये विडियो जनरेशन मॉडल् मुक्तस्रोतः कृतवान्, अपितु तस्य पृष्ठतः तकनीकीप्रतिवेदनं अपि प्रकाशितवान् ।

सम्पूर्णे प्रतिवेदने त्रयः प्रमुखाः तान्त्रिकविषयाणि चर्चायोग्याः सन्ति ।

सर्वप्रथमं दलेन एकं कुशलं विकसितम्त्रि-आयामी भिन्नात्मक स्व-एन्कोडर संरचना(3D VAE), मूल-वीडियो-स्थानं आकारस्य 2% यावत् संपीडयति, येन विडियो-प्रसार-जनन-प्रतिरूपस्य प्रशिक्षण-व्ययस्य प्रशिक्षण-कठिनता च बहुधा न्यूनीभवति

मॉडल् संरचनायां एन्कोडरः, डिकोडरः, गुप्तस्थाननियमितकर्ता च सन्ति, तथा च डाउनसैम्पलिंग्, अपसैम्पलिंग् इत्येतयोः चतुर्णां चरणानां माध्यमेन संपीडनं प्राप्यते कालगतकारणविक्षेपः सूचनायाः कारणत्वं सुनिश्चितं करोति तथा च संचारस्य उपरिभारं न्यूनीकरोति । दलं बृहत्-परिमाणेन विडियो-संसाधनस्य अनुकूलतायै सन्दर्भ-समानान्तरतायाः उपयोगं करोति ।

प्रयोगेषु दलेन ज्ञातं यत् बृहत्-संकल्प-सङ्केतनं सामान्यीकरणं सुलभं भवति, यदा तु फ्रेम-सङ्ख्यां वर्धयितुं अधिकं चुनौतीपूर्णं भवति ।

अतः दलेन द्वयोः चरणयोः प्रतिरूपस्य प्रशिक्षणं कृतम् : प्रथमं न्यूनचक्रदरेण लघु-बैचयोः च, ततः सन्दर्भ-समानान्तरतायाः माध्यमेन अधिक-फ्रेम-दरेषु सूक्ष्म-समायोजनं कृतम् प्रशिक्षणहानिकार्यं 3D भेदकस्य L2 हानिः, LPIPS बोधहानिः, GAN हानिः च संयोजयति ।

अनुसृत्य इतिविशेषज्ञपरिवर्तक。

दलेन VAE इत्यस्य एन्कोडरस्य उपयोगः कृतः यत् विडियो सुप्तस्थाने संपीडितः, ततः सुप्तस्थानं खण्डेषु विभज्य दीर्घक्रमस्य एम्बेडिंग्स् z_vision इत्यत्र विस्तारितः

एकस्मिन् समये, ते T5 इत्यस्य उपयोगं कुर्वन्ति यत् ते पाठनिवेशं z_text एम्बेडिंग् कृत्वा पाठं एन्कोड् कर्तुं, ततः क्रमपरिमाणेन सह z_text तथा z_vision इत्येतयोः संयोजनं कुर्वन्ति । स्प्लिस्ड् एम्बेडिङ्ग्स् प्रसंस्करणार्थं विशेषज्ञ ट्रांसफॉर्मर ब्लॉक् इत्यस्य स्तम्भे फीड भवन्ति ।

अन्ते, दलेन मूलगुप्तस्थानस्य आकारं पुनः प्राप्तुं एम्बेडिंग्स् पृष्ठतः सिलेत् तथा च विडियो पुनर्निर्माणार्थं डिकोडिंग् कृते VAE इत्यस्य उपयोगः कृतः ।

अन्तिमः मुख्यविषयः अस्ति यत्दत्तांश.

दलेन न्यूनगुणवत्तायुक्तानां विडियोनां पहिचानाय, बहिष्काराय च नकारात्मक-टैग्-विकासः कृतः यथा अति-सम्पादितः, चपल-गतिः, न्यून-गुणवत्तायुक्तः, व्याख्यान-शैली, पाठ-प्रधानः, स्क्रीन-शब्द-वीडियो च

विडियो-लामा इत्यत्र प्रशिक्षितानां फ़िल्टरानाम् उपयोगेन ते २०,००० विडियो डाटा बिन्दून् टिप्पणीं कृत्वा फ़िल्टर कृतवन्तः । तस्मिन् एव काले प्रकाशीयप्रवाहस्य सौन्दर्यस्य च स्कोरस्य गणना भवति, तथा च उत्पन्नस्य विडियोस्य गुणवत्तां सुनिश्चित्य दहलीजं गतिशीलरूपेण समायोजितं भवति

सामान्यतया विडियो-दत्तांशस्य पाठविवरणं नास्ति, पाठ-विडियो-प्रतिरूप-प्रशिक्षणार्थं पाठ-विवरणेषु परिवर्तनस्य आवश्यकता वर्तते । विद्यमान-वीडियो-उपशीर्षकदत्तांशसमूहेषु लघुउपशीर्षकाणि सन्ति, ते च विडियो-सामग्रीणां पूर्णतया वर्णनं कर्तुं न शक्नुवन्ति ।

अस्य कृते दलेन चित्रोपशीर्षकात् विडियो उपशीर्षकाणां निर्माणार्थं पाइपलाइनम् अपि प्रस्तावितं तथा च सघनतर उपशीर्षकाणां प्राप्त्यर्थं अन्त्यतः अन्तः विडियो उपशीर्षकप्रतिरूपं सूक्ष्मतया ट्यून् कृतम्

एषा पद्धतिः Panda70M मॉडल् इत्यस्य माध्यमेन लघु उपशीर्षकाणि, CogView3 मॉडल् इत्यस्य उपयोगेन सघनानि इमेज उपशीर्षकाणि जनयति, ततः अन्तिम लघु विडियो जनयितुं GPT-4 मॉडल् इत्यस्य उपयोगेन सारांशं ददाति

ते CogVLM2-Video तथा Llama 3 इत्येतयोः आधारेण CogVLM2-Caption मॉडल् अपि सूक्ष्मरूपेण ट्यून् कृतवन्तः, यत् विडियो उपशीर्षकजननप्रक्रियायाः त्वरिततायै सघन उपशीर्षकदत्तांशस्य उपयोगेन प्रशिक्षितः

उपर्युक्तं CogVideoX इत्यस्य पृष्ठतः तान्त्रिकशक्तिः अस्ति ।

एकं अधिकं वस्तु

विडियो जनरेशनस्य क्षेत्रे Runway’sGen-3नवानि कर्माणि अपि सन्ति——

Gen-3 Alpha इत्यस्य Vincent Video इदानीं "feed" चित्रस्य समर्थनं करोति, यस्य उपयोगः न केवलं video इत्यस्य प्रथमस्य फ्रेमस्य रूपेण, अपितु video इत्यस्य अन्तिमस्य frame इत्यस्य रूपेण अपि कर्तुं शक्यते ।

एआइ समयं पश्चात् प्रेषयति इव अनुभूयते।

प्रभावं अवलोकयामः : १.

अन्ते, Zhipu AI इत्यस्य विशालस्य मुक्तस्रोतस्य विडियोजननप्रतिरूपस्य विषये, प्रासंगिकाः लिङ्काः अधः संलग्नाः सन्ति~

कोड भण्डारः : १.
https://github.com/THUDM/कोगवीडियो

मॉडल डाउनलोड् : १.
https://huggingface.co/THUDM/CogVideoX-2b

तकनीकी प्रतिवेदनम् : १.
https://github.com/THUDM/CogVideo/blob/मुख्य/संसाधन/CogVideoX.pdf

ऑनलाइन अनुभवः : १.
https://huggingface.co/spaces/THUDM/CogVideoX इति वृत्तान्तः

समाचारं

आमुख

मम सम्पर्कसूचना