Zhipu AI एकं विशालं विडियो जनरेशन मॉडलं विमोचयति, Bilibili अनुसन्धानं विकासं च भागं गृह्णाति, Yizhuang च कम्प्यूटिंगशक्तिं प्रदाति |

Zhipu AI एकं विशालं विडियो जनरेशन मॉडलं विमोचयति, Bilibili अनुसन्धानं विकासं च भागं गृह्णाति, Yizhuang च कम्प्यूटिंग शक्तिं प्रदाति |

2024-07-26

वीडियो बृहत् मॉडल् शतशः मॉडल् युद्धे प्रविशति।

लेखकःझाओ जियान

अस्मिन् वर्षे बृहत्-परिमाणस्य "वीडियो-जनरेशन"-माडलस्य विस्फोटस्य प्रथमं वर्षम् अस्ति । विगतमासद्वये वयं Kuaishou Keling, SenseTime Vimi, Luma AI, Aishi Technology Pixverse, Runway Gen-3 इत्यादीनि बृहत्-वीडियो-माडल-इत्येतत् परस्परं अनुसरणं कुर्वन्तः दृष्टवन्तः |.

परन्तु वर्षस्य प्रथमार्धे बृहत्-वीडियो-जनरेशन-माडल-कम्पनयः केवलं विडियो-जनन-कार्यं प्रति एव ध्यानं दत्तवन्तः ।

वर्षस्य उत्तरार्धे प्रमुखाः भाषाप्रतिरूपकम्पनयः क्रमेण ओपनएआइ इत्यस्य पदचिह्नानि अनुसृत्य भाषाप्रतिमानानाम्, विडियोमाडलानाञ्च एकीकरणाय बृहत्विडियोमाडलस्य विपण्यां प्रविशन्ति

उच्च-प्रोफाइल-"षट्-बृहत्-मॉडेल्"-मध्ये द्रुततरं गच्छन्तं ज़िपु-ए.आइ.

अद्य प्रातःकाले, अयं सिंघुआ-आधारितः विशालः मॉडलः एकशृङ्गः विडियो जनरेशनस्य बृहत् मॉडल् उत्पादं "Qingying" इति प्रक्षेपणं कृतवान्, यत् सर्वेषां उपयोक्तृभ्यः प्रत्यक्षतया उद्घाटितम् अस्ति तथा च Wensheng Video तथा Tusheng Video इत्येतयोः समर्थनं करोति।

Zhipu Qingyan PC अथवा App इत्यत्र पाठस्य अथवा चित्रस्य (अर्थात् Prompt) एकं खण्डं निवेशयित्वा उपयोक्तारः यत् शैलीं जनयितुम् इच्छन्ति तत् चयनं कर्तुं शक्नुवन्ति, यत्र कार्टुन् 3D, कृष्णशुक्लः, तेलचित्रकला, चलचित्रशैली इत्यादयः सन्ति, यत्र Qingying इत्यस्य स्वकीया सह भवति music , AI कल्पनाना पूर्णानि विडियो क्लिप्स् जनयति तदतिरिक्तं, "AI Dynamic Photo Mini Program" Tusheng विडियो समर्थयति;

बृहत्-वीडियो-माडल-क्षेत्रे वर्तमान-स्थितेः विषये झाङ्ग-पेङ्ग् इत्यस्य मतं यत् सम्भवतः एतादृशी स्थितिः प्रविशति यत्र शतं विचार-विद्यालयाः विवादं कुर्वन्ति, यथा बृहत्-भाषा-माडल-इत्येतत्

व्यावसायिकरणरणनीत्याः दृष्ट्या Qingying इत्यस्य वर्तमानभुगतानयोजना अस्ति: प्रारम्भिकपरीक्षणकाले सर्वे उपयोक्तारः एकदिनस्य (24 घण्टानां) कृते उच्चगतिचैनल-अधिकारस्य अनलॉक् कर्तुं 5 युआन्-रूप्यकाणि निःशुल्कं दातुं शक्नुवन्ति; एकवर्षस्य कृते उच्चगतिप्रवेशं भुक्तवान् Channel rights. ज़िपु एआइ इत्यस्य मुख्यकार्यकारी झाङ्ग पेङ्गः अवदत् यत् "वर्तमानं व्यावसायिकीकरणं अद्यापि अतीव प्रारम्भिकपदे एव अस्ति, तथा च मूल्यं वस्तुतः अतीव अधिकम् अस्ति। वयं क्रमेण विपण्यप्रतिक्रियायाः आधारेण पुनरावृत्तिं करिष्यामः।

Qingying API अपि एकत्रैव Zhipu बृहत् मॉडल खुले मञ्चे प्रारब्धं भवति उद्यमाः विकासकाः एपीआई आह्वानं कृत्वा Wensheng Video तथा Tusheng Video इत्येतयोः मॉडलक्षमतायाः अनुभवं कर्तुं शक्नुवन्ति।

किङ्ग्यिंग् इत्यस्य शोधविकासाय बीजिंग-नगरात् प्रबलं समर्थनं प्राप्तम् अस्ति । हैडियन-मण्डलं तत्रैव अस्ति यत्र झीपु-एआइ-संस्थायाः मुख्यालयः अस्ति बीजिंगनगरे उच्च-प्रदर्शन-कम्प्यूटिंग-समूहस्य जन्म भविष्ये यिझुआङ्ग-नगरस्य विशाल-उच्च-सटीक-औद्योगिक-समूहे अपि प्रयुक्तं भविष्यति, येन एकं नूतनं व्यापार-स्वरूपं निर्मायते यस्मिन् बृहत्-माडलाः वास्तविक-अर्थव्यवस्थां सशक्तं कुर्वन्ति

पारिस्थितिकसहकार्यस्य दृष्ट्या बिलिबिलिः किङ्ग्यिङ्गस्य प्रौद्योगिकीसंशोधनविकासप्रक्रियायां भागीदाररूपेण अपि भागं गृहीतवान् अस्ति तथा च सम्भाव्यभविष्यस्य अनुप्रयोगपरिदृश्यानां अन्वेषणाय प्रतिबद्धः अस्ति तस्मिन् एव काले भागीदारः Huace Film and Television इत्यपि आदर्शसहनिर्माणे भागं गृहीतवान् ।

१.३० सेकेण्ड् मध्ये कस्मात् अपि पाठात् विडियो जनयन्तु

किङ्ग्यिंग् इत्यस्य विशिष्टः प्रभावः कः ? प्रथमं कतिपयान् आधिकारिकतया विमोचितानाम् वीडियो-प्रकरणानाम् (सर्वं सङ्गीतेन सह) अवलोकयामः ।

विन्सेन्ट् विडियो: १.

प्रेरणावचनम् : निम्नकोणे ऊर्ध्वं धक्कायन्तु, शनैः शनैः शिरः उत्थापयन्तु, ततः हिमशैले सहसा अजगरः प्रकटितः भवति ततः अजगरः भवन्तं दृष्ट्वा भवतः प्रति त्वरितम् आगच्छति।हॉलीवुड् चलच्चित्रशैली

शीघ्रशब्दः : साइबरपङ्कशैल्याः नगररात्रिदृश्ये ज्वलन्तैः नीयनप्रकाशैः सह हस्तगतः कॅमेरा शनैः शनैः जूम-इन् करोति, तथा च एकः यांत्रिकशैल्याः लघुः वानरः उच्चप्रौद्योगिकीयुक्तैः उपकरणैः तस्य मरम्मतं कुर्वन् अस्ति, यः ज्वलन्तैः इलेक्ट्रॉनिक-उपकरणैः भविष्य-सज्जा-सामग्रीभिः च परितः अस्ति साइबरपंकशैली, रहस्यमयवातावरणं, 4K उच्चपरिभाषा।

प्रॉम्प्ट् शब्दः : विज्ञापनशूटिंग् परिप्रेक्ष्यः, पीतपृष्ठभूमिः, श्वेतमेजः, एकः आलू अधः क्षिप्तः भवति तथा च फ्रेंच फ्राइस् इत्यस्य भागे परिणतः भवति।

tusheng video

प्रॉम्प्ट शब्दः शास्त्रीय सौन्दर्यम्

शीघ्रं वचनम् : एकः अजगरः मुखात् अग्निं निक्षिप्य एकं लघुग्रामं दहति।

शीघ्रं वचनम् : कैपिबरा आलस्येन कोकं तृणस्य माध्यमेन पिबति, शिरः कॅमेरा प्रति परिवर्तयति

Qingying इत्यस्य विडियो जनरेशन समयः प्रायः ६ सेकेण्ड् भवति, तथा च प्रॉम्प्ट् शब्दं प्रविष्टस्य अनन्तरं प्रतीक्षायाः समयः प्रायः ३० सेकेण्ड् भवति । झाङ्ग पेङ्गः अवदत् यत् एषा पीढीवेगः उद्योगे पूर्वमेव अतीव द्रुतगतिः अस्ति।

झाङ्ग पेङ्ग इत्यस्य मतं यत् बहुविधप्रतिमानानाम् अन्वेषणम् अद्यापि अतीव प्रारम्भिकपदे एव अस्ति । उत्पन्न-वीडियो-प्रभावात् न्याय्यं चेत् भौतिक-जगतः नियमानाम् अवगमनस्य, उच्च-संकल्पस्य, कॅमेरा-गति-निरन्तरतायाः, अवधिस्य च दृष्ट्या सुधारस्य बहु स्थानं वर्तते मॉडलस्य एव दृष्ट्या अधिकाधिकं सफलतापूर्वकं नवीनतायुक्तस्य नूतनस्य मॉडलस्य वास्तुकला आवश्यकी अस्ति यत् एतेन विडियोसूचनाः अधिकतया संपीडिताः भवेयुः, पाठं विडियो सामग्रीं च पूर्णतया एकीकृत्य, उपयोक्तृनिर्देशानां अनुरूपं जनिता सामग्रीं अधिकं यथार्थं करणीयम्

2. स्वविकसित DiT वास्तुकला

Qingying Base इत्यस्य विडियो जनरेशन मॉडल् CogVideoX अस्ति, यत् पाठस्य, समयस्य, स्थानस्य च त्रयः आयामाः एकीकृत्य Sora इत्यस्य एल्गोरिदम् डिजाइनं निर्दिशति । CogVideoX अपि DiT आर्किटेक्चर अस्ति अनुकूलनस्य माध्यमेन CogVideoX इत्यस्य अनुमानवेगः पूर्वपीढीयाः (CogVideo) तुलने 6 गुणान् वर्धते ।

Zhipu मुख्यतया CogVideoX इत्यस्य त्रीणि तकनीकीविशेषतानि साझां कृतवान्: सामग्रीसुसंगतिः, नियन्त्रणक्षमता, मॉडलसंरचना च ।

प्रथमं सामग्रीसङ्गतिसमस्यायाः समाधानार्थंझीपु इत्यनेन स्वयमेव एकं कुशलं त्रि-आयामी-विविधता-स्वयं-एन्कोडर-संरचना (3D VAE) विकसितम् अस्ति, यत् मूल-वीडियो-स्थानं आकारस्य २% यावत् संपीडयति, येन विडियो-प्रसार-जनन-प्रतिरूपस्य प्रशिक्षण-व्ययः प्रशिक्षण-कठिनता च न्यूनीभवति

मॉडल् संरचनायाः दृष्ट्या विजडम् स्पेक्ट्रम् मुख्यमाडलघटकरूपेण Causal 3D convolution इत्यस्य उपयोगं करोति, तथा च ऑटोएन्कोडर्स् इत्यत्र सामान्यतया उपयुज्यमानं ध्यानमॉड्यूलं दूरीकरोति, येन मॉडल् प्रवासं कर्तुं तथा भिन्नसंकल्पेषु उपयोगाय च समर्थः भवति

तस्मिन् एव काले समयमायामे कारणात्मकविक्षेपस्य रूपं मॉडलस्य विडियो एन्कोडिंग् तथा डिकोडिंग् इत्येतयोः कृते अग्रे-पृष्ठतः अनुक्रमस्वतन्त्रतां अपि सक्षमं करोति, येन सूक्ष्म-ट्यूनिङ्ग-माध्यमेन अधिक-फ्रेम-दरेषु दीर्घकालं च सामान्यीकरणं सुकरं भवति

अभियांत्रिकी परिनियोजनस्य दृष्ट्या, Zhipu समय आयामे Temporal Sequential Parallel इत्यस्य आधारेण भिन्नात्मकं स्वयम्-एन्कोडरं सूक्ष्मतया ट्यून् करोति, परिनियोजयति च, येन सः लघुतर-ग्राफिक्स्-स्मृति-पदचिह्नेन सह अत्यन्तं उच्च-फ्रेम-दर-वीडियो-सङ्केतनस्य समर्थनं कर्तुं शक्नोति .

द्वितीयः बिन्दुः नियन्त्रणीयता अस्ति ।वर्तमानस्य अधिकांशस्य विडियोदत्तांशस्य तदनुरूपं वर्णनात्मकपाठस्य अभावः अस्ति अथवा वर्णनस्य गुणवत्ता न्यूना अस्ति अस्य कारणात्, Zhipu इत्यनेन विशालविडियोदत्तांशस्य विस्तृतं सामग्री-अनुकूलं च वर्णनं जनयितुं अन्तः अन्तः विडियो-अवगमन-प्रतिरूपं विकसितम् अस्ति, येन Enhance the model इत्यस्य पाठ-अवगमनं निर्देश-अनुसरणं च क्षमताम्, येन उत्पन्नं विडियो उपयोक्तृ-निवेशेन सह अधिकं सुसंगतं भवति तथा च अति-दीर्घं जटिलं च प्रॉम्प्ट-निर्देशं अवगन्तुं समर्थं भवति

सोरस्यापि विधिः प्रयुक्तः । OpenAI इत्यनेन DALL·E 3 इत्यस्य “re-captioning technique” इत्यस्य उपयोगेन अत्यन्तं वर्णनात्मकं उपशीर्षकजनरेटर् मॉडलं प्रशिक्षितं ततः प्रशिक्षणदत्तांशसमूहे विडियोनां कृते पाठ उपशीर्षकाणि जनयितुं तस्य उपयोगः कृतः तदतिरिक्तं, OpenAI GPT इत्यस्य लाभं लभते यत् लघु उपयोक्तृप्रोम्प्ट् दीर्घतरविस्तृत उपशीर्षकेषु परिवर्तयति, ये ततः विडियो मॉडल् प्रति प्रेष्यन्ते ।

अन्ते झीपु इत्यनेन विकसितं ट्रांसफार्मर आर्किटेक्चर अस्ति यत् पाठस्य, समयस्य, स्थानस्य च त्रयः आयामाः एकीकृत्य स्थापयति ।इदं पारम्परिकं क्रॉस् एण्टेन्शन मॉड्यूल् परित्यजति, परन्तु द्वयोः मोडालिटीयोः सह अधिकपूर्णतया अन्तरक्रियां कर्तुं इनपुट् स्टेज मध्ये टेक्स्ट् एम्बेडिंग् तथा विडियो एम्बेडिंग् च संयोजयति

तथापि, द्वयोः मोडालिटीयोः विशेषतास्थानानि बहु भिन्नानि सन्ति, Zhipu इत्यनेन पाठस्य, विडियो मोडालिटी च पृथक् पृथक् संसाधितुं विशेषज्ञ-अनुकूली-स्तरस्य उपयोगः भवति, येन प्रसार-प्रतिरूपे समय-पद-सूचनाः अधिकतया उपयोक्तुं शक्यन्ते दृश्यसूचनाः शब्दार्थसूचनायाः सह उत्तमरीत्या संरेखणं कर्तुं मापदण्डानां कुशलतापूर्वकं उपयोगं मॉडलं सक्षमं करोति ।

ध्यानमॉड्यूलः 3D पूर्णाध्यानतन्त्रं स्वीकरोति पूर्वाध्ययनेषु प्रायः पृथक्कृतस्थानिक-काल-अवधानस्य उपयोगः भवति अथवा स्थानिक-काल-अवधानस्य बृहत् परिमाणं आवश्यकं भवति, यत् एकस्मिन् समये, तेषां कृते कठिनतां बहु वर्धयति न शक्नोति विद्यमानकुशलप्रशिक्षणरूपरेखासु अनुकूलतां प्राप्तुं।

स्थितिसङ्केतनमॉड्यूल् 3D RoPE डिजाइनं करोति, यत् समयपरिमाणे फ्रेमयोः मध्ये सम्बन्धं गृहीतुं तथा च विडियोमध्ये दीर्घदूरपर्यन्तं निर्भरतां स्थापयितुं अधिकं अनुकूलं भवति

3.Scaling Law अद्यापि क्रीडायां वर्तते

बृहत् आदर्शमार्गे एआइ इत्यस्य आरम्भे झीपु बहुविधक्षेत्रे सम्बद्धानि विन्यासानि विन्यस्तुं आरब्धवान् । पाठतः चित्रपर्यन्तं भिडियोपर्यन्तं बृहत्प्रतिमानानाम् विश्वस्य अवगमनं अधिकाधिकं जटिलं बहुआयामी च भवति । विविधविधानानां शिक्षणद्वारा विभिन्नकार्यं अवगन्तुं, ज्ञानं कर्तुं, सम्पादयितुं च क्षमतायुक्ताः बृहत्प्रतिमानाः उद्भवन्ति ।

बहुविध-बृहत्-माडल-विषये ज़िपु-महोदयस्य शोधस्य अनुसन्धानं २०२१ तमे वर्षात् आरभ्य कर्तुं शक्यते । २०२१ तः आरभ्य ज़िपु इत्यनेन CogView (NeurIPS'21), CogView2 (NeurIPS'22), CogVideo (ICLR'23), Relay Diffusion (ICLR'24), CogView3 (2024) च विकसितम् अस्ति ।

CogView इत्यस्य आधारेण, दलेन CogVideo इति बृहत्-माडल-आधारितं पाठ-तः-वीडियो-जनन-प्रतिरूपं विकसितम्, उच्चगुणवत्तायुक्तानि विडियो-क्लिप्-जननार्थं बहु-फ्रेम-दर-पदानुक्रमित-प्रशिक्षण-रणनीतिं स्वीकृतवान्, तथा च पुनरावर्तनीय-प्रक्षेपण-आधारितं पद्धतिं प्रस्तावितवती क्रमेण प्रत्येकस्य उप-विवरणस्य अनुरूपं पाठं जनयन्तु, अन्तिम-वीडियो-क्लिप्-प्राप्त्यर्थं च एतान् विडियो-क्लिप्-स्तरं स्तरं प्रक्षेपयन्तु । एतत् कार्यं फेसबुक, गूगल, माइक्रोसॉफ्ट इत्येतयोः व्यापकं ध्यानं आकर्षितवान्, तदनन्तरं फेसबुकस्य मेक-ए-वीडियो, गूगलस्य फेनाकी तथा मैग्विट्, माइक्रोसॉफ्ट् इत्यस्य DragNUWA, एनवीडिया इत्यस्य विडियो एलडीएम इत्यादिषु विडियो जनरेशन मॉडल् कार्येषु उद्धृतम् अस्ति

मे २०२४ तमे वर्षे जीएलएम-बृहत्-माडल-तकनीकी-दलेन ICLR 2024-इत्यस्य मुख्यभाषणस्य समये एजीआई-कृते जीएलए-बृहत्-माडलस्य त्रयाणां प्रमुख-तकनीकी-प्रवृत्तीनां विषये व्यापकरूपेण विस्तारः कृतः, यस्मिन् देशी-बहुविध-बृहत्-माडल-महत्त्वपूर्णां भूमिकां निर्वहति: जीएलएम-बृहत्-माडल-दलस्य विश्वासः अस्ति यत् text is constructed बृहत् मॉडल् कृते मुख्या आधारः, अग्रिमः सोपानः पाठं, चित्रं, वीडियो, श्रव्यं इत्यादीनां मोडालिटीनां एकत्र मिश्रणं भवति यत् यथार्थतया देशी बहु-मोडल मॉडल् निर्मातुं प्रशिक्षणं भवति।

झीपु-नगरे बृहत्-माडल-श्रृङ्खला-उत्पादानाम् एकः व्यापकः विन्यासः अस्ति, बहु-मोडल-माडलस्य च सदैव महत्त्वपूर्णा भूमिका भवति । Zhipu इत्यनेन विडियोजनने Scaling Law इत्यस्य प्रभावशीलतायाः सत्यापनम् अस्ति भविष्ये, यदा वयं data scale तथा model scale इत्यस्य स्केल अप निरन्तरं कुर्मः, तदा वयं अधिकाधिकं सफलतापूर्वकं नवीनतायाः सह नूतनानां मॉडल आर्किटेक्चरानाम् अन्वेषणं करिष्यामः, विडियो सूचनां अधिकतया संपीडयिष्यामः, अधिकतया च पाठं मिश्रयिष्यामः तथा विडियो सामग्री।

झाङ्ग पेङ्ग इत्यस्य मतं यत् भविष्ये बृहत्-माडलस्य कृते प्रौद्योगिकी-सफलता-दिशासु एकः देशी-बहु-मोडल-बृहत्-माडलः अस्ति, तथा च स्केलिंग्-लॉ एल्गोरिदम्-आँकडयोः भूमिकां निरन्तरं निर्वहति

“अद्यापि प्रौद्योगिकीवक्रस्य मन्दतायाः लक्षणं न दृष्टम्” इति झाङ्ग पेङ्गः अवदत् ।

(आवरणचित्रं पाठं च सहितं चित्राणि स्रोतः : झीपु)

समाचारं

आमुख

मम सम्पर्कसूचना