समाचारं

निःशुल्कसार्वजनिकबीटा सर्वरं अभिभूतवान्, सोरा च तस्य भौतिकज्ञानस्य प्रशंसाम् अवाप्तवान् ।

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

लेखक丨जिमो

सोरा, रनवे, पिका इत्यादीनां अनुसरणं कृत्वा अन्यत् चित्राधारितं विडियो-जनितं च एआइ उत्पादं लोकप्रियतायां विस्फोटितम् अस्ति-ड्रीम् मशीन् ।

Behind Dream Machine इति अमेरिकनकम्पनी २०२१ तमे वर्षे स्थापिता Luma AI इति । विगतत्रिषु वर्षेषु एतेन वित्तपोषणस्य त्रयः चक्राः सफलतया कृताः, यत्र कुलवित्तपोषणराशिः ६७.३ मिलियन अमेरिकीडॉलर् अस्ति । अद्यतनतमं श्रृङ्खला बी वित्तपोषणं ४३ मिलियन अमेरिकीडॉलर् अस्मिन् वर्षे जनवरीमासे अभवत्, यस्य नेतृत्वं सुप्रसिद्धेन उद्यमपुञ्जसंस्था a16z इत्यनेन कृतम्, एनवीडिया इत्यस्य द्वितीयनिवेशेन सह, धनोत्तरमूल्यांकनं च २००-३०० मिलियन अमेरिकीडॉलर् यावत् अभवत्


अस्मिन् वर्षे जूनमासे ड्रीम मशीन् इत्यनेन विश्वे निःशुल्कं सार्वजनिकं बीटा प्रारब्धम् प्रत्येकस्य उपयोक्तुः प्रतिमासं निःशुल्कं विडियो जनयितुं ३० अवसराः सन्ति, प्रत्येकं विडियो ५ सेकेण्ड् दीर्घः भवति । प्रथमं क्रीडायां प्रविष्टानां सह बेन्चमार्कं कर्तुं स्पर्धां च कर्तुं "दक्षता", "भौतिकशास्त्रम्", "दर्पणगतिः" च इति लक्षणं प्रकाशयति एकं मुख्यं विशेषता अस्ति यत् १२०-फ्रेम-वीडियो-जननार्थं केवलं १२० सेकेण्ड् यावत् समयः भवति (तथापि सार्वजनिक-बीटा-कालस्य मध्ये बहवः जनाः पङ्क्तिं कृतवन्तः आसन्, तथा च उपयोक्तारः सामान्यतया अवदन् यत् विडियो-जननार्थं १०-२० निमेषाः भवन्ति, तथा केचन २ घण्टाः अपि गृह्णन्ति)। उपयोक्तृणां विचारविमर्शः उत्पन्नं विडियो सृजनशीलतायाः कल्पनायाश्च परिपूर्णं करोति, विज्ञापनं, शिक्षणं प्रशिक्षणं च, कथानिर्माणम् इत्यादिषु क्षेत्रेषु तेषां प्रयोगः अपि व्ययस्य न्यूनीकरणे, कार्यक्षमतां वर्धयितुं च महत्त्वपूर्णां भूमिकां निर्वहति

कः AI video generation उत्पादः सर्वोत्तमः अस्ति?

डिजाइनस्य दृष्ट्या ड्रीम मशीनस्य पृष्ठं सहजं सरलं च अस्ति, यत्र विन्सेन्ट् विडियो तथा तुशेङ्ग् विडियो इति द्वौ कार्यौ स्तः । Wensheng विडियोषु आङ्ग्लभाषायां वर्णनानां उत्तमः प्रभावः भविष्यति यदि भवान् उत्पन्नं विडियो अधिकं स्वस्य आवश्यकतानुसारं कर्तुम् इच्छति तर्हि यथासम्भवं सटीकं विस्तृतं च पाठवर्णनं उपयोक्तुं शक्नोति प्रभावान् अधिकं यथार्थं कुर्वन्तु।

परन्तु ये उपयोक्तारः पाठनिर्माणक्षमतायां तावत् प्रबलाः न सन्ति, तेषां कृते तुशेङ्ग-वीडियो-कार्यं अधिकं लोकप्रियं भविष्यति, यतः एतत् कार्ये गौण-प्रक्रियाकरणस्य इव अधिकं भवति केवलं चित्रं अपलोड् कृत्वा स्वस्य मनसि दृश्यस्य आधारेण पाठविवरणं योजयित्वा स्थिरचित्रं सजीवं कृत्वा कथां विडियोरूपेण कथयन्तु।

ट्विट्टरे वयं उपयोक्तृभिः साझां कृतवन्तः विविधाः रचनात्मकाः विडियोः द्रष्टुं शक्नुमः, यथा विनोदपूर्णाः ये मोनालिसा चालनं कुर्वन्ति, सेल्फीग्रहणकाले दृश्यस्य पुनर्स्थापनार्थं सेल्फी-उपयोगः, दृश्यस्य पुनः निर्माणार्थं महत्त्वपूर्णजनानाम् "पुनरुत्थानम्" इत्यादयः कोमलः। एआइ-निर्माणसाधनं, उपयोक्तृणां समृद्धकल्पना च कार्येभ्यः नूतनं जीवनं ददाति इति वक्तुं शक्यते ।

अस्मिन् पटले बेन्चमार्किंग् सर्वदा अविभाज्यः विषयः आसीत् । वास्तुशास्त्रीयदृष्ट्या, ड्रीम मशीनः सोरा च द्वौ अपि Diffusion Transformer आर्किटेक्चरस्य उपयोगं कुर्वन्ति, तथा च सहसंबन्धः उत्पन्नसामग्रीणां दृष्ट्या अधिकः भविष्यति, Runway तथा Pika इत्येतयोः तुलने, Dream Machine इत्यस्य भेदः गतिनां बृहत्तरेषु परिधिषु प्रतिबिम्बितः भवति तथा च लेन्स स्विचिंग् केवलं विडियोमध्ये वस्तूनि किञ्चित् चालयितुं न अपितु अधिककोणाः द्रुततराः च सन्ति, परन्तु यतः मॉडल् अद्यापि शैशवावस्थायां वर्तते, तस्मात् नियन्त्रणक्षमतायाः विषयाः अपि उत्पद्यन्ते यथा, उपयोक्तृपरीक्षणस्य समये पशुचक्षुषः परिवर्तनकाले अयुक्ता बहुशिरःघटना अभवत् समग्रतया, अनेके बिन्दवः सन्ति येषां अनुकूलनं दत्तांशस्य प्रतिरूपे च कर्तुं शक्यते

एकस्य विडियो जनरेशनस्य अवधिं दृष्ट्वा ड्रीम मशीन् १२० सेकेण्ड् मध्ये ५ सेकेण्ड् विडियो जनयितुं शक्नोति, Runway द्रुततरं भवति, तथा च ९० सेकेण्ड् मध्ये १० सेकेण्ड् यावत् विडियो जनयितुं शक्नोति नवीनतमसंस्करणे १८ यावत् विस्तारयितुं शक्यते सेकण्ड्, यदा पिका अद्यापि एकसमयस्य विडियो अस्ति . अनेकानाम् उत्पादानाम् मूल्यनिर्धारणस्य तुलनां कृत्वा, निःशुल्कपरीक्षणकालस्य अनन्तरं, Dream Machine इत्यस्य समग्रमूल्यनिर्धारणं सर्वाधिकं भवति, यदा तु पिका इत्यस्य व्यावसायिकसंस्करणस्य मूल्यं तस्य मानकसंस्करणस्य ६ गुणाधिकं भवति, अन्येषां उत्पादानाम् मूल्यं २-३.५ गुणानां परिधितः भवति


(AI video generation उत्पादमूल्यतुलना)

अन्ते, विडियो जनरेशन इफेक्ट् इत्यस्मात् न्याय्यं चेत्, पाठस्य समानः अनुच्छेदः भिन्न-भिन्न-उत्पादैः उत्पन्न-वीडियो-शैल्याः भिन्न-भिन्न-शैल्याः व्यक्तः भवति । अन्येषां उत्पादानाम् तुलने सिनेमानुभूतिः भौतिकवास्तविकता च स्वप्नयन्त्रस्य उपयोगं कुर्वन् उपयोक्तृणां सामान्यभावनासु अन्यतमम् अस्ति सारांशतः, द्वौ सम्भाव्यकारणौ स्तः प्रथमं, उत्पादः मॉडलप्रशिक्षणस्य समये बहूनां चलच्चित्रक्लिप्स् उपयुज्यते, यत् उत्पन्नं विडियो अपि कल्पनापूर्णं करोति, मूलचित्रे विद्यमानवस्तूनि यावत् सीमितं नास्ति, परन्तु किञ्चित् अतिरिक्तं योजयति दृश्यानि, अपि च एनिमेटेडपात्राणां संसाधनं मुखस्य गतिः च तेषां अधिकं यथार्थतां जनयति अन्यः बिन्दुः 3D मॉडलिंग् इत्यस्मिन् तस्य पृष्ठतः कम्पनीयाः प्रौद्योगिक्याः अनुभवसञ्चयस्य च निकटतया सम्बद्धः अस्ति

वेन् शेङ्गस्य 3D लघुचित्रं तस्य प्रौद्योगिक्याः सञ्चयेन सम्भवं भवति ।

Luma AI इत्यस्य स्थापनायाः आरम्भात् एव 3D सामग्रीजननस्य विषये केन्द्रितम् अस्ति पूर्वं प्रक्षेपितं Vincent 3D मॉडल् एप्लिकेशनं Genie1.0 एकदा वैश्विकं हिट् अभवत् । एप्लिकेशनस्य PC जालसंस्करणं तथा च चल APP संस्करणं (Luma AI इति नाम) अस्ति, तथा च विदेशेषु व्यापकरूपेण उपयुज्यमानेषु Discord सर्वरेषु अपि उपयोक्तुं शक्यते ।

केवलं पाठविवरणं प्रविशन्तु, ततः 10 सेकेण्ड् मध्ये 4 यथार्थतः 3D मॉडल् उत्पन्नं कर्तुं शक्यते, यत् "लघु आकृतिः" इत्यस्य सदृशं भवति, व्यक्तिगतप्राथमिकतानुसारं चयनं कृत्वा, भवान् स्वयमेव बनावटं सम्पादयितुं अपि शक्नोति, यत्र मूलं, चिकनी, प्रतिबिम्बितञ्च अस्ति अन्ते, अन्यैः 3D सम्पादनसॉफ्टवेयरैः (यथा Unity तथा Blender) सह निर्विघ्नसंयोजनं प्राप्तुं fbx, gltf, obj इत्यादिषु बहुस्वरूपेषु आउटपुट् कर्तुं शक्यते, यत् मॉडलं चालयितुं शक्नोति, गेम्स्, एनिमेशन इत्यादिषु सम्यक् उपयुक्तं भवति scenes, truly achieving downstream दृश्यसशक्तिकरणं प्रदातुम्।


Genie1.0 इत्यस्य न्यूना तकनीकी सीमा उपयोक्तृभ्यः केवलं विडियो क्लिप्स् शूटिंग् कृत्वा 3D दृश्यानां पुनर्निर्माणं कर्तुं अपि शक्नोति । आवश्यकतानुसारं वस्तुनः ३६०° शॉट् त्रिकोणात् गृह्यताम् : उपरि पश्यन्, अधः पश्यन्, उपरि पश्यन् च अपलोड् कृत्वा Genie 1.0 इत्यनेन विडियोस्य 3D रेण्डरिंग् पूर्णं कर्तुं कतिपयानि निमेषाणि प्रतीक्ष्यताम् ।

प्रौद्योगिक्याः दृष्ट्या लुमा एआइ इत्यनेन NeRF (Neural Radiation Field) इत्यस्य चरमपर्यन्तं नीतम् इति वक्तुं शक्यते । पारम्परिक NeRF कृते बहूनां छायाचित्रं ग्रहीतुं व्यावसायिकसाधनानाम् उपयोगः आवश्यकः भवति, समन्वयस्थानानां च सख्यं अनुसरणं करणीयम् । अधुना अन्तर्निहितसङ्केतस्य मुक्तस्रोतस्य कारणात् अधिकाधिकं सरलीकृतमाडलं विकसितम् अस्ति, तथा च आवश्यकानि छायाचित्राणि शूटिंग् कोणस्य आवश्यकता च बहु न्यूनीकृता अस्ति Genie1.0 उच्चस्तरं प्राप्तवान् अस्ति तथा च एकः मार्गदर्शकः अभवत् यः भवितुम् अर्हति कदापि, कुत्रापि NeRF उपलभ्यते।

3D प्रौद्योगिक्याः उत्पादानाञ्च सञ्चयेन कम्पनी 3D जनरेशनात् विडियो जनरेशनं प्रति सुचारुतया परिवर्तनं कृतवती, परन्तु तस्य विपरीतरूपेण विडियो जनरेशनेन 3D कृते उच्चगुणवत्तायुक्तानि परिस्थितयः अपि निर्मिताः लुमा एआइ इत्यस्य अवधारणायां विडियो जनरेशन उत्पादानाम् निर्माणस्य उद्देश्यं 4D इत्यस्य उत्तमं निर्माणार्थं 3D तथा समयस्य आयामाः योजयितुं भवति, अत्र च विडियो मध्यवर्ती भूमिकां निर्वहति

वयं Genie1.0 तथा Dream Machine इत्येतयोः उत्पादयोः संयोजनं कर्तुं शक्नुमः पूर्वः बहुकोण-वीडियो-माध्यमेन 3D मॉडल् निर्मातुम् अर्हति, उत्तरं च 3D मॉडल्-सञ्चयस्य उपयोगं कृत्वा विडियो-उत्पादनं करोति । तथा च यतः चित्राणां, भिडियानां च तुलने 3D इत्यस्य आँकडा-सीमाः सन्ति, यदि भवान् 3D इत्येतत् उत्तमं निर्मातुम् इच्छति तर्हि तस्य चालनार्थं अधिक-बृहत् मॉडल-दत्तांशस्य आवश्यकता वर्तते । अन्तिम-4D लक्ष्यं प्राप्तुं, उत्पन्न-वीडियोतः बहु-दृश्य-दत्तांशः एकत्रितः भवति, ततः 4D-प्रभावं जनयितुं उपयुज्यते ।

अन्ते निर्गमनमार्गः कुत्र अस्ति ?

अस्मिन् वर्षे एव एआइ-वीडियो-जनरेशन-पट्टिका क्रमेण जनसङ्ख्यायुक्ता अभवत्, विशेषतः प्रमुखाः अन्तर्जाल-कम्पनयः स्वविकसित-प्रतिरूपाः वा निवेशाः वा, ते अस्मिन् क्षेत्रे कतिपयानि व्यवस्थानि कृतवन्तः यथा यथा प्रवेशकानां संख्या वर्धमाना भवति तथा तथा क्रमेण काश्चन समस्याः उजागरिताः भवन्ति, मुख्यतया जनित-वीडियो-नियन्त्रणक्षमतायां, स्थिरतायां च प्रतिबिम्बिताः भवन्ति ।

एतौ समस्याद्वयं मुख्यतया तदा भवति यदा पूर्वं उल्लिखितः पशुबहुशिरः दृश्यः, तथा च चित्रदृश्ये यतः जनानां मुखस्य भावाः विवरणानि च शीघ्रं परिवर्तन्ते, ग्रहणं च कठिनं भवति, तस्मात् विडियो मध्ये When switching मुखकोणं, अग्रिमे सेकेण्ड् मध्ये मुखं विकृतं भवितुम् अर्हति, अथवा समानं मुखं अपि न भवति, तथा च एतत् एकं कारणं यत् विडियो दीर्घता सीमितं भवति विडियो जनयितुं यथा यथा समयः भवति तथा तथा स्थिरतां सुनिश्चितं कर्तुं अधिकं कठिनं भवति ।


(जनिते विडियोमध्ये बहुशिरःयुक्ताः पशवः दृश्यन्ते)

एषा वेदनाबिन्दुसमस्या अनेकेषां विकासकानां कृते अपि कष्टं कृतवती यद्यपि अद्यापि सम्यक् समाधानं नास्ति तथापि तेषां विकासक्रियाभ्यः द्रष्टुं शक्यते यत् ते पूर्वमेव एतस्याः मूलदिशायाः प्रति कार्यं कुर्वन्ति। उदाहरणार्थं, Tencent AI Lab द्वारा विकसितं VideoCrafter2 चित्रे वस्तुनां गतिं सुनिश्चित्य न्यूनगुणवत्तायुक्तानां विडियोनां उपयोगं करोति SenseTime द्वारा प्रारब्धं चरित्रजननप्रतिरूपं Vimi पात्राणां सूक्ष्मव्यञ्जनानां सटीकं अनुकरणं कर्तुं शक्नोति, यत् द्वयोः पक्षयोः केन्द्रितं भवति वर्णाः नियन्त्रणक्षमता च ।

प्रेक्षकसमूहानां दृष्ट्या एआइ-वीडियो-जनरेशन-उत्पादाः सम्प्रति मुख्यतया सी-अन्त-उपयोक्तृभ्यः लक्षिताः सन्ति, तथापि, यथा यथा उत्पादानाम् संख्या वर्धते, तथैव एतत् उन्मादं अधिकं मुद्रीकरणम् B-पक्षीयसमर्थनस्य उपरि अपि अवलम्बते। वर्तमान समये एतादृशाः उत्पादाः एपिआइ-माङ्गं निरन्तरं वर्धमानाः अपि चालयन्ति, येन अधःप्रवाहकम्पनीभ्यः अधिकाः सम्भावनाः प्राप्यन्ते, भवेत् तत् पुनः संसाधनं वा उत्पन्नानां विडियोनां प्रत्यक्षं उपयोगः वा, एतेन निर्माणस्य समयः, व्ययः च बहु न्यूनीकरोति

तदतिरिक्तं कुआइशौ अद्यैव बोना इत्यनेन सह सहकार्यं कृत्वा चीनस्य प्रथमं एआइजीसी मूललघुनाटकं प्रारब्धवान्, यत् पारम्परिकचलच्चित्रदूरदर्शन-उद्योगस्य सृजनात्मकचिन्तनं अपि विध्वंसितवान् उदयमानयोः उष्णपट्टिकायोः संयोजनेन एआइ-वीडियो-जननस्य अनुप्रयोग-परिदृश्येषु अपि नूतनाः सफलताः आगताः, यद्यपि उभौ अपि विकासस्य प्रारम्भिक-पदे स्तः, तथापि न प्रौद्योगिकी न च उत्पादाः परिपक्वाः सन्ति, अपितु Facing इति द्वयप्रवृत्तिः तथा लाभांशद्वये सवारः, "सह-ब्राण्डिंग्" उद्योगस्य विकासप्रक्रियाम् शीघ्रं चालयितुं बाध्यते।

एआइ-निर्मित-उत्पादानाम् नवीनता जनानां जीवने असीमित-सृजनशीलतां आश्चर्यं च आनयति, उत्पादनस्य कठिनतां, व्ययं च न्यूनीकरोति वर्तमान उत्पादानाम् आधारेण वेनशेङ्ग् विडियो तथा तुशेङ्ग विडियो इत्येतयोः द्वयोः अपि अतीव रोचकं नवीनं च गेमप्ले निर्मितम् अस्ति, यस्मिन् व्यक्तिगतं सृजनशीलता एव प्रमुखः कारकः अस्ति यः उत्तमं एआइ उत्पादनं चालयति यद्यपि केचन तान्त्रिकसमस्याः नैमित्तिकदोषान् जनयन्ति, तथा च उत्पादरूपं बहुधा मॉडलस्य वास्तविकक्षमतायां निर्भरं भवति, तथापि पुनरावर्तनीय-अद्यतन-माध्यमेन, स्वस्थ-बाजार-प्रतियोगितायाः, पटल-संयोजनस्य च माध्यमेन, मम विश्वासः अस्ति यत् मॉडल् अन्ते अधिकाधिकं परिपूर्णं प्रशिक्षितं भविष्यति तस्मिन् एव काले वयं वैश्विकविपण्ये स्वस्य एकं विशिष्टं स्थानं उत्कीर्णं कर्तुं स्वदेशीयरूपेण उत्पादितानां बृहत् आदर्श-उत्पादानाम् भविष्यं अपि प्रतीक्षामहे |.