विडियो सन्दर्भात्मक शिक्षण! बृहत् मॉडलः "बिडालस्य अनुकरणं कृत्वा व्याघ्रं आकर्षयितुं" शिक्षते, MSRA

विडियो सन्दर्भात्मक शिक्षण! बृहत् मॉडलः "बिडालस्य अनुकरणं कृत्वा व्याघ्रं आकर्षयितुं" शिक्षते, MSRA इत्यस्मात्

2024-07-17

Vid-ICL दल द्वारा योगदान
Qubits |.सार्वजनिक खाता QbitAI

किं विडियो जनरेशन "सन्दर्भ" इत्यस्य अपि सन्दर्भं दातुं शक्नोति? !

MSRA प्रस्तावतिविडियो सन्दर्भ शिक्षण(Video In-Context Learning, Vid-ICL), बृहत् मॉडलं "बिडालस्य अनुकरणं कृत्वा व्याघ्रं आकर्षयितुं" शैलीं शिक्षेत्अनुकरण जननम्。

Vid-ICL नूतनपरिदृश्येषु मॉडलस्य जननस्य मार्गदर्शनार्थं नमूनाविडियोस्य उपयोगं करोति, येन उत्पन्नपरिणामाः नूतनपरिदृश्येषु नमूनाविडियोषु सम्पन्नकार्यस्य "अनुकरणं" कर्तुं शक्नुवन्ति

यथा, नमूना-वीडियो-कॅमेरा-दृष्टिकोणः अधः (वामभागे) गच्छति, उत्पन्नः विडियो अपि परिप्रेक्ष्यं अधः (दक्षिणे) गच्छति:

नमूना-वीडियो-वस्तु ऊर्ध्वं (वामभागे) गच्छति, उत्पन्नः विडियो अपि ऊर्ध्वं (दक्षिणे) गच्छति:

वस्तुग्रहणस्य अनुकरणमपि कर्तुं शक्यते : १.

△वाम: उदाहरणं विडियो, रोबोट् बाहुः वस्तुनः ग्रहणं करोति;

दराजस्य उद्घाटनं उदाहरणे दर्शितवत् अपि कर्तुं शक्यते ।

△वाम: नमूना विडियो, मध्यदराजं उद्घाटयतु: विडियो जनयतु;

एकस्मिन् एव विद्युत्प्रशंसकपरिदृश्ये, भिन्न-भिन्न-उदाहरण-वीडियो-प्रयोगं कृत्वा मॉडलस्य मार्गदर्शनं कृत्वा प्रभावं जनयन्तु यथा-

△वाम: नमूना विडियो, कैमरा वाम: उत्पन्न विडियो

△वाम: नमूना विडियो, कैमरा दक्षिणतः गतः;

भवन्तः अवश्यं ज्ञातव्यं यत् आदर्शविश्वप्रतिरूपे प्रतिरूपस्य बाह्यपर्यावरणस्य च अन्तरक्रिया विविधा भवेत् ।अधिकांशं विद्यमानं कार्यं उपयोगे केन्द्रितम् अस्तिअन्तरक्रियायाः प्राथमिकगुणत्वेन पाठः, येन उत्पन्नपरिणामानां विवरणं विविधतां च नियन्त्रयितुं कठिनं भवति ।

तथाविडियो अत्यन्तं ठोसः सार्वत्रिकः च अस्ति, वस्तुनां चालनं वा ग्रहणं वा सहितं विविधकार्यं सम्पादयितुं उदाहरणानि इत्यादीनां विस्तृतश्रेणीं सूचनानां प्रसारणं कर्तुं समर्थः ।

शोधदलेन प्रस्ताविता Vid-ICL पद्धतिः भाषायाः चित्राणां च विकल्पं प्रददाति ।नवीनं अन्तरफलकं, आदर्शस्य वास्तविकजगत् च मध्ये अन्तरक्रियाम् अधिकविविधतां कृत्वा ।

उपरि दर्शितस्य जनितस्य भिडियोस्य अतिरिक्तंVid-ICL इत्येतत् एमुलेटर् इत्यनेन सह अपि संयोजितुं शक्यते, पर्यावरणेन सह सम्यक् अन्तरक्रियायै तत्सम्बद्धानां क्रियाणां पूर्वानुमानं कर्तुं उत्पन्नं विडियो वर्तमानस्थितिं च उपयुञ्जते, तस्मात्वास्तविकपर्यावरणेन सह अन्तरक्रियायाः साक्षात्कारं कुर्वन्तु。

अधोलिखितं चित्रं Vid-ICL वास्तविकवातावरणेन सह अन्तरक्रियां करोति इति दर्शयति t=0 इत्यत्र स्थितात् आरभ्य, "Push_red" कार्यं पूर्णं कर्तुं RoboDesk अनुकरणकर्तृणा सह अन्तरक्रियां करोति । Vid-ICL पर्यावरणपरस्परक्रियासु अधिकं सटीकं नियन्त्रणं प्रदाति:

भद्रः, "आयरन आर्मर" इति चलच्चित्रं यथार्थं जातम्।

Vid-ICL सम्यक् कथं कार्यं करोति ?

Vid-ICL रूपरेखा की व्याख्या

Vid-ICL मूलभूत-एककरूपेण विडियो-सहितं कार्यं करोति ।

विशेषतः, एकं क्वेरी विडियो क्लिप् तथा k उदाहरणं विडियो क्लिप्स् दत्त्वा, Vid-ICL इत्यस्य लक्ष्यं एकं विडियो क्लिप् जनयितुं भवति यत् प्रथमं भवितुमर्हतिप्रश्नवीडियोक्लिपैः सह बोधात्मकसङ्गतिं निर्वाहयन्तु，अर्थशास्त्रे तत्सहकालं(यथा कॅमेरा गतिः, क्रिया) २.उपर्युक्तं उदाहरण-वीडियो-सङ्गतम् अस्ति。

ऑटोरेग्रेसिव मॉडल प्रशिक्षण

Vid-ICL इत्यनेन Transformer इत्यस्य उपयोगः मॉडल् संरचनारूपेण भवति ।

बृहत् पाठप्रतिमानानाम् आधारवास्तुकलारूपेण ट्रांसफॉर्मर इत्यनेन भाषासन्दर्भतर्कस्य, जननकार्यस्य च शक्तिशालिनः क्षमताः प्रदर्शिताः सन्ति । दृश्यसूचनायाः जनरेटिव ट्रांसफार्मर प्रशिक्षणं द्वौ चरणौ भवतः : १.

प्रथमं, प्रत्येकं चित्रं विच्छिन्नटोकने परिवर्तयितुं VQ-VAE इत्यादिकं दृश्य-एन्कोडरं प्रशिक्षयन्तु;

द्वितीयं, प्रत्येकं प्रशिक्षणनमूना टोकन-अनुक्रमरूपेण निर्मितं भवति, तथा च Transformer-डिकोडरस्य लक्ष्यं एतत् टोकन-अनुक्रमं पुनः प्राप्तुं भवति ।

विशिष्टकार्यन्वयनस्य दृष्ट्या विड्-आईसीएललामा वास्तुकला का प्रयोग,उपयुञ्जताम्‌RMSNorm सामान्यीकरणतथाघूर्णन स्थिति एम्बेडिंग (RoPE), Transformer decoder इत्येतत् autoregressive इति प्रकारेण प्रशिक्षयन्तु । प्रशिक्षणचरणस्य समये प्रत्येकं क्रमं कच्चे विडियोतः नमूनाकृतं भवति, भिन्नभिडियोभ्यः विडियोक्लिप्सं स्प्लिसं विना ।

शून्य नमूना क्षमता

अस्मिन् लेखे शोधदलः एकं प्रमुखं अवलोकनं करोति-

प्रतिरूपं स्पष्टसन्दर्भरूपं विना विडियोदत्तांशतः आरभुं शक्नोति अर्थात् ।क्रमशः विडियोक्लिप्स् तः सन्दर्भात्मकतर्कक्षमताः स्वतः एव ज्ञाताः, अर्थात् Video In-context Learning कृते "शून्यनमूनाक्षमता" ।

एतत् द्वयोः मुख्यकारकयोः कारणं भवितुम् अर्हति । प्रथमं, प्रत्येकस्य विडियो फ्रेमस्य मध्ये कोऽपि विशेषः सीमांककः न सम्मिलितः भवति, येन मॉडल् प्रशिक्षणकाले निरन्तरविडियो अनुक्रमं उदाहरणविडियो + प्रश्नवीडियो इव अन्तर्निहितरूपेण व्यवहारं कर्तुं शक्नोति अस्य अर्थः अस्ति यत् आदर्शः समान-उदाहरण-प्रश्न-संरचनानां क्रमान् संसाधितुं शिक्षितवान् अस्ति ।

द्वितीयं, ट्रांसफॉर्मरस्य ऑटोरेग्रेसिव् विशेषताः एकस्य दृश्यस्य विडियो अनुक्रम भविष्यवाणी क्षमतां तेषु दृश्येषु विस्तारयितुं समर्थयन्ति यत्र उदाहरणानि प्रश्नाः च भिन्न-भिन्न-वीडियोभ्यः आगच्छन्ति, तथा च पाठ-सन्दर्भ-शिक्षणस्य प्रतिमानं विडियो-सन्दर्भ-शिक्षणं प्रति निर्विघ्नतया सामान्यीकृत्य

अन्येषां मोडालिटीनां एकीकरणं कुर्वन्तु

यद्यपि Vid-ICL उदाहरणरूपेण विडियो विषये केन्द्रितः अस्ति तथापि पाठादिषु अन्येषु मोडालिटीषु अपि तस्य विस्तारः कर्तुं शक्यते ।

एतत् कर्तुं केवलं पूर्वप्रशिक्षितभाषाप्रतिरूपस्य माध्यमेन मूलपाठविवरणं गुप्तप्रतिपादनरूपेण परिवर्तयन्तु, ततः परिवर्तकस्य प्रशिक्षणं कुर्वन् सन्दर्भतर्कं च कुर्वन् अस्य गुप्तप्रतिपादनस्य उपसर्गरूपेण उपयोगं कुर्वन्तु, परिवर्तकस्य गुप्तस्थाने संरेखयन्तु च प्रक्षेपणस्तरस्य माध्यमेन।

प्रयोगेषु ज्ञायते यत् विड्-आईसीएलउदाहरणरूपेण पाठः, भिडियो च द्वौ अपि प्राप्तुं शक्नोति, तथा च पाठं योजयित्वा उत्पन्नपरिणामानां गुणवत्तां अधिकं वर्धयितुं शक्यते ।

दत्तांशः तथा मॉडलस्य आकारः

द्रष्टुं शक्यते यत् Vid-ICL उदाहरण-वीडियोषु निहितं शब्दार्थ-सूचनाः ज्ञात्वा पीढी-कृते नूतन-दृश्येषु प्रवासं कर्तुं शक्नोति अस्य आवश्यकता अस्ति यत् प्रशिक्षण-आँकडेषु मुख्यतया स्पष्ट-कारण-सम्बन्धाः, दृढ-अन्तर्क्रियाशीलता च सन्ति

अतः शोधकर्तारः मुख्यप्रशिक्षणदत्तांशस्रोतरूपेण द्वौ दत्तांशसमूहौ चयनं कृतवन्तः : Ego4d तथा Kinetics-600 इति ।

तदतिरिक्तं, विडियो सामग्रीनां विविधतां वर्धयितुं Webvid इत्यस्मिन् दत्तांशस्य अल्पभागः अपि प्रशिक्षणसमूहे योजितः भवति ।

अन्तर्जाल-वीडियोषु निहिताः शब्दार्थसूचनाः तुल्यकालिकरूपेण अस्पष्टाः, विचलिताः च भवन्ति इति कारणेन केवलं अधिकानि अन्तर्जाल-वीडियानि योजयित्वा एव दत्तांशस्य आकारः वर्धयितुं शक्यते इति अपि दलेन सत्यापितंआदर्शस्य सन्दर्भप्रदर्शने सुधारं कर्तुं न साहाय्यं करोति。

मॉडल आकारस्य दृष्ट्या दलेन 300M, 700M तथा 1.1B इति त्रयः आकाराः मॉडल् प्रशिक्षिताः, तथा च ज्ञातं यत् मॉडलेन उत्पन्नानां विडियोनां गुणवत्ता, सन्दर्भप्रदर्शनं च स्केलिंग् नियमस्य अनुसरणं करोति

प्रयोगात्मकाः परिणामाः

विड्-आईसीएल मुख्यतया उत्तीर्णः भवतिएकस्यैव प्रश्नस्य विडियो कृते भिन्न-भिन्न-शब्दार्थयुक्तानि नमूना-वीडियो-प्रदानं कुर्वन्तु, विडियो सन्दर्भशिक्षणस्य प्रभावशीलतायाः सटीकतायाश्च मूल्याङ्कनार्थम्।

यथा, वामभागे वस्तुनः स्थानान्तरणस्य प्रश्न-वीडियो कृते वामभागे गमनस्य, यादृच्छिकरूपेण गमनस्य, विपरीतदिशि गमनस्य च उदाहरण-वीडियो दत्त्वा भिन्नाः विडियो-जननं कर्तुं शक्यन्ते, उत्पन्न-परिणामानां मूल्याङ्कनस्य च उपयोगः कर्तुं शक्यते मॉडलेन वास्तवतः उदाहरणानि उत्पन्नानि वा इति निर्धारयितुं।

गुणात्मकपरिणामानां दृष्ट्या अधोलिखितं चित्रं भिन्न-भिन्न-उदाहरण-वीडियो-अन्तर्गतं जनित-वीडियो दर्शयति (अधिक-उदाहरणार्थं कृपया पत्रस्य मूल-पाठं पश्यन्तु)।

अवलोकयितुं शक्यते- १.

१) हिएकल विडियो जनरेशनगुणवत्ता, Vid-ICL उत्पन्नस्य विडियोस्य प्रश्नस्य च विडियोस्य सुसंगतिं निर्वाहयति, तथा च उभयोः उत्तमजननगुणवत्ता अस्ति;

२) हिउत्पन्नस्य उदाहरणस्य च विडियोयोः मध्ये शब्दार्थसङ्गतिः, अवलोकयितुं शक्यते यत् उत्पन्नाः विडियो सर्वे उदाहरण-वीडियो-प्रक्रियायाः अनुसरणं कुर्वन्ति, यत् दर्शयति यत् Vid-ICL-इत्यस्मिन् उदाहरण-वीडियो-स्य शब्दार्थ-सूचनाः स्वतः एव प्राप्तुं तत्सम्बद्धं विडियो-जननं च कर्तुं क्षमता अस्ति

यथा अधोलिखिते चित्रे दर्शितं, तस्यैव क्वेरी-वीडियो-क्लिप् कृते, Vid-ICL उदाहरण-वीडियो-मध्ये लेन्सस्य गति-आधारितं तदनुसारं उत्पन्नं विडियो-चालनं कर्तुं चयनं करोति

परिमाणात्मकपरिणामानां दृष्ट्या शोधदलेन द्वयोः पक्षयोः स्वचालितमूल्यांकनसूचकाः प्रस्ताविताः - १.

1）विडियो गुणवत्ताअपरपक्षे पारम्परिकदृश्यकार्ययोः पिक्सेलमेलनस्य अथवा वितरणस्य आधारेण सूचकाः उपयुज्यन्ते, यथा PSNR, FID इत्यादयः;

2）अर्थसंगतिःउपरि वर्गीकरणसटीकतायाः आधारेण द्वौ सूचकौ उपयुज्यन्ते : विडियो वर्गीकरणसटीकता तथा च अन्वेषणवर्गीकरणसटीकता ।

भिन्न-भिन्न-सूचकानाम् उपरि Vid-ICL आधाररेखा-प्रतिरूपस्य अपेक्षया उत्तमं परिणामं दर्शयति । द्रष्टुं शक्यते यत् समान-उदाहरण-वीडियो-मार्गदर्शने Vid-ICL अधिक-वास्तविक-शब्दार्थ-सुसंगत-वीडियो-जननं करोति ।

अधिकविवरणार्थं मूलपत्रं पश्यन्तु।

परियोजनायाः मुखपृष्ठम् : https://aka.ms/vid-icl
पेपर लिङ्कः https://arxiv.org/abs/2407.0735

समाचारं