समाचारं

विडियो मॉडल् मध्ये द्रुतं मन्दं च नेत्राणि योजयन्तु, एप्पल् इत्यस्य नूतना प्रशिक्षण-रहित-विधिः सेकेण्ड्-मात्रेषु सर्वं SOTA अतिक्रमयति

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

सोरा इत्यस्य प्रकाशनात् आरभ्य एआइ-वीडियो-जनरेशनस्य क्षेत्रं अधिकं "व्यस्तम्" अभवत् । विगतमासेषु वयं जिमेङ्ग्, रनवे जेन्-३, लुमा एआइ, कुआइशौ केलिंग् च क्रमेण विस्फोटं कुर्वन्तः दृष्टवन्तः ।

पूर्वं यथा, यत्र भवान् एकदृष्ट्या एव ज्ञातुं शक्नोति यत् मॉडल् एआइ द्वारा उत्पद्यते, तत्र बृहत् वीडियो मॉडल् इत्यस्य एषः समूहः अस्माभिः दृष्टः “उत्तमः” भवितुम् अर्हति

तथापि, विडियो बृहत् भाषा मॉडल् (LLM) इत्यस्य आश्चर्यजनकं प्रदर्शनं विशालस्य सूक्ष्मतया च एनोटेटेड् विडियो डाटा सेट् इत्यस्मात् अविभाज्यम् अस्ति, यस्य कृते अतीव उच्चव्ययस्य आवश्यकता भवति अद्यतनकाले, शोधक्षेत्रे अनेकाः नवीनविधयः उद्भूताः येषां अतिरिक्तप्रशिक्षणस्य आवश्यकता नास्ति: प्रत्यक्षतया विडियोकार्यं संसाधितुं प्रशिक्षितप्रतिबिम्बबृहभाषाप्रतिमानानाम् उपयोगः, अतः "महत्"प्रशिक्षणप्रक्रियाम् अपि बाईपासः भवति

तदतिरिक्तं अधिकांशं विद्यमानं विडियो एलएलएम द्वे प्रमुखे दोषे पीडितः भवति: (1) ते केवलं सीमितसङ्ख्यायाः फ्रेमैः सह विडियो इनपुट् सम्भालितुं शक्नुवन्ति, येन मॉडल् कृते विडियोमध्ये सूक्ष्मस्थानिकं कालगतं च सामग्रीं गृहीतुं कठिनं भवति (2 ) they lack temporal modeling design , परन्तु केवलं LLM मध्ये विडियो विशेषताः निवेशयन्तु, पूर्णतया LLM इत्यस्य गतिप्रतिरूपणक्षमतायाः उपरि निर्भरं भवति ।

उपर्युक्तविषयाणां प्रतिक्रियारूपेण .एप्पल्-संशोधकाः SlowFast-LLaVA (संक्षेपेण SF-LLaVA) इति प्रस्तावम् अयच्छन् । इदं प्रतिरूपं Byte दलेन विकसितस्य LLaVA-NeXT आर्किटेक्चरस्य आधारेण अस्ति अस्य अतिरिक्तं सूक्ष्म-समायोजनस्य आवश्यकता नास्ति तथा च पेटीतः बहिः उपयोक्तुं शक्यते ।. क्रिया-मान्यतायाः क्षेत्रे सफलेन द्वि-धारा-जालेन प्रेरितम्, शोध-दलेन विडियो एलएलएम-कृते एकं नवीनं SlowFast-निवेश-तन्त्रं परिकल्पितम्

सरलतया वक्तुं शक्यते यत् SF-LLaVA द्वयोः भिन्नयोः दृश्यवेगयोः (Slow and Fast) माध्यमेन विडियोषु विवरणं गतिं च अवगमिष्यति ।

मन्दमार्गः: यथासम्भवं स्थानिकविवरणं धारयन् न्यूनचतुष्कोणदरेण विशेषताः निष्कासयन्तु (उदाहरणार्थं, प्रत्येकं ८ फ्रेमेषु २४×२४ टोकनं धारयन्)

द्रुतमार्गः : उच्चचतुष्कोणदरेण चालयन्तु, परन्तु बृहत्तरं कालसन्दर्भं अनुकरणं कर्तुं बृहत्तरेण स्थानिकपूलिंगपदेन सह विडियोस्य रिजोल्यूशनं न्यूनीकरोतु तथा च क्रियाणां सुसंगततां अवगन्तुं अधिकं ध्यानं ददातु।

एतत् द्वौ "नेत्रौ" युक्तस्य आदर्शस्य तुल्यम् अस्ति : एकः मन्दं पश्यति विस्तरेषु च ध्यानं ददाति अन्यः शीघ्रं पश्यति गतिषु च ध्यानं ददाति एतेन अधिकांशस्य विद्यमानस्य विडियो एलएलएमस्य वेदनाबिन्दून् समाधानं भवति तथा च विस्तृतं स्थानिकशब्दार्थं दीर्घकालीनसन्दर्भं च गृहीतुं शक्यते ।



पेपर लिङ्कः https://arxiv.org/pdf/2407.15841

प्रयोगात्मकपरिणामेषु ज्ञायते यत् SF-LLaVA सर्वेषु बेन्चमार्कपरीक्षासु महत्त्वपूर्णलाभैः विद्यमानप्रशिक्षणमुक्तपद्धतीनां अतिक्रमणं करोति। सावधानीपूर्वकं सूक्ष्मतया व्यवस्थितस्य SFT मॉडलस्य तुलने SF-LLaVA समानं कार्यक्षमतां वा तस्मात् अपि उत्तमं वा प्राप्तुं शक्नोति ।



आदर्श वास्तुकला

यथा अधोलिखिते चित्रे दर्शितं, SF-LLaVA मानकप्रशिक्षण-रहितं विडियो LLM प्रक्रियां अनुसरति । इदं विडियो V तथा प्रश्न Q इत्येतत् इनपुट् रूपेण गृहीत्वा तदनुरूपं उत्तरं A आउटपुट् करोति ।



इनपुट् कृते, N फ्रेम्स इत्यस्य प्रत्येकस्य आकारस्य दीर्घतायाः च प्रत्येकस्य विडियोतः एकरूपेण नमूनाकृताः भवन्ति, I = {I_1, I_2, ..., I_N}, तथा च चयनितस्य विडियो फ्रेमस्य विशेषसंयोजनस्य वा व्यवस्थायाः आवश्यकता नास्ति फ्रेम-एकके स्वतन्त्रतया निष्कासितं आवृत्ति-विशेषता F_v ∈ R^N×H×W भवति, यत्र H तथा W क्रमशः फ्रेम-विशेषतायाः ऊर्ध्वता, विस्तारः च भवति





प्रयोगात्मकाः परिणामाः

शोधदलेन SF-LLaVA इत्यस्य व्यापकं कार्यप्रदर्शनमूल्यांकनं कृतम्, यत्र वर्तमानस्य SOTA प्रशिक्षण-रहित-माडलेन (यथा IG-VLM तथा LLoVi) सह बहुविध-वीडियो-प्रश्न-उत्तर-कार्येषु तुलना कृता अपि च, ते तस्य तुलना VideoLLaVA तथा PLLaVA इत्यादिभिः विडियो LLMs इत्यनेन सह कृतवन्तः येषां पर्यवेक्षितं fine-tuned (SFT) आसीत् video datasets इत्यत्र ।

ओपन विडियो प्रश्नोत्तर

यथा अधोलिखिते सारणीयां दर्शितं, मुक्त-अन्त-वीडियो-प्रश्न-उत्तर-कार्य्ये, SF-LLaVA सर्वेषु बेन्चमार्क-मध्ये विद्यमान-प्रशिक्षण-रहित-विधिभ्यः उत्तमं प्रदर्शनं करोति विशेषतया, यदा क्रमशः 7B तथा 34B पैरामीटर् आकारस्य LLMs इत्यनेन सुसज्जितं भवति तदा SF-LLaVA MSRVTT-QA इत्यत्र IGVLM इत्यस्मात् 2.1% तथा 5.0% अधिकं, TGIF-QA इत्यत्र 5.7% तथा 1.5% अधिकं, तथा च 5.7% तथा 1.5% अधिकं भवति ActivityNet.-2.0% तथा QA इत्यत्र 0.8% अधिकं।

सूक्ष्म-समायोजित-SFT-पद्धत्या सह तुलने अपि, SF-LLaVA अधिकांश-मापदण्डेषु तुलनीय-प्रदर्शनं दर्शयति, केवलं ActivityNet-QA-मापदण्डे, PLLaVA तथा LLaVA-NeXT-VideoDPO किञ्चित् उत्तमं भवति



बहुविकल्पीय विडियो प्रश्नोत्तर

यथा अधोलिखिते सारणीतः दृश्यते, SF-LLaVA सर्वेषु मानदण्डेषु बहुविकल्पीय-वीडियो-प्रश्न-उत्तर-प्रदानस्य अन्यप्रशिक्षण-रहित-विधिभ्यः अधिकं प्रदर्शनं करोति । EgoSchema आँकडासमूहे यस्य जटिलदीर्घकालीनतर्कस्य आवश्यकता भवति, SF-LLaVA7B तथा 34B संस्करणयोः क्रमशः IG-VLM मॉडलस्य अपेक्षया 11.4% तथा 2.2% अधिकं स्कोरः प्राप्तः

यद्यपि VideoTree बेन्चमार्कपरीक्षायां अग्रणी अस्ति तथापि यतः एतत् GPT-4 आधारितं स्वामित्वयुक्तं प्रतिरूपम् अस्ति, तथापि तस्य कार्यक्षमता मुक्तस्रोतस्य LLM इत्यस्मात् बहु अधिका अस्ति । SFT पद्धत्या सह तुलने SF-LLaVA 34B मॉडल् EgoSchema इत्यत्र अपि उत्तमं परिणामं प्राप्नोति, यत् SlowFast डिजाइनस्य दीर्घकालं यावत् विडियो नियन्त्रयितुं प्रबलक्षमतां पुष्टयति

पाठजननम्



विन्सेन्ट् विडियो

यथा सारणी 3 मध्ये दर्शितं, SF-LLaVA पाठजनन-वीडियो-कार्यस्य कृते अपि केचन लाभाः दर्शयति । SF-LLaVA-34B समग्रप्रदर्शने सर्वान् प्रशिक्षणमुक्तमापदण्डान् अतिक्रान्तवान् । यद्यपि विस्तार-अभिमुखीकरणस्य दृष्ट्या SF-LLaVA LLaVA-NeXT-Image इत्यस्मात् किञ्चित् न्यूनम् अस्ति । SlowFast डिजाइनस्य आधारेण SF-LLaVA न्यूनाधिकदृश्यटोकनेन सह दीर्घकालं यावत् कालसन्दर्भं आच्छादयितुं शक्नोति, अतः कालगतबोधकार्य्येषु विशेषतया उत्तमं प्रदर्शनं करोति

तदतिरिक्तं SF-LLaVA-34B अपि विन्सेन्ट् विडियो प्रदर्शनस्य दृष्ट्या अधिकांश SFT पद्धतीभ्यः अधिकं प्रदर्शनं करोति ।



अधिकविवरणार्थं मूलपत्रं पश्यन्तु ।