एआइ "टिकटॉक् ताजगीं" अपि कर्तुं शक्नोति! सिंघुआ विश्वविद्यालयः लघुविडियो पूर्ण-मोडल-समझस्य कृते नूतनं मॉडलं विमोचयितुं अग्रणीः अस्ति |

2024-07-31

नवीन बुद्धि प्रतिवेदन

सम्पादकः एलआरएसटी इत्येव निद्रालुः

[नव प्रज्ञायाः परिचयः] । श्रव्य-दृश्य-बृहत्-भाषा-प्रतिमानाः प्रायः विडियो-सामग्री-संसाधने वाक्-भूमिकायाः पूर्ण-क्रीडां दातुं असफलाः भवन्ति । विडियो-SALMONN मॉडल् त्रयः भागाः नवीनतां करोति: ऑडियो तथा विडियो कोडिंग् तथा टेम्पोरल संरेखण, बहु-रिजोल्यूशन कारणात्मक Q-Former, विविधता हानिकार्यं तथा मिश्रितं अयुग्मितं ऑडियो तथा विडियो डाटा प्रशिक्षणम्। आदर्शः न केवलं एकविधताकार्येषु उत्तमं प्रदर्शनं करोति, अपितु संयुक्तश्रव्य-दृश्यकार्येषु उत्तमं प्रदर्शनं प्रदर्शयति, यत् तस्य व्यापकतां सटीकताम् च सिद्धयति

यदि भवान् लघु-वीडियो अवगन्तुं इच्छति तर्हि दृश्य-सामग्रीणां अतिरिक्तं श्रवण-सूचना यथा स्वर-श्रव्य-आदि, यथा विडियो-सङ्गीतं, ध्वनि-प्रभावः, स्वर-सामग्री इत्यादयः, लघु-वीडियो-अवगमने अपि प्रमुखा भूमिकां निर्वहन्ति

श्रव्य-दृश्य-बृहत्-भाषा-प्रतिमानानाम् (av-LLMs) अन्तिमेषु वर्षेषु महती प्रगतिः अभवत्, परन्तु वाक्, वीडियोषु मानवभाषायाः मुख्यवाहकत्वेन, एतेषु आदर्शेषु अद्यापि पूर्णतया अन्वेषणं न कृतम् वाक् न केवलं समृद्धं भाषावैज्ञानिकं शब्दार्थसूचनं च प्रदाति, अपितु भिडियोमध्ये भावः, अन्तर्निहितं च अर्थं च अवगन्तुं साहाय्यं करोति ।

तस्मिन् एव काले वाक्संकेतेषु समृद्धा परभाषिकसूचनाः अपि सन्ति, यथा स्वरः, स्वरः च, तथैव विविधाः वक्तृगुणाः (यथा आयुः, लिंगं, उच्चारणं, परिचयः च) सन्ति, ये वीडियो अवगमने अनिवार्यतत्त्वानि सन्ति

परन्तु सामान्य-उद्देश्य-श्रव्य-दृश्य-बृहत्-भाषा-प्रतिमानानाम् वाक्-क्षमतां वर्धयितुं अत्यन्तं चुनौतीपूर्णं भवति, यत्र मोटे (उदा., विडियो-विषयः) तथा सूक्ष्म-(उदा., ओष्ठ-गति) समय-मापदण्डेषु अस्थायीरूपेण सूक्ष्म-प्रतिरूपणं, अन्य-विधिभिः सह जटिल-अन्तर्क्रियाणां च आवश्यकता भवति

अधुना एव ICML 2024 इत्यस्मिन् प्रकाशितं "video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models" इति पत्रं प्रथमं बृहत्-परिमाणं प्रतिरूपं जातम् यत् सर्वाणि श्रव्य-वीडियो-तत्त्वानि विडियो-मध्ये (प्राकृतिक-प्रतिमाः, पाठः, भाषणं, श्रव्य-घटनानि, music) मॉडल् ।

video-SALMONN पेपर लिंक: https://openreview.net/pdf?id=nYsh5GFIqX

साल्मन पेपर लिंक: https://arxiv.org/abs/2310.13289

गिथब पृष्ठ:https://github.com/bytedance/SALMONN

निम्नलिखित उदाहरणानां माध्यमेन, वयं कथं video-SALMONN ध्वनि-श्रव्य-वीडियो-सूचनायाः माध्यमेन video-सामग्री-व्याख्यां करोति इति अवलोकयामः!

प्रथमं, अत्र “Titanic” इत्यस्य एकः क्लासिकः क्लिप् अस्ति ।

अयं विडियो किमर्थम् एतावत् रोमान्टिकः इति विषये video-SALMONN कथयन्तु:

प्रश्न:

कृपया विडियो, श्रव्यं, चरित्रसंवादं च संयोजयन्तु यत् विडियो रोमान्टिकः किमर्थम् इति

उत्तरम्‌:

तस्मिन् भिडियायां नौकायां एकस्य पुरुषस्य महिलायाः च मध्ये रोमान्टिकदृश्यं दृश्यते। सः पुरुषः तां बाहुयुग्मे धारयन् सूर्यास्तं च मिलित्वा पश्यन्ति स्म। पृष्ठभूमिसङ्गीतं गीतं यत् रोमान्टिकवातावरणं वर्धयति। महिलाः "अहं उड्डीयमानः" "जैक्" इति वदन्ति, येन ते प्रसन्नाः, क्षणस्य आनन्दं च लभन्ते इति ज्ञायते । नौकायाः पृष्ठभूमिः सूर्यास्तं च सुन्दरं शान्तं च वातावरणं निर्माति यत् भिडियोस्य रोमान्टिकभावं वर्धयति। स्त्रीपुरुषयोः शरीरभाषा, मुखस्य भावः च परस्परं प्रेम, स्नेहं च बोधयति । समग्रतया, द्वयोः मध्ये रोमान्टिकं, आत्मीयं च क्षणं सम्यक् गृह्णाति इति भिडियो ।

सः दृष्टानां दृश्यानां वर्णनस्य अतिरिक्तं, video-SALMONN इत्यनेन श्रुतं सङ्गीतं, पात्राणां संवादं च स्वस्य वर्णने एकीकृतम् ।

अतः अपि आश्चर्यं यत् video-SALMONN इत्ययं अपि ज्ञातुं शक्नोति यत् एषा महिला आसीत् यया "अहं उड्डीयते" इति उक्तवती यदि भवान् अधिकं पृच्छति।

तदतिरिक्तं, video-SALMONN इत्यनेन अपि निष्कर्षः कर्तुं शक्यते यत् तस्य पुरुषस्य नाम "Jack" इति ।

वयं सर्वे जानीमः यत् एतयोः संवादपङ्क्तयोः एव अस्य क्लासिकस्य दृश्यस्य निर्माणं जातम्, तथा च video-SALMONN इत्यनेन अस्य दृश्यस्य सारः एव गृहीतः!

अत्र “Zootopia” इत्यस्य अन्यत् एनिमेटेड् क्लिप् अस्ति:

video-SALMONN आलस्यविषये विनोदपूर्णानि वस्तूनि कथं अवगच्छति इति अवलोकयन्तु:

प्रश्न:

तत्र शशः, शृगालः, आलस्यः च दृश्ये किं उक्तवान्। आलस्याः किमर्थं रोचकाः भवन्ति ?

उत्तरम्‌:

आलस्यः विडियो अन्ते "निक" इति वदति। आलस्यं विनोदपूर्णं यतः सः मन्दगतिः पशुः अस्ति तथा च विडियोमध्ये अतीव आलस्यं दृश्यते, कार्याणि कर्तुं बहुकालं गृह्णाति। एतत् अन्येषां पशूनां शशशृगालानां सक्रियशक्तियुक्तस्य च स्वरूपस्य विपरीतम् अस्ति, येन आलस्यं विशिष्टं भवति, हास्यं च वर्धयति तदतिरिक्तं, विडियोमध्ये आलस्यस्य मन्दगतिः, मुखस्य भावः च तस्य हास्यप्रभावं वर्धयति ।

एतत् उदाहरणं श्रव्य-दृश्ययोः संयोजनेन वक्तुः परिचयं दर्शयति केवलं श्रवणेन सह वयं न जानीमः यत् आलस्यः केवलं दृष्ट्या एव वदति संयोजनं वयं यथार्थतया विडियो अवगन्तुं शक्नुमः!

तथा च एतत् अतीव लोकप्रियं मेमे:

video-SALMONN इत्यनेन पृच्छन्तु यत् एषः विडियो किमर्थं विनोदपूर्णः अस्ति:

प्रश्न:

किं भवन्तः व्याख्यातुं शक्नुवन्ति यत् एषः विडियो किमर्थं विनोदपूर्णः अस्ति?

उत्तरम्‌:

सः भिडियो हास्यकरः अस्ति यतः तस्मिन् एकः पुरुषः विनोदपूर्णं मुखं कृत्वा ततः "nice" इति वदति इति दृश्यते। तस्य गम्भीरव्यञ्जनस्य "सुन्दर" इति शब्दस्य च विपरीतता हास्यं आश्चर्यस्य च भावः सृजति । तदतिरिक्तं, एकस्य पुरुषस्य ध्वनिप्रभावाः, उच्चैः पॉप्-आदयः च भिडियोस्य मनोरञ्जनमूल्यं वर्धयन्ति ।

भाषणस्य अवगमनं कथं साहाय्यं कर्तुं शक्नोति इति ज्ञातुं नेशनल् जियोग्राफिकस्य वृत्तचित्रस्य क्लिप् अपरं पश्यामः:

अहं भवन्तं पृच्छामि यत् विडियो-SALMONN विडियो मध्ये मकरः कीदृशः अस्ति:

प्रश्न:

विडियोमध्ये यः मकरः अस्ति सः कीदृशः अस्ति ?

श्रव्यनिवेशेन सह उत्तरम् : १.

विडियोमध्ये यः मकरः अस्ति सः तिमिङ्गलमकरः अस्ति

श्रव्यनिवेशं विना उत्तरम् : १.

विडियोमध्ये यः मकरः अस्ति सः महान् श्वेतमकरः अस्ति

केवलं भिडियो पश्यन् अहं वास्तवतः न जानामि यत् एषः कीदृशः मकरः अस्ति विना किमपि व्यावसायिकं ज्ञानं, अतः मॉडलः केवलं अनुमानं कर्तुं शक्नोति, यः मतिभ्रमस्य प्रवणः अस्ति

परन्तु श्रव्यव्याख्यानं श्रुत्वा video-SALMONN सम्यक् ज्ञातुं शक्नोति यत् भिडियो तिमिङ्गलमकरस्य विषये अस्ति, अतः अनुमानस्य आवश्यकता नास्ति।

बृहत्पुरुषाणां मध्ये सम्भाषणस्य एकः वीडियो क्लिप् अपि अस्ति:

न केवलं वार्तालापस्य सामग्रीं अवगच्छति, video-SALMONN वक्तारं वार्तालापस्य सामग्रीं च संयोजयति:

प्रश्न:

भिडियो-स्वरयोः आधारेण किं भिडियो-मध्ये फ्लोरेंस्-नगरं प्रति उड्डीयमानः पुरुषः वा महिला वा?

उत्तरम्‌:

एषा एकः महिला आसीत् या फ्लोरेंस् -नगरं प्रति उड्डीय गता

एतत् उदाहरणं video-SALMONN इत्यस्य वीडियोषु वाक्विषये व्यापकं अवगमनं अधिकं दर्शयति ।

यदि भवान् प्रत्यक्षतया भाषणप्रतिलेखनस्य पाठं निवेशयति तर्हि मॉडलस्य कृते एतत् ज्ञातुं असम्भवं यत् फ्लोरेंस्-नगरं कः उड्डीय गतः, परन्तु video-SALMONN वाक्-सामग्री-वक्तृ-सूचना च निकटतया संयोजयितुं शक्नोति

तदनन्तरं व्यावहारिकः भागः अस्ति : आवाम् अवलोकयामः यत् कथं video-SALMONN इत्यनेन स्वर-श्रव्य-वीडियो इत्यस्य व्यापकबोधः प्राप्यते!

कोर टेक्नोलॉजी

video-SALMONN मॉडल

बृहत् श्रव्य-वीडियो-प्रतिरूपेषु वाक्-अवगमनस्य चुनौतीं सम्मुखीकृत्य, video-SALMONN इत्यस्य नवीनतायाः निम्नलिखितत्रयः भागाः सन्ति येन सः प्राकृतिक-प्रतिमाः, दृश्य-चतुष्कोण-अनुक्रमाः, भाषणं, श्रव्य-घटना, संगीत-तत्त्वानि च इत्यादीनां विविध-मूलभूत-वीडियो-तत्त्वानां नियन्त्रणं कर्तुं समर्थः भवति

भागः १: श्रव्य-वीडियो-एन्कोडिंग् तथा समय-संरेखणं

video-SALMONN क्रमशः भाषणस्य श्रव्यस्य च एन्कोडिंग् वेक्टर् अनुक्रमं प्राप्तुं Whisper speech encoder तथा BEATs audio encoder इत्यस्य उपयोगं करोति (श्रव्यस्य प्रत्येकं सेकण्ड् कृते 50 vectors), तथा च InstructBLIP visual encoder इत्यस्य उपयोगं कृत्वा video sampling rate इत्यनेन visual प्राप्तुं अपि करोति of 2 FPS.

समयपरिमाणे त्रयः अनुक्रमाः प्रत्येकं ०.५ सेकेण्ड् मध्ये विडियो फ्रेम (temporal fine-grained synchronization) इत्यस्य आधारेण संरेखिताः स्प्लेस् च भवन्ति, यतः वाक् श्रव्यक्रमः दृश्यक्रमात् किञ्चित् लघुः भवति, तथा च शून्यं पैडिंग् योजितं भवति ह्रस्वः भागः ।

भाग 2: बहुसंकल्प कारणात्मक Q-Former

बहु-संकल्प कारणात्मक (MRC) Q-Former संरचना विडियो-SALMONN इत्यस्य अभिनवकोरः अस्ति, यत् न केवलं स्थानिकरूपेण समय-समन्वयित-श्रव्य-दृश्य-निवेश-विशेषतां बहु-विभिन्न-समय-परिमाणेषु पाठ्य-प्रतिपादनैः सह संरेखयति, कार्याणि संतोषयति ये भिन्न-भिन्न-वीडियो-उपरि निर्भराः सन्ति elements requirements, तथा च क्रमिक-वीडियो-चक्रयोः मध्ये घटनानां काल-कारणतां सुदृढं कर्तुं विशेष-कारण-मास्क-सहितं कारणात्मक-आत्म-अवधान-संरचना प्रवर्तते

MRC Q-पूर्व संरचना

प्रथमं MRC Q-Former इत्यनेन निवेशक्रमं भिन्नदीर्घतायाः विण्डोषु विभज्यते । ततः प्रत्येकस्य विण्डो-अन्तर्गतं Q-Former इत्यस्य उपयोगः स्प्लिसड् बहु-मोडल-प्रतिपादनस्य शब्दार्थ-प्रतिपादन-स्थाने मैप् कर्तुं भवति । अन्ते प्रत्येकस्मिन् रिजोल्यूशनस्तरस्य प्रत्येकेन विण्डो Q-Former द्वारा निर्गताः सदिशः संयोजिताः भवन्ति येन शब्दार्थस्थाने सदिशक्रमः निर्मीयते ।

आउटपुट् सदिशानां संख्या तथा विण्डो लंबाई अनुपातः नित्यं भवति इति सुनिश्चित्य, MRC Q-Former सुनिश्चितं करोति यत् भिन्न-भिन्न-संकल्प-स्तरयोः आउटपुट् अनुक्रमाः प्रत्यक्षतया विशेषता-आयामे स्प्लिस-करणं कर्तुं शक्यन्ते तथा बृहत्भाषाप्रतिरूपे निवेशरूपेण उपयुज्यते ।

प्रशिक्षणस्य माध्यमेन उच्च-संकल्पयुक्तः Q-Former सूक्ष्म-कणिका-सूचनाः, यथा वाक्-सामग्री तथा च वाक्-ओष्ठ-गति-योः मध्ये सम्बन्धः, न्यून-रिजोल्यूशन-Q-Former प्रभावीरूपेण विडियो-स्तरीय-सूचनाः, तथा च समग्र-सामग्री, निष्कासयितुं शक्नोति the video and बहुविधचक्रयोः मध्ये सम्बन्धानां उत्तमबोधः।

(टिप्पणी: MRC Q-Former संरचना अन्तरिक्षे बहु-संकल्पस्य कृते अपि उपयुक्ता अस्ति। पत्रे प्रथमवारं इमेज-स्पॉटलाइट-विधिः प्रस्ताविता अस्ति, यत् बिम्बं इनपुट्-रूपेण भिन्न-सटीकतायाः उप-प्रतिबिम्ब-अनुक्रमेषु विभक्तुं शक्नोति, अतः बहुधा सुधारः भवति बिम्बबोधस्य कार्यप्रदर्शनम्) २.

भागः ३: विविधताहानिकार्यं मिश्रित-अयुग्मित-श्रव्य-वीडियो-दत्तांशयोः प्रशिक्षणं च

तदतिरिक्तं, विडियोमध्ये विशिष्टस्य फ्रेमस्य वर्चस्वं परिहरितुं, video-SALMONN क्रॉस-एन्ट्रोपी आधारितं नूतनं विविधताहानिकार्यं प्रस्तावयति, तस्य उपयोगं च करोति, यत् मॉडलं सम्पूर्णस्य अनुक्रमस्य विभिन्नभागानाम् अन्वेषणार्थं प्रोत्साहयति

तस्मिन् एव काले, युग्मितश्रव्य-दृश्यदत्तांशयोः एकस्य मोडालिटी-प्रभुत्वं निवारयितुं (उदाहरणार्थं, विडियोषु अवाक्-श्रव्यः प्रायः केवलं अत्यल्पमात्रायां सहायकसूचनाः प्रदाति, सहजतया च उपेक्षितः भवति), video-SALMONN अयुग्मितश्रव्यं विडियो च मिश्रणस्य रणनीतिं प्रयुङ्क्ते प्रशिक्षणं क्रियते येन video-SALMONN इत्यनेन एकस्मिन् समये द्वयोः मोडालिटीयोः सूचनासु ध्यानं दातव्यम्।

मुख्य परिणाम

Video-SALMONN पत्रे परीक्षणार्थं वाक्-श्रव्य-दृश्य-मूल्यांकनं (SAVE) बेन्चमार्कं प्रस्तावितं भवति, तथा च वाक्, गैर-वाक्-श्रव्य, चित्रं, वीडियो च कार्येषु उत्तमं प्रदर्शनं दर्शयति

SAVE इत्यस्य परीक्षणकार्यं भाषणपरिचयः (ASR), श्रव्यविवरणम् (AAC), चित्रविवरणं (IC), दृश्यपाठपरिचयः (OCR), चित्रप्रश्नोत्तरं (VQA), विडियोप्रश्नोत्तरं (Video QA) इत्यादीनि दृश्यश्रवणानि च सन्ति एकल-निवेश-विधिः कार्येषु श्रव्य-दृश्य-भाषण-परिचयः (AVSR), श्रव्य-वीडियो-प्रश्न-उत्तरणं (AVQA), श्रव्य-वीडियो-ध्वनिस्रोत-परिचयः (AVSSD) तथा च श्रव्य-वीडियो-मेलनम् (AVM), चत्वारि श्रव्य-वीडियो-सामान्य-निवेशः अपि सन्ति प्रतीति कार्याणि ।

तेषु एवीक्यूए नवप्रस्तावितः परीक्षणसमूहः अस्ति, एवीवीएम च नवप्रस्तावितः कार्यः अस्ति, यस्य कृते आदर्शस्य आवश्यकता भवति यत् श्रव्यं भिडियो च मेलनं करोति वा इति निर्धारयितुं शक्नोति ।

सर्वप्रथमं, video-SALMONN एक-मोडल-निवेश-कार्ययोः समानं वा अपि उत्तमं परिणामं प्राप्नोति, यत् केवलं दृश्य-अथवा श्रवण-मोडल-निवेशं संसाधितुं शक्नोति इति मॉडल्-अपेक्षया

Video-LLaMA इति विशालस्य मॉडलस्य तुलने यत् श्रव्यं विडियो च संसाधितुं शक्नोति, video-SALMONN न केवलं वाक्निवेशं अवगन्तुं स्वस्य क्षमतां वर्धयति, अपितु विभिन्नेषु एकविधकार्येषु स्वस्य प्रदर्शनं दूरं अतिक्रमयति

श्रव्य-वीडियो-संयुक्त-निवेशस्य अवगमन-कार्य्ये अन्येभ्यः मॉडल्-अपेक्षया विडियो-साल्मोन्-इत्यनेन दूरं श्रेष्ठं प्रदर्शनं दर्शितम् अस्ति ।

भाषणं अवगन्तुं क्षमतायाः कारणात् video-SALMONN इत्येतत् AVQA इत्यस्मिन् समानं बृहत् मॉडलं Video-LLaMA इत्येतत् महत्त्वपूर्णतया अतिक्रमयति ।

अतः अपि महत्त्वपूर्णं यत्, video-SALMONN इत्येतत् AVM तथा AVSSD इत्यत्र संयुक्तभाषण-श्रव्य-दृश्य-तर्कस्य कृते उत्तमं शून्य-नमूना-उदय-क्षमतां प्रदर्शयति, यत् द्वौ पूर्णतया अप्रशिक्षितौ कार्यौ स्तः

एतेषां संयुक्ततर्कक्षमतानां उद्भवाय आवश्यकं यत् प्रतिरूपं एकत्रैव निवेशदृश्यश्रवणसूचनासु समानं ध्यानं ददाति, तथा च श्रव्यदृश्ययोः जटिलसम्बन्धान् अवगन्तुं शक्नोति

परन्तु विद्यमानाः मुक्तस्रोतप्रतिमानाः श्रव्यं पूर्णतया अवगन्तुं न शक्नुवन्ति, अथवा केवलं प्रत्येकं एकस्य निवेशविधायाः पृथक् पृथक् वर्णनं कर्तुं शक्नुवन्ति ।

निगमन

विडियो-SALMONN इत्यस्य प्रारम्भः विडियो-अवगमन-प्रौद्योगिक्याः व्यापकतां सटीकतायां च सुधारं कर्तुं साहाय्यं करिष्यति, तथा च विडियो-सामग्री-विश्लेषणं, भावना-परिचयः, बहु-मोडल-अन्तर्क्रिया इत्यादिक्षेत्रेषु नूतनान् अवसरान् आनयिष्यति |.

एतत् प्रतिरूपं न केवलं शैक्षणिकसंशोधने महत् महत्त्वं धारयति, अपितु व्यावहारिकप्रयोगानाम् अपि दृढं तकनीकीसमर्थनं प्रदाति ।

सन्दर्भाः : १.

https://openreview.net/pdf?id=nYsh5GFIqX

समाचारं

आमुख

मम सम्पर्कसूचना