2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
मशीन हृदय रिपोर्ट
मशीन हृदय सम्पादकीय विभाग
मुक्तस्रोतक्षेत्रे पुनः सुसमाचारः अस्ति।
बृहत्भाषाप्रतिमानानाम् (LLMs) महत्त्वपूर्णविकासः अभवत्, अधुना च, बहुविधबृहभाषाप्रतिमानयोः (MLLMs) अपि अस्माभिः उल्लासः दृष्टः, ये आश्चर्यजनकबहुविधक्षमतां प्रदर्शयन्ति
विशेषतः GPT-4o इत्यस्य उद्भवेन MLLM क्षेत्रस्य विकासः महत्त्वपूर्णतया प्रवर्धितः अस्ति । परन्तु एतेषां प्रतिरूपानाम् अनुरूपाः मुक्तस्रोतप्रतिमानाः महत्त्वपूर्णतया अपर्याप्ताः सन्ति । अस्य क्षेत्रस्य विकासं अधिकं प्रवर्धयितुं मुक्तस्रोतसमुदायस्य तत्कालीनावश्यकता अतिशयोक्तिं कर्तुं न शक्यते ।
अस्मिन् लेखे Tencent Youtu Lab इत्यादिसंस्थानां शोधकर्तारः VITA इति प्रस्तावयन्ति, यत् प्रथमं मुक्तस्रोतबहुविधबृहभाषाप्रतिरूपं (MLLM) अस्ति, यत् एकस्मिन् समये At तस्मिन् एव काले अस्य उन्नतः बहुविधः अन्तरक्रियाशीलः अनुभवः अस्ति ।
शोधकर्तारः भाषायाः आधाररूपेण Mixtral 8×7B इत्यस्य उपयोगं कृतवन्तः, ततः तस्य चीनीशब्दकोशस्य विस्तारं कृतवन्तः, द्विभाषिकनिर्देशान् च सूक्ष्मतया व्यवस्थितवन्तः । तदतिरिक्तं बहुविधसंरेखणस्य निर्देशसूक्ष्मसमायोजनस्य च द्विचरणीयबहुकार्यशिक्षणस्य माध्यमेन भाषाप्रतिरूपं दृश्यश्रव्यक्षमताभिः अधिकं सम्पन्नं कृतवन्तः।
VITA बहुभाषा, दृश्य-श्रव्य-अवगमन-क्षमतां प्रबलं प्रदर्शयति, यस्य प्रमाणं एक-मोडल-बहु-मोडल-मापदण्डेषु उत्तमं प्रदर्शनं भवति
मूलभूतक्षमतायाः अतिरिक्तं प्राकृतिकबहुविधमानव-सङ्गणक-अन्तर्क्रिया-अनुभवस्य उन्नयनार्थं अपि अस्मिन् संशोधने महती प्रगतिः अभवत् । अस्माकं ज्ञाने एमएलएम-मध्ये अजागरण-अन्तर्क्रियाणां, श्रव्य-व्यत्ययानां च शोषणं कृत्वा एषः प्रथमः अध्ययनः अस्ति । शोधकर्तृभिः विभिन्नानां अन्तरक्रियापरिदृश्यानां बोधाय अतिरिक्तस्थितिटोकनाः तदनुरूपाः प्रशिक्षणदत्तांशः रणनीतयः च परिकल्पिताः ।
VITA द्वैधपद्धतेः उपयोगेन परिनियोजितः भवति, यत्र एकः प्रतिरूपः उपयोक्तृप्रश्नानां प्रतिक्रियाः जनयितुं उत्तरदायी भवति, अपरः प्रतिरूपः पर्यावरणीयनिवेशस्य निरन्तरं निरीक्षणं करोति एतेन VITA इत्यस्य प्रभावशालिनः मानव-सङ्गणक-अन्तर्क्रियाक्षमता प्राप्यन्ते ।
बहुविधसमझस्य अन्तरक्रियायाः च निर्बाधसमायोजनस्य अन्वेषणार्थं मुक्तस्रोतसमुदायस्य कृते VITA प्रथमं सोपानम् अस्ति । यद्यपि अद्यापि VITA इत्यस्य बन्द-स्रोत-समकक्षेभ्यः समीपं गन्तुं बहु कार्यं कर्तव्यम् अस्ति तथापि अध्ययनेन आशास्ति यत् VITA इत्यस्य अग्रणीरूपेण भूमिका अनन्तरं संशोधनार्थं आधारशिलारूपेण कार्यं कर्तुं शक्नोति।
视频频链接:https://mp.weixin.qq.com/s?__biz=mza3mzegzmw==∣= = 2650930230&idx=9438b7c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c 71dc71dc 71dc7b35m B15EDE2B2B21D694DDE6EE5D90C364B94E53F9728FAF1DB524CDBE4DBE4DBE49DEE&TOKEN=2010422951⟨ = ZH_CN#rd
उपर्युक्ते विडियोमध्ये उपयोक्तारः VITA इत्यनेन सह बाधारहितं संचारं कर्तुं शक्नुवन्ति, उपयोक्ता धारयति इति श्वेत-टी-शर्टं दृष्ट्वा गणितस्य प्रश्नं पृष्टे सति सः किं वर्ण-पैन्ट्-सङ्गतिं कर्तुं शक्नोति; real time and make inferences , ततः समीचीनानि उत्तराणि ददातु यदा भवान् अन्यैः सह वार्तालापं करोति, यतः सः जानाति यत् उपयोक्ता यात्रायां तया सह संवादं न करोति, VITA अपि प्रक्रियायाः समये केचन सुझावाः दास्यति; of VITA output, भवन्तः वास्तविकसमये वार्तालापं Interrupt कृत्वा अन्यं विषयं आरभुं अपि शक्नुवन्ति ।
视频频链接:https://mp.weixin.qq.com/s?__biz=mza3mzegzmw==∣= = 2650930230&idx=9438b7c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c 71dc71dc 71dc7b35m B15EDE2B2B21D694DDE6EE5D90C364B94E53F9728FAF1DB524CDBE4DBE4DBE49DEE&TOKEN=2010422951⟨ = ZH_CN#rd
अस्मिन् विडियोमध्ये उपयोक्ता एकं बिस्कुटं गृहीत्वा VITA इत्यस्मै पृच्छति यत् सः किं खादति इति VITA तस्मै कथयति यत् सः बिस्कुटं खादति तथा च सुझावः ददाति यत् बिस्कुटस्य स्वादः दुग्धेन वा चायेन वा अधिकः भवति।
वर्कआउट् कुर्वन् भवतः गपशपसहभागिनः रूपेण कार्यं कुर्वन्तु:
视频频链接:https://mp.weixin.qq.com/s?__biz=mza3mzegzmw==∣= = 2650930230&idx=9438b7c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c9c 71dc71dc 71dc7b35m B15EDE2B2B21D694DDE6EE5D90C364B94E53F9728FAF1DB524CDBE4DBE4DBE49DEE&TOKEN=2010422951⟨ = ZH_CN#rd
नोटः- उपर्युक्ताः विडियो 1x वेगेन वास्तविकसमये वाद्यन्ते, तेषां त्वरितता न कृता।
उपयोक्त्रा प्रदत्तस्य प्रवाहचार्टस्य आधारेण VITA कोडं लिखितुं शक्नोति:
चित्रं प्रदातव्यम्, तथा च VITA चित्रसामग्रीणाम् आधारेण प्रश्नानाम् उत्तरं अपि दातुं शक्नोति:
यदा उपयोक्तारः "कुक्कुरस्य गतिविस्तारेण वर्णनं कुर्वन्तु" इति प्रश्नं पृच्छन्ति तदा VITA अपि समीचीनानि उत्तराणि दातुं शक्नोति।
विधि परिचय
यथा चित्रे 3 दर्शितं, VITA इत्यस्य समग्रप्रशिक्षणप्रक्रियायां त्रीणि चरणानि सन्ति: LLM निर्देशस्य सूक्ष्म-समायोजनम्, बहु-विधा-संरेखणं बहु-विध-निर्देश-सूक्ष्म-ट्यूनिङ्गं च।
एलएलएम निर्देशः सूक्ष्म-समायोजनम्
Mixtral 8x7B इत्यस्य प्रदर्शनं शीर्षस्थेषु मुक्तस्रोत-एलएलएम-मध्ये अस्ति, अतः अस्य अध्ययनस्य आधाररूपेण तस्य उपयोगः कृतः । परन्तु शोधकर्तारः अवलोकितवन्तः यत् आधिकारिकमिक्स्ट्रल् मॉडल् इत्यस्य चीनीभाषायाः अवगमनस्य क्षमता सीमितम् अस्ति । द्विभाषिकं (चीनीभाषां आङ्ग्लभाषां च) अवगमनक्षमतां प्रविष्टुं अध्ययनेन चीनीशब्दकोशस्य विस्तारः आधारप्रतिरूपपर्यन्तं कृतः, येन शब्दावली ३२,००० तः ५१,७४७ यावत् वर्धिता शब्दावलीविस्तारं कृत्वा शोधकर्तारः साधारणपाठनिर्देशानां सूक्ष्मरूपेण व्यवस्थित्यै ५० लक्षं कृत्रिमद्विभाषिककोर्पस् उपयुज्यन्ते स्म ।
बहुविधा संरेखण
पाठादिविधानयोः प्रतिनिधित्वान्तरं पूरयितुं, तस्मात् बहुविधबोधस्य आधारं स्थापयितुं । दृश्यसंयोजकाः केवलं दृश्यसंरेखणचरणस्य समये एव प्रशिक्षिताः भवन्ति । सारणी १ साधारणपाठभागं विहाय प्रयुक्तानां प्रशिक्षणदत्तांशस्य सारांशं ददाति ।
दृश्यविधा
प्रथमं दृश्यसङ्केतनं भवति । शोधकर्तारः InternViT-300M-448px इत्यस्य उपयोगं दृश्य-एन्कोडर-रूपेण कृतवन्तः, यत् 448×448 इत्यस्य रिजोल्यूशन-युक्तं चित्रं इनपुट्-रूपेण गृहीतवान्, सरल-द्वि-स्तरीय-एमएलपी-रूपेण दृश्य-संयोजकस्य उपयोगानन्तरं 256 टोकन-उत्पादनं च कृतवान् उच्च-संकल्प-प्रतिबिम्ब-निवेशस्य कृते शोधकर्तारः स्थानीयविवरणानि गृहीतुं गतिशील-पैचिंग्-रणनीतयः उपयुञ्जते ।
चित्राणां कृते विडियो विशेषः उपयोगप्रकरणः इति मन्यते । यदि विडियोदीर्घता ४ सेकेण्ड् इत्यस्मात् लघुः भवति तर्हि प्रति सेकण्ड् ४ फ्रेम्स समानरूपेण नमूनानि भविष्यन्ति । यदि विडियोदीर्घता ४ सेकेण्ड् तः १६ सेकेण्ड् यावत् भवति तर्हि प्रत्येकं सेकेण्ड् एकं फ्रेमं सैम्पल् भवति । १६ सेकेण्ड् इत्यस्मात् अधिककालस्य विडियो कृते १६ फ्रेम्स एकरूपेण नमूनाकृताः भवन्ति ।
द्वितीयं दृश्यसंरेखणं भवति। वयं केवलं दृश्यसंरेखणस्य चरणे एव दृश्यसंयोजकं प्रशिक्षयामः, अस्मिन् चरणे श्रव्यप्रश्नानां उपयोगं न कृतवन्तः ।
अन्ते data cascading इति भवति । साधारणपाठदत्तांशस्य प्रतिबिम्बदत्तांशस्य च कृते अस्य शोधस्य उद्देश्यं सन्दर्भदीर्घतां 6K टोकनेन सह संयोजयितुं वर्तते, यथा चित्रे 4 दर्शितम् अस्ति । ज्ञातव्यं यत् विडियोदत्तांशः संयोजितः नास्ति ।
विषमदत्तांशस्य झरनाकरणस्य द्वौ लाभौ स्तः : १.
अपि च, अध्ययनेन ज्ञातं यत् झरनायुक्तदत्तांशस्य उपयोगेन प्रशिक्षिताः आदर्शाः कच्चादत्तांशस्य उपयोगेन प्रशिक्षितानां आदर्शानां तुलने कार्यं कुर्वन्ति ।
श्रव्यविधा
एकस्मिन् पार्श्वे श्रव्यसङ्केतकः अस्ति । इनपुट् ऑडियो प्रारम्भे Mel filter block इत्यस्य माध्यमेन संसाधितः भवति, यः audio संकेतं mel आवृत्तिपरिधिमध्ये व्यक्तिगत आवृत्तिपट्टिकासु विघटयति, ध्वनिस्य अरैखिकमानवस्य धारणाम् अनुकरणं करोति तदनन्तरं शोधकर्तारः इनपुट्-विशेषतानां संसाधनार्थं 4×CNN-डाउनसैम्पलिंग-स्तरस्य, 24-स्तरस्य ट्रांसफार्मरस्य च उपयोगं कृतवन्तः, यस्य कुलम् 341 मिलियन-मापदण्डाः सन्ति अपि च ते सरलं द्विस्तरीयं MLP इत्येतत् audio-text modal connector इत्यस्य रूपेण उपयुञ्जते । अन्ते प्रत्येकं २ सेकेण्ड् यावत् श्रव्यनिवेशः २५ टोकन् मध्ये एन्कोड् भवति ।
अन्यः पक्षः श्रव्यसंरेखणं अस्ति । संरेखणकार्यस्य कृते शोधकर्तारः स्वचालितभाषणपरिचयस्य (ASR) उपयोगं कृतवन्तः । आँकडासमूहेषु Wenetspeech (बहुक्षेत्रीयभाषणपरिचयदत्तांशैः सह १०,००० घण्टाभ्यः अधिकं, मुख्यतया चीनीयकार्येषु केन्द्रितम्) तथा Gigaspeech (उच्चगुणवत्तायुक्तश्रव्यदत्तांशैः सह १०,००० घण्टाभ्यः अधिकं, येषु अधिकांशः आङ्ग्लभाषणपरिचयकार्यं प्रति उन्मुखः अस्ति) च सन्ति श्रव्य उपशीर्षककार्यस्य कृते शोधकर्तारः Wavcaps इत्यस्य AudioSet SL उपसमूहस्य उपयोगं कृतवन्तः, यस्मिन् तदनुरूपं श्रव्यउपशीर्षकैः सह 400k श्रव्यक्लिप्स् सन्ति । संरेखणप्रक्रियायाः कालखण्डे श्रव्यसङ्केतकाः, संयोजकाः च प्रशिक्षिताः भवन्ति ।
बहुविध निर्देशः सूक्ष्म-समायोजनम्
अध्ययनेन पाठः वा श्रव्यः वा निर्देशानां अनुसरणस्य क्षमता वर्धयितुं प्रतिरूपस्य अनुकूलनं कृतम् ।
दत्तांशनिर्माणम् । निर्देश-ट्यूनिङ्ग-चरणस्य दत्तांशस्रोताः सारणी 1 मध्ये संरेखणचरणस्य समानाः सन्ति, परन्तु अस्मिन् अध्ययने निम्नलिखितसुधाराः कृताः ।
प्रश्नाः यादृच्छिकरूपेण (प्रायः आधा) तेषां श्रव्यसंस्करणैः (TTS प्रौद्योगिक्याः उपयोगेन, यथा GPT-SoVITS6) प्रतिस्थापिताः भवन्ति, यस्य उद्देश्यं श्रव्यप्रश्नानां विषये मॉडलस्य अवगमनं वर्धयितुं निर्देशानां अनुसरणस्य क्षमता च वर्धयितुं भवति
विभिन्नप्रकारस्य दत्तांशयोः मध्ये विग्रहं परिहरितुं भिन्नानि प्रणालीप्रोम्प्ट् सेट् कुर्वन्तु, यथा सारणी 2 मध्ये दर्शितम् अस्ति । यथा, केषाञ्चन प्रश्नानाम् उत्तराणि दृश्यसूचनायाः आधारेण अथवा आदर्शस्य स्वस्य ज्ञानस्य आधारेण दातुं शक्यन्ते, येन विग्रहाः उत्पद्यन्ते । तदतिरिक्तं बहु-फ्रेम्-वीडियो-दत्तांशस्य सदृशं चित्रदत्तांशं पैच् कृतम् अस्ति, यत् मॉडलं भ्रमितुं शक्नोति । सिस्टम् प्रॉम्प्ट् स्पष्टतया भिन्नदत्तांशप्रकारस्य भेदं करोति, यत् अधिकं सहजतया अवगन्तुं साहाय्यं करोति ।
अ-जागरण-अन्तर्क्रिया तथा श्रव्य-व्यत्यय-अन्तरक्रिया इति द्वौ अन्तरक्रियाशीलौ कार्यौ साक्षात्कर्तुं अस्मिन् अध्ययने द्वयात्मकनियोजनरूपरेखा प्रस्ताविता अस्ति, अर्थात् एकस्मिन् समये VITA-प्रतिरूपद्वयं परिनियोजितं भवति, यथा चित्रे 1 दर्शितम् अस्ति
सामान्यतया, जनरेशन मॉडल् उपयोक्तृप्रश्नानां उत्तरं ददाति । तस्मिन् एव काले Monitoring model इत्यनेन जननप्रक्रियायाः समये पर्यावरणीयध्वनयः ज्ञायते । एतत् अप्रश्न-उपयोक्तृ-स्वरानाम् अवहेलनां करोति परन्तु प्रश्न-श्रव्यं ज्ञायते चेत् मॉडल्-जननस्य प्रगतिम् अवरुद्धयति । ततः निगरानीयप्रतिरूपः ऐतिहासिकसन्दर्भं एकीकृत्य नवीनतमप्रयोक्तृप्रश्नानां प्रतिक्रियां ददाति, तथा च जनन-निरीक्षण-प्रतिरूपयोः परिचयाः स्विच् भवन्ति
प्रयोगात्मकं मूल्याङ्कनम्
भाषा प्रदर्शन. भाषाप्रतिरूपप्रशिक्षणप्रक्रियायाः प्रभावशीलतायाः सत्यापनार्थं शोधकर्तारः चतुर्णां आँकडासमूहानां उपयोगं कृतवन्तः, यथा C-EVAL, AGIEVAL, MMLU, GSM8K च । एते दत्तांशसमूहाः विविधपरिदृश्यान् आच्छादयन्ति, यत्र सामान्यबहुविकल्पप्रश्नाः, बहुविषयकप्रश्नोत्तरप्रश्नाः, गणितीयं तार्किकतर्ककार्यं च सन्ति, येषु चीनीय-आङ्ग्ल-सन्दर्भौ आच्छादिताः सन्ति
अधोलिखितसारणी 3 मध्ये परिणामाः दर्शयन्ति यत् अस्मिन् लेखे प्रशिक्षणं चीनीयमूल्यांकनसमूहे (C-EVAL तथा AGIEVAL) भाषाप्रतिरूपस्य क्षमतां महत्त्वपूर्णतया वर्धयति, तथा च आङ्ग्लसम्बद्धे बेन्चमार्के (MMLU) मूलप्रदर्शनस्तरं निर्वाहयति तथा च गणितीयतर्कस्य सुधारः कार्ये महत्त्वपूर्णः सुधारः प्राप्तः अस्ति (GSM8K)।
श्रव्यप्रदर्शनम्. आदर्शेन ज्ञातस्य वाक्प्रतिनिधित्वस्य दृढतायाः सत्यापनार्थं शोधकर्तारः वेनेट्स्पीच्, लिब्रिस्पीच् इति द्वयोः दत्तांशसमूहयोः परीक्षणं कृतवन्तः
तेषु Wenetspeech इत्यस्य मूल्याङ्कनसूचकाः द्वौ सन्ति, यथा test_net तथा test_meeting पूर्वदत्तांशस्रोतः प्रशिक्षणदत्तांशैः सह अधिकं सङ्गतः अस्ति, अतः उत्तरं अधिकं चुनौतीं जनयति मॉडलस्य धारितदत्तांशसमूहत्वेन, Librispeech अदृष्टदत्तांशसमूहेषु मॉडलस्य सामान्यीकरणक्षमतायाः मूल्याङ्कनं करोति अस्य चत्वारि मूल्याङ्कनसमूहाः सन्ति "dev" इत्यनेन आरभ्यमाणः सत्यापनसमूहः, "test" इत्यनेन आरभ्यमाणः च । परीक्षणसमूहः अस्ति, "स्वच्छः" न्यूनचुनौत्यसमूहं प्रतिनिधियति, "अन्य" च अधिकचुनौत्यसमूहं प्रतिनिधियति ।
यथा अधोलिखिते सारणी 4 मध्ये प्राप्तेभ्यः परिणामेभ्यः दृश्यते यत् एएसआर बेन्चमार्कपरीक्षायां वीटा अतीव उत्तमं परिणामं प्राप्तवान् ।
बहुविध प्रदर्शन. बहु-मोडल-क्षमतानां मूल्याङ्कनार्थं अध्ययनेन एमएमई, ओसीआरबेन्च्, हैलुजनबेन्च्, विडियो-एमएमई च समाविष्टाः चतुर्षु बेन्चमार्केषु VITA इत्यस्य मूल्याङ्कनं कृतम् । परिणामाः चित्रे ५ दर्शिताः सन्ति ।
चित्र-अवगमनस्य दृष्ट्या VITA इत्येतत् चित्र-विशिष्ट-मुक्त-स्रोत-प्रतिरूपात् LLaVA-Next इत्यस्मात् उत्तमम् अस्ति, तथा च बन्द-स्रोत-प्रतिरूपस्य Gemini 1.5 Pro इत्यस्य समीपे अस्ति ।
विडियो अवगमनस्य दृष्ट्या VITA इत्येतत् मुक्तस्रोतस्य विडियो मॉडलं Video-CCAM इत्येतत् अतिक्रमयति । यद्यपि VITA तथा विडियो-विशिष्टस्य LLaVA-Next-Video इत्येतयोः मध्ये अन्तरं वर्तते तथापि एतत् स्वीकार्यम् अस्ति यतोहि VITA इत्येतत् व्यापकं मोडालिटीं समर्थयति तथा च अन्तरक्रियाशीलतां प्राथमिकताम् अददात्
अन्ते ज्ञातव्यं यत् अद्यापि मुक्तस्रोतप्रतिरूपस्य स्वामित्वप्रतिरूपस्य च मध्ये विडियोबोधक्षमतायां महत् अन्तरं वर्तते