स्वरक्लोनिङ्ग् मानवस्तरं प्राप्नोति, Microsoft इत्यस्य नूतनं VALL-E 2 मॉडल् DeepFake इत्येतत् voice actors

स्वरक्लोनिङ्ग् मानवस्तरं प्राप्नोति, Microsoft इत्यस्य नूतनं VALL-E 2 मॉडल् DeepFake इत्येतत् स्वर-अभिनेतृभिः सह तुलनीयं करोति

2024-07-24

नवीन बुद्धि प्रतिवेदन

सम्पादकः किआओ यांग

[नव प्रज्ञायाः परिचयः] ।गतवर्षस्य आरम्भे प्रथमपीढीयाः VALL-E मॉडलस्य अनन्तरं Microsoft इत्यनेन अद्यैव नूतनं VALL-E 2 मॉडलं प्रारब्धम्, यत् प्रथमं पाठ-वाक्-प्रतिरूपं चिह्नितं यत् संश्लेषित-वाक्-मॉडेल्-इत्यस्य दृढतायाः, समानतायाः, स्वाभाविकतायाः च दृष्ट्या मानवीय-स्तरं प्राप्नोति .

अधुना एव माइक्रोसॉफ्ट् इत्यनेन शून्य-नमूना-पाठ-भाषण-(TTS) इति मॉडल् VALLE-2 इति विमोचितम्, यत् प्रथमवारं मनुष्याणां समानं स्तरं प्राप्तवान् ।

पेपर पता: https://arxiv.org/pdf/2406.05370

अन्तिमेषु वर्षेषु गहनशिक्षणस्य तीव्रप्रगतेः कारणात् रिकार्डिङ्ग-स्टूडियो-वातावरणे स्वच्छ-एक-व्यक्ति-भाषणस्य उपयोगेन प्रशिक्षण-प्रतिमानाः मनुष्याणां गुणवत्तायाः समानस्तरं प्राप्तवन्तः, परन्तु शून्य-नमूना-टीटीएस-इत्येतत् अद्यापि एकः चुनौतीपूर्णः समस्या अस्ति

"शून्यनमूना" इत्यस्य अर्थः अस्ति यत् अनुमानप्रक्रियायाः समये आदर्शः केवलं लघु अपरिचितं वाक्नमूनं सन्दर्भयितुं शक्नोति तथा च पाठसामग्रीम् समानस्वरेण वक्तुं शक्नोति, यथा निलयवाचकः वास्तविकसमये अनुकरणं कर्तुं शक्नोति

एतत् श्रुत्वा अहं चिन्तयामि यत् भवान् सहसा सचेष्टः भविष्यति वा - एतादृशी क्षमतायुक्तः मॉडलः Deepfake कृते सर्वोत्तमम् साधनम् अस्ति!

MSRA इत्यनेन एतत् विचारितं यत् ते सम्प्रति केवलं VALL-E श्रृङ्खलायाः उपयोगं शोधपरियोजनारूपेण कुर्वन्ति तथा च तेषां उत्पादेषु समावेशस्य वा उपयोगस्य विस्तारस्य वा योजना नास्ति।

यद्यपि VALL-E 2 इत्यस्य शून्य-नमूना-शिक्षणक्षमता प्रबलाः सन्ति तथा च स्वर-अभिनेता इव स्वराणां अनुकरणं कर्तुं शक्नोति तथापि साम्यं स्वाभाविकता च स्वर-प्रोम्प्ट्-दीर्घतायाः गुणवत्तायाः, पृष्ठभूमि-कोलाहलस्य इत्यादीनां कारकानाम् उपरि निर्भरं भवति

परियोजनापृष्ठे पत्रे च लेखकेन नैतिकवक्तव्यं कृतम् अस्ति यत् यदि भवान् VALL-E इत्यस्य प्रचारं वास्तविक-दुनिया-अनुप्रयोगेषु कर्तुम् इच्छति तर्हि न्यूनातिन्यूनं एकं शक्तिशालीं कृत्रिम-भाषण-परिचय-प्रतिरूपं आवश्यकं, तथा च तत् सुनिश्चित्य प्राधिकरण-तन्त्रस्य डिजाइनं करणीयम् the model can synthesize speech पूर्वं ध्वनिस्वामिना अनुमोदितम्।

केचन नेटिजनाः माइक्रोसॉफ्ट-संस्थायाः केवलं पत्राणि प्रकाशयितुं किन्तु उत्पादानाम् प्रकाशनस्य अभ्यासस्य विषये महतीं निराशां प्रकटितवन्तः ।

किन्तु, अद्यतनकाले विविध-उत्पादानाम् पलटनेन अस्मान् गभीरं अवगन्तुं कृतम् यत् केवलं प्रदर्शनं दृष्ट्वा सर्वथा अविश्वसनीयं भवति, तथा च स्वयमेव तस्य प्रयोगस्य कोऽपि उपायः नास्ति = किमपि नास्ति।

परन्तु रेडिट् इत्यत्र केचन जनाः अनुमानं कृतवन्तः यत् माइक्रोसॉफ्ट केवलं "कङ्कणभक्षणं प्रथमः" भवितुम् न इच्छति तथा च सम्भाव्यसमालोचनायाः नकारात्मकजनमतस्य च चिन्तायां सः मॉडलं न मुक्तवान् इति

एकदा VALL-E इत्यस्य उत्पादरूपेण परिवर्तनस्य उपायः अस्ति, अथवा अन्ये प्रतिस्पर्धात्मकाः उत्पादाः विपण्यां दृश्यन्ते, तदापि भवन्तः चिन्तां करिष्यन्ति यत् Microsoft धनं अर्जयिष्यति वा इति?

ननु यथा नेटिजन्स् अवदन्, परियोजनापृष्ठे वर्तमानकाले विमोचितस्य प्रदर्शनात् न्याय्य, VALL-E इत्यस्य यथार्थस्तरस्य न्यायः कठिनः अस्ति।

परियोजना पृष्ठम् : https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

कुलम् ५ ग्रन्थाः १० शब्दाधिकाः न भवन्ति लघु आङ्ग्लवाक्यानि स्वरप्रोम्प्ट्-स्वरः अतीव समानाः सन्ति, आङ्ग्ल-उच्चारणं च पर्याप्तं विविधं नास्ति ।

यद्यपि बहवः डेमो न सन्ति तथापि भवन्तः अस्पष्टरूपेण अनुभवितुं शक्नुवन्ति यत् मॉडल् ब्रिटिश-अमेरिकन-उच्चारणयोः अनुकरणं कर्तुं अतीव उत्तमः अस्ति तथापि यदि प्रॉम्प्ट्-मध्ये किञ्चित् भारतीय-स्कॉटिश-उच्चारणं भवति तर्हि प्रामाणिकतायाः स्तरं प्राप्तुं कठिनं भविष्यति

प्रक्रिया

मॉडलस्य पूर्ववर्ती VALL-E इति २०२३ तमस्य वर्षस्य आरम्भे विमोचितः, शून्यनमूनेषु TTS कृते पूर्वमेव प्रमुखः सफलता अस्ति । VALL-E 3-सेकेण्ड्-रिकार्डिङ्ग्-तः व्यक्तिगत-भाषणस्य संश्लेषणं कर्तुं समर्थः अस्ति, तथा च वक्तुः स्वरं, भावः, ध्वनि-वातावरणं च संरक्षितं करोति ।

तथापि VALL-E इत्यस्य द्वौ प्रमुखौ सीमाः सन्ति : १.

१) स्थिरता : अनुमानप्रक्रियायां प्रयुक्तं यादृच्छिकनमूनाकरणं निर्गमस्य अस्थिरतां जनयितुं शक्नोति, तथा च लघु-शीर्ष-p-मूल्येन सह कर्नेल्-नमूनाकरणेन अनन्त-पाश-समस्याः उत्पद्यन्ते यद्यपि बहुनमूनाकरणेन तदनन्तरं क्रमणेन च तस्य उपशमनं कर्तुं शक्यते तथापि एतेन गणनाव्ययः वर्धते ।

2) दक्षता: VALL-E इत्यस्य स्वप्रतिगमन-आर्किटेक्चरः ऑफ-द-शेल्फ्-श्रव्य-कोडेक्-माडलस्य समान-उच्च-फ्रेम-दरैः बद्धः अस्ति तथा च समायोजितुं न शक्यते, यस्य परिणामेण मन्दतर-अनुमानं भवति

यद्यपि VALL-E इत्यस्य एतासां समस्यानां उन्नयनस्य विषये बहवः अध्ययनाः कृताः सन्ति तथापि ते प्रायः मॉडलस्य समग्रं वास्तुकला जटिलं कुर्वन्ति तथा च दत्तांशस्य आकारस्य स्केलअपस्य भारं वर्धयन्ति

अस्य पूर्वकार्यस्य आधारेण VALL-E 2 इत्यस्मिन् द्वौ प्रमुखौ नवीनताः सन्ति: पुनरावृत्तिजागरूकनमूनाकरणं समूहीकृतसङ्केतप्रतिरूपणं च ।

पुनरावृत्ति-जागरूकनमूनाकरणं VALL-E मध्ये यादृच्छिकनमूनाकरणस्य सुधारः अस्ति स्थिरता ।

पुनः पुनः बोधात्मकनमूनाकरणस्य एल्गोरिदमिक वर्णन

समूहीकृतसङ्केतप्रतिरूपणं कोडेकसङ्केतं बहुसमूहेषु विभजति, तथा च प्रत्येकं समूहं स्वप्रतिगमनस्य समये एकस्मिन् फ्रेममध्ये प्रतिरूपितं भवति । न केवलं अनुक्रमदीर्घतां न्यूनीकरोति, अनुमानं च त्वरयति, अपितु दीर्घसन्दर्भप्रतिरूपणसमस्यानां उपशमनं कृत्वा कार्यप्रदर्शने सुधारं करोति ।

ज्ञातव्यं यत् VALL-E 2 कृते प्रशिक्षणार्थं केवलं सरलभाषण-प्रतिलिपिकृतपाठदत्तांशस्य आवश्यकता भवति तथा च अतिरिक्तजटिलदत्तांशस्य आवश्यकता नास्ति, येन आँकडासंग्रहणप्रक्रियाप्रक्रियायाः संसाधनस्य च महती सरलता भवति तथा च सम्भाव्यमापनीयतायां सुधारः भवति

विशेषतः, दत्तांशसमूहे वाक्-पाठदत्तांशस्य प्रत्येकस्य खण्डस्य कृते, कोडेकसङ्केतः = [0,1,...,(−1 )] तथा पाठक्रमः = ,1,...,(−1)] स्व-प्रतिगमनात्मक (AR) तथा गैर-स्व-प्रतिगमनात्मक (NAR) मॉडल्-प्रशिक्षणार्थम् ।

एआर तथा एनएआर इत्येतयोः मॉडलयोः ट्रांसफॉर्मर आर्किटेक्चरस्य उपयोगः भवति, तुलनायै च अनन्तरं मूल्याङ्कनप्रयोगानाम् कृते चत्वारि रूपाणि परिकल्पितानि आसन् । ते समानं एनएआर-प्रतिरूपं साझां कुर्वन्ति, परन्तु एआर-माडलानाम् समूह-आकाराः क्रमशः १, २, ४, ८ भवन्ति ।

तर्कप्रक्रिया एआर-एनएआर-प्रतिरूपयोः संयोजनम् अपि अस्ति । पाठक्रमस्य तथा कोडसंकेतस्य <′,0 इत्यस्य आधारेण लक्ष्यसङ्केतः ≥′,0 युक्तः प्रथमः कोडक्रमः उत्पद्यते, ततः प्रत्येकस्य समूहस्य लक्ष्यसङ्केतः स्वप्रतिगमनपद्धत्या उत्पद्यते

अनुक्रमं ≥′,0 दृष्ट्वा, शेषलक्ष्यसङ्केतक्रमाः ≥′,≥1 जनयितुं पाठ्यस्थितीनां ध्वनिस्थितीनां च 〈′ इत्यस्य उपयोगेन NAR प्रतिरूपस्य अनुमानं कर्तुं शक्यते

आदर्शप्रशिक्षणे लिब्रिहेवी-कोर्पस्-इत्यस्य आँकडानां उपयोगः भवति, यस्मिन् आङ्ग्ल-श्रव्यपुस्तकानि पठन्तः ७,००० जनानां ५०,००० घण्टानां भाषणं भवति । पाठस्य भाषणस्य च शब्दविभाजने क्रमशः BPE तथा मुक्तस्रोतपूर्वप्रशिक्षितप्रतिरूपस्य EnCodec इत्यस्य उपयोगः भवति ।

तदतिरिक्तं मुक्तस्रोतपूर्वप्रशिक्षितं मॉडलं Vocos इत्येतत् वाक्जननार्थं श्रव्यविकोडकरूपेण अपि उपयुज्यते ।

गणयति

प्रतिरूपस्य वाक्संश्लेषणप्रभावः मनुष्याणां समानस्तरं प्राप्तुं शक्नोति वा इति सत्यापयितुं मूल्याङ्कनं SMOS तथा CMOS इति व्यक्तिपरकसूचकद्वयस्य उपयोगं करोति, तथा च वास्तविकमानववाक् भूमिसत्यरूपेण उपयुज्यते

SMOS (Similarity Mean Opinion Score) इत्यस्य उपयोगः भाषणस्य मूलप्रोम्प्टस्य च समानतायाः मूल्याङ्कनार्थं भवति, स्कोरपरिधिः १ तः ५ पर्यन्तं भवति, यत्र ०.५ अंकस्य वृद्धिः भवति ।

CMOS (Comparative Mean Opinion Score) इत्यस्य उपयोगः दत्तसन्दर्भभाषणस्य तुलने संश्लेषितभाषणस्य स्वाभाविकतायाः मूल्याङ्कनार्थं भवति स्केलपरिधिः -3~3 भवति, यत्र 1 इत्यस्य वृद्धिः भवति ।

सारणी 2 मध्ये प्राप्तानां परिणामानुसारं VALL-E 2 इत्यस्य व्यक्तिपरकः स्कोरः न केवलं प्रथमपीढीयाः VALL-E इत्यस्य अपेक्षया अधिकः भवति, अपितु वास्तविकमानववाक्यापेक्षया अपि उत्तमं प्रदर्शनं करोति

तदतिरिक्तं संश्लेषितभाषणस्य समानतायाः, दृढतायाः, समग्रस्य बोधगुणस्य च मूल्याङ्कनार्थं सिम, डब्ल्यूईआर, डीएनएसएमओएस इत्यादीनां वस्तुनिष्ठसूचकानां उपयोगः अपि पत्रे कृतः अस्ति

एतेषु त्रयेषु उद्देश्यसूचकेषु VALL-E 2 इत्यस्य समूहस्य आकारः यथापि निर्धारितः भवतु, VALL-E इत्यस्य तुलने सर्वतोमुखी सुधारः भवति WER तथा DNSMOS स्कोरः अपि वास्तविकमानवभाषणात् उत्तमः अस्ति, परन्तु अद्यापि अस्ति सिम-अङ्के एकः निश्चितः अन्तरः ।

तदतिरिक्तं सारणी 3 मध्ये प्राप्तेभ्यः परिणामेभ्यः अपि ज्ञातुं शक्यते यत् यदा VALL-E 2 इत्यस्य AR मॉडल् समूहस्य आकारः 2 भवति तदा इष्टतमः प्रभावः प्राप्तुं शक्यते

वीसीटीके-दत्तांशसमूहे मूल्याङ्कनात् अपि एतादृशाः निष्कर्षाः प्राप्तुं शक्यन्ते । यदा प्रॉम्प्ट्-दीर्घता वर्धते तदा समूहीकृत-सङ्केत-प्रतिरूपण-विधिः अनुक्रम-दीर्घतां न्यूनीकर्तुं शक्नोति तथा च Transformer आर्किटेक्चर-मध्ये अशुद्ध-अवधान-तन्त्रेण उत्पद्यमानानां जनन-दोषाणां निवारणं कर्तुं शक्नोति, येन WER-अङ्के सुधारः भवति

लेखकस्य विषये

अस्य लेखस्य प्रथमः लेखकः चेन् संयुआन् हार्बिन् इन्स्टिट्यूट् आफ् टेक्नोलॉजी तथा माइक्रोसॉफ्ट रिसर्च एशिया इत्यनेन संयुक्तरूपेण प्रशिक्षितः पीएचडी अस्ति सः २०२० तः MSRA Natural Language Computing Group इत्यस्मिन् इन्टर्न् शोधकर्तृरूपेण कार्यं कृतवान् अस्ति ।तस्य शोधरुचिः मुख्यतया पूर्वप्रशिक्षितः अस्ति वाक्-श्रव्य-संसाधनार्थं भाषा-प्रतिमानाः ।

सन्दर्भाः : १.

https://arxiv.org/abs/2406.05370

समाचारं

स्वरक्लोनिङ्ग् मानवस्तरं प्राप्नोति, Microsoft इत्यस्य नूतनं VALL-E 2 मॉडल् DeepFake इत्येतत् स्वर-अभिनेतृभिः सह तुलनीयं करोति

आमुख

मम सम्पर्कसूचना