समाचारं

प्रथमं बृहत्-परिमाणं टीटीएस-प्रतिरूपं यत् मण्डारिन-भाषायाः बोलीनां च मिश्रितभाषणस्य समर्थनं करोति: हेनान्-भाषा, शङ्घाई-भाषा च प्रवाहपूर्णाः सन्ति

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

२०२४ तमे वर्षे जीपीटी-४ओ इत्यस्य उद्भवात् आरभ्य उद्योगे कम्पनयः टीटीएस-बृहत्-माडलस्य अनुसन्धान-विकासयोः विशाल-सम्पदां निवेशं कृतवन्तः । अन्तिमेषु मासेषु चीनीयभाषासंश्लेषणस्य बृहत्प्रतिमानाः उत्पन्नाः, यथा चट्ट्स्, सीड्ट्ट्स्, कोसिवोइस् इत्यादयः ।

यद्यपि वर्तमानस्य बृहत्-परिमाणस्य भाषण-संश्लेषण-प्रतिरूपस्य प्रायः समानः प्रभावः अस्ति यथा चीनीय-मण्डारिन-भाषायां, चीनस्य जटिल-बोलानां सम्मुखे, टीटीएस-बृहत्-परिमाणस्य प्रतिरूपस्य प्रशिक्षणं दुर्लभतया एव कृतम् अस्ति विविधाः बोलीः अत्यन्तं चुनौतीपूर्णं कार्यम् अस्ति।

उद्योगस्य वेदनाबिन्दवः तथा तकनीकी अटङ्काः

सम्प्रति वाक्संश्लेषणस्य बृहत् आदर्शप्रौद्योगिक्याः मण्डारिनभाषायाः क्षेत्रे महती प्रगतिः अभवत्, परन्तु बोलीक्षेत्रे तस्य विकासः अतीव मन्दः अस्ति । चीनदेशे दर्जनशः प्रमुखाः बोलयः सन्ति, येषु प्रत्येकं अद्वितीयध्वनिलक्षणं व्याकरणिकसंरचना च अस्ति, येन प्रशिक्षणं विविधभाषाणां कवरं कृत्वा विशालं टीटीएस-प्रतिरूपं अत्यन्तं जटिलं भवति

विद्यमानस्य अधिकांशः बृहत् TTS मॉडलः मण्डारिनभाषायां केन्द्रितः अस्ति तथा च विविधभाषणसंश्लेषणस्य आवश्यकतां पूरयितुं न शक्नोति। तदतिरिक्तं बोलीकोर्पोरा-अल्पता, उच्चगुणवत्तायुक्तानां टिप्पणी-दत्तांशस्य अभावः च तान्त्रिक-कठिनतां अधिकं वर्धयति ।

जाइन्ट् नेटवर्क् ए आई लैब इत्यस्य प्रौद्योगिकी नवीनता तथा सफलता

उपर्युक्तसमस्यानां समाधानार्थं जाइन्ट् नेटवर्क् ए.आइ.लैब-दलस्य एल्गोरिदम्-विशेषज्ञाः भाषाविदः च मिलित्वा चीनीभाषा-प्रणाल्याः आधारेण २० बोलीः, २,००,००० घण्टाभ्यः अधिकं च कवरं कृत्वा मण्डारिन-भाषा-भाषा-दत्तांशसमूहस्य निर्माणं कृतवन्तः एतेन विशालेन दत्तांशसमूहेन वयं प्रशिक्षणं कृतवन्तःप्रथमं बृहत्-परिमाणं टीटीएस-प्रतिरूपं यत् बहुविध-मण्डारिन-भाषायाः मिश्रित-भाषणस्य समर्थनं करोति - Bailing-TTS. जमानत-टीटीएस न केवलं उच्चगुणवत्तायुक्तं मण्डारिनभाषां जनयितुं शक्नोति, अपितु हेनानीज, शङ्घाई, कैन्टोनीज इत्यादीनि विविधानि बोलीभाषणानि अपि जनयितुं शक्नोति।



ArXiv: https://arxiv.org/pdf/2408.00284

मुखपृष्ठम् : https://giantailab.github.io/bailingtts_tech_report/index.html

पेपर शीर्षक: जमानत-टीटीएस: चीनी बोली भाषण संश्लेषण मानव-सदृश स्वतःस्फूर्त प्रतिनिधित्व प्रति

निम्नलिखित श्रव्य श्रवण लिंक: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366bd4b9d5f&chksm=84e43f29b393b63f43a e60d46 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&टोकन=2010422951⟨=zh_CN#rd

हेननभाषायां Bailing-TTS इत्यस्य संश्लेषणप्रभावः निम्नलिखितम् अस्ति ।



मण्डारिनभाषायां शून्य-नमूनाक्लोनिङ्गस्य प्रभावं शृणोमि:





एतत् लक्ष्यं प्राप्तुं वयं अनेकानि नवीनप्रौद्योगिकीनि स्वीकृतवन्तः:

1.एकीकृत बोली टोकन विनिर्देश: वयं विभिन्नभाषाणां टोकनविशिष्टतां एकीकृत्य मण्डारिनभाषायाः विभिन्नभाषाणां च टोकनानाम् आंशिकरूपेण ओवरलैप् कृत्वा मूलभूतानाम् उच्चारणक्षमतां प्रदातुं मण्डारिनभाषायाः उपयोगं कृतवन्तः। एतेन सीमितदत्तांशस्थितौ उच्चगुणवत्तायुक्तं बोलीभाषणसंश्लेषणं प्राप्तुं शक्यते ।

2.परिष्कृत टोकन संरेखण प्रौद्योगिकी: वयं बृहत्-परिमाणेन बहुविध-पूर्व-प्रशिक्षणस्य आधारेण परिष्कृतं टोकन-वार-संरेखण-प्रौद्योगिकीम् प्रस्तावयामः।

3.श्रेणीबद्ध संकर विशेषज्ञ संरचना: वयं बहुविध-चीनी-बोलानां कृते एकीकृत-प्रतिनिधित्वं ज्ञातुं श्रेणीबद्ध-संकर-विशेषज्ञ-वास्तुकलानां डिजाइनं कुर्मः, प्रत्येकस्य बोल्याः कृते च विशिष्ट-प्रतिपादनानि च।

4.श्रेणीबद्ध सुदृढीकरणशिक्षणवर्धनरणनीतिः: वयं मूलभूतप्रशिक्षणरणनीतयः उन्नतप्रशिक्षणरणनीतयः च संयोजयित्वा टीटीएस-प्रतिरूपस्य बोलीव्यञ्जनक्षमतां अधिकं वर्धयितुं श्रेणीबद्धसुदृढीकरणशिक्षणरणनीतिं प्रस्तावितवन्तः।

कार्यान्वयनविवरणम्



चित्रम् १ जमानत-टीटीएस समग्र वास्तुकला

1. बृहत्-परिमाणस्य बहुविध-पूर्व-प्रशिक्षणस्य आधारेण परिष्कृतं टोकन-संरेखणम्

पाठस्य वाक्-टोकनस्य च परिष्कृतं संरेखणं प्राप्तुं वयं बहुचरणीयं, बहुविधं पूर्व-प्रशिक्षण-शिक्षणरूपरेखां प्रस्तावयामः ।

प्रथमे चरणे वयं बृहत्-परिमाणे दत्तांशसमूहे रूक्ष-प्रशिक्षणं कर्तुं अनिरीक्षित-नमूनाकरण-रणनीत्याः उपयोगं कुर्मः । द्वितीयचरणस्य वयं उच्चगुणवत्तायुक्तानां बोलीदत्तांशसमूहानां सूक्ष्मकणिकाप्रशिक्षणं कर्तुं परिष्कृतं नमूनाकरणरणनीतिं स्वीकुर्मः। एषा पद्धतिः पाठस्य वाक्-योः सूक्ष्म-कणिका-सहसंबन्धं प्रभावीरूपेण गृहीतुं शक्नोति तथा च द्वयोः मोडालिटीयोः संरेखणं प्रवर्धयितुं शक्नोति ।

2. श्रेणीबद्धसंकरविशेषज्ञस्य आधारेण Transformer network structure

बहुविधचीनीभाषानां कृते उपयुक्तं एकीकृतं TTS प्रतिरूपं प्रशिक्षितुं वयं श्रेणीबद्धसंकरविशेषज्ञजालसंरचनां बहुचरणीयबहुभाषीटोकनशिक्षणरणनीतिं च परिकल्पितवन्तः।

प्रथमं वयं बहुविधचीनीभाषायाः एकीकृतप्रतिनिधित्वं ज्ञातुं विशेषरूपेण विनिर्मितं संकरविशेषज्ञवास्तुकला प्रस्तावयामः तथा च प्रत्येकभाषायाः विशिष्टप्रतिपादनानि। ततः, वयं मॉडलस्य बहुभाषाव्यञ्जनक्षमतासु सुधारं कर्तुं पार-ध्यान-आधारितस्य संलयन-तन्त्रस्य माध्यमेन टीटीएस-प्रतिरूपस्य विभिन्नस्तरयोः बोली-टोकन-प्रवेशं कुर्मः

3. श्रेणीबद्धसुदृढीकरणशिक्षणवर्धनरणनीतिः

वयं मूलभूतरणनीतिप्रशिक्षणं उन्नतप्रशिक्षणरणनीतयः च संयोजयित्वा टीटीएस-प्रतिरूपस्य बोलीव्यञ्जनक्षमतां अधिकं वर्धयितुं श्रेणीबद्धसुदृढीकरणशिक्षणरणनीतिं प्रस्तावयामः। मूलभूतप्रशिक्षणरणनीतिः उच्चगुणवत्तायुक्तानां बोलीवाक्व्यञ्जनानां अन्वेषणस्य समर्थनं करोति, उन्नतप्रशिक्षणरणनीतिः च अस्य आधारेण विभिन्नभाषाणां वाक्लक्षणं सुदृढं करोति, तस्मात् बहुभाषासु उच्चगुणवत्तायुक्तं वाक्संश्लेषणं प्राप्नोति



चित्र 2 बोली MoE संरचना

प्रयोगात्मकाः परिणामाः

जमानत-टीटीएस मण्डारिनभाषायां बहुभाषासु च दृढता, पीढीगुणवत्ता, स्वाभाविकता च इति दृष्ट्या वास्तविकजनानाम् समीपस्थं स्तरं प्राप्तवान् अस्ति



सारणी 1 चीनी मण्डारिनभाषायां बोलीषु च Bailing-TTS इत्यस्य परीक्षणपरिणामाः

वास्तविक-अनुप्रयोग-परिदृश्य-मूल्यांकने बेलिंग-टीटीएस-इत्यनेन उत्तमं परिणामं प्राप्तम् अस्ति ।



सारणी 2 चीनी मण्डारिनभाषायां बोलीषु च स्पीकर-फाईन-ट्यूनिङ्ग-शून्य-नमूना-क्लोनिङ्ग्-विषये बेलिंग्-टीटीएस-परीक्षायाः परिणामाः

प्रौद्योगिकी कार्यान्वयनम् भविष्यस्य सम्भावना च

सम्प्रति एतत् विशालं बहुभाषिकं टीटीएस-प्रतिरूपं बहुषु व्यावहारिकपरिदृश्येषु प्रयुक्तम् अस्ति । यथा - क्रीडासु एनपीसी-डबिंग्, विडियो-निर्माणे बोली-डबिंग् इत्यादयः । अस्याः प्रौद्योगिक्याः माध्यमेन क्रीडा, भिडियो सामग्री च क्षेत्रीयसंस्कृतेः समीपे भवितुम् अर्हति, येन उपयोक्तृणां विसर्जनस्य अनुभवस्य च भावः सुधरति ।

भविष्ये अन्त्यतः अन्तः ध्वनिपरस्परक्रियायाः बृहत्प्रतिमानानाम् अग्रे विकासेन सह एषा प्रौद्योगिकी बोलीसंस्कृतेः संरक्षणं तथा च गेम एआइ एनपीसी बोलीपरस्परक्रिया इत्यादिषु क्षेत्रेषु अधिका क्षमता दर्शयिष्यति। बोलीसंरक्षणपरिदृश्ये बहुभाषासु स्वरपरस्परक्रियायाः समर्थनेन अग्रिमपीढी चीनीभाषाभाषां सहजतया शिक्षितुं, उत्तराधिकारं प्राप्तुं, रक्षणं च कर्तुं शक्नोति, येन चीनीभाषासंस्कृतेः दीर्घः इतिहासः भवति क्रीडादृश्ये बुद्धिमान् एनपीसी ये बोलीभाषां वक्तुं शक्नुवन्ति, स्वरेण सह अन्तरक्रियां कर्तुं शक्नुवन्ति च, ते क्रीडासामग्रीणां अभिव्यञ्जकतां अधिकं वर्धयिष्यन्ति ।

Giant Network AI Lab अस्य प्रौद्योगिक्याः नवीनतां अनुप्रयोगं च प्रवर्तयितुं प्रतिबद्धः भविष्यति यत् उपयोक्तृभ्यः चतुरतरं अधिकसुलभं च स्वर-अन्तर्क्रिया-अनुभवं आनेतुं शक्नोति।

दलपरिचयः

२०२२ तमे वर्षे स्थापिता जाइण्ट् एआइ प्रयोगशाला जाइण्ट् नेटवर्क् इत्यनेन सह सम्बद्धा कृत्रिमबुद्धिप्रौद्योगिकी अनुप्रयोगः शोधसंस्था च अस्ति । एआईजीसी सामग्री (प्रतिबिम्ब/पाठ/श्रव्य/वीडियो/3D मॉडल इत्यादि) जननस्य क्षेत्रे प्रतिबद्धः, व्यापकबुद्धिमान् सामग्रीनिर्माणं निर्माणं च साकारं कृत्वा, गेमप्ले नवीनतां प्रवर्धयति च। वर्तमान समये प्रयोगशालायाः जाइण्ट्-अन्तर्गतं पूर्ण-लिङ्क्-ए.आइ.