विश्वस्य उष्णतमं AI ऑडियो मॉडल्, नवीनतमं तकनीकीविवरणं revealed

विश्वस्य उष्णतमं AI ऑडियो मॉडल् इति नवीनतमं तकनीकीविवरणं प्रकाशितम्

2024-07-24

स्मार्ट वस्तूनि
मेंग कियाङ्ग द्वारा संकलित
सम्पादक युनपेङ्ग

२४ जुलै दिनाङ्के Zhixixi News इत्यस्य अनुसारं Satbility AI इत्यनेन १९ जुलै दिनाङ्के Arxiv इत्यस्य विषये Stable Audio Open इति शोधपत्रं साझां कृतम्, यस्मिन् मॉडलस्य पृष्ठतः तकनीकीविवरणं प्रकटितम्

Stable Audio Open इति अस्मिन् वर्षे जूनमासे StabilityAI इत्यनेन प्रारब्धं मुक्तस्रोत-पाठ-श्रव्य-प्रतिरूपम् अस्ति यत् एतत् 44.1kHz उच्चगुणवत्तायुक्तं स्टीरियो-श्रव्यं अपि जनयितुं शक्नोति उपभोक्तृ-श्रेणी GPUs। इदं प्रतिरूपं मुक्तं मुक्तस्रोतं च भवितुं अतिरिक्तं निर्मातृणां प्रतिलिपिधर्मस्य रक्षणं प्रति अपि ध्यानं ददाति तथा च आँकडाप्रशिक्षणकाले नैतिकनैतिकविषयान् परिहरितुं सर्वोत्तमप्रयत्नः करोति

पत्रे ज्ञातं यत् Stable Audio Open इति अस्मिन् वर्षे मार्चमासे StabilityAI द्वारा प्रक्षेपितस्य वाणिज्यिकस्य Stable Audio 2 इत्यस्य एकः प्रकारः मॉडलः अस्ति समग्रं वास्तुकला तथैव अस्ति, परन्तु प्रशिक्षणदत्तांशस्य उपयोगे समायोजनं कृतम् अस्ति तथा च The की आर्किटेक्चर इत्यत्र एकः ऑटोएन्कोडरः भवति, यः T5 इत्यस्य Text embedding and diffusion model (DiT) इत्यस्य आधारेण भवति ।

कागज पता: https://arxiv.org/html/2407.14358v1

1. 3 प्रमुखवास्तुकला 44.1kHz उच्चगुणवत्तायुक्तं स्टीरियो लघुश्रव्यं निःशुल्कं जनयितुं समर्थनं प्रदाति

Stable Audio Open इति 3 मुख्यवास्तुकलाभिः सह पाठ-श्रव्य-प्रतिरूपं परिचययति:

ऑटोएन्कोडर्: तरङ्गरूपदत्तांशं प्रबन्धनीयक्रमदीर्घतां यावत् संपीडयन्ति;
T5 इत्यस्य आधारेण पाठस्य एम्बेडिंग्;
ट्रांसफार्मर-आधारित-प्रसार-प्रतिरूपः (DiT): स्वयम्-एन्कोडर्-इत्यस्य गुप्त-अन्तरिक्षे कार्यं करोति ।

स्वयम्-एन्कोडरः एकः तंत्रिका-जाल-वास्तुकला अस्ति यस्मिन् एन्कोडरः, डिकोडरः च भवति Stable Audio Open इत्यस्मिन् ऑटोएन्कोडरः अनन्तरं संसाधनार्थं श्रव्यतरङ्गरूपं लघुतरक्रमे संपीडयति ।

T5 (Text-to-Text Transfer Transformer) इति गूगलेन विकसितं प्राकृतिकभाषासंसाधनप्रतिरूपं यत् निवेशपाठं अन्यपाठप्रतिपादने परिवर्तयितुं शक्नोति । Stable Audio Open इत्यस्मिन् T5 मॉडल् उपयोक्तृ-प्रविष्टं पाठं पाठ-एम्बेडिंग्-रूपेण परिवर्तयति यत् पाठ-सूचनायाः ऑडियो-जनन-प्रक्रियायां एकीकरणस्य सुविधां करोति ।

DiT (Diffusion Transformer) इति प्रसारणप्रतिरूपं यत् स्वयम्-एन्कोडरस्य गुप्तस्थाने कार्यं करोति यत् एन्कोडरेन संपीडितानां आँकडानां संसाधनं अनुकूलनं च करोति यत् डिकोडरः सुसंगतं, उच्चगुणवत्तायुक्तं श्रव्यं पुनःस्थापयितुं शक्नोति इति सुनिश्चितं करोति

Stable Audio 2 इत्यस्य वेरियन्ट् मॉडल् इत्यस्य रूपेण Stable Audio Open इति प्रशिक्षणदत्तांशस्य उपयोगे आर्किटेक्चरस्य भागस्य च समायोजनं कृतम् अस्ति । सर्वथा भिन्नः दत्तांशसमूहः गृहीतः, CLAP (Contrastive Language-Audio Pretraining) इत्यस्य स्थाने T5 इत्यस्य उपयोगः कृतः । पूर्वं गूगलेन विकसितम् अस्ति तथा च विभिन्नानि प्राकृतिकभाषासंसाधनकार्यं पूर्णं कर्तुं पाठदत्तांशेषु केन्द्रितम् अस्ति, उत्तरं तु ओपनएआइ द्वारा विकसितम् अस्ति तथा च भाषादत्तांशं श्रव्यदत्तांशं च संसाधितुं शक्नोति

मुक्तस्रोतस्य मुक्तप्रतिरूपस्य च रूपेण Stable Audio Open सुसंगतानि सम्पूर्णानि च पटलानि न जनयति, न च सम्पूर्णपटलानां, धुनस्य वा स्वरस्य वा कृते अनुकूलितं भवति

स्टेबिलिटी एआइ इत्यनेन उक्तं यत् स्टेबल ऑडियो ओपन इत्येतत् श्रव्यप्रदर्शने ध्वनिप्रभावनिर्माणे च केन्द्रितं भवति तथा च ४७ सेकेण्ड् यावत् ४४.१kHz उच्चगुणवत्तायुक्तं स्टीरियो ऑडियो निःशुल्कं जनयितुं शक्नोति। यदा व्यावसायिकरूपेण प्रशिक्षितः भवति तदा मॉडलः सङ्गीतनिर्माणे ध्वनिनिर्माणे च उपयोगाय ड्रमबीट्, वाद्यरिफ्, एम्बियन्ट् ध्वनिः, फोले रिकार्डिङ्ग्, अन्येषां श्रव्यनमूनानां निर्माणार्थं आदर्शः भवति

अस्य मुक्तस्रोतसंस्करणस्य एकः प्रमुखः लाभः अस्ति यत् उपयोक्तारः स्वस्य कस्टम् श्रव्यदत्तांशस्य आधारेण मॉडलं सूक्ष्मरूपेण ट्यून् कर्तुं शक्नुवन्ति एतेन प्रकारेण उपयोक्तारः स्वस्य ड्रम रिकार्डिङ्ग् इत्यस्य उपयोगं कृत्वा मॉडल् प्रशिक्षितुं शक्नुवन्ति तथा च स्वशैल्यां अद्वितीयं तालं जनयितुं शक्नुवन्ति

2. प्रशिक्षणप्रक्रिया प्रतिलिपिधर्मसंरक्षणं प्रति केन्द्रितं भवति

जननात्मक-एआइ-इत्यस्य तीव्रविकासस्य पृष्ठभूमितः सङ्गीत-उद्योगे कृत्रिम-बुद्धेः उपयोगे विशेषतः प्रतिलिपि-अधिकार-विषयेषु अधिकाधिकं तीव्र-विवादः भवति एड् न्यूटन-रेक्सः, स्टेबिलिटी एआइ इत्यस्य पूर्वः श्रव्यस्य उपाध्यक्षः २०२३ तमस्य वर्षस्य अन्ते राजीनामा दत्तवान् यतः सः स्टेबिलिटी एआइ इत्यस्य प्रतिलिपिधर्मयुक्तस्य श्रव्यस्य उपयोगेन सह असहमतः आसीत् यदा सः मॉडल्-प्रशिक्षणं करोति स्म, यतः सः मन्यते यत् एतत् नैतिकतायाः विरुद्धम् अस्ति सः Stable Audio इत्यस्य विकासे संलग्नः आसीत् ।

जनरेटिव एआइ इत्यस्य दत्तांशप्रशिक्षणं कृष्णपेटी इव भवति विकासकं विहाय कोऽपि न जानाति यत् प्रशिक्षणार्थं प्रयुक्तः दत्तांशः प्रतिलिपिधर्मेन रक्षितः अस्ति वा इति। "बहवः बहु-अर्ब-डॉलर्-मूल्यानां टेक्-कम्पनयः निर्मातृणां कार्यस्य उपयोगं कृत्वा अनुमतिं विना जननात्मक-ए.आइ लाभं प्राप्तुं निर्मातृणां प्रतिलिपिधर्मस्य उल्लङ्घने अवलम्ब्य एतादृशं व्यवहारं न स्वीकुर्वन्तु ।

स्टेबिलिटी एआइ इत्यनेन उक्तं यत् निर्मातृणां प्रतिलिपिधर्मस्य सम्मानार्थं स्टेबल ऑडियो ओपन इत्यनेन प्रयुक्ताः आँकडासमूहाः फ्रीसाउण्ड् तथा फ्री म्यूजिक आर्काइव (FMA) इत्यस्मात् आगच्छन्ति, तथा च प्रयुक्ताः सर्वे रिकार्डिङ्ग्स् सीसी (क्रिएटिव् कॉमन्स) अनुज्ञापत्रस्य अन्तर्गतं विमोचिताः श्रव्य रिकार्डिङ्ग्स् सन्ति सीसी इति प्रतिलिपिधर्म-अनुज्ञापत्र-तन्त्रम् अस्ति यत् निर्मातृभ्यः स्व-कृतीनां साझेदारी कर्तुं, अन्ये कथं तान् उपयोक्तुं शक्नुवन्ति इति नियमनं कर्तुं च शक्नोति ।

इदं सुनिश्चित्य यत् एतत् कस्यापि प्रतिलिपिधर्मयुक्तसामग्रीणां उपयोगं परिहरति, Stability AI कथयति यत् सः Freesound मध्ये सङ्गीतनमूनानां परिचयं श्रव्यटैगरस्य उपयोगेन करोति, तथा च चिह्नितानि नमूनानि Audible Magic इत्यस्य सामग्रीपरिचयकम्पनीं प्रति प्रेष्यन्ते यत् प्रतिलिपिधर्मयुक्तसङ्गीतात् सम्भाव्यसामग्री निष्कासिता भवति इति सुनिश्चितं भवति

"एतेन वयं निर्मातृणां अधिकारानां पूर्णतया सम्मानं कुर्वन्तः मुक्तश्रव्यप्रतिरूपं निर्मातुं शक्नुमः" इति स्टेबिलिटी एआइ अवदत् ।

निष्कर्षः - मुक्तस्रोतः मुक्तमाडलेन च विन्सेन्ट् ऑडियो अधिकं लोकप्रियं भवति

Stable Audio Open इत्यस्य प्रारम्भः Stability AI इत्यस्य नवीनतां, पाठ-श्रव्य-प्रतिरूपस्य क्षेत्रे प्रगतिम् च दर्शयति । यद्यपि अस्य प्रतिरूपस्य श्रव्यदीर्घतां, सुसंगतिं च जनयितुं केचन सीमाः सन्ति तथापि तस्य लाभाः अपि स्पष्टाः सन्ति । एतत् उच्चगुणवत्तायुक्तं 44.1kHz स्टीरियो-श्रव्यं निःशुल्कं जनयितुं शक्नोति, उपभोक्तृ-स्तरीय-GPU-इत्यत्र चालयितुं च शक्नोति, येन Vincent Audio-इत्यस्य उपयोगस्य सीमां न्यूनीकरोति ।

तस्मिन् एव काले Stable Audio Open इत्यनेन श्रव्यजननप्रौद्योगिकी उद्घाटिता भवति तथा च प्रतिलिपिधर्मसंरक्षणस्य नूतनं मानदण्डं अपि स्थापयति । भविष्ये प्रौद्योगिक्याः निरन्तर-उन्नति-नीति-सुधारेन च स्थिर-श्रव्य-ओपन-अधिक-अनुप्रयोग-परिदृश्येषु स्वस्य क्षमतां प्रयोक्तुं, श्रव्य-जनन-प्रौद्योगिक्याः विकासं लोकप्रियतां च प्रवर्धयिष्यति इति अपेक्षा अस्ति

सम्प्रति यन्त्रशिक्षणमाडलमञ्चे Hugging Face इत्यत्र Stable Audio Open मॉडलभाराः उपलभ्यन्ते । स्थिरता एआइ ध्वनिनिर्मातारं, संगीतकारं, विकासकं, श्रव्यविषये रुचिं विद्यमानं च कञ्चित् मॉडलस्य क्षमतां अन्वेष्टुं प्रतिक्रियां दातुं च प्रोत्साहयति ।

स्रोतः : स्थिरता ए.आइ

समाचारं

विश्वस्य उष्णतमं AI ऑडियो मॉडल् इति नवीनतमं तकनीकीविवरणं प्रकाशितम्

आमुख

मम सम्पर्कसूचना