2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
नवीन बुद्धि प्रतिवेदन
सम्पादकः अलनः
[नव प्रज्ञायाः परिचयः] ।अद्यतनकाले कैलिफोर्नियाविश्वविद्यालयस्य, इर्विनस्य अन्येषां संस्थानां च शोधकर्तारः विलम्बितमास्किंग्, MoE, श्रेणीबद्धविस्तारम् इत्यादीनां रणनीतीनां उपयोगेन प्रसारप्रतिरूपस्य प्रशिक्षणव्ययस्य न्यूनीकरणं कृत्वा १,८९० अमेरिकीडॉलर् यावत् न्यूनीकृतवन्तः
प्रसारणप्रतिरूपस्य प्रशिक्षणार्थं कियत् व्ययः भवति ?
पूर्वस्य सस्तीतमस्य पद्धतेः (Wuerstchen) मूल्यं $२८,४०० आसीत्, तथा च Stable Diffusion इत्यादीनि मॉडल् एकक्रमेण महत्तराणि सन्ति ।
बृहत् मॉडल् युगे अधिकांशजना: केवलं तेषां सह क्रीडितुं न शक्नुवन्ति । यदि भवान् सर्वविधविन्सेन्टियन-महिलाः इच्छति तर्हि तेषां भारं अग्रे नेतुम् निर्मातृणां उपरि अवलम्बितव्यम् ।
एतस्य विशालस्य व्ययस्य न्यूनीकरणाय शोधकर्तारः विविधानि समाधानं प्रयतन्ते ।
यथा, मूलप्रसारप्रतिरूपं कोलाहलात् प्रतिबिम्बं प्रति गन्तुं प्रायः १,००० पदानि गृह्णाति, परन्तु तत् प्रायः २० पदानि वा तस्मात् न्यूनानि वा न्यूनीकृतम् अस्ति
यदा प्रसारप्रतिरूपे मूलभूतमॉड्यूल् क्रमेण यूनेट् (CNN) इत्यस्मात् DiT (Transformer) इत्यनेन प्रतिस्थापितं तदा ट्रांसफॉर्मरस्य लक्षणानाम् आधारेण केचन अनुकूलनानि अपि अनुवर्तन्ते स्म
यथा, परिमाणीकरणं, यथा Attention इत्यस्मिन् केचन अनावश्यकगणनाः त्यक्त्वा, यथा पाइपलाइनम् ।
अधुना एव कैलिफोर्नियाविश्वविद्यालयस्य, इर्विनस्य अन्येषां संस्थानां च शोधकर्तृभिः "धनस्य रक्षणस्य" लक्ष्यं महत् पदं अग्रे गृहीतम् अस्ति :
पेपर पता: https://arxiv.org/abs/2407.15811
——मात्रं $1,890 कृते 1.16 अरब पैरामीटर् प्रसारणप्रतिरूपं शुद्धतः प्रशिक्षयन्तु!
सोटा इत्यस्य तुलने अस्मिन् परिमाणस्य क्रमेण सुधारः कृतः, येन सामान्यजनाः पूर्वप्रशिक्षणस्य स्वादं प्राप्तुं आशां द्रष्टुं शक्नुवन्ति ।
अतः अपि महत्त्वपूर्णं यत्, व्यय-कमीकरण-प्रौद्योगिकी मॉडलस्य कार्यक्षमतां प्रभावितं न करोति ।
लुक् एण्ड् फील् इत्यस्य अतिरिक्तं मॉडल् इत्यस्य डाटा इंडिकेटर् अपि उत्तमाः सन्ति उदाहरणार्थं अधोलिखिते सारणीयां दत्तः FID स्कोरः Stable Diffusion 1.5 तथा DALL·E 2 इत्यस्य अत्यन्तं समीपे अस्ति ।
तस्य विपरीतम् वुर्स्चेन् इत्यस्य व्यय-कटन-योजनायाः परिणामः आदर्शात् न्यूनः परीक्षण-अङ्कः अभवत् ।
धनस्य रक्षणार्थं युक्तयः
"Stretching Each Dollar" इति लक्ष्यं कृत्वा शोधकर्तारः प्रसारप्रतिरूपस्य मूलभूतमॉड्यूल् DiT इत्यनेन आरब्धवन्तः ।
प्रथमं क्रमदीर्घता Transformer इत्यस्य गणनाव्ययस्य शत्रुः अस्ति, तस्य निराकरणस्य आवश्यकता वर्तते ।
चित्राणां कृते गणनासु भागं गृह्णन्तः पट्टिकानां संख्यां न्यूनीकर्तुं (स्मृति-उपरिभारं न्यूनीकर्तुं च) कार्यप्रदर्शनं न प्रभावितं कर्तुं आवश्यकम् ।
इमेज टाइल्स् इत्यस्य संख्यां न्यूनीकर्तुं द्वौ उपायौ स्तः एकः प्रत्येकस्य ब्लॉकस्य आकारं वर्धयितुं, अपरः च पैच् (मास्क) इत्यस्य भागं निष्कासयितुं ।
यतः पूर्वं मॉडल् कार्यक्षमतां महत्त्वपूर्णतया न्यूनीकरिष्यति, अतः वयं मास्किंग् इत्यस्य पद्धतिं विचारयामः ।
अत्यन्तं भोला मास्क (Naive token masking) कन्वोल्यूशनल् UNet इत्यस्मिन् यादृच्छिकरूपेण क्रॉप्ड् प्रशिक्षणस्य सदृशं भवति, परन्तु इमेजस्य अ-समीपस्थेषु क्षेत्रेषु प्रशिक्षणस्य अनुमतिं ददाति
पूर्ववर्ती अत्यन्तं उन्नतपद्धतिः (MaskDiT) उत्पादनात् पूर्वं पुनर्स्थापनं पुनर्निर्माणं च संरचनां योजयति, अपि च अतिरिक्तहानिकार्यस्य माध्यमेन प्रशिक्षयति, शिक्षणद्वारा नष्टसूचनायाः क्षतिपूर्तिं कर्तुं आशां कुर्वन्
द्वयोः मास्कयोः गणनाव्ययस्य न्यूनीकरणार्थं आरम्भे अधिकांशं पैचः परित्यजति ।
——सूचनायाः हानिः न प्रशस्तः, अतः सूचनां नष्टं विना निवेशं कथं न्यूनीकर्तुं शक्नुमः ?
विलम्ब मुखौटा
अस्मिन् पत्रे आस्थगितमास्किंग-रणनीतिः प्रस्ताविता अस्ति, या मास्कात् पूर्वं पूर्व-प्रक्रियाकरणाय पैच-मिक्सरस्य उपयोगं करोति, तथा च परित्यक्त-पैच-सूचनाः जीवित-पैच-मध्ये निवेशयति, येन उच्च-मास्क-प्रभावः महत्त्वपूर्णतया न्यूनीकरोति
अस्मिन् वास्तुकलायां, ध्यानस्तरस्य फीड-फोरवर्डस्तरस्य च संयोजनेन patch-mixer कार्यान्वितं भवति सम्पूर्णस्य मॉडलस्य हानिकार्यं भवति ।
MaskDiT इत्यस्य तुलने अत्र अतिरिक्तं हानिकार्यस्य आवश्यकता नास्ति, समग्ररूपेण डिजाइनं प्रशिक्षणं च सरलतरं भवति ।
मिश्रकः एव अतीव लघुसंरचना अस्ति, धनस्य रक्षणस्य मापदण्डं च पूरयति ।
सूक्ष्म-समायोजनम्
यतो हि अत्यन्तं उच्चः मास्किंग् अनुपातः चित्रे वैश्विकसंरचनां ज्ञातुं प्रसारप्रतिरूपस्य क्षमतां महत्त्वपूर्णतया न्यूनीकरिष्यति तथा च प्रशिक्षणात् परीक्षणं प्रति वितरणपरिवर्तनं प्रवर्तयिष्यति, लेखकेन पूर्वप्रशिक्षणानन्तरं अल्पमात्रायां सूक्ष्मसमायोजनं (अनमास्क) कृतम् (मुखावरण) )।
तदतिरिक्तं, सूक्ष्म-समायोजनेन मुखौटानां उपयोगेन उत्पद्यमानं किमपि अवांछितं पीढी-कलाकृतं न्यूनीकर्तुं शक्यते ।
MoE तथा स्तरितविस्तारः
MoE प्रशिक्षणव्ययस्य महत्त्वपूर्णं वृद्धिं विना मॉडलस्य मापदण्डान् अभिव्यञ्जकक्षमतां च वर्धयितुं शक्नोति।
लेखकाः विशेषज्ञचयनितमार्गनिर्धारणस्य आधारेण सरलीकृतस्य MoE स्तरस्य उपयोगं कुर्वन्ति, यत्र प्रत्येकं विशेषज्ञः विशेषज्ञानां मध्ये भारस्य सन्तुलनार्थं किमपि अतिरिक्तसहायकहानिकार्यस्य आवश्यकतां विना स्वस्य टोकनपर्यन्तं मार्गं निर्धारयति
तदतिरिक्तं लेखकाः एकं श्रेणीबद्धं स्केलिंग् पद्धतिं अपि विचारितवन्तः यत् रेखीयरूपेण Transformer ब्लॉकस्य विस्तारं वर्धयति (अर्थात्, ध्यानस्तरस्य तथा फीड-फोरवर्डस्तरस्य गुप्तस्तरस्य आकारः)
यतो हि दृष्टिप्रतिरूपेषु गहनतरस्तराः अधिकजटिलविशेषताः ज्ञातुं प्रवृत्ताः भवन्ति, गभीरस्तरयोः अधिकमापदण्डानां उपयोगेन उत्तमं प्रदर्शनं भविष्यति ।
प्रयोगात्मकं स्थापनम्
लेखकः DiT इत्यस्य द्वौ रूपौ उपयुज्यते: DiT-Tiny/2 तथा DiT-Xl/2, यस्य पैच आकारः 2 अस्ति ।
सर्वेषां मॉडलानां प्रशिक्षणं कोसाइन-शिक्षणदरक्षयस्य उच्चभारक्षयस्य च सह AdamW अनुकूलकस्य उपयोगेन कृतम् ।
मॉडलस्य अग्रभागः Stable-Diffusion-XL मॉडल् इत्यस्मिन् चतुर्-चैनल-विविधता-स्वयं-एन्कोडरस्य (VAE) उपयोगं करोति, तदतिरिक्तं, बृहत्-परिमाणे प्रशिक्षणे (saving version) नवीनतमस्य 16-चैनल-VAE इत्यस्य प्रदर्शनम् ) इत्यस्य अपि परीक्षणं कृतम् ।
लेखकाः सर्वेषां प्रसारप्रतिमानानाम् एकीकृतप्रशिक्षणसेटिंगरूपेण EDM-रूपरेखायाः उपयोगं कुर्वन्ति, तथा च चित्रजननप्रतिरूपस्य कार्यक्षमतां मापनार्थं FID तथा च CLIP-अङ्कानां उपयोगं कुर्वन्ति
पाठसङ्केतकस्य कृते सर्वाधिकं प्रयुक्तं CLIP मॉडलं चयनितम् यद्यपि T5-xxl इत्यादीनि बृहत्तराणि मॉडल् पाठसंश्लेषणादिषु चुनौतीपूर्णकार्येषु उत्तमं प्रदर्शनं कुर्वन्ति तथापि धनस्य रक्षणार्थं तेषां उपयोगः अत्र न भवति
प्रशिक्षणदत्तांशसमूहः
त्रयः वास्तविकप्रतिबिम्बदत्तांशसमूहाः (Conceptual Captions, Segment Anything, TextCaps) उपयुज्यन्ते, येषु २२ मिलियनं चित्र-पाठयुग्मानि सन्ति ।
यतः SA1B वास्तविकं उपशीर्षकं न प्रदाति, अतः LLaVA मॉडलेन उत्पन्नाः कृत्रिम उपशीर्षकाः अत्र उपयुज्यन्ते । लेखकाः बृहत्-परिमाणे प्रशिक्षणे १५ मिलियन-प्रतिबिम्ब-पाठ-युग्मानि युक्तौ सिंथेटिक-प्रतिबिम्ब-दत्तांशसमूहौ अपि योजितवन्तः: JourneyDB तथा DiffusionDB इति ।
लघु-परिमाणस्य एब्लेशनस्य कृते शोधकर्तारः बृहत्तरस्य COYO-700M-दत्तांशसमूहात् 10 CIFAR-10 वर्गानां चित्राणि उपनमूनाकरणं कृत्वा cifar-captions इति पाठ-प्रति-दत्तांशसमूहस्य निर्माणं कृतवन्तः
गणयति
सर्वे मूल्याङ्कनप्रयोगाः DiT-Tiny/2 मॉडलस्य तथा cifar-captions dataset (256 × 256 resolution) इत्यस्य उपयोगेन कृताः ।
प्रत्येकं मॉडलं AdamW अनुकूलकस्य तथा घातीयचलसरासरी (अन्तिम 10K चरणानां कृते 0.995 इत्यस्य स्मूथिंग गुणांक) इत्यस्य उपयोगेन 60K अनुकूलनपदार्थानां कृते प्रशिक्षितम् आसीत्
विलम्ब मुखौटा
प्रयोगस्य आधाररेखा अस्माभिः उपरि उक्तं Naive masking चयनं कृतवती, यदा तु अस्मिन् लेखे delay masking इत्यनेन हल्कं patch-mixer योजितम्, यत्र मेरुदण्डजालस्य 10% तः न्यूना पैरामीटर्-सङ्ख्या आसीत्
सामान्यतया, यावन्तः पैचः नष्टाः भवन्ति (उच्चः मास्किंग् अनुपातः), तथैव मॉडलस्य कार्यक्षमता दुर्बलं भविष्यति उदाहरणार्थं, MaskDiT इत्यस्य कार्यक्षमता 50% अधिकस्य अनन्तरं महत्त्वपूर्णतया न्यूनीभवति ।
अत्र तुलनाप्रयोगः पूर्वनिर्धारित-अतिमापदण्डानां (शिक्षणदरः १.६×१०e-४, भारक्षयः ०.०१, तथा च कोसाइनशिक्षणदरः) उपयुज्यते, येन द्वयोः प्रतिरूपयोः प्रशिक्षणं भवति
उपर्युक्तचित्रे प्राप्ताः परिणामाः दर्शयन्ति यत् FID, Clip-FID, Clip score इत्येतयोः त्रयोः सूचकयोः विलम्बमास्किंग् पद्धत्या सुधारः अभवत् ।
अपि च, आधाररेखायाः सह कार्यप्रदर्शनस्य अन्तरं यथा यथा मास्किंग्-दरः वर्धते तथा तथा विस्तारितः भवति । यदा मास्किंग् दरः ७५% भवति तदा भोला मास्किंग् इत्यनेन FID स्कोरः १६.५ यावत् न्यूनीकरिष्यते, यदा तु अस्माकं पद्धतिः ५.०३ यावत् भवति, यत् मास्किंग् विना FID स्कोरस्य समीपे अस्ति (३.७९)
अतिपैरामीटर्
LLM प्रशिक्षणस्य सामान्यविचारस्य अनुसरणं कृत्वा अत्र वयं कार्यद्वयस्य हाइपरपैरामीटर् चयनस्य तुलनां कुर्मः ।
प्रथमं, feedforward स्तरे SwiGLU सक्रियकरणकार्यं GELU इत्यस्मात् श्रेष्ठम् अस्ति । द्वितीयं, अधिकभारक्षीणीकरणेन उत्तमं चित्रजननप्रदर्शनं भवति ।
तदतिरिक्तं, LLM प्रशिक्षणस्य विपरीतम्, अस्मिन् लेखे प्रसारप्रतिरूपं AdamW द्वितीयक्रमस्य क्षणस्य (β) कृते उच्चतरं रनिंग औसतगुणकस्य उपयोगं कुर्वन् उत्तमं प्रदर्शनं प्राप्तुं शक्नोति
अन्ते लेखकाः पश्यन्ति यत् शिक्षणदरं अधिकतमसंभवमूल्यं यावत् (यावत् प्रशिक्षणं अस्थिरं न भवति) वर्धयन् अल्पसंख्याकानां प्रशिक्षणपदार्थानाम् उपयोगेन अपि चित्रजननप्रदर्शने महत्त्वपूर्णः सुधारः अभवत्
मिक्सर डिजाइन
प्रायः चमत्कारं प्राप्तुं परिश्रमं करणं सम्यक् भवति, लेखकेन अपि अवलोकितं यत् बृहत्तरस्य पैच-मिक्सरस्य उपयोगानन्तरं मॉडल्-प्रदर्शने निरन्तरं सुधारः भवति
परन्तु धनस्य रक्षणार्थं अद्यापि अत्र लघुमिश्रकं चयनं भवति ।
लेखकाः कोलाहलवितरणं (−0.6, 1.2) इति परिवर्तयन्ति स्म, येन उपशीर्षकाणां जनितप्रतिबिम्बस्य च संरेखणं सुदृढं जातम् ।
यथा अधोलिखिते चित्रे दर्शितं, ७५% मास्किंग् अनुपातस्य अन्तर्गतं लेखकः भिन्न-भिन्न-पैच-आकारस्य उपयोगस्य प्रभावस्य अपि अध्ययनं कृतवान् ।
यदा निरन्तरप्रदेशानां संख्या अधिका भवति (पैचः बृहत्तराः भवन्ति), तदा मॉडलस्य कार्यक्षमता न्यूनीभवति, अतः प्रत्येकं पट्टिकायाः यादृच्छिकरूपेण मास्किंग् इत्यस्य मूलरणनीतिः अवशिष्यते
स्तरित स्केलिंग
अस्मिन् प्रयोगे DiT-Tiny आर्किटेक्चरस्य द्वौ प्रकारौ प्रशिक्षितौ, एकः नित्यविस्तारयुक्तः अपरः श्रेणीबद्धरूपेण स्केलकृतसंरचनायुक्तः ।
उभयविधौ Naive masking इत्यस्य उपयोगं कुर्वन्ति तथा च Transformer इत्यस्य आकारं समायोजयन्ति येन सुनिश्चितं भवति यत् द्वयोः प्रकरणयोः मॉडल् कम्प्यूटिंग् शक्तिः समाना भवति, तथा च समानानि प्रशिक्षणपदार्थानि प्रशिक्षणसमयं च कुर्वन्ति
उपर्युक्तसारणीयां प्राप्तेभ्यः परिणामेभ्यः द्रष्टुं शक्यते यत् त्रयोऽपि कार्यप्रदर्शनसूचकानाम् आधाररेखानित्यविस्तारपद्धत्याः अपेक्षया श्रेणीबद्धस्केलिंगविधिः श्रेष्ठा अस्ति, यत् सूचयति यत् श्रेणीबद्धमापनविधिः DiT इत्यस्य मास्किंग् प्रशिक्षणार्थं अधिका उपयुक्ता अस्ति
सन्दर्भाः : १.
https://arxiv.org/abs/2407.15811