गैर-Transformer वास्तुकला उत्तिष्ठति प्रथमं शुद्धं अनावश्यकं विशालं मॉडलं, Llama 3.1

गैर-Transformer वास्तुकला उत्तिष्ठति प्रथमं विशुद्धरूपेण अनावश्यकं विशालं मॉडलं, Llama 3.1 इत्येतत् अतिक्रम्य

2024-08-13

मशीन हृदय रिपोर्ट

सम्पादकः - डु वी, चेन् चेन्

माम्बा-वास्तुकलानां विशालः प्रतिरूपः पुनः ट्रांसफॉर्मर्-इत्यस्य आव्हानं कृतवान् ।

किं मम्बा वास्तुकलाप्रतिरूपम् अन्ततः अस्मिन् समये "उत्तिष्ठति"? २०२३ तमस्य वर्षस्य डिसेम्बरमासे प्रारम्भिकप्रक्षेपणात् आरभ्य माम्बा ट्रान्सफॉर्मर इत्यस्य प्रबलः प्रतियोगी अभवत् ।

ततः परं माम्बा आर्किटेक्चरस्य उपयोगं कुर्वन्तः मॉडल् निरन्तरं प्रकटिताः सन्ति, यथा Codestral 7B, Mistral द्वारा विमोचितस्य Mamba आर्किटेक्चरस्य आधारेण प्रथमं मुक्तस्रोतस्य बृहत् मॉडलम्

अद्य अबुधाबीनगरस्य प्रौद्योगिकीनवाचारसंस्थायाः (TII) कनवीनं मुक्तस्रोतमाम्बा मॉडलम् – फाल्कन माम्बा 7B。

प्रथमं Falcon Mamba 7B इत्यस्य मुख्यविषयाणां सारांशं वदामः: एतत् स्मृतिभण्डारणं न वर्धयित्वा किमपि दीर्घतायाः अनुक्रमं सम्भालितुं शक्नोति, तथा च एकस्मिन् 24GB A10 GPU इत्यस्मिन् चालयितुं शक्नोति

सम्प्रति हग्गिंग् फेस् इत्यत्र द्रष्टुं उपयोगाय च उपलभ्यते, फाल्कन् माम्बा ७ बी उपन्यासस्य उपयोगेन केवलं कारणात्मकं डिकोडर-प्रतिरूपम् अस्तिमाम्बा राज्य अन्तरिक्ष भाषा प्रतिरूप (SSLM) वास्तुकलाविविधपाठजननकार्यं सम्पादयितुं ।

परिणामेभ्यः न्याय्यं चेत्, फाल्कन माम्बा ७ बी इत्यनेन मेटा इत्यस्य लामा ३ ८ बी, लामा ३.१ ८ बी, मिस्ट्रल् ७ बी च सहितं केषुचित् मानदण्डेषु स्वस्य आकारवर्गे अग्रणीमाडलानाम् अपेक्षया अधिकं प्रदर्शनं कृतम्

Falcon Mamba 7B चतुर्णां रूपान्तरमाडलानाम् अन्तर्गतं विभक्तम् अस्ति, यथा मूलभूतसंस्करणं, आदेशः सूक्ष्म-समायोजितः संस्करणः, 4bit संस्करणः, आदेशः सूक्ष्म-समायोजितः 4bit संस्करणः च

एकं मुक्तस्रोतप्रतिरूपरूपेण, Falcon Mamba 7B अनुसन्धानस्य अनुप्रयोगस्य च प्रयोजनानां समर्थनार्थं Apache 2.0-आधारितं अनुज्ञापत्रं "Falcon License 2.0" स्वीकुर्वति ।

हगिंग फेस पता: https://huggingface.co/tiiuae/falcon-mamba-7b

फाल्कन माम्बा ७बी अपि फाल्कन १८०बी, फाल्कन ४०बी, फाल्कन २ इत्येतयोः पश्चात् TII द्वारा मुक्तस्रोतः चतुर्थः मॉडलः अभवत्, तथा च...प्रथमं माम्बा एसएसएलएम वास्तुकलाप्रतिरूपम्。

प्रथमं सार्वभौमिकं बृहत्-परिमाणं शुद्धं माम्बा-प्रतिरूपम्

ट्रांसफार्मर-आधारित-प्रतिमानानाम् आधिपत्यं दीर्घकालं यावत् जननात्मक-एआइ-इत्येतत् अस्ति तथापि शोधकर्तारः अवलोकितवन्तः यत् दीर्घकालीन-पाठ-सूचनाः संसाधयन्ते सति ट्रांसफार्मर-वास्तुकलासु कष्टानि भवितुम् अर्हन्ति ।

अनिवार्यतया, Transformer इत्यस्मिन् ध्यानतन्त्रं पाठस्य प्रत्येकं शब्देन सह प्रत्येकं शब्दस्य (अथवा टोकनस्य) तुलनां कृत्वा सन्दर्भं अवगच्छति, यस्य कृते वर्धमानं सन्दर्भविण्डो नियन्त्रयितुं अधिकगणनाशक्तिः स्मृति-आवश्यकता च आवश्यकी भवति

परन्तु यदि गणनासंसाधनानाम् तदनुसारं स्केल न क्रियते तर्हि मॉडल् अनुमानं मन्दं भविष्यति तथा च निश्चितदीर्घतां अतिक्रम्य पाठं संसाधितुं न शक्यते । एतान् बाधान् दूरीकर्तुं राज्य-अन्तरिक्ष-भाषा-प्रतिरूपं (SSLM) वास्तुकला, या शब्दानां संसाधनं कुर्वन् राज्यं निरन्तरं अद्यतनं कृत्वा कार्यं करोति, सः आशाजनक-विकल्परूपेण उद्भूतः अस्ति तथा च TII This kind of architecture सहितैः अनेकैः संस्थाभिः परिनियोजितः अस्ति

फाल्कन माम्बा ७ बी मूलतः कार्नेगी मेलन् विश्वविद्यालयस्य प्रिन्स्टन् विश्वविद्यालयस्य च शोधकर्तृभिः २०२३ तमस्य वर्षस्य दिसम्बरमासस्य पत्रे प्रस्तावितस्य माम्बा एसएसएम आर्किटेक्चरस्य उपयोगं करोति ।

वास्तुकला चयनतन्त्रस्य उपयोगं करोति यत् मॉडल् इनपुट् इत्यस्य आधारेण स्वस्य मापदण्डान् गतिशीलरूपेण समायोजयितुं शक्नोति । एवं प्रकारेण, आदर्शः विशिष्टनिवेशेषु केन्द्रीक्रियितुं वा अवहेलितुं वा शक्नोति, यथा ट्रांसफार्मर-मध्ये ध्यान-तन्त्रं कथं कार्यं करोति, तथैव अतिरिक्त-स्मृतेः अथवा गणना-संसाधनानाम् आवश्यकतां विना पाठस्य दीर्घ-क्रमस्य (यथा सम्पूर्ण-पुस्तकानां) संसाधनस्य क्षमताम् प्रदातुं शक्नोति

टीआईआई इत्यनेन अवलोकितं यत् एषः उपायः उद्यमस्तरीययन्त्रानुवादः, पाठसारांशः, सङ्गणकदृष्टिः श्रव्यसंसाधनकार्यं, अनुमानं पूर्वानुमानं च इत्यादीनां कार्याणां कृते प्रतिरूपं उपयुक्तं करोति

प्रशिक्षणदत्तांशः

बाज मम्बा 7B5500GT पर्यन्तं प्रशिक्षणदत्तांशः, मुख्यतया RefinedWeb आँकडासमूहः भवति, यः उच्चगुणवत्तायुक्तैः तकनीकीदत्तांशैः, कोडदत्तांशैः, सार्वजनिकस्रोतैः गणितीयदत्तांशैः च संवर्धितः अस्ति । सर्वाणि आँकडानि Falcon-7B/11B tokenizer इत्यस्य माध्यमेन टोकनीकृतानि भवन्ति ।

अन्येषां फाल्कन-श्रृङ्खला-माडलानाम् सदृशं फाल्कन-माम्बा ७बी-इत्येतत् प्रशिक्षणार्थं बहुचरणीय-प्रशिक्षण-रणनीत्याः उपयोगं करोति ।सन्दर्भदीर्घता २०४८ तः ८१९२ यावत् वर्धिता. तदतिरिक्तं पाठ्यक्रमशिक्षणस्य अवधारणायाः प्रेरितः टीआईआई सम्पूर्णे प्रशिक्षणचरणस्य मिश्रितदत्तांशस्य सावधानीपूर्वकं चयनं करोति, दत्तांशस्य विविधतां जटिलतां च पूर्णतया विचारयति

अन्तिमप्रशिक्षणचरणस्य मध्ये TII उच्चगुणवत्तायुक्तस्य क्यूरेटेड्-आँकडानां (अर्थात्, Fineweb-edu इत्यस्मात् नमूनानां) लघुसमूहस्य उपयोगं करोति यत् कार्यप्रदर्शने अधिकं सुधारं करोति ।

प्रशिक्षण प्रक्रिया, अतिपैरामीटर्स

फाल्कन माम्बा ७ बी इत्यस्य अधिकांशं प्रशिक्षणं भवति२५६ H100 80GB GPUs इत्यत्र कृतम्, 3D समानान्तरता (TP=1, PP=1, DP=256) तथा ZeRO इत्येतयोः संयोजनं कृत्वा रणनीतिः स्वीक्रियते । अधोलिखिते चित्रे सटीकता, अनुकूलकः, अधिकतमशिक्षणदरः, भारक्षयः, बैचस्य आकारः च समाविष्टाः मॉडल-अतिपैरामीटर्-विवरणं दर्शितम् अस्ति ।

विशेषतः, Falcon Mamba 7B AdamW अनुकूलकेन, WSD (warm-stabilize-decay) learning rate schedule इत्यनेन सह प्रशिक्षितः आसीत्, तथा च प्रशिक्षणस्य प्रथमे 50 GT इत्यस्य समये batch आकारः b_min=128 तः b_max=2048 यावत् वर्धितः

स्थिरचरणस्य मध्ये TII अधिकतमं शिक्षणदरं η_max=6.4×10^−4 इत्यस्य उपयोगं करोति, ततः 500GT इत्यस्मात् अधिकं घातीयं समयसूचीं उपयुज्य न्यूनतमं क्षययति । तस्मिन् एव काले TII त्वरणचरणस्य BatchScaling इत्यस्य उपयोगं करोति यत् शिक्षणदरं eta पुनः समायोजयति येन एडम् शोरतापमानं स्थिरं भवति

सम्पूर्णं आदर्शप्रशिक्षणं प्रायः मासद्वयं यावत् अभवत्。

आदर्श मूल्याङ्कनम्

Falcon Mamba 7B इत्यस्य आकारवर्गे प्रमुखैः Transformer मॉडलैः सह कथं तुलना भवति इति अवगन्तुं अध्ययनेन एकस्य 24GB A10 GPU इत्यस्य उपयोगेन मॉडल् अधिकतमं सन्दर्भदीर्घतां निर्धारयितुं परीक्षणं कृतम्

परिणामानि दर्शयन्ति यत् फाल्कन माम्बा वर्तमान ट्रांसफॉर्मर मॉडल् इत्यस्मात् बृहत्तरेषु अनुक्रमेषु अनुकूलतां प्राप्तुं समर्थः अस्ति, तथा च...सैद्धान्तिकरूपेण असीमितसन्दर्भदीर्घतां समायोजयितुं समर्थः。

तदनन्तरं वयं 1 इत्यस्य बैच-आकारस्य H100 GPU इत्यस्य हार्डवेयर-सेटिंग् इत्यस्य च उपयोगेन मॉडल् जनरेशन थ्रूपुट् मापितवन्तः । परिणामाः अधोलिखिते चित्रे दर्शिताः सन्ति Falcon Mamba CUDA शिखरस्मृतौ किमपि वृद्धिं विना नित्यं थ्रूपुट् इत्यत्र सर्वाणि टोकन्स् जनयति । Transformer मॉडलस्य कृते, पीक मेमोरी वर्धते तथा च जननवेगः मन्दः भविष्यति यथा यथा जनन कृतानां टोकनानाम् संख्या वर्धते ।

मानक-उद्योग-मापदण्डेषु अपि नूतनं प्रतिरूपं लोकप्रिय-ट्रांसफॉर्मर-माडलस्य अपि च शुद्ध-संकर-राज्य-अन्तरिक्ष-माडल-अपेक्षया वा तस्य समीपे वा उत्तमं प्रदर्शनं करोति

उदाहरणार्थं आर्क्, ट्रुथफुल्क्यूए तथा जीएसएम८के बेन्चमार्क् इत्यत्र फाल्कन् माम्बा ७बी इत्यनेन क्रमशः ६२.०३%, ५३.४२%, ५२.५४% च स्कोरः प्राप्तः, यः लामा ३ ८ बी, लामा ३.१ ८बी, गेम्मा ७बी, मिस्ट्रल् ७बी च अतिक्रान्तवान् परन्तु MMLU तथा Hellaswag benchmarks इत्यत्र Falcon Mamba 7B इत्येतत् एतेभ्यः मॉडलेभ्यः बहु पृष्ठतः अस्ति ।

टीआईआई-प्रधान अन्वेषकः हाकिम हसिद् इत्यनेन विज्ञप्तौ उक्तं यत्, "फाल्कन माम्बा ७बी इत्यस्य विमोचनं संस्थायाः कृते एकं प्रमुखं कदमम् अग्रे दर्शयति, नूतनानि दृष्टिकोणानि प्रेरयति, बुद्धिमान् प्रणालीनां अन्वेषणं च अग्रे सारयति। TII इत्यत्र ते जनरेटिव एआइ इत्यस्मिन् अधिकं नवीनतां प्रेरयितुं SSLM तथा ट्रांसफार्मर मॉडल् इत्येतयोः सीमां धक्कायन्ति।

सम्प्रति TII इत्यस्य फाल्कन-श्रृङ्खलायां भाषाप्रतिमानाः ४५ मिलियनतः अधिकं वाराः डाउनलोड् कृताः - यूएई-देशे सफलतमेषु एलएलएम-संस्करणेषु अन्यतमः अभवत् ।

Falcon Mamba 7B इति कागदं शीघ्रमेव मुक्तं भविष्यति, अतः भवान् क्षणं प्रतीक्षितुं शक्नोति।

https://huggingface.co/blog/falconmamba इति वृत्तान्तः

https://venturebeat.com/ai/falcon-mamba-7bs-शक्तिशाली-नवीन-ai-वास्तुकला-परिवर्तक-माडल-विकल्प-प्रस्तावति/

समाचारं

गैर-Transformer वास्तुकला उत्तिष्ठति प्रथमं विशुद्धरूपेण अनावश्यकं विशालं मॉडलं, Llama 3.1 इत्येतत् अतिक्रम्य

आमुख

मम सम्पर्कसूचना