समाचारं

GPU प्रशिक्षणं Llama 3.1 उन्मत्तवत् क्रैश भवति वा शतशः अरबौ पैरामीटर् युक्तं विशालं मॉडलं चालयितुं CPU सर्वरस्य उपयोगं कुर्वन् कोऽपि प्रमुखः निर्माता अस्ति?

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


नवीन बुद्धि प्रतिवेदन

सम्पादक : सम्पादकीय विभाग

[नव प्रज्ञायाः परिचयः] ।शतशः अरबौ मापदण्डैः सह बृहत् मॉडल् चालयितुं CPU यूनिवर्सल सर्वरस्य उपयोगस्य समयः अस्ति!

मस्कः विश्वस्य बृहत्तमं सुपरकम्प्यूटरं निर्मितवान् यस्मिन् १९ दिवसेषु सम्बद्धाः १,००,००० एच्१०० विमानाः सन्ति, तथा च ग्रोक् ३ इत्यस्य प्रशिक्षणार्थं पूर्णतया समर्पितः अस्ति

तस्मिन् एव काले विदेशीयमाध्यमेन वार्ता भग्नवती यत् ओपनएआइ-माइक्रोसॉफ्ट्-योः संयुक्तरूपेण निर्मितः अग्रिमः सुपरकम्प्यूटिङ्ग्-क्लस्टरः १,००,००० जीबी२०० युक्तः भविष्यति

अस्मिन् एआइ स्पर्धायां प्रमुखाः प्रौद्योगिकीकम्पनयः जीपीयू-मध्ये स्वनिवेशं वर्धयितुं सर्वप्रयत्नाः कुर्वन्ति, यस्य तात्पर्यं दृश्यते यत् अधिकाधिकशक्तिशालिनः जीपीयू-इत्यस्य भवितुं तेषां अजेयः भविष्यति

परन्तु उच्चस्तरीय-जीपीयू-इत्यस्य इदं कट्टर-अनुसरणं सर्वेषु परिस्थितिषु निर्दोषं समाधानं न भवति ।


पायटोर्चस्य पिता अवदत् यत् तान्त्रिकप्रतिवेदने निगूढानां आधारभूतसंरचनानां बहवः रोचकाः विवरणाः सन्ति, यथा समानान्तरं कथं करणीयम्, प्रणालीं कथं अधिकं विश्वसनीयं कर्तव्यम् इत्यादयः।

स्थिरतां उदाहरणरूपेण गृहीत्वा लामा ३.१ प्रशिक्षणस्य ५४ दिवसेषु मेटा इत्यस्य १६,०००-ब्लॉक् एच्१०० समूहे कुलम् ४१९ अप्रत्याशितव्यत्ययानां सामना अभवत्, यत् प्रत्येकं ३ घण्टेषु एकस्य औसतस्य बराबरम् अस्ति

एतेषु १४८ वारं (३०.१%) विभिन्नैः जीपीयू-विफलतायाः कारणेन अभवत् ।

तस्य विपरीतम् CPU विफलतायाः कारणेन केवलं २ व्यत्ययाः आसन् ।


अपरपक्षे यदि भवान् Llama 3.1 405B चालयितुम् इच्छति तर्हि तस्य युग्मीकरणं द्वयोः 8×H100 DGX वर्कस्टेशनयोः सह करणीयम् - अर्थात् 1280GB विडियो मेमोरी ।

एकदा एकः योद्धा ४०९० चालयितुं प्रयतितवान्, परन्तु ३० निमेषान् प्रतीक्ष्य मॉडल् शनैः शनैः "द" इति थूकितवान् ।


सम्पूर्णं उत्तरं पूर्णं २० घण्टाः यावत् समयः अभवत्

आदर्शप्रशिक्षणेन अनुमानेन च परिचिताः मित्राणि जानन्ति यत् एतानि वस्तूनि सर्वथा आश्चर्यं न कुर्वन्ति।

क्लस्टरनिर्माणं (GPU विन्यासः, संजालविन्यासः, पटलस्य अनुकूलनं इत्यादयः), क्लस्टरप्रबन्धनम् (वास्तविकसमयनिरीक्षणं, समस्यानिवारणम् इत्यादयः)...सर्वं "स्तब्धाः" सन्ति

यस्याः कम्पनीयाः प्रासंगिकः अनुभवः, कर्तुं पूंजी च अभावः भवति, सा किं भवति ?


अधुना एव Inspur Information इत्यस्य R&D अभियंताः सामान्य-उद्देश्य-सर्वर-मध्ये शतशः अरब-पैरामीटर्-सहितं "Source 2.0" चालयितुं केवलं 4 CPU-इत्यस्य उपयोगं कृतवन्तः!

जावा-भाषायां प्रोग्राम्-लेखनस्य कोडिंग्-कार्यस्य सम्मुखे "स्रोतः २.०" अतीव शीघ्रं परिणामं ददाति ।


अन्यत् तर्कप्रश्नं ददातु - नौकायाः ​​पार्श्वे समुद्रात् २ मीटर् ऊर्ध्वं सीढी लम्बिता अस्ति यदि समुद्रजलं प्रतिघण्टां अर्धमीटर् अधिकं भवति तर्हि समुद्रजलस्य सीढीं डुबकी मारितुं कति घण्टाः यावत् समयः स्यात् ?

तथैव एआइ प्रायः शून्यविलम्बेन विस्तृतसमस्यानिराकरणपदानि उत्तराणि च प्रदाति ।



शतशः अरबौ मापदण्डैः सह बृहत् मॉडल् चालयितुं सामान्यप्रयोजनसर्वरस्य उपयोगः अपूर्वः अस्ति, अस्मिन् क्षेत्रे सञ्चयः सर्वथा रिक्तः अस्ति, तस्मात् आकर्षितुं कोऽपि अनुभवः नास्ति

इन्स्पर् इन्फॉर्मेशन कथं करोति ?

शतशः अरब-पैरामीटर्-युक्तानां बृहत्-माडल-उपयोगाय ४ CPU-इत्यस्य उपयोगं कुर्वन्तु

एकस्मिन् सर्वरे शतशः अरबौ मापदण्डैः सह विशालस्य प्रतिरूपस्य अनुमानं प्राप्तुं मुख्यौ चरणौ स्तः, ययोः द्वयोः अपि गणनाशक्तेः कठिनावश्यकताः आरोप्यन्ते

प्रथमं पूर्वपूरणपदं भवति, यत् अग्रे प्रसारणपदम् अपि उच्यते ।

अस्मिन् चरणे निवेशदत्तांशस्य संसाधनं, आदर्शमापदण्डानां प्रथमं पठनं च भवति ।

यथा, यदा भवान् "AI विषये लेखं मम कृते लिखतु" इति प्रॉम्प्ट् प्रविशति तदा पूर्व-जनसंख्या-चरणः प्रश्ने सर्वाणि टोकन्स्, मॉडल्-मापदण्डान् च एकदा एव गणनायां निवेशयिष्यति

कदाचित्, एतत् निवेशं कतिपयानि शब्दानि भवेयुः, अथवा सहस्राणि शब्दानि भवेयुः, पुस्तकं वा भवेत् ।

प्रथमः चरणः गणनादृष्ट्या कियत् आग्रही अस्ति इति मुख्यतया अस्माकं निवेशस्य दीर्घतायाः उपरि निर्भरं भवति ।

प्रथमस्य टोकनस्य गणनायाः समये यतः प्रथमवारं मॉडल् लोड् भवति, अतः सर्वे भारमापदण्डाः, तथैव KV Cache इत्यादयः दत्तांशाः स्मृतौ संगृहीताः भविष्यन्ति

एतत् स्वयं मॉडल-मापदण्डैः व्याप्तस्य स्मृति-स्थानस्य २-३ गुणा भवति ।

शतशः अरबं पैरामीटर् मॉडल् कृते, शक्तिशालिषु कम्प्यूटिंग्-एककेषु बहूनां पैरामीटर्-दत्तांश-निवेशानां संसाधनस्य आवश्यकता वर्तते । अस्य कृते, अस्य सदिशीकरणनिर्देशसमूहस्य समर्थनस्य आवश्यकता वर्तते तथा च मैट्रिक्सगणनानिर्देशसमूहस्य समर्थनं कृत्वा बृहत्संख्यायां मैट्रिक्सगुणनं तथा टेन्सरक्रियाः कार्यान्वितुं आवश्यकाः सन्ति ।

द्वितीयं, डिकोडिंग्-चरणम् अस्ति अर्थात् सर्वेषां प्रश्नानां निवेशानन्तरं मॉडल् परिणामान् निर्गन्तुं आरभते ।

अस्मिन् स्तरे बृहत्प्रतिमानानाम् एकमात्रं आवश्यकता यथाशीघ्रं उत्पादनं करणीयम् । तस्मिन् एव काले आव्हानं कम्प्यूटिंगशक्ति-आव्हानं न भवति, अपितु "दत्तांशस्थापनम्" आव्हानं भवति ।

अस्मिन् "दत्तांशस्थापनस्य" द्वौ भागौ स्तः :

  • पूर्व-पूरण-पदे उत्पन्नस्य KV Cache-इत्यस्य बृहत् परिमाणं विडियो-स्मृति/स्मृति-तः कम्प्यूटिङ्ग्-युनिट्-पर्यन्तं स्थानान्तरणस्य आवश्यकता वर्तते (कार्यभारः अतीव भारी भवति)

  • स्वयं आदर्शमापदण्डानां स्थानान्तरणम्

एते स्थानान्तरणाः बृहत्प्रतिमानानाम् गणनायां अनुमानवेगस्य च निर्णायकभूमिकां निर्वहन्ति । दत्तांशस्थापनम् अतीव द्रुतं भवति, LLM उच्चारणवेगः अपि द्रुतः भविष्यति ।

LLM आउटपुट् मुख्यतया KV Catch इत्यस्य माध्यमेन एकैकं टोकनं जनयति, तथा च प्रत्येकस्य जनरेशन-पदस्य अनन्तरं नूतन-शब्द-खण्डस्य की-मूल्य-सदिशं संग्रहयति ।

अतः शतशः अरब-बृहत्-माडलस्य वास्तविक-समय-अनुमानार्थं सर्वरस्य उच्च-गणना-शक्तिः, भण्डारण-एककात् गणना-एककपर्यन्तं उच्च-दत्तांश-स्थानांतरण-दक्षता च आवश्यकी भवति

सर्वेषु सर्वेषु, बृहत् मॉडल-अनुमानस्य द्वयोः चरणयोः कम्प्यूटिंग्-लक्षणं सर्वथा भिन्नं भवति, येषु सॉफ्टवेयर-हार्डवेयरयोः दृष्ट्या सहकारि-अनुकूलनस्य आवश्यकता भवति

GPU सर्वं न भवति

परम्परागतरूपेण GPU इत्यस्य उत्तमसमानान्तरप्रक्रियाक्षमतायाः कारणात् AI प्रशिक्षणस्य अनुमानस्य च प्रथमः विकल्पः अभवत् ।

मूल्यम्‌

परन्तु उच्चस्तरीय-जीपीयू-सर्वर्-इत्यस्य प्रायः विपण्यां अभावः भवति, तेषां प्राप्तिः अत्यन्तं कठिना भवति ।

केवलं सुवित्तपोषिताः प्रौद्योगिकीविशालाः एव माइक्रोसॉफ्ट्, गूगल इत्यादयः एतत् व्ययम् अदातुम् अर्हन्ति ।

अपरपक्षे न केवलं अप्राप्यम्, अपितु अप्रशंसनीयम् अपि अस्ति ।

GPU-आधारितं मेघसेवाभाडा अनुमानकार्येषु महत् भवति । वैज्ञानिकसंशोधकानां अनुप्रयोगनिर्मातृणां च कृते यदि तेषां अधिकं व्यय-प्रभावशीलतां प्राप्तुं आवश्यकं भवति तर्हि तेषां अन्यः उपायः अवश्यमेव अन्वेष्टव्यः ।

विडियो स्मृति

तदतिरिक्तं GPU इत्यस्य एकः बृहत्तमः दोषः अस्ति यत् विडियो मेमोरी क्षमता सीमितं भवति ।

उद्योगे एलएलएम इत्यस्य वर्तमानजालवास्तुकला क्रमेण जीपीटीतः एमओईपर्यन्तं गता अस्ति । एजीआई प्रति नेतुम् बृहत् मॉडल् इत्यस्य पैरामीटर् स्केल केवलं घातीयरूपेण वर्धते ।

अस्य अर्थः अस्ति यत् बन्दस्रोतस्य/मुक्तस्रोतस्य मुख्यधाराप्रतिमानानाम् आकारः केवलं बृहत्तरः बृहत्तरः भविष्यति, तथा च शतशः अरबमापदण्डाः अथवा खरबमापदण्डाः अपि सन्ति ये प्रतिरूपाः मुख्यधारायां भविष्यन्ति

दशकशः अरबौ पैरामीटर् मॉडल् कृते २०-३०GB विडियो मेमोरी पर्याप्तम् अस्ति । परन्तु यदि भवान् १०० अरब पैरामीटर्स् चालयितुम् इच्छति तर्हि भवतां कृते प्रायः २००-३००GB यावत् विडियो मेमोरी स्पेस् आवश्यकं भविष्यति ।

वर्तमान मुख्यधारा एआइ चिप्स् प्रायः केवलं कतिपयानि दर्जनानि जीबी विडियो मेमोरी भवति, यत् स्पष्टतया एतादृशं विशालं मॉडलं समायोजयितुं न शक्नोति । (अधुना सर्वाधिकशक्तिशाली AI चिप् २००GB यावत् न प्राप्ता)


अण्डररेटेड् सामान्यप्रयोजनसर्वर

यदि GPU कार्यं न करोति तर्हि CPU इत्यस्मात् आरभ्यताम् ।

यद्यपि वर्तमानकाले आदर्शानां बृहत्-परिमाणेन प्रशिक्षणं सम्भवं नास्ति तथापि सामान्य-उद्देश्य-सर्वरस्य अनुमानकार्य्येषु अप्रत्याशितरूपेण पर्याप्ताः लाभाः सन्ति ।

विशिष्टाभ्यासस्य प्रक्रियायां इन्स्पर् इन्फॉर्मेशन-इञ्जिनीयराः प्रत्येकं " ठोकरं खादितुं" हार्डवेयर-संसाधनात् एल्गोरिदम्-स्तरात् च आरब्धवन्तः ।

अति-बृहत् स्मृति + उच्च-गति बैण्डविड्थ

गणनाशक्तेः दृष्ट्या २.सम्प्रति अग्रणीसर्वर-सीपीयू-मध्ये पूर्वमेव एआइ-त्वरणक्षमता अस्ति ।

GPU इत्यस्य Tensor कोर इत्यस्य सदृशं AMX उन्नत-मैट्रिक्स-विस्तारः न्यून-सटीकता-गणनानां त्वरणं कर्तुं, CPU-कोरस्य कृते निर्देश-सेट्-संकलनं कर्तुं, त्वरणार्थं समर्पित-कोरस्य उपयोगं कर्तुं च शक्नोति

अल्गोरिदम् इत्यस्य दृष्ट्या २.Inspur Information इत्यस्य सार्वभौमिकः सर्वरः एकत्रैव PyTorch तथा TensorFlow इत्यादीनां मुख्यधारा-AI-रूपरेखाणां समर्थनं कर्तुं शक्नोति, तथैव DeepSpeed ​​इत्यादीनां लोकप्रियविकाससाधनानाम् समर्थनं कर्तुं शक्नोति, यत् अधिकपरिपक्वस्य, सुलभस्य, परिनियोजनाय, अधिकसुलभस्य च मुक्तपारिस्थितिकीतन्त्रस्य उपयोक्तृणां आवश्यकतां पूरयति

संचारस्य दृष्ट्या २.पूर्ण-लिङ्क-UPI (Ultra Path Interconnect) बस-अन्तर-संयोजनस्य डिजाइनेन CPU-मध्ये कुशल-आँकडा-संचरणस्य साक्षात्कारः भवति:

  1. कस्यापि द्वयोः CPUयोः मध्ये प्रत्यक्षदत्तांशस्थापनस्य अनुमतिं ददाति, संचारविलम्बं न्यूनीकरोति

  2. उच्चस्थानांतरणदराणि प्रदाति, 16GT/s (Giga Transfers per second) पर्यन्तं


तदतिरिक्तं इन्स्पर् इन्फॉर्मेशनस्य अनुसंधानविकास-इञ्जिनीयर्-जनाः सीपीयू-मध्ये तथा च सीपीयू-स्मृति-योः मध्ये तार-मार्गान्, प्रतिबाधा-निरन्तरताम् अपि अनुकूलितवन्तः ।

त्रिविम-अनुकरण-परिणामानां आधारेण ते संकेत-क्रॉसटॉक-इत्येतत् -60dB-तः न्यूनीकर्तुं मार्ग-व्यवस्थां समायोजितवन्तः, यत् पूर्व-पीढीयाः अपेक्षया 50% न्यूनम् अस्ति

अपि च, DOE मैट्रिक्स सक्रिय अनुकरणस्य माध्यमेन, चैनलस्य सर्वेषां कोणानां संयोजनस्य इष्टतमं समाधानं प्राप्यते, येन गणनाशक्तिप्रदर्शनस्य पूर्णतया उपयोगः भवति

स्मृतेः दृष्ट्या २.सामान्यप्रयोजनसर्वरस्य बृहत्तमः लाभः इति वक्तुं शक्यते ।

  • क्षमता

4-सॉकेट् सर्वरस्य कृते, भवद्भिः केवलं प्रत्येकस्मिन् CPU मध्ये 8 32GB मेमोरी स्टिक्स् प्लग् करणीयम् यत् 1TB सुलभतया प्राप्तुं शक्यते । यदा पूर्णतया सम्मिलितं भवति तदा 16TB पर्यन्तं विस्तारयितुं अपि शक्यते, तथा च एकं खरबं यावत् मापदण्डैः सह मॉडल् समर्थयितुं शक्नोति ।

  • बैण्डविड्थ

DDR5 स्मृत्या सह युग्मितं कृत्वा 4800MHz × 8bit × 8 चैनल्स् × 4 ÷ 1024 = 1200GB/s इत्यस्य सैद्धान्तिकं बैण्डविड्थं प्राप्तुं शक्यते ।

वास्तविकमापनपरिणामाः दर्शयन्ति यत् पठित-बैण्डविड्थः ९९५GB/s, लेखन-बैण्डविड्थः ४२३GB/s, पठन-लेखन-बैण्डविड्थः ४३७GB/s च अस्ति ।

एषः दत्तांशः GDDR स्मृत्या सुसज्जितैः केषाञ्चन GPU अथवा त्वरककार्डैः सह तुलनीयः अस्ति ।


परन्तु केवलं हार्डवेयरं पर्याप्तं नास्ति

केवलं हार्डवेयर-नवीनीकरणस्य उपरि अवलम्बनं पर्याप्तं नास्ति ।

यथा आरम्भे उक्तं, बृहत् मॉडल्-मध्ये संचार-बैण्डविड्थ्-इत्यस्य अत्यन्तं उच्चा आवश्यकता भवति, भवेत् तत् आँकडा-गणना, गणना-एककानां मध्ये, अथवा गणना-एककानां स्मृतेः च मध्ये

यदि BF16 सटीकतानुसारं गणना क्रियते तर्हि यदि भवान् इच्छति यत् 100 अरबं बृहत् मॉडलस्य चालनविलम्बः 100ms तः न्यूनः भवेत् तर्हि स्मृतिः कम्प्यूटिंग् यूनिट् च मध्ये संचारस्य बैण्डविड्थः न्यूनातिन्यूनं 2TB/s भवितुमर्हति

न केवलं, सामान्य-उद्देश्य-सर्वर-प्रोसेसराः त्वरक-कार्ड-डिजाइन-आधारित-बृहत्-AI-माडल-कृते उपयुक्ताः न सन्ति ये बृहत्-प्रमाणेन समानान्तर-गणनायां उत्तमाः सन्ति

कारणं स्पष्टम् अस्ति यत् यद्यपि उत्तरस्य अत्यन्तं बहुमुखी उच्चप्रदर्शनयुक्तं च कम्प्यूटिंग् कोरं भवति तथापि तस्य समानान्तरं कार्यवातावरणं नास्ति

सामान्यतया सामान्यप्रयोजनीयः सर्वरः प्रथमं मॉडलस्य भारं CPU मध्ये स्थानान्तरयिष्यति, ततः भारदत्तांशस्य संचरणं साक्षात्कर्तुं श्रृङ्खलारूपेण अन्यैः CPU-सङ्गणकैः सह सम्बद्धं कर्तुं ददाति

परन्तु यतः बृहत् मॉडल्-मध्ये कार्यकाले स्मृति-सीपीयू-योः मध्ये एल्गोरिदम्-भारं ​​बहुधा स्थानान्तरयितुं आवश्यकं भवति, अस्य परिणामः अस्ति यत् CPU-स्मृतियोः मध्ये बैण्डविड्थ-उपयोगः अधिकः नास्ति तथा च संचार-उपरिभारः अत्यन्तं अधिकः भवति


समस्यायाः समाधानं कथं करणीयम् ?एल्गोरिदम् इत्यनेन सह नवीनतां कुर्वन्तु

उपर्युक्तसमस्यानां प्रतिक्रियारूपेण Inspur Information इत्यनेन "Tensor Parallel" (Tensor Parallel) तथा "NF4 Quantification" इति द्वौ प्रौद्योगिकी-नवीनीकरणौ प्रस्तावितौ, तथा च सैकड़ों अरब-बृहत् मॉडल Yuan2.0-102B इत्यस्य वास्तविकसमय-अनुमानं सफलतया साकारं कृतम्

कार्यप्रदर्शनविश्लेषणपरिणामानुसारं प्रतिरूपस्य विभिन्नभागानाम् गणनासमयवितरणं स्पष्टतया द्रष्टुं शक्यते——

रेखीयस्तरस्य चालनसमयः ५०%, कन्वोल्यूशनचालनसमयः २०%, समुच्चयसञ्चारसमयः २०%, अन्यगणनाः १०% च भवन्ति

ध्यानं कुर्वन्तु यत् सम्पूर्णे अनुमानप्रक्रियायाः कालखण्डे गणनासमयः ८०% भवति!

एतत् बहुविध-PCIe AI त्वरक-कार्ड्-उपयोगस्य तीक्ष्णविपरीतम् अस्ति - उत्तरस्य संचार-उपरिभारः ५०% यावत् भवितुम् अर्हति, यस्य परिणामेण गणना-शक्तेः गम्भीरः अपव्ययः भवति


Yuan2.0-102B मॉडल अनुमान प्रदर्शन विश्लेषण परिणाम चार्ट

टेन्सर समानान्तरता

तथाकथितः टेन्सर समानान्तरता प्रथमं कन्वोल्यूशन-सञ्चालकं टेन्सर-रूपेण विभजति, ततः बृहत्-प्रतिरूपे ध्यान-स्तरस्य फीडफोरवर्ड-स्तरस्य च मैट्रिक्सस्य भारस्य गणनां कृत्वा बहुसंसाधकानां स्मृतौ निवेशयति

एवं प्रकारेण सामान्यसर्वरस्य चत्वारः CPU गणनानां त्वरिततायै एकस्मिन् समये एल्गोरिदम्-भारं ​​प्राप्तुं शक्नुवन्ति ।

तथापि, टेन्सर समानान्तरता मॉडल-मापदण्डान् सूक्ष्मतर-दाणिकासु विभजति, प्रत्येकं टेन्सर-गणनायाः अनन्तरं CPU-इत्यस्य आँकडा-समन्वयनं कर्तुं आवश्यकम् ।

अस्याः आवश्यकतायाः कृते उपरि उल्लिखिता पूर्ण-लिङ्क-UPI बस-अन्तर-संयोजन-प्रौद्योगिकी एतां आवश्यकतां पूर्णतया पूरयितुं शक्नोति (सञ्चार-बैण्डविड्थः 16GT/s पर्यन्तं भवति) ।

अन्ते एतत् सहयोगात्मकं समानान्तरकार्यं प्रत्यक्षतया कम्प्यूटिंग्-दक्षतां ४ गुणान् वर्धयति स्म!


NF4 परिमाणीकरण

अपर्याप्तस्मृतिबैण्डविड्थस्य समस्यायाः विषये, सटीकताम् अर्थात् परिमाणं न प्रभावितं विना मॉडलस्य "स्लिम्ड् डाउन" करणीयम् ।

लाभः अस्ति यत् एकतः LLM-मापदण्डान् न्यून-बिट्-दत्तांशरूपेण परिमाणं कर्तुं शक्यते, तथा च भारः लघुः भविष्यति । अपरं तु भारस्य न्यूनीकरणानन्तरं गणनाकाले प्रसारितदत्तांशस्य परिमाणमपि लघु भविष्यति ।

अत्र इन्स्पर् इन्फॉर्मेशन इत्येतत् दुर्लभं क्वाण्टाइल-मात्राकरणपद्धतिं स्वीकरोति - NF4 (4-अङ्कीयं NormalFloat) ।


NF4 क्वाण्टाइजेशन पद्धति Yuan2.0-102B इत्यस्य आकारं मूल आकारस्य 1/4 यावत् संपीडयितुं शक्नोति ।

विशेषतः, NF4 इत्यस्य मूलविचारः अस्ति यत् क्वाण्टाइजेशन-अन्तरालस्य अन्तः निवेश-टेन्सरस्य मूल्यानां संख्या समाना भवति इति सुनिश्चितं भवति ।

इदं विशेषतां प्रायः सामान्यवितरणेन सह LLM भारानाम् प्रस्तुतीकरणाय अतीव उपयुक्तम् अस्ति ।

यतो हि मानकविचलनं मात्राकृतदत्तांशप्रकारस्य परिधिं अनुकूलितुं समायोजितुं शक्यते, NF4 पारम्परिकस्य 4-बिट् पूर्णाङ्कस्य अथवा 4-बिट् प्लवकबिन्दुमात्रायाः अपेक्षया अधिकसटीकतां प्राप्तुं शक्नोति

एवं प्रकारेण, क्वाण्टाइज्ड् मॉडल् न केवलं सटीकता-आवश्यकताम् पूरयितुं शक्नोति, अपितु बृहत्-परिमाणेन समानान्तर-गणनायाः कृते स्मृति-प्रवेश-दत्तांशस्य परिमाणं महत्त्वपूर्णतया न्यूनीकर्तुं शक्नोति, अतः वास्तविक-समय-तर्कस्य डिकोडिंग्-आवश्यकताम् अपि पूरयितुं शक्नोति


पूर्णाङ्कस्य अथवा प्लवमान-बिन्दु-क्वाण्टीकरण-विधिनाम् कृते आँकडा-अन्तरालाः प्रायः समानरूपेण अथवा घातीयरूपेण वितरिताः भवन्ति

मॉडलस्य भारमापदण्डान् अधिकं संपीडयितुं दलेन नेस्टेड् क्वाण्टाइजेशन (Double Quant) प्रौद्योगिक्याः अपि उपयोगः कृतः ।

इदं NF4 क्वाण्टीकरणाधारितं गौणं क्वाण्टीकरणम् अस्ति ।

यतो हि NF4 क्वाण्टाइजेशनस्य अनन्तरं बहूनां स्केल-मापदण्डान् जनयिष्यति, यदि तान् संग्रहीतुं 32-बिट् फ्लोटिंग्-पॉइण्ट्-सङ्ख्याः (FP32) उपयुज्यन्ते तर्हि स्मृतेः बृहत् परिमाणं व्याप्तं भविष्यति

शतशः अरब-मापदण्डयुक्तस्य LLM कृते, यदि प्रत्येकं 64 मापदण्डं क्वाण्टीकरण-खण्डरूपेण (ब्लॉक-आकारः=64) गण्यते, तर्हि केवलं स्केल-मापदण्डानां संग्रहणार्थं अतिरिक्त-6GB-स्मृतेः आवश्यकता भवति: (100B ÷ 64) × 4 = 6GB

दलेन एतान् स्केल-मापदण्डान् 8-बिट्-प्लवक-बिन्दु-सङ्ख्यासु (FP8) परिमाणं कृत्वा आवश्यकं भण्डारणस्थानं महत्त्वपूर्णतया न्यूनीकृतम् ।

256 इत्यस्य उपयोगेन क्वाण्टाइजेशन ब्लॉक आकाररूपेण (ब्लॉक आकारः=256) सर्वेषां स्केल-मापदण्डानां संग्रहणार्थं आवश्यकं अतिरिक्तं स्थानं केवलं 1.57GB भवति: (100B ÷ 64 ÷ 256) × 4 + (100B ÷ 64) × 1 = 1.57 GB

नेस्टेड् क्वाण्टाइजेशनस्य माध्यमेन, मॉडलस्य प्रत्येकं भारपैरामीटर् केवलं 4 बाइट् स्मृतिस्थानं धारयति, मूल FP32 इत्यस्मात् अपेक्षया बहु स्मृतिस्थानं रक्षति

तस्मिन् एव काले स्मृत्याः CPU -पर्यन्तं दत्तांशस्थापनदक्षतायां ४ गुणाधिकं सुधारं करोति ।

एतादृशं अनुकूलनं Yuan2.0-102B मॉडलस्य अनुमानस्य तथा डिकोडिंग्-दक्षतायाः स्मृति-बैण्डविड्थ-सीमायाः महत्त्वपूर्णतया न्यूनीकरणं करोति, तस्मात् मॉडलस्य अनुमान-प्रदर्शने अधिकं सुधारं करोति

तथाकथितस्य सार्वत्रिकस्य अर्थः अस्ति यत् सर्वे तस्य उपयोगं कर्तुं शक्नुवन्ति।

एतस्मिन् समये Inspur Information सफलतया प्रस्तुता अस्ति!

सिस्टम् अनुकूलनस्य माध्यमेन Inspur Information इत्यस्य NF8260G7 इत्येतत् उद्योगे प्रथमम् अस्ति यत् केवलं सामान्य-उद्देश्य-प्रोसेसर-आधारित-शतशः अरब-मापदण्डैः सह बृहत्-माडल-सञ्चालनस्य समर्थनं करोति

एतावता सामान्यगणनाशक्त्या समर्थितानां बृहत् एआइ-माडलानाम् पैरामीटर्-परिमाणं १०० अरबं अतिक्रान्तम् अस्ति, येन उद्योगे अन्तरं पूर्णतया पूरितम् अस्ति तथा च उद्यमानाम् एआइ-स्वामित्वस्य नूतनः आरम्भबिन्दुः अभवत्

शतशः अरब-मापदण्डैः सह एआइ-माडलस्य परिनियोजने अधुना सशक्ततर-प्रदर्शनेन अधिक-किफायती-व्ययेन च विकल्पः अस्ति;


वैज्ञानिकप्रौद्योगिकीप्रगतेः परमं लक्ष्यं मर्त्यजगति पतनं भवितुमर्हति।

वर्तमानं दृष्ट्वा एआइजीसी सहस्रशः उद्योगेषु प्रविष्टा अस्ति । एआइ-इत्यनेन प्रत्येकस्मिन् कम्प्यूटिंग्-यन्त्रे आतङ्कजनक-दरेन प्रवेशः कृतः अस्ति ।

२०२४ तमस्य वर्षस्य जनवरीतः एप्रिलमासपर्यन्तं घरेलुबृहत्माडलानाम् विजयीनिविदानां संख्या २०२३ तमस्य वर्षस्य सम्पूर्णवर्षस्य कुलम् अतिक्रान्तवती, तथा च २०२३ तमस्य वर्षस्य सम्पूर्णवर्षस्य कृते विजयीनिविदानां प्रकटितराशिः ७७% यावत् अभवत्

वित्तीय-उद्योगे, अस्पताल-चिकित्सालये, निगम-IT-विभागेषु च अभ्यासकारिणः सर्वे एतत् आविष्कृतवन्तः यत् पारम्परिक-उद्योगानाम् कम्प्यूटिंग्-अन्तर्निर्मितं पर्याप्तं नास्ति !

अद्यत्वे शतशः कोटिशः मापदण्डयुक्ताः बृहत्प्रतिमानाः सहस्रशः उद्योगेषु बुद्धिमत्तायाः उद्भवस्य कुञ्जीः सन्ति । सामान्यगणनाशक्तिः शतशः अरबौ मापदण्डैः सह बृहत्प्रतिमानं चालयितुं शक्नोति वा इति मापनस्य कुञ्जी अस्ति यत् सा सहस्रेषु उद्योगेषु बुद्धिमत्तायाः उद्भवस्य समर्थनं कर्तुं शक्नोति वा इति

इन्स्पर् इन्फॉर्मेशनस्य उपक्रमेण अन्तर्जाल, वित्त, चिकित्सा इत्यादिषु उद्योगेषु ग्राहकाः कुशलं परिनियोजनं प्राप्तुं शक्नुवन्ति तथा च प्रथमनिवेशे निर्माणव्ययस्य ८०% अधिकं रक्षितुं शक्नुवन्ति।

भवेत् तत् वित्तीयधोखाधड़ीनिवारणं, वित्तीयदत्तांशविश्लेषणं, उद्यमसीआरएमविपणनदृष्टिः, बुद्धिमान् चिकित्सानिदानं, व्यक्तिगतनिदानं चिकित्सायोजना च, शिक्षाप्रशिक्षणम् इत्यादयः, वयं एआइ इत्यस्य व्यापकप्रयोगस्य साक्षिणः भविष्यामः।

इतः परं सर्वाणि गणनानि AI भवन्ति ।

सन्दर्भाः : १.

https://mp.weixin.qq.com/s/1wYt7dfoVy2J1FFkOJjRTg