एलएलएम प्रशिक्षणयातायातस्य १०,००० गुणाधिकं न्यूनम् अस्ति! नूतनः वितरितः अनुकूलकः, शक्तिशाली ai_news प्रशिक्षितुं विश्वस्य कम्प्यूटिंगशक्तिं एकीकृत्य

एलएलएम प्रशिक्षणयातायातस्य १०,००० गुणाधिकं न्यूनम् अस्ति! एकः नूतनः वितरितः अनुकूलकः, यः शक्तिशालिनः एआइ-प्रशिक्षणार्थं विश्वस्य कम्प्यूटिंग्-शक्तिं एकीकृत्य

2024-09-10

नवीन बुद्धि प्रतिवेदन

सम्पादक: अलन

[नव प्रज्ञायाः परिचयः] ।अद्यतने, nous research इत्यनेन एकं प्रमुखं सफलतां घोषितवती यत् आर्किटेक्चर- तथा नेटवर्क-स्वतन्त्रस्य वितरित-अनुकूलकस्य उपयोगेन शोधकर्तारः llm-प्रशिक्षणं कुर्वन् gpu-मध्ये संचारस्य मात्रां 1,000 तः 10,000 पर्यन्तं सफलतया न्यूनीकृतवन्तः!

यदि विश्वे विद्यमानाः सर्वाः कम्प्यूटिंग्-शक्तिः एआइ-माडल-प्रशिक्षणार्थं उपयोक्तुं शक्यते स्म तर्हि किम्?

अधुना एव nous research, यत् मुक्तस्रोतस्य hermes 3 (llama 3.1 इत्यस्य आधारेण) इत्यस्य विमोचनेन व्यापकं ध्यानं आकर्षितवान्, पुनः एकवारं एकं प्रमुखं सफलतां घोषितवान् - distro (distributed internet training)

आर्किटेक्चर- तथा नेटवर्क-स्वतन्त्रस्य वितरित-अनुकूलकस्य उपयोगेन शोधकर्तारः एलएलएम-प्रशिक्षणं कुर्वन्तः अन्तर-जीपीयू-सञ्चारं १,००० तः १०,००० गुणान् यावत् सफलतया न्यूनीकृतवन्तः!

एतादृशैः अतिशयोक्तैः सुधारैः सह बृहत् मॉडलप्रशिक्षणस्य महत्त्वपूर्णः व्ययः, अटङ्कः च - बैण्डविड्थ्, अधुना समस्या नास्ति ।

distro इत्यस्य पद्धतेः उपयोगेन भवान् प्रशिक्षणभारं अन्तर्जालं प्रति वितरितुं शक्नोति, सम्पूर्णं ऑनलाइन-जगत् च विशालः विषमः ai सर्वर-क्लस्टरः भवति ।

——प्रासंगिकगणनाशक्तियुक्तं किमपि यन्त्रं प्रशिक्षणप्रक्रियायां भागं ग्रहीतुं शक्नोति ।

प्रयोगैः सिद्धं जातं यत् अस्मिन् लेखे पद्धत्या मूलतः आदर्शप्रदर्शने न्यूनता न भवति तस्मिन् एव काले distro-adamw अभिसरणवेगस्य दृष्ट्या मानक adamw+all-reduce इत्यस्य बराबरम् अस्ति ।

वितरितं अन्तर्जालप्रशिक्षणम्

सामान्यतया बृहत्-परिमाणस्य तंत्रिकाजालस्य प्रशिक्षणे महत्त्वपूर्णः संचार-भारः भवति ।

यथा, दत्तांशसमानान्तरीकरणं कुर्वन् भिन्न-भिन्न-प्रशिक्षण-दत्तांशस्य गणना भिन्न-भिन्न-हार्डवेयर-इत्यत्र (ग्राफिक्स्-कार्ड् इत्यादिषु) अग्रे पश्चात् च भवति तदनन्तरं, एकस्मात् एव दत्तांश-समूहात् गणितानां ढालानाम् ग्राफिक्स्-कार्ड्-मध्ये प्रवेशात् पूर्वं समन्वयनं करणीयम् अग्रिमः सोपानः ।

यदि मॉडल् समानान्तरं भवति तर्हि मध्यवर्तीदत्तांशं all-reduce मार्गेण स्प्लिस करणीयम् अथवा सञ्चितव्यम् ।

यदि एते दत्तांशसञ्चारस्य उपरि व्ययः आच्छादयितुं न शक्यन्ते तर्हि ते आदर्शप्रशिक्षणे अटङ्कः भविष्यन्ति ।

यथा भवति, लाओहुआङ्गस्य विडियो मेमोरी, बैण्डविड्थ् च अतीव महत् भवति, बहुकार्ड्-स्थापनसमये आवश्यकं हार्डवेयर् अपि अतीव महत् भवति

एतस्याः समस्यायाः समाधानार्थं शोधकर्तारः distro इति विकसितवन्तः, यत् परिशोधितविश्लेषणस्य उपरि अवलम्बं विना अन्तर-जीपीयू-सञ्चारस्य आवश्यकतां चतुः पञ्च क्रमेण न्यूनीकरोति, येन मन्दजालेषु बृहत् तंत्रिकाजालस्य न्यूनविलम्बताप्रशिक्षणं सक्षमं भवति

distro सामान्यं, स्केल-करणीयं, घड़ी-समन्वयितं च भवति (sgd, adam इत्यादीनां सदृशं, प्रत्येकं प्रशिक्षणपदं समानानि गणितीयक्रियाणि उपयुज्यते तथा च समानं समयं गृह्णाति)

तदतिरिक्तं, पूर्व-तदर्थ-निम्न-सञ्चार-अनुकूलकानां तुलने, distro दूरसञ्चार-जालस्य टोपोलॉजी तथा न्यूरल-जाल-आर्किटेक्चरस्य प्रति असंवेदनशीलः अस्ति, तथा च न्यूनतम-ओवरहेड्-सहितं वितरित-आँकडा-समानान्तर-प्रशिक्षणस्य (ddp) मूलतः समर्थनं कर्तुं शक्नोति

एलएलएम पूर्व प्रशिक्षण

शोधकर्तारः नैनोट्रॉन् इत्यस्य उपयोगं पूर्वप्रशिक्षणरूपरेखारूपेण कृतवन्तः तथा च केवलं ddp रणनीत्याः अन्तर्गतं चालितवन्तः (प्रत्येकं gpu सम्पूर्णं मॉडलं vram मध्ये लोड् करोति) ।

llm 1.2b आकारस्य llama 2 चयनं करोति आदर्शे प्रशिक्षणे च प्रयुक्ताः अतिपरामीटर् निम्नलिखितरूपेण सन्ति ।

प्रशिक्षणदत्तांशः dolma v1.7 आँकडासमूहस्य उपयोगं करोति, तथा च 10% प्रतिनिधिनमूनानि (प्रथम 105b टोकन) यादृच्छिकरूपेण चयनितानि भवन्ति ।

अनुकूलकः adamw, β1=0.9, β2=0.95, शिखरशिक्षणदरः 4×10e-4, कोसाइनक्षययोजनायाः उपयोगः भवति, भारक्षयः च 0.1 इति सेट् भवति

तुलनायै प्रयोगानां अन्यस्य समुच्चयरूपेण adamw इत्यस्य स्थाने हाइपरपैरामीटर् परिवर्तनं विना नैनोट्रॉन् इत्यस्मिन् all-reduce ऑपरेशनं निष्क्रियं न कृत्वा distro-adamw इत्यनेन प्रतिस्थापितम्

पूर्ववितरितप्रशिक्षणपद्धतीनां विपरीतम्, distro अनुकूलकस्थितिं समन्वययति न (इदं राज्यरहितमपि भवितुम् अर्हति) ।

अधोलिखितं चित्रं प्रयोगानां द्वयोः समुच्चयोः प्रशिक्षणहानिवक्रं भवति, यत्र २५,००० पदानां कृते १०५b आँकडानां उपयोगः भवति । distro इत्यस्य अभिसरणक्षमता all-reduce इत्यस्य समाना इति द्रष्टुं शक्यते ।

महत्त्वपूर्णं यत् distro इत्यनेन प्रशिक्षणप्रभावं न प्रभावितं विना संचारस्य मात्रां प्रत्यक्षतया 74.4gb तः 86.8mb यावत् न्यूनीकृतम्! एतत् ८५७ गुणाधिकं बैण्डविड्थ्-दाबस्य न्यूनीकरणस्य बराबरम् अस्ति ।

लेखकः अपि अवदत् यत् एतत् ८५७ वारं केवलं प्रारम्भिकपरीक्षा एव, पश्चात् हाइपरपैरामीटर् समायोजयित्वा १००० गुणा ३००० गुणान् यावत् न्यूनीकर्तुं समस्या न भविष्यति

यदि प्रशिक्षणोत्तरं सूक्ष्म-समायोजनं च भवति तर्हि मूलतः प्रशिक्षण-प्रभावं न प्रभावितं कृत्वा १०,००० गुणान् यावत् संचार-अनुकूलनं अपि प्राप्तुं शक्नोति ।

अन्ते प्रशिक्षणप्रभावस्य सत्यापनार्थं लेखकेन प्रशिक्षिते मॉडले gpt4all शून्य-शॉट्-बेन्चमार्क-परीक्षणं कृत्वा समानसङ्ख्यायां टोकन-प्रशिक्षितेन tinyllama (चेकपॉइण्ट्) इत्यनेन सह तुलना कृता

परिणामाः उपरि सारणीयां दर्शिताः सन्ति tinyllama इत्यस्य वास्तुकला प्रशिक्षणप्रक्रिया च अस्मिन् लेखे प्रयोगैः सह बहु सदृशाः सन्ति तथा च परिणामानां विवेकपरीक्षायाः मापरूपेण उपयोक्तुं शक्यन्ते।

भविष्यस्य अनुप्रयोगाः

दत्तांशप्रवाहः

अस्य प्रयोगस्य परिदृश्ये ३२ नोड् सरलतमस्य all-reduce (पूर्णसंयोजनस्य) उपयोगं कुर्वन्ति, प्रत्येकं नोड् च औसतेन ८६.८mb (२.८mb×३१) प्रसारयति तथा च समानमात्रायां दत्तांशं प्राप्नोति

यदि दत्तांशसङ्ग्रहार्थं समर्पितः सर्वरः उपयुज्यते तर्हि प्रत्येकं नोड् केवलं २.८mb दत्तांशं अपलोड् कर्तुं आवश्यकं भवति (प्राप्तदत्तांशः अपरिवर्तितः एव तिष्ठति), संचारस्य मात्रा च अधिकं न्यूनीभवति

तदतिरिक्तं, विषमता लाभप्रदं भवति यतोहि अधिकांशस्य उपभोक्तृ-अन्तर्जालस्य बैण्डविड्थः अधिक-अवलोकन-वेगं प्रति बहुधा तिर्यक् भवति ।

स्थिरजालवेगः 100mbps डाउनलोड् 10mbps अपलोड् च इति कल्पयित्वा, दुर्गतेः विलम्बः डाउनलोड् कृते केवलं 6.94 सेकण्ड्, अपलोड् कृते 2.24 सेकण्ड् च भवति यदि ओवरलैप् भवति तर्हि प्रत्येकस्य चरणस्य विलम्बः 6.94 सेकण्ड् भवति

ps: उपर्युक्तं दत्तांशसञ्चारं सर्वं मूलसदिशं भवति, तथा च यदि संपीडनप्रौद्योगिक्याः उपयोगः भवति तर्हि तत् द्रुततरं भवितुम् अर्हति ।

बैण्डविड्थ

लेखकाः अवदन् यत् वर्तमानप्रयोगाः अनुसन्धानं च तुल्यकालिकरूपेण सीमिताः सन्ति तथा च यथा यथा आदर्शः बृहत् भवति तथा तथा बैण्डविड्थ-कमीकरणस्य दरः वर्धते, न्यूनीभवति, अथवा तथैव तिष्ठति इति निष्कर्षः कर्तुं असम्भवः

तथापि वर्तमान 1.2b न्यूनतमः आकारः इति प्रतीयते यस्मिन् distro सम्यक् कार्यं कर्तुं शक्नोति (किमपि लघु न भवतु, सः अभिसरणं न करिष्यति), अतः एतत् कल्पयितुं शक्यते यत् यथा यथा मॉडलस्य आकारः वर्धते तथा तथा तुल्यकालिकरूपेण न्यूनः न्यूनः संचारः भविष्यति अपेक्षितः भवेत्।

परन्तु इदमपि सम्भवति यत् संचारस्य मात्रा मॉडलस्य आकारेण सह सम्बद्धा नास्ति अस्मिन् सन्दर्भे बृहत्तरं मॉडल् प्रशिक्षणस्य शिक्षणस्य च प्रभावेषु सुधारं करिष्यति वा इति अवलोकनार्थं संचारस्य बैण्डविड्थं न वर्धयित्वा मॉडलस्य आकारं वर्धयितुं शक्यते

यदि उत्तरं परिदृश्यं सत्यं भवति तर्हि भविष्यस्य gpu डिजाइनस्य निर्माणस्य च प्रतिमानं परिवर्तितं भविष्यति (बृहत्तरः vram तथा संकीर्णः बैण्डविड्थः) ।

एतत् एव भवति यत् वयम् अपि गणना-गहन-कार्यभारं (i/o-गहनस्य विरुद्धम्) प्राधान्यं दद्मः, यतः अद्यकाले गणनायाः अपेक्षया बैण्डविड्थः बहु महत्तरः भवति

संघीय शिक्षण

llm प्रशिक्षणस्य अतिरिक्तं distro इत्यस्य उपयोगः अन्यस्य किमर्थं कर्तुं शक्यते?

अन्तर्जालस्य वितरितं प्रशिक्षणं कृत्वा तत्क्षणमेव जनाः संघीयशिक्षणस्य विषये चिन्तयन्ति।

आदर्शसहकारिप्रशिक्षणस्य अनुमतिं दत्त्वा प्रत्येकस्य प्रतिभागिनः आँकडानां गोपनीयतां विकेन्द्रीकरणं च इदानीं अधिकाधिकं महत्त्वपूर्णं भवति यतः एलएलएम बृहत्कम्पनीभिः नियन्त्रितम् अस्ति।

अधुना यावत् सीमित-अन्तर्जाल-बैण्डविड्थ्-विषये बृहत्-माडल-प्रशिक्षणार्थं संघीय-शिक्षणस्य प्रभावी-पद्धतीनां अभावः अस्ति ।

distro इत्यस्य कृते आँकडानां संसाधनं वा व्यक्तिगत-gpu-नोड्-मध्ये आँकडानां वितरणं कथं करणीयम् इति विषये किमपि आवश्यकता नास्ति, तथा च राज्यरहितं (सङ्घीय-सरासरीकरणस्य सदृशं) भवितुम् अर्हति, अतः संघीय-शिक्षणस्य भविष्याय उपयुक्तम् अस्ति

आभासी विषम gpu समूह

तदतिरिक्तं, distro संसाधनानाम् सहकार्यं कर्तुं, साझेदारी कर्तुं च पूर्णतया विकेन्द्रीकृतं अनुमतं च संजालं निर्मातुम् अर्हति ।

प्रयोगाः दर्शयन्ति यत् distro प्रशिक्षणकाले अवनतिः अथवा पातितानां अल्पसंख्याकानां नोड्स् प्रति महत्त्वपूर्णतया लचीला भवति, तथा च नूतनानां नोड्स् इत्यस्य योजनाय सहजतया अनुकूलतां प्राप्तुं शक्नोति

एकतः एतस्याः क्षमतायाः आशीर्वादेन सम्पूर्णस्य प्रणाल्याः सुरक्षां सुनिश्चितं कर्तुं शक्नोति तथा च कार्याणि बाधितुं प्रतिद्वन्द्वी आक्रमणानां उपयोगेन अविश्वसनीयनोड्स् इत्यस्य जोखिमं न्यूनीकर्तुं शक्नोति

अपरपक्षे संस्थाः व्यक्तिश्च स्वस्य कम्प्यूटिंग् संसाधनं लचीलतया योगदानं दातुं सम्भाव्यं कम्प्यूटिंगशक्तिं च मुक्तुं प्रोत्साहयितुं अपि शक्यन्ते ।

अपर्याप्तस्मृतिः अथवा कम्प्यूटिंगशक्तियुक्ताः केचन पुरातनाः कार्डाः अपि किञ्चित् अतिरिक्तं धनं प्राप्तुं सम्मिलितुं शक्नुवन्ति, distro इत्यनेन सह कार्यं कर्तुं fsdp तथा swarm parallelism इत्यादीनां रणनीतयः उपयुज्य

ऊर्जा

distro इत्यस्य अग्रे बृहत्-परिमाणस्य अनुप्रयोगेन ऊर्जा-उपभोगः, आधारभूत-संरचना-व्ययः, भू-उपयोग-सम्बद्धाः विषयाः च बृहत्-आँकडा-केन्द्राणां निर्माणेन उत्पन्नाः विषयाः न्यूनीकर्तुं शक्यन्ते

लामा ३.१ परियोजनायाः कृते द्वयोः बृहत् एकलसुपरक्लस्टरयोः निर्माणस्य आवश्यकता आसीत्, येषु प्रत्येकस्मिन् २४,००० एच्१०० जीपीयू सन्ति, प्रशिक्षणप्रक्रियायाः एव ११,००० टन co2 उत्सर्जनस्य समकक्षं उत्पादनं जातम्

अद्यतन-एलएलएम-मध्ये मॉडल-पैरामीटर्-आकारस्य वृद्धेः अतिरिक्तं प्रशिक्षण-दत्तांशस्य मात्रा अपि वर्धमाना अस्ति, येन एआइ-सम्बद्धानि आँकडा-केन्द्राणि आधुनिक-विद्युत्-जालस्य सीमां प्राप्नुवन्ति

distro इत्यस्य उपयोगः अतिरिक्तक्षमतायाः उपयोगेन बहुषु लघुमॉड्यूलरदत्तांशकेन्द्रेषु अनुकूलरूपेण संतुलनं कर्तुं शक्यते, पर्यावरणस्य उपरि प्रशिक्षणस्य नकारात्मकप्रभावं न्यूनीकर्तुं गतिशीलसन्तुलनप्रशिक्षणप्रौद्योगिक्याः माध्यमेन विद्यमानमूलसंरचनानां उपयोगेन।

वर्तमान समये distro इत्यस्य पृष्ठतः सिद्धान्तस्य अद्यापि अग्रे अन्वेषणस्य आवश्यकता वर्तते, भविष्ये च अधिककठोरविस्तृताः शैक्षणिकपत्राणि सम्पूर्णसङ्केताः च विमोचिताः भविष्यन्ति।

समाचारं

नवीन बुद्धि प्रतिवेदन

एलएलएम पूर्व प्रशिक्षण

आमुख

मम सम्पर्कसूचना