समाचारं

आव्हानस्य सामनां कुर्वन्तु? मेटा प्रशिक्षणं Llama3 असफलतायाः सम्मुखीभवति

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

आईटी हाउस् इत्यनेन २८ जुलै दिनाङ्के ज्ञापितं यत् मेटा इत्यनेन प्रकाशितेन शोधप्रतिवेदनेन ज्ञातं यत् ४०५ अरब पैरामीटर् मॉडल् ल्लामा ३ इत्यस्य प्रशिक्षणार्थं प्रयुक्ताः १६,३८४ एनवीडिया एच्१०० ग्राफिक्स् कार्ड् क्लस्टराः ५४ दिवसेषु ४१९ अप्रत्याशितविफलतां अनुभवन्ति, यत् औसतेन प्रत्येकं त्रिघण्टासु एकवारं भवति तेषु आर्धाधिकाः विफलताः ग्राफिक्स् कार्ड् अथवा तस्य उच्च-बैण्डविड्थ-स्मृतेः (HBM3) कारणेन भवन्ति ।


प्रणाल्याः बृहत्परिमाणस्य कारणेन कार्याणां समन्वयस्य उच्चपदवीयाः कारणात् एकस्यैव ग्राफिक्स्कार्डस्य विफलतायाः कारणेन सम्पूर्णं प्रशिक्षणकार्यं बाधितं भवितुम् अर्हति, पुनः आरम्भस्य आवश्यकता च भवितुम् अर्हति एतदपि, २.मेटा-दलेन अद्यापि ९०% अधिकं प्रभावी प्रशिक्षणसमयः निर्वाहितः ।

आईटी हाउस् इत्यनेन अवलोकितं यत् ५४ दिवसीयपूर्वप्रशिक्षणस्य कालखण्डे कुलम् ४६६ कार्यव्यत्ययाः अभवन्, येषु ४७ नियोजितव्यत्ययाः, ४१९ अप्रत्याशितव्यत्ययाः च आसन् नियोजितविच्छेदाः स्वचालित-रक्षणस्य कारणेन भवन्ति, यदा तु अनियोजित-विच्छेदाः मुख्यतया हार्डवेयर-समस्यायाः कारणेन भवन्ति ।जीपीयू-समस्याः विफलतायाः प्रमुखकारणाः सन्ति, येषु अनियोजितविच्छेदानां ५८.७% भागः भवति . केवलं त्रयाणां घटनानां महत्त्वपूर्णं मानवहस्तक्षेपस्य आवश्यकता आसीत्, शेषं स्वचालनेन प्रबन्धितम् ।


४१९ अप्रत्याशितव्यत्ययेषु १४८ (३०.१%) विभिन्नैः जीपीयू-विफलतायाः कारणेन (एनवीलिङ्क्-विफलताभिः सह) अभवन्, यदा तु ७२ (१७.२%) जीपीयू-इत्यस्य एच्बीएम३-स्मृति-विफलतायाः कारणेन अभवन् रोचकं तत् अस्ति यत् ५४ दिवसेषु केवलं द्वौ CPU विफलौ अभवताम् । अनियोजितविच्छेदानां ४१.३% भागः विविधकारणानां कारणेन भवति, यथा सॉफ्टवेयरदोषाः, संजालकेबलाः, संजालएडाप्टर् च ।

दक्षतां सुधारयितुम् मेटा-दलेन उपकरणानां अनुकूलनरणनीतीनां च श्रृङ्खला विकसिता अस्ति, यत्र मिशन-स्टार्टअप-चेकपॉइण्ट्-समयानां लघुकरणं, प्रदर्शन-समस्यानां निदानार्थं PyTorch-इत्यस्य NCCL-उड्डयन-रिकार्डरस्य उपयोगः, पश्चात्ताप-ग्राफिक्स्-कार्ड्-परिचयः इत्यादयः सन्ति तदतिरिक्तं मेटा इत्यनेन पर्यावरणीयकारकाणां प्रभावे अपि ध्यानं दत्तम्, यथा जीपीयू-प्रदर्शने मध्याह्नतापमानस्य उतार-चढावस्य किञ्चित् प्रभावः, तथा च बहूनां जीपीयू-सञ्चालनस्य युगपत्-सञ्चालनस्य कारणेन आँकडा-केन्द्र-विद्युत्-जालस्य उपरि विशालः दबावः

परन्तु यथा यथा कृत्रिमबुद्धिप्रतिमानानाम् मापदण्डानां संख्या वर्धते तथा तथा आवश्यकगणनासंसाधनानाम् अपि विस्तारः भवति । xAI योजनायां 100,000 H100 ग्राफिक्स् कार्ड् क्लस्टरं उदाहरणरूपेण गृहीत्वा विफलतायाः दरः घातीयरूपेण वर्धयितुं शक्नोति, येन भविष्यस्य AI प्रशिक्षणस्य कृते अधिकानि आव्हानानि उत्पद्यन्ते