समाचारं

प्रशिक्षणोत्तरं कियत् महत्त्वपूर्णम् अस्ति ? एआइ२ शोधकः अत्याधुनिकमाडलस्य प्रशिक्षणोत्तरगुप्तं दीर्घलेखे विस्तरेण व्याख्यायते

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


नवीन बुद्धि प्रतिवेदन

सम्पादकः किआओ यांग

[नव प्रज्ञायाः परिचयः] ।अधिकाधिक अध्ययनेन ज्ञातं यत् प्रशिक्षणोत्तरं आदर्शप्रदर्शनार्थं समानरूपेण महत्त्वपूर्णम् अस्ति। एलेन् एआइ इत्यस्य यन्त्रशिक्षणसंशोधकः नाथन् लैम्बर्ट् इत्यनेन अद्यैव प्रौद्योगिकीदिग्गजैः प्रयुक्तानां पोस्ट-माडल-प्रशिक्षण-व्यञ्जनानां सारांशं कृत्वा एकं तकनीकी-ब्लॉग्-पोस्ट् प्रकाशितम्

एलएलएम-शैक्षणिक-औद्योगिक-वृत्तानां तीव्र-विकासेन सह न केवलं पूर्व-प्रशिक्षणार्थं प्रयुक्ता कम्प्यूटिंग्-शक्तिः, आँकडा च उन्मत्तरूपेण रोल-इन् क्रियते, अपितु प्रशिक्षणोत्तरस्य संरेखण-सूक्ष्म-ट्यूनिङ्ग-विधयः अपि निरन्तरं अद्यतनाः भवन्ति

पूर्वं विमोचिताः InstructGPT तथा WebGPT इत्यादयः मॉडल् मानक RLHF पद्धतीनां उपयोगं कुर्वन्ति, तेषु च आँकडाप्रबन्धनशैली, स्केलः च पुरातनः इति भासते ।

अन्तिमेषु मासेषु Meta, Google, NVIDIA इत्यादयः AI दिग्गजाः मुक्तस्रोतमाडलं विमोचितवन्तः, यत्र विस्तृतपत्राणि वा प्रतिवेदनानि वा सन्ति, यत्र , , , , Apple Intellegence इत्यस्य मूलभूतमाडलप्रतिवेदनं च सन्ति

एतस्मात् प्रकटितसूचनात् वयं प्रशिक्षणोत्तरपद्धतिषु केचन अत्याधुनिकप्रवृत्तयः द्रष्टुं शक्नुमः। एलेन् एआइ शोधवैज्ञानिकः नाथन लैम्बर्ट् इत्यनेन अद्यैव अस्मिन् विषये लेखः प्रकाशितः ।


मूलपता: https://www.interconnects.ai/p/frontier-model-post-training


डॉ. नाथन लैम्बर्ट् यूसी बर्कलेतः स्नातकपदवीं प्राप्तवान्, हग्गिंग्फेस् इत्यत्र आरएलएचएफ-दलस्य नेतृत्वं कृतवान्, सम्प्रति एलेन् एआइ इत्यत्र यन्त्रशिक्षणस्य शोधकः अस्ति ।

स्वलेखे सः दर्शयति यत् कृत्रिमदत्तांशः, पुनरावर्तनीयप्रशिक्षणं, मानवप्राथमिकतालेबलं, विस्तृतं छाननं च एतेषु प्रतिरूपेषु प्रयुक्तानां प्रशिक्षणोत्तरपद्धतीनां सामान्यविशेषताः सन्ति विशेषतः, नूतनं वर्कआउट्-उत्तर-नुस्खा निम्नलिखित-पूर्व-निर्धारणेषु निर्मितम् अस्ति ।

-संश्लेषितदत्तांशः मानवदत्तांशस्य अपेक्षया उच्चगुणवत्तायुक्तः भवितुम् अर्हति, विशेषतः चुनौतीपूर्णकार्यस्य कृते

- RLHF निर्देशस्य सूक्ष्म-समायोजनस्य अपेक्षया बृहत्तर-परिमाणेषु स्केल कर्तुं शक्नोति

- उत्तमं मॉडलं प्राप्तुं बहुविधं प्रशिक्षणं, जनरेशनं च आवश्यकम् अस्ति

- प्रशिक्षणस्य महत्त्वपूर्णः भागः आँकडा-छननम् अस्ति

एतानि धारणानि बहुधा परस्परं सम्बद्धानि सन्ति यत् एकं प्रशिक्षणपद्धतिं निर्माति यत् बृहत्दलेषु स्केल कर्तुं शक्यते, येन एतत् टेक् दिग्गजानां कृते आदर्शं भवति। लेखस्य विशिष्टा सामग्री उपर्युक्तचतुर्णां बिन्दूनां विस्तृतं व्याख्यानं ददाति ।

नवीनं मानकं पाइपलाइनम्

यदि वयं विचारयामः यत् ChatBot Arena स्कोरः मॉडलस्य प्रशिक्षणोत्तरप्रदर्शनं मापयति, यत् बहुधा शैल्याः दृढतायाः च सह सम्बद्धम् अस्ति, तर्हि प्रायः सर्वेषु प्रमुखेषु प्रयोगशालासु पुनरावर्तनीयप्रशिक्षणस्य माध्यमेन महत्त्वपूर्णं लाभं प्राप्तम् अस्ति

अस्माभिः अद्यापि मिथुन 2 अथवा GPT-5 इत्यस्य विमोचनं न दृष्टं, यत् वर्तमानं प्रशिक्षणोत्तरप्रतिमानं पुनः सेट् कर्तुं शक्नोति तथा च सम्भाव्यतया अस्माकं मॉडल्-उपरि गहनतरं नियन्त्रणं अनलॉक् कर्तुं शक्नोति।

परन्तु वर्तमानदृष्ट्या विभिन्नैः शीर्षप्रयोगशालाभिः प्रयुक्ताः पद्धतयः स्पष्टतया अभिसरणं कुर्वन्ति, एषा प्रवृत्तिः अपेक्षितापेक्षया बहु स्पष्टा अस्ति

मानवप्राथमिकतादत्तांशः

प्रारम्भिक आरएलएचएफ पाइपलाइन मानवदत्तांशस्य विषये केन्द्रीभूता अस्ति, यत् मुख्यरूपेण द्वयोः रूपयोः भवति: 1) विशेषकार्यस्य कृते निर्देशानां सूक्ष्म-समायोजनाय मानवीयदत्तांशः 2) कार्यसमाप्तेः विषये मानवीय-प्राथमिकता-आँकडा;

एतादृशाः सूक्ष्म-समायोजन-दत्तांशसमूहाः महत्त्वपूर्णाः सन्ति, सख्यं च सुरक्षिताः सन्ति, यथावत् अहं जानामि, एकमात्रं सार्वजनिकं No Robots इति, यत् Lambert HuggingFace-दले आसीत् तदा एव मुक्तवान् ।


गोदामस्य पताः https://huggingface.co/datasets/HuggingFaceH4/no_robots इति

मानवीयप्राथमिकतादत्तांशः विशिष्टप्रतिमानसुधारैः सह बहुधा सम्बद्धः अस्ति । परन्तु यत्र दत्तांशः मुक्तः कर्तुं शक्यते तत्र अपि एकस्मात् प्रतिरूपात् प्राधान्यानि अन्यस्मिन् प्रतिस्थापनं कर्तुं शक्यन्ते इति निश्चयः नास्ति ।

लैम्बर्ट् तस्य दलेन सह हग्गिंग्फेस् इत्यत्र अपि एतादृशः प्रयासः कृतः, परन्तु लघु-सशुल्क-दत्तांश-अनुबन्धे असफलः अभवत् ।

अधुना यत्र मानवदत्तांशस्य उपयोगः भवति तत्र एकमात्रः पक्षः प्राधान्यदत्तांशः एव । Llama 2 इत्यनेन प्रकाशितानां आँकडानां अन्येषां च अफवानां आधारेण मेटा इत्यनेन प्राधान्यदत्तांशस्य कृते $10M-20M व्ययः कृतः स्यात्, अथवा तस्मात् अपि अधिकम्। एतत् अन्तिमप्रकाशितप्रतिरूपे अपि सीमितं भवति, व्यापकप्रयोगाः मूल्याङ्कनं च न समाविष्टम् ।

मानवदत्तांशस्य स्थाने नेमोट्रॉन् बहुमात्रायां कृत्रिमदत्तांशस्य उपयोगं करोति, परन्तु तुल्यकालिकरूपेण अस्य प्रतिरूपस्य सूक्ष्म-समायोजनं तावत् उत्तमं नास्ति ।

मुक्तसमुदायस्य कृते एकः तात्कालिकः आव्हानः अस्ति, परन्तु एकः अवसरः अपि अस्ति: एतादृशेषु दत्तांशेषु मानवीयहस्तक्षेपस्य विस्तारं चिन्तयितुं तथा च यत् तस्य स्थाने LLM-as-a-Judge इत्यादिभिः पद्धतैः अथवा पुरस्कारप्रतिमानैः प्रतिस्थापनं कर्तुं शक्यते वा इति।

विस्तारितःRLHF

लामा ३ इत्यस्य संरेखणस्य प्रमुखः थोमस सियालोम् इत्यनेन पॉड्कास्ट् लेटेन्ट् स्पेस इत्यत्र उक्तं यत् -

RLHF बहु अधिकं स्केल-करणीयम् अस्ति । इदं न्यूनमहत्त्वपूर्णं, संचालनं सुलभं, सामान्यतया च उत्तमं प्रदर्शनं परिणामयति ।


सः अपि अवदत् यत् सः "आरएल-पदे आवश्यकस्य संरेखणदत्तांशस्य कृते संरेखणदत्तांशबजटस्य १००% उपयोगं करिष्यति, न तु निर्देशेषु अधिकं समयं व्यययिष्यति" इति

अधिकांशः मुक्तस्रोतसंरेखणप्रयासाः विस्तारितनिर्देशसूक्ष्म-समायोजने (IFT, अथवा SFT) केन्द्रीभवन्ति । IFT इत्यस्य संचालनं सुलभं, विविधकार्यस्य कृते उपयुक्तं, कृत्रिमदत्तांशैः सह उपयोगाय च सुलभम् अस्ति ।

परन्तु स्पष्टं यत् उद्योगः केवलं आरएलएचएफ-विस्तारस्य आरम्भबिन्दुरूपेण IFT इत्यस्य उपयोगं करोति । एसएफटी-दत्तांशः मुख्यतया विशिष्टक्षेत्रेषु केन्द्रितः भवति येषां आच्छादनं पूर्वमाडलाः असफलाः अभवन्, ततः अस्मिन् आधारेण आरएलएचएफ-विस्तारं करोति ।

आरएलएचएफ पुनरावर्तनीयप्रक्रिया अस्ति, तथा च आदर्शजननप्रक्रिया अस्याः निरन्तरं सुधारं कर्तुं शक्नोति । ५-राउण्ड्-प्रशिक्षणस्य विवरणं ल्लामा २ तथा नेमोट्रॉन्-पत्रेषु अस्ति, परन्तु अस्याः संख्यायाः उपरि सीमा अस्ति वा इति वयं न जानीमः ।

लामा ३.१ ६ राउण्ड् प्राधान्यदत्तांशैः प्रशिक्षितः, लामा २ ५ राउण्ड्, नेमोट्रॉन् ४ राउण्ड् इत्यनेन प्रशिक्षितः, पूर्वं च निर्देशस्य सूक्ष्म-समायोजनस्य बहुविध-परिक्रमाः आसन्

मानवीयप्राथमिकतादत्तांशस्य कृते बहुविधपुनरावृत्तिः मुख्यतया व्यवहार्यताविचारैः चालिता भवितुम् अर्हति:

1. एनोटेशनकम्पनीतः प्रयोगशालायाः कृते आँकडानां स्थानान्तरणं बैचरूपेण भवति

2. लघु-स्तरीय-प्रशिक्षणस्य बहु-चक्रस्य संचालनेन अन्तिम-उत्पाद-वितरणस्य जोखिमः न्यूनीकर्तुं शक्यते । प्रशिक्षणं आरभ्यतुं पूर्वं सर्वेषां दत्तांशस्य उपलब्धतायाः प्रतीक्षायाः स्थाने क्रमेण आदर्शः मार्गे गच्छतु

एतादृशाः व्यावहारिककारकाः निष्परिणामाः प्रतीयन्ते, परन्तु ते प्रायः कतिपयान् उद्योगमान्यतान् प्रेरयन्ति ।

अधोलिखितं चित्रं ल्लामा २ पत्रस्य अस्ति, यत् अस्वीकारनमूनाकरणस्य ५ दौरस्य पीपीओ च सम्बद्धानि आँकडानि अभिलेखयति ।


नेमोट्रॉन् २-चक्रीय-एसएफटी-ट्रिम्, ४-चक्र-संरेखणं च करोति । तेषु आरपीओ डीपीओ अनुकूलकेन सह भारितम् पुरस्कारप्रतिरूपम् अस्ति ।


समानानि पुनरावर्तनीयानि RLHF पद्धतयः एन्थ्रोपिक् द्वारा प्रस्तावितायाः "संवैधानिककृत्रिमबुद्धिः" यावत् अनुसन्धानं कर्तुं शक्यन्ते, परन्तु मुक्तस्रोतसमुदायेन एतत् परिणामं बृहत्परिमाणेन पुनः प्रदर्शितं न दृश्यते


सम्प्रति शैक्षणिकसमुदायः "ऑनलाइन डीपीओ प्रशिक्षणं" प्रति ध्यानं ददाति, यत् दिशि समानं भवति, परन्तु गोलयोः मध्ये आँकडानां प्रति तावत् ध्यानं न ददाति अस्मिन् दृष्टिकोणे सम्प्रति अद्यापि बहु हस्तकार्यस्य आवश्यकता वर्तते, परन्तु एकदा प्रक्रिया स्वचालिता भवति तदा ऑनलाइन डीपीओ भविष्यं भविष्यति ।

वस्तुतः प्रशिक्षणोत्तरचरणस्य कृते प्रत्येकस्य दलस्य एल्गोरिदम् चयनं तावत् कठोरं न भवेत् । डीपीओ तथा पीपीओ प्रत्येकस्य स्वकीयाः लाभाः हानिः च सन्ति पूर्वस्य स्केलकरणं सुलभं भवति, परन्तु पीपीओ-प्रेरितानां पद्धतीनां (यथा ऑनलाइन आरएल) उच्चतरं प्रदर्शनस्य उच्चसीमा भवति ।

एते दृष्टिकोणाः सम्प्रति मुख्यतया सरलतायाः कारणेन प्रेरिताः सन्ति, यतः एते दलाः अद्यापि तुल्यकालिकरूपेण नवीनाः सन्ति तथा च मॉड्यूलरप्रणालीं निर्मान्ति, तथा च लामा ३ प्रशिक्षणोत्तरदलस्य सदस्येन अभियांत्रिकी सरलतायाः एतस्य दृष्टिकोणस्य पुष्टिः कृता


लामा ३ इत्यस्य प्रशिक्षणोत्तरपाशः सरलः अस्ति : अस्वीकारनमूनाकरणं, एसएफटी, डीपीओ च । एतेन न केवलं अनुभवजन्यस्तरस्य इष्टतमं प्रदर्शनं भवति, अपितु पुनरुत्पादनक्षमता अपि सक्षमा भवति । अपि च, दलाः अनेकाः भिन्नाः कार्यप्रवाहाः (उदा., कोडिंग्, गणितम्) अतुल्यकालिकरूपेण अन्वेष्टुं शक्नुवन्ति, दत्तांशं एकत्र एकस्मिन् सरलपाशं आनयन्ति ।
कृत्रिम दत्तांश

अस्य नूतनस्य RLHF चक्रस्य महत्त्वपूर्णः भागः संश्लेषितः आदेशदत्तांशः अस्ति यः अधिकांशकार्येषु मानवीयक्षमताम् अतिक्रमयति ।

यदि भवान् मॉडल् किञ्चित् सुधारयितुम् उत्तमनिर्देशान् जनयितुं च शक्नोति तर्हि "पुनः आरभत" तथा च चेकपोस्ट् अपडेट् कुर्वन्तु ।

मेटा स्पष्टतया पत्रे कथयति यत् ते "अस्माकं लघुमाडलानाम् प्रशिक्षणोत्तरगुणवत्तां सुधारयितुम् 405B मॉडलस्य उपयोगं कुर्वन्ति" Google मिथुन फ्लैशस्य आसुतीकरणेन एतत् करोति, परन्तु वस्तुतः अधिकांशः अत्याधुनिकमाडलः सम्भवतः केचन समानपदार्थाः समाविष्टाः सन्ति

मया श्रुतं यत् OpenAI अग्रिमपीढीयाः प्रतिरूपस्य प्रशिक्षणार्थं ५० खरबटोकनस्य आँकडानां उपयोगं करोति, येषु अधिकांशः कृत्रिमदत्तांशः अस्ति । गतवर्षे एकः अफवाः आसीत् यत् एन्थ्रोपिक् इत्यस्य “प्रशिक्षणपूर्वपरिमाणस्य संविधानस्य ए.आइ.कोर्पस्” अस्ति, यत् अधुना युक्तियुक्तं प्रतीयते।

एताः एआइ-कम्पनयः १२ तः १८ मासाः पूर्वं सिंथेटिक-दत्तांशस्य महत्त्वं अवगच्छन्ति स्म, यदा ते स्व-पुनरावृत्ति-प्रशिक्षणार्थं मॉडल-निर्गमस्य उपयोगं न कुर्वन्ति स्म । परन्तु मेटा भिन्नः यतः अन्येभ्यः उत्तमेभ्यः मुक्तमाडलेभ्यः लाभः भवति ।

अद्यतन-प्रशिक्षणोत्तरं दृष्ट्वा स्पष्टं भवति यत् कृत्रिमदत्तांशयोः मॉडल-दुर्घटनानां समस्या अतीव अतिशयोक्तिपूर्णा अस्ति । मॉडल् पतनम् तदा एव भवति यदा मूलदत्तांशः परित्यक्तः भवति तथा च केवलं उत्पन्नं नूतनं दत्तांशं कृत्रिमरूपेण स्थापिते वातावरणे अवशिष्टं भवति ।

दत्तांशगुणः राजा अस्ति

लामा ३.१ प्रतिवेदनस्य अधिकांशः आँकडाप्रबन्धनस्य विवरणस्य विषये अस्ति, यत्र प्रत्येकं प्रासंगिकं उपक्षेत्रं व्यापकविशिष्टप्रबन्धननिर्देशानां आवश्यकता भवति ।

इदं OpenAI इत्यत्र John Schulman इत्यनेन नेतृत्वे प्रशिक्षणोत्तरदलस्य अन्येषां च तत्सदृशानां दलानाम् विषये यत् जानामि तस्य सङ्गतम् अस्ति - विशिष्टं डोमेन् निर्दिशन्तु, प्रासंगिकं आँकडान् प्राप्नुवन्तु, तथा च मॉडल् उत्तमं भवति।

परन्तु व्यापकं आँकडा-छननं प्रबन्धनं च विना उपर्युक्तेषु RLHF-विधिषु कोऽपि कार्यं न करिष्यति ।

एलेन् एआइ इत्यत्र वयं प्रशिक्षणोत्तरप्रक्रियायां अधिकतया आँकडानां प्राथमिकताम् आरब्धवन्तः, तथा च भवान् तत्क्षणमेव मॉडलसुधारस्य वेगे परिवर्तनं अनुभवितुं शक्नोति।

प्रकरण अध्ययन - नेमोट्रॉन् तथा लामा

ल्लामायाः प्रशिक्षणोत्तरप्रक्रिया निम्नलिखितरूपेण अस्ति ।


नेमोट्रॉन् इत्यस्मात् इदं चित्रं तुल्यकालिकरूपेण सरलम् अस्ति:


एकत्र गृहीत्वा अधिकांशविधिषु किं किं साम्यं वर्तते इति द्रष्टुं शक्नुमः ।

परन्तु अधोलिखितं चार्टं, अधिकांशः उद्योगसंशोधनपत्राणि च दत्तांशस्य अवहेलनां कुर्वन्ति ।


लामा ३.१ इत्यादिभिः आदर्शैः प्रतिवेदने बहवः विवरणाः उल्लिखिताः सन्ति, यथा नियमितीकरणं, हानिकार्यस्य समायोजनं, आदर्शसराकरणम् इत्यादयः, परन्तु एते आदर्शप्रदर्शने सीमान्तलाभाः सन्ति, ते च कोर-सूक्ष्म-समायोजन-चक्रस्य व्याप्तेः बहुधा परे सन्ति .

कस्मिन्चित् समये एते विवरणाः तुच्छाः भविष्यन्ति ।

सन्दर्भाः : १.

https://www.interconnects.ai/p/सीमा-प्रतिरूप-उत्तर-प्रशिक्षणम्