बृहत् आदर्शस्य भाषायाः स्वकीया अवगमनं भवति! MIT पत्रे बृहत् आदर्शचिन्तनप्रक्रिया प्रकटिता |

बृहत् आदर्शस्य भाषायाः स्वकीया अवगमनं भवति! MIT पत्रे बृहत् आदर्शचिन्तनप्रक्रिया प्रकाशिता |

2024-08-17

क्रेसी आओफेइ मन्दिरात् आगच्छति
Qubits |.सार्वजनिक खाता QbitAI

बृहत् मॉडल् वास्तविकजगत् विषये भवतः स्वकीया अवगमनं निर्मातुम् अर्हति!

एमआईटी-अध्ययनेन ज्ञातं यत् यथा यथा आदर्शः अधिकं समर्थः भवति तथा तथा तस्य वास्तविकतायाः अवगमनं सरल-अनुकरणात् परं गन्तुं शक्नोति ।

यथा - यदि बृहत् आदर्शः कदापि गन्धं न जिघ्रति तर्हि गन्धान् अवगन्तुं न शक्नोति इति अर्थः ?

संशोधनेन ज्ञातं यत् सुलभतया अवगन्तुं काश्चन अवधारणाः स्वतः एव अनुकरणं कर्तुं शक्नोति ।

अस्य संशोधनस्य तात्पर्यम्बृहत् आदर्शाः भविष्ये भाषायाः विश्वस्य च गहनतया अवगमनं प्रदास्यन्ति इति अपेक्षा अस्ति, पत्रं ICML 24 द्वारा स्वीकृतम् अस्ति।

अस्य पत्रस्य लेखकाः चीनीयः डॉक्टरेट्-छात्रः चार्ल्स जिनः तस्य पर्यवेक्षकः प्रोफेसरः मार्टिन् रिनार्डः च एम.आइ.टी.

अध्ययनकाले लेखकः बृहत्प्रतिरूपं केवलं कोडपाठं ज्ञातुं पृष्टवान्, तथा च आदर्शः क्रमेण तस्य पृष्ठतः अर्थं गृह्णाति इति च अवगतवान् ।

प्रोफेसर रिनार्ड् इत्यनेन उक्तं यत् एतत् शोधं आधुनिककृत्रिमबुद्धेः एकं मूलविषयं प्रत्यक्षतया लक्ष्यं करोति——

किं बृहत्प्रतिमानानाम् क्षमता केवलं बृहत्-परिमाणस्य सांख्यिकीय-सहसंबन्धात् उत्पद्यते, अथवा तेषां सम्बोधनाय अभिप्रेतानां वास्तविक-जगतः समस्यानां सार्थक-अवगमनं जनयति वा?

△स्रोतः : MIT आधिकारिक वेबसाइट

तस्मिन् एव काले एतत् संशोधनं बहु चर्चाम् अपि प्रेरितवान् ।

केचन नेटिजनाः अवदन् यत् यद्यपि बृहत् आदर्शाः भाषां मनुष्याणाम् भिन्नरूपेण अवगन्तुं शक्नुवन्ति तथापि अस्मिन् अध्ययने न्यूनातिन्यूनं ज्ञायते यत् आदर्शः केवलं प्रशिक्षणदत्तांशं कण्ठस्थीकरणात् अधिकं करोति।

बृहत् मॉडल् शुद्धं कोडं शिक्षन्तु

बृहत्प्रतिमानाः शब्दार्थस्तरस्य अवगमनं उत्पादयितुं शक्नुवन्ति वा इति अन्वेष्टुं लेखकः कप्रोग्राम कोड तथा तस्य तत्सम्बद्धं इनपुट् आउटपुट् चसिंथेटिक डाटा सेट्।

एते कोड प्रोग्राम्स् इति प्रोग्राम् इत्यस्य उपयोगेन लिख्यन्तेकरेलइदं शिक्षणभाषायां लिखितम् अस्ति तथा च मुख्यतया 2D ग्रिड् जगति रोबोट् नेविगेशनस्य कार्यं साक्षात्कर्तुं उपयुज्यते ।

अयं जालजगत् ८x८ जालपुटैः युक्तः अस्ति, प्रत्येकं जालपुटे बाधाः, चिह्नाः वा मुक्तस्थानानि वा भवितुं शक्नुवन्ति । रोबोट् जालयोः मध्ये गन्तुं शक्नोति तथा च मार्करस्थापनम्/उत्थापनम् इत्यादीनि कार्याणि कर्तुं शक्नोति ।

करेल् भाषायां पञ्च आदिमक्रियाः सन्ति - move (एकं पदं अग्रे), turnLeft (90 डिग्री वामभागे गच्छन्तु), turnRight (90 डिग्री दक्षिणं गच्छन्तु), pickMarker (pick up marker), putMarker (place marker) इति कार्यक्रमः एतेभ्यः निर्मितः अस्ति primitive operations.क्रियाणां क्रमः ।

लेखकाः यादृच्छिकरूपेण एकं प्रशिक्षणसमूहं उत्पन्नवन्तः यस्मिन् ५,००,००० करेल् कार्यक्रमाः सन्ति, प्रत्येकस्य कार्यक्रमस्य दीर्घता ६ तः १० पर्यन्तं भवति ।

प्रत्येकं प्रशिक्षणनमूना त्रयः भागाः सन्ति: ५ इनपुट् अवस्थाः, ५ आउटपुट् अवस्थाः तथा च सम्पूर्णप्रोग्रामसङ्केतः इनपुट् तथा आउटपुट् अवस्थाः विशिष्टस्वरूपेण स्ट्रिंग्-रूपेण एन्कोड् भवन्ति ।

एतस्य दत्तांशस्य उपयोगेन लेखकाः मानकTransformer आर्किटेक्चरस्य CodeGen मॉडलस्य एकं रूपं प्रशिक्षितवन्तः ।

प्रशिक्षणप्रक्रियायाः कालखण्डे मॉडल् प्रत्येकस्मिन् नमूने इनपुट्-आउटपुट्-सूचनाः प्रोग्राम-उपसर्गं च प्राप्तुं शक्नोति, परन्तु...कार्यक्रमनिष्पादनस्य सम्पूर्णं प्रक्षेपवक्रं मध्यवर्तीस्थितिं च द्रष्टुं असमर्थः。

प्रशिक्षणसमूहस्य अतिरिक्तं लेखकेन प्रतिरूपस्य सामान्यीकरणप्रदर्शनस्य मूल्याङ्कनार्थं १०,००० नमूनानि समाविष्टं परीक्षणसमूहमपि निर्मितम्

भाषाप्रतिरूपं कोडस्य पृष्ठतः शब्दार्थं गृह्णाति वा, तत्सहकालं च प्रतिरूपस्य "चिन्तनप्रक्रिया" गभीररूपेण अवगच्छति वा इति अध्ययनार्थं लेखकेन रेखीयवर्गीकारकं एक/द्वयगुप्तस्तरस्य एमएलपी च सहितं डिटेक्टरसंयोजनं परिकल्पितम्

डिटेक्टरस्य निवेशः प्रोग्रामटोकनजननप्रक्रियायां भाषाप्रतिरूपस्य गुप्तस्थितिः भवति, तथा च भविष्यवाणीलक्ष्यं प्रोग्रामनिष्पादनस्य मध्यवर्तीस्थितिः भवति, यत्र रोबोटस्य अभिमुखीकरणं, प्रारम्भिकस्थानस्य सापेक्षं ऑफसेट्, तथा च सः सम्मुखीभवति वा इति अग्रे।

जननात्मकप्रतिरूपस्य प्रशिक्षणप्रक्रियायाः कालखण्डे लेखकः प्रत्येकं ४००० चरणेषु उपर्युक्तत्रयविशेषतानां अभिलेखनं कृतवान्, तथा च जननप्रतिरूपस्य गुप्तस्थितिं अभिलेखितवान् यत् डिटेक्टरस्य कृते प्रशिक्षणदत्तांशसमूहं निर्मितवान्

बृहत् आदर्शशिक्षणस्य त्रयः चरणाः

भाषाप्रतिरूपेण उत्पन्नानां कार्यक्रमानां विविधता, भ्रमः, अन्ये च सूचकाः प्रशिक्षणप्रक्रियायाः सह कथं परिवर्तन्ते इति अवलोक्य लेखकः प्रशिक्षणप्रक्रियायाः त्रयः चरणाः विभजति -

बकबक-चरणम् : उत्पादन-कार्यक्रमः अत्यन्तं पुनरावर्तनीयः भवति तथा च डिटेक्टर-सटीकता अस्थिरः भवति ।
व्याकरण-अधिग्रहण-चरणम् : कार्यक्रम-वैविध्यं तीव्रगत्या वर्धते, जनन-सटीकता किञ्चित् वर्धते, भ्रमः च न्यूनः भवति, येन भाषा-प्रतिरूपेण कार्यक्रमस्य वाक्य-विन्यास-संरचना प्राप्ता इति सूचयति
शब्दार्थ-अधिग्रहण-चरणम् : कार्यक्रम-वैविध्यस्य वाक्य-विन्यास-संरचनायाः निपुणतायाः च डिग्री स्थिरं भवति, परन्तु जनरेशन-सटीकतायां डिटेक्टर-प्रदर्शने च बहुधा सुधारः भवति, यत् सूचयति यत् भाषा-प्रतिरूपेण कार्यक्रमस्य शब्दार्थ-विज्ञानं प्राप्तम् अस्ति

विशेषतः, Babbling चरणः सम्पूर्णस्य प्रशिक्षणप्रक्रियायाः प्रथमं 50% भागं गृह्णाति उदाहरणार्थं, यदा प्रशिक्षणं प्रायः 20% यावत् भवति, तदा कोऽपि विनिर्देशः निवेशः न भवतु, मॉडलः केवलं एकं नियतं कार्यक्रमं जनयिष्यति - "pickMarker" 9 वारं पुनरावृत्तिः।

व्याकरण-अधिग्रहण-चरणं प्रशिक्षण-प्रक्रियायाः ५०% तः ७५% पर्यन्तं भवति, यत् सूचयति यत् भाषा-प्रतिरूपं करेल-कार्यक्रमस्य सांख्यिकीय-लक्षणैः सह उत्तमरीत्या अनुकूलतां प्रारब्धम् अस्ति, परन्तु तस्य सटीकता उत्पन्नकार्यक्रमे महत्त्वपूर्णः सुधारः न अभवत् ( प्रायः १०% तः प्रायः २५%), अद्यापि कार्यं समीचीनतया सम्पूर्णं कर्तुं न शक्नोति ।

शब्दार्थ-अधिग्रहण-चरणं अन्तिमः २५% अस्ति, तथा च कार्यक्रमस्य सटीकतायां नाटकीयरूपेण सुधारः अभवत्, प्रायः २५% तः ९०% अधिकं यावत्, तथा च उत्पन्नः कार्यक्रमः दत्तं कार्यं समीचीनतया सम्पूर्णं कर्तुं शक्नोति

अग्रे प्रयोगेषु ज्ञातं यत् डिटेक्टरः न केवलं t समये समन्वयसमयपदस्य पूर्वानुमानं कर्तुं शक्नोति, अपितु...तदनन्तरं समयपदेषु कार्यक्रमनिष्पादनस्य स्थितिं पूर्वानुमानं कुर्वन्तु。

यथा, कल्पयतु यत् जननात्मकं प्रतिरूपं t समये "move" इति टोकनं जनयति तथा च t+1 समये "turnLeft" जनयिष्यति ।

तस्मिन् एव काले t समये कार्यक्रमस्य स्थितिः अस्ति यत् रोबोट् उत्तराभिमुखः अस्ति तथा च निर्देशांकेषु (0,0) स्थितः अस्ति, यदा तु t+1 समये रोबोट् अयं भविष्यति यत् रोबोट् पश्चिमाभिमुखः भविष्यति, स्थितिः सह अपरिवर्तितः ।

यदि डिटेक्टरः t समये भाषाप्रतिरूपस्य गुप्तस्थित्याः सफलतया पूर्वानुमानं कर्तुं शक्नोति यत् रोबोट् t+1 समये पश्चिमदिशि सम्मुखीभवति, तर्हि तस्य अर्थः अस्ति यत् "turnLeft" जननात् पूर्वं गुप्तस्थितौ पूर्वमेव अस्य कारणेन उत्पन्नं अवस्थापरिवर्तनं भवति संचालन सूचना।

एषा घटना दर्शयति यत् आदर्शस्य न केवलं उत्पन्नस्य कार्यक्रमभागस्य शब्दार्थबोधः भवति, अपितु जननस्य प्रत्येकस्मिन् पदे, पूर्वमेव अग्रिमरूपेण उत्पन्नस्य सामग्रीं पूर्वानुमानं कृत्वा योजनां कृतवान्, प्रारम्भिकं दर्शयतिभविष्य-उन्मुख तर्क-कौशलम्。

परन्तु एतेन आविष्कारेण अस्मिन् संशोधने नूतनाः प्रश्नाः आगताः——

प्रयोगे अवलोकितः सटीकतासुधारः वास्तवमेव जननात्मकप्रतिरूपे सुधारः अस्ति वा, अथवा डिटेक्टरस्य स्वस्य अनुमानस्य परिणामः अस्ति वा?

अस्य संशयस्य समाधानार्थं लेखकः अपि अवदत्शब्दार्थपरिचय हस्तक्षेप प्रयोग。

प्रयोगस्य मूलविचारः कार्यक्रमसञ्चालनस्य शब्दार्थव्याख्यानियमान् परिवर्तयितुं भवति, ये "फ्लिप्" तथा "विरोधी" इति द्वयोः पद्धतयोः विभक्ताः सन्ति

"Flip" इति निर्देशस्य अर्थस्य बलात् विपर्ययः यथा, "turnRight" इति बलात् "turn left" इति व्याख्यायते तथापि केवलं "turnLeft" तथा "turnRight" इत्यनेन एव एतादृशं विपर्ययः कर्तुं शक्यते

"विरोधी" सर्वेषां निर्देशानां अनुरूपं शब्दार्थं यादृच्छिकरूपेण स्क्रैम् करोति विशिष्टविधिः अधोलिखिते सारणीयां यथा दर्शिता अस्ति ।

यदि जननात्मकप्रतिरूपस्य गुप्तस्थितिः केवलं शब्दार्थसूचनायाः अपेक्षया कार्यक्रमस्य वाक्यविन्याससंरचनायाः संकेतनं करोति, तर्हि डिटेक्टर् अद्यापि समतुल्यप्रदर्शनेन गुप्तस्थित्याः परिवर्तितां शब्दार्थसूचनां निष्कासयितुं समर्थः भवेत्

तद्विपरीतम्, यदि डिटेक्टरस्य कार्यक्षमता महत्त्वपूर्णतया न्यूनीभवति तर्हि तस्य अर्थः अस्ति यत् डिटेक्टरेन दर्शितः कार्यक्षमतासुधारः खलु यतः जननात्मकप्रतिरूपगुप्तावस्था वास्तविकशब्दार्थविज्ञानं संकेतयति

प्रयोगात्मकपरिणामाः दर्शयन्ति यत् नूतनशब्दार्थयोः अन्तर्गतं डिटेक्टरस्य कार्यक्षमता महत्त्वपूर्णतया न्यूनीभवति ।

विशेषतः "प्रतिद्वन्द्वी" गुणे स्पष्टं भवति, यत् अस्मिन् गुणे शब्दार्थाः मूलशब्दार्थाद् महत्त्वपूर्णतया भिन्नाः इति विशेषतायाः अपि सङ्गतम् अस्ति

एते परिणामाः दृढतया एतां सम्भावनां निराकुर्वन्ति यत् डिटेक्टरः "स्वयमेव शब्दार्थमानचित्रणं शिक्षते" तथा च जननात्मकप्रतिरूपं खलु कोडस्य अर्थं गृह्णाति इति अधिकं पुष्टयन्ति

कागजस्य सम्बोधनम् : १.
https://icml.cc/virtual/2024/पोस्टर/34849
सन्दर्भलिङ्कानि : १.
[1]https://news.mit.edu/2024/llms-वास्तविकतायाः-स्व-समझं-विकसयति-यथा-भाषा-क्षमता-सुधार-0814
[2]https://www.reddit.com/r/LocalLLaMA/comments/1esxkin/llms_अपनी_वास्तविकता_समझं_विकासयति/

समाचारं

बृहत् आदर्शस्य भाषायाः स्वकीया अवगमनं भवति! MIT पत्रे बृहत् आदर्शचिन्तनप्रक्रिया प्रकाशिता |

बृहत् मॉडल् शुद्धं कोडं शिक्षन्तु

बृहत् आदर्शशिक्षणस्य त्रयः चरणाः

आमुख

मम सम्पर्कसूचना