2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
नवीन बुद्धि प्रतिवेदन
सम्पादकः - किआओ याङ्गः एतावत् निद्रालुः अस्ति
[नव प्रज्ञायाः परिचयः] ।स्टार्ट-अप-कम्पनी MultiOn इत्यनेन अद्यैव एजेण्ट् क्यू-इत्येतत् विमोचितम्, यस्य दावान् करोति यत् "वर्तमानकाले सर्वाधिकं शक्तिशाली" अस्ति तथा च वास्तविक-बुकिंग्-कार्य्येषु ९५.४% सफलता-दरं प्राप्तुं शक्नोति नेटिजनाः अनुमानं कृतवन्तः यत् OpenAI इत्यस्य रहस्यमयी Q* परियोजना तस्य पृष्ठतः अस्ति ।
OpenAI इत्यस्य Q*/Strawberry परियोजनायाः विमोचनस्य प्रतीक्षां विना MultiOn इति स्टार्ट-अप-कम्पनी प्रथमं Q इति एजेण्ट् विमोचितवती ।
वयं घोषयितुं बहु उत्साहिताः स्मः यत् एजेण्ट् क्यू, अस्माकं विगत ६ मासानां कार्यं, अधुना लाइव अस्ति! इदं स्वयमेव पर्यवेक्षितं एजेण्ट्-रूपरेखा अस्ति यत् तर्कं अन्वेषणं च कर्तुं शक्नोति, तथा च आत्म-शुद्धिं स्वायत्त-सुधारं च प्राप्तुं अन्तर्जालस्य वास्तविक-कार्यस्य माध्यमेन स्व-क्रीडां सुदृढीकरण-शिक्षणं च कर्तुं शक्नोति!
यत् अधिकं ध्यानं आकर्षितवान् तत् अस्ति यत् यदा MultiOn Lianchuang/CEO Div Garg इत्यनेन ट्विट्टर् इत्यत्र Agent Q इत्यस्य उल्लेखः कृतः तदा सः एतत् स्पष्टं आनेतुं कदापि न विस्मरति स्म।
एतेन जीवनस्य सर्वेषां वर्गानां निरन्तरं प्रेक्षकाः आकर्षिताः आसन् केचन जनाः अनुमानं कृतवन्तः यत् एजेण्ट् क्यू इत्यस्य पृष्ठतः बृहत् मालिकः OpenAI इत्यस्य Q* परियोजना अस्ति ।
न केवलं, मल्टीऑन् इत्यनेन एजेण्ट् क्यू इत्यस्य कृते स्वतन्त्रं ट्विटर-खातं अपि उद्घाटितम्, यत् प्रायः विविधानि विचित्र-टिप्पण्यानि निर्गच्छति यत् "मनुष्याणां यन्त्राणां च भेदं कर्तुं कठिनम्" अस्ति
खातेः पृष्ठभूमिचित्रं मूलभूतसूचना च स्ट्रॉबेरीभिः परिपूर्णा अस्ति, स्वस्य उद्याने स्ट्रॉबेरी-वृक्षाणां छायाचित्रं च यत् अल्ट्रामैन् पूर्वं स्थापितवान् आसीत्, ते प्रत्यक्षतया चिनोति स्म
परन्तु आश्चर्यं यत् अस्य रहस्यमयस्य खातेः बहवः अनुयायिनः केओएलः च सन्ति, येषु Y-Combinator CEO Garry Tan, Quora CEO Adam D'Angelo, New York Times स्तम्भकारः Kevin Roose, Wharton AI प्राध्यापकः Ethan Mollick, तथा च OpenAI इत्यस्य अनेकाः कर्मचारीः सन्ति
अल्ट्रामैन् अपि अद्यैव अस्य रहस्यपूर्णस्य खातेन सह संवादं कर्तुं उपक्रमं कृतवान् तथा च तस्य पोस्ट् इत्यत्र टिप्पणीं कृतवान् यत् "एजीआई स्तरं २ प्राप्नोति" इति उपहासं कृतवान् ।
MultiOn द्वारा कार्याणां एषा तरङ्गः विशुद्धरूपेण प्रचारः अस्ति वा, अथवा OpenAI इत्यस्य Q* इत्यस्य प्रचारस्य सङ्गमेन अस्ति वा, तत् जनानां मतस्य उपरि निर्भरं भवति
यावान् एषः अद्यपर्यन्तं विमोचितानाम् उत्तम-AI-एजेण्ट्-मध्ये एकः भविष्यति, अथवा Div Garg-इत्येतत् सर्वाधिकं दुष्ट-संभव-प्रचार-कार्यं कृत्वा कम्पनीयाः प्रतिष्ठां नाशयिष्यति |. एआइ-समुदाये एतत् प्रतिकूलम् अस्ति ।
सर्वान् विवादान् एकपार्श्वे स्थापयित्वा प्रथमं अवलोकयामः यत् अस्य एजेण्ट् Q इत्यस्य कियत् तकनीकी सामग्री अस्ति।
सीईओ दिव गर्ग् इत्यस्य मते एजेण्ट् क्यू इत्यस्य न केवलं योजनायाः तर्कस्य च क्षमता अस्ति, अपितु स्वचिकित्साक्षमता अपि अस्ति । केवलं एकस्मिन् दिने प्रशिक्षणे ते ल्लामा ३ इत्यस्य शून्य-नमूना-प्रदर्शने ३४०% सुधारं कृतवन्तः, यथार्थ-जगति-बुकिंग्-कार्येषु ९५.४% सफलता-दरं प्राप्तवन्तः
स्वायत्त-एआइ-एजेण्ट्-जनानाम् कृते वास्तविक-जगत्-वातावरणेषु जटिल-विश्वसनीय-निर्णयानां कृते एतत् एकं प्रमुखं सोपानम् अस्ति ।
आधिकारिक-प्रदर्शन-वीडियोमध्ये एजेण्ट् क्यू रेस्टोरन्ट्, सभा, विमानटिकटं च बुकं कृत्वा कार्याणि कर्तुं शक्नोति, येषु सर्वेषु बहु-चरण-नियोजनं, तर्कः, निर्णय-निर्माणं, विविध-अनुप्रयोगैः सह अन्तरक्रिया च अन्तर्भवति
यद्यपि MultiOn इत्यस्य शोधदलेन आधिकारिकजालस्थले पत्रं अपलोड् कृतम् अस्ति तथापि एजेण्ट् Q अद्यापि परीक्षणार्थं उद्घाटितः नास्ति, तथा च आन्तरिकपरीक्षणस्य अवसरानां कृते आवेदनं कर्तुं प्रतीक्षासूचौ पञ्जीकरणं करणीयम्।
पेपर पता: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
आधिकारिकजालस्थले दावान् करोति यत् एजेण्ट् क्यू अस्मिन् वर्षे अन्ते MultiOn विकासकानां उपयोक्तृणां च कृते उद्घाटितः भविष्यति।
तकनीकी व्याख्या
अन्तिमेषु वर्षेषु यद्यपि एलएलएम इत्यनेन एनएलपी-क्षेत्रं पूर्णतया विध्वस्तं कृत्वा उल्लेखनीयाः उपलब्धयः प्राप्ताः तथापि अन्तरक्रियाशीलवातावरणेषु विशेषतः बहुचरणीयतर्ककार्येषु, यथा जालपृष्ठसञ्चारः, प्रमुखचुनौत्यस्य सामनां करोति
वर्तमानप्रशिक्षणविधयः ये स्थिरभाषादत्तांशसमूहेषु निर्भराः सन्ति, ते एतान् प्रतिरूपान् गतिशीलवास्तविक-जगतः अन्तरक्रियासु अनुकूलतायै अपर्याप्ताः सन्ति ।
एजेण्ट् क्यू इत्यस्य उद्भवः एआइ एजेण्ट् इत्यस्य क्षेत्रे एकः प्रमुखः मीलपत्थरः अस्ति, यः अन्वेषणं, आत्मचिन्तनं, सुदृढीकरणशिक्षणं च संयोजयति यत् योजनां कर्तुं स्वमरम्मतं च कर्तुं समर्थः भवति
एकं नवीनं शिक्षणं अनुमानं च रूपरेखां प्रवर्तयन् एजेण्ट् क्यू पूर्वस्य एलएलएम प्रशिक्षणप्रविधिनां सीमां सम्बोधयति, स्वायत्तजालनेविगेशनं सक्षमं करोति।
निर्धारितकार्यं निष्पादयति समये Agent Q इत्यस्य चरणानां विच्छेदः
वर्तमानविधिषु समस्याः
वर्तमान पद्धतयः, यथा सावधानीपूर्वकं योजनाकृतेषु विशेषज्ञप्रदर्शनेषु पर्यवेक्षितं सूक्ष्म-समायोजनं, प्रायः संचितदोषाणां सीमित-अन्वेषण-आँकडानां च कारणेन एजेण्ट्-बहु-चरणीय-कार्ययोः दुर्बलं प्रदर्शनं कुर्वन्ति, अतः गतिशील-वातावरणेषु जटिल-निर्णयस्य अनुकूलनस्य च आवश्यकता भवति यथा भवन्तः ज्ञायन्ते, उप-अनुकूल-रणनीतयः उद्गाह्।
एजेण्ट् क्यू विधयः घटकाः च
एजेण्ट् क्यू मार्गदर्शितं मोंटे कार्लो वृक्षसन्धानं (MCTS) तथा एआइ स्व-चिन्तनं तथा पुनरावर्तनीयं सूक्ष्म-ट्यूनिङ्ग-विधिं संयोजयति, यदा तु LLM एजेण्ट् सफल-विफल-प्रक्षेपवक्र-भ्यः शिक्षितुं सक्षमं कर्तुं तथा च बहु-सामान्यीकरणे सुधारं कर्तुं प्रत्यक्ष-प्राथमिकता-अनुकूलन-(DPO) इत्यादीनां RLHF-एल्गोरिदम्-इत्यस्य उपयोगं करोति पदे पदे तर्ककार्येषु क्षमता।
एजेण्ट् क्यू इत्यस्य प्रमुखघटकाः अन्तर्भवन्ति : १.
1. MCTS आधारितं मार्गदर्शितं अन्वेषणम् : भिन्नव्यवहारानाम् जालपृष्ठानां च अन्वेषणं कृत्वा स्वायत्तरूपेण आँकडानां जननं करोति, अन्वेषणस्य शोषणस्य च मध्ये संतुलनं स्थापयति।
एमसीटीएस व्यवहारस्थानं विस्तारयितुं विविधानि इष्टतमानि च प्रक्षेपवक्राणि संग्रहीतुं शक्यन्ते इति सुनिश्चित्य उच्चतरनमूनातापमानस्य विविधप्रोम्प्टशब्दानां च उपयोगं करोति
2. एआइ आत्म-आलोचना : प्रत्येकस्मिन् चरणे ए.आइ.-आधारित-आत्म-आलोचना एजेण्टस्य निर्णय-निर्माणस्य अनुकूलनार्थं बहुमूल्यं प्रतिक्रियां दातुं शक्नोति । दीर्घकालीनकार्यस्य कृते एषा चरणस्तरीयप्रतिक्रिया महत्त्वपूर्णा भवति यतोहि विरलसंकेताः प्रायः शिक्षणकठिनतां जनयन्ति ।
3. प्रत्यक्षप्राथमिकता अनुकूलनम् : DPO एल्गोरिदम् MCTS द्वारा उत्पन्नस्य आँकडानां प्राधान्ययुग्मानां निर्माणं कृत्वा मॉडलं सूक्ष्मरूपेण ट्यून करोति। इयं नीतितः बहिः प्रशिक्षणपद्धतिः आदर्शं समुच्चयदत्तांशसमूहात् प्रभावीरूपेण शिक्षितुं शक्नोति, यत्र अन्वेषणप्रक्रियायाः समये अन्वेषणं कृतानि उप-अनुकूलशाखाः अपि सन्ति, येन जटिलवातावरणेषु सफलतायाः दरं सुधरति
मूल्याङ्कन प्रयोगः
xLAM-v0.1-r मॉडल् इत्यस्य आधारेण निर्मितस्य ऑनलाइन-भण्डारस्य अनुकरणस्य कार्ये एजेण्टस्य विशिष्टानि उत्पादानि अन्वेष्टुं अन्वेषणस्य आवश्यकता भवति ।
यद्यपि RFT, DPO, beam search इत्यादीनि पद्धतयः अपि किञ्चित् सुधारं प्राप्तुं शक्नुवन्ति तथापि AgentQ इव परिमाणं न भवति ।
यदि एजेण्ट् क्यू तथा एमसीटीएस पद्धतयः एकस्मिन् समये उपयुज्यन्ते तर्हि कार्यसफलतायाः दरं २८.६% तः ५०.५% यावत् वर्धयितुं शक्यते, यत् ५०% औसतमानवस्तरस्य बराबरम् अस्ति
Open Table इत्यस्य वास्तविकबुकिंग् कार्ये एजेण्टस्य बहुपदं कर्तुं आवश्यकं भवति, यत्र तत्सम्बद्धं भोजनालयपृष्ठं अन्वेष्टुं, समुचितदिनाङ्कं समयं च चयनं, उपयोक्तुः प्राधान्यानुसारं समुचितं आसनं चयनं, उपयोक्तुः सम्पर्कसूचनाः प्रस्तूय, अन्ते च पूर्णं करणीयम् कार्यम् ।
एषा जटिलता स्पष्टतया Webshop इत्यस्मात् एकं पदं उपरि अस्ति। प्रयोगानन्तरं प्राप्तानां आँकडानां अनुसारं वेबशॉप् कार्याणि पूर्णं कर्तुं सोपानानाम् औसतसंख्या ६.८ अस्ति, यदा तु ओपन टेबल् दुगुणा १३.९ यावत् अभवत् ।
यतो हि Open Table अनुकरणीयदत्तांशसमूहः नास्ति, अपितु वास्तविकः ऑनलाइनवातावरणः अस्ति, अतः पूर्वनिर्धारितस्य आधारेण कार्यस्य प्रत्येकस्य चरणस्य कृते एजेण्टं पुरस्कृत्य मूल्याङ्ककरूपेण GPT-4-V इत्यस्य उपयोगं कर्तुं कठिनम् अस्ति सूचकाः।कार्यं सम्पन्नं वा इति चिह्नं कुर्वन्तु।
एजेण्ट् Q इत्यनेन LLaMa-3 इत्यस्य शून्य-नमूना-सफलतायाः दरं १८.६% तः ८१.७% यावत् वर्धितम्, यत्र ३४०% स्कोरवृद्धिः अभवत्, केवलं एकदिनस्य स्वायत्त-आँकडा-संग्रहणस्य अनन्तरम्
ऑनलाइन मोंटे कार्लो वृक्षसन्धानं योजयित्वा सफलतायाः दरं ९५.४% यावत् अधिकं वर्धयितुं शक्यते ।
यद्यपि एजेण्ट् क्यू इत्यनेन उपर्युक्तमूल्यांकनप्रयोगेषु सशक्तजालसञ्चारः, अन्वेषणं, तर्कः, योजना च क्षमता प्रदर्शिता, तथापि वर्तमानकाले प्रयुक्तेषु पद्धतीषु चर्चायाः सुधारस्य च बहु स्थानं वर्तते:
- तर्क-एल्गोरिदमस्य डिजाइनः : एजेण्ट् क्यू इत्यस्य मूल-चुनौत्यं वर्तमानकाले तस्य दुर्बल-तर्क-क्षमतायां निहितं भवति, यत् अन्वेषणं अन्वेषण-रणनीतिं च सीमितं करोति तदतिरिक्तं, एजेण्ट्-रणनीत्याः प्रशिक्षणं कुर्वन्, आलोचक-प्रतिरूपं वर्तमानकाले जमेन अवस्थायां भवति, यत् अतिरिक्तं परिचययति सूक्ष्म-समायोजनात् कार्य-प्रदर्शन-लाभाः भवितुम् अर्हन्ति ।
- एजेण्ट् क्यू MCTS इत्यस्य गणितस्य कोडिंगकार्यस्य च पूर्वसफलस्य अनुभवस्य कारणेन अन्वेषणार्थं MCTS इत्येतत् प्राधान्यं ददाति, परन्तु वास्तविकवातावरणे पर्याप्तसङ्ख्यायां जोखिमपूर्णानां अन्तरक्रियाणां कारणं भवितुम् अर्हति भवतः अन्वेषणरणनीतिं परिवर्तयितुं अधिकः उपयुक्तः विकल्पः भवितुम् अर्हति ।
- ऑनलाइन सुरक्षा तथा अन्तरक्रिया : वर्तमान समये एजेण्ट् क्यू वस्तुतः स्वायत्त अन्वेषणस्य आत्ममूल्यांकनस्य च बृहत् डिग्रीम् अनुमन्यते, यत्र सीमितमानवहस्तक्षेपः भवति। परन्तु एजेण्टस्य संचालने अद्यापि बहवः त्रुटयः भवितुम् अर्हन्ति, विशेषतः ईमेल, भुक्तिः, संग्रहणं च इत्यादिषु महत्त्वपूर्णेषु कार्येषु ।
यदि सुरक्षासमस्याः सम्बोधिताः न भवन्ति तर्हि एजेण्ट् Q इत्यस्य वास्तविकनियोजनीयकार्यपरिदृश्यानि बहु सीमिताः भविष्यन्ति, भविष्ये च अतिरिक्तसुरक्षासमालोचनाप्रतिमानानाम् मानव-इन्-द-लूप्-प्रशिक्षणसेटिंग्स् च आवश्यकाः भवितुम् अर्हन्ति
सन्दर्भाः : १.
https://x.com/rm_rafailov/status/1823462897751875701
https://x.com/ai_for_success/status/1823447309008490730
https://www.multion.ai/blog/योजना-स्व-चिकित्सा-क्षमता-युक्तानां-आइ-एजेण्ट्-जनानाम्-अगली-पीढी-कृते-एजेण्ट्-क्यू-संशोधन-अवस्था-प्रवर्तनम्