एप्पल् इत्यस्य बृहत् मॉडलस्य नवीनपरिणामाः: दृश्यनिरीक्षणं बृहत् मॉडल् टूल् कॉल्, नेटिजनः: सिरी इत्यनेन अपि कठिनं कार्यं कर्तव्यम्

एप्पल् इत्यस्य बृहत् मॉडलस्य नवीनपरिणामाः: दृश्यनिरीक्षणं बृहत् मॉडल् टूल् आह्वानं, नेटिजनः: सिरी इत्यस्य अपि परिश्रमस्य आवश्यकता वर्तते

2024-08-14

क्रेसी आओफेइ मन्दिरात् आगच्छति
Qubits |.सार्वजनिक खाता QbitAI

एप्पल्-दलेन नूतनं मुक्तस्रोत-उपार्जनं प्रकाशितम् - बृहत्-माडल-उपकरणानाम् आह्वानस्य क्षमतायाः विषये मापदण्डानां समुच्चयः ।

इदं Benchmark अभिनवरूपेण उपयोगं करोतिपरिदृश्याधारित मूल्याङ्कन पद्धति, यत् वास्तविकवातावरणे प्रतिरूपस्य स्तरं अधिकतया प्रतिबिम्बयितुं शक्नोति।

संवादपरस्परक्रिया, राज्यनिर्भरता इत्यादिषु पारम्परिकमानकेषु ध्यानं न दत्तानां महत्त्वपूर्णपरिदृश्यानां परिचयं अपि करोति ।

परीक्षणमापदण्डानां एषः समुच्चयः ToolSandbox इति कथ्यते, एप्पल्-संस्थायाः मूलभूत-माडल-दलस्य प्रमुखः Pang Ruoming अपि शोधकार्य्ये भागं गृहीतवान् ।

ToolSandbox विद्यमानपरीक्षणमानकेषु परिदृश्याधारितमूल्यांकनस्य अभावस्य पूर्तिं करोति तथा च परीक्षणस्थितीनां वास्तविकअनुप्रयोगानाञ्च मध्ये अन्तरं संकुचितं करोति

तथा च अन्तरक्रियायाः दृष्ट्या लेखकः GPT-4o इत्यस्य उपयोक्तृरूपेण कार्यं कर्तुं ददाति तथा च परीक्षणस्य अन्तर्गतेन मॉडलेन सह वार्तालापं करोति, तस्मात् वास्तविक-जगतः परिदृश्यानां अनुकरणं करोति ।

यथा, GPT-4o इत्यस्मै कथयन्तु यत् भवान् सहायकः नास्ति, परन्तु भवान् उपयोक्तृ B इत्यनेन सह वार्तालापं कुर्वन् उपयोक्ता A क्रीडितुं इच्छति, ततः विशिष्टानुरोधानाम् एकां श्रृङ्खलां कर्तुम् इच्छति ।

तदतिरिक्तं लेखकः केषाञ्चन मुख्यधाराप्रतिमानानाम्, समग्रतया च परिणामानां परीक्षणार्थं ToolSandbox इत्यस्य अपि उपयोगं कृतवान्बन्दस्रोतप्रतिमानानाम् अपेक्षया मुक्तस्रोतप्रतिमानानाम् अपेक्षया अधिकं स्कोरः भवति, यस्मिन् बलिष्ठतमः GPT-4o अस्ति ।

iOS अनुप्रयोगविकासकः Nick Dobos इत्यनेन उक्तं यत् Apple इत्यस्य मानकसमूहः संक्षिप्तः स्पष्टः च अस्ति ।

तस्मिन् एव काले सः दर्शितवान् यत् यदि सिरी मोबाईल-फोनेषु दर्जनशः वा शतशः वा अनुप्रयोगाः प्रबन्धयितुम् इच्छति तर्हि तस्य टूल्-कॉलिंग्-क्षमतायाः अपि उन्नयनस्य आवश्यकता वर्तते

तात्पर्यं यत् ToolSandbox इत्यस्य शोधं Siri इत्यस्य भविष्यस्य शोधस्य विकासस्य च दिशां स्पष्टीकर्तुं भवितुम् अर्हति।

परिदृश्ये प्रतिरूपस्य परीक्षणं कुर्वन्तु

यथा उपरि उक्तं, ToolSandbox परिदृश्याधारितं अन्तरक्रियाशीलं च परीक्षणपद्धतिं स्वीकुर्वति ।

विशेषतया, ToolSandbox इत्यत्र सप्तप्रकारेषु कुलम् प्रायः 2,000 परिदृश्यानि समाविष्टानि सन्ति, यत्र एक/बहुसाधनआह्वानं, संवादस्य एक/बहुपरिक्रमाः, राज्यनिर्भरता, मानकीकरणं, अपर्याप्तसूचना च सन्ति

पूर्वाणि तुल्यकालिकरूपेण सुलभानि सन्ति अत्र निम्नलिखितत्रिषु दृश्यप्रकारेषु केचन व्याख्यानानि सन्ति ।

राज्यनिर्भरता : साधनस्य निष्पादनं कतिपयेषु वैश्विकराज्येषु निर्भरं भवति, अस्याः अवस्थायाः प्रथमं अन्यैः साधनैः परिवर्तनस्य आवश्यकता वर्तते;
मानकीकरणम् : प्राकृतिकभाषाव्यञ्जनानि साधनेन अपेक्षितमानकरूपेण परिवर्तयन्तु, यस्य कृते अन्येषां साधनानां साहाय्यस्य आवश्यकता भवितुम् अर्हति;
अपर्याप्तसूचना : कार्यं पूर्णं कर्तुं आवश्यकाः मुख्यसाधनाः इच्छया अनुपलब्धाः सन्ति वा इति जाँचं कुर्वन्तु यत् आदर्शः तादृशीनां परिस्थितीनां परिचयं कर्तुं शक्नोति यत्र तत् पूर्णं कर्तुं न शक्यते।

एतेषु परिदृश्येषु ToolSandbox मॉडलस्य त्रयः सूचकाः केन्द्रीक्रियते:

समग्रं प्रदर्शनं अर्थात् विभिन्नेषु परिदृश्येषु पूर्वनिर्धारितउत्तराणां औसतसादृश्यम्
दृढता, साधनस्य परिवर्तनार्थं बाधां च कर्तुं विविधपद्धतीनां उपयोगं कुर्वन्तु, अस्मिन् वातावरणे च प्रतिरूपस्य कार्यक्षमतां अवलोकयन्तु
कार्यक्षमता अर्थात् कार्यसमाप्तिपरिक्रमणानां औसतसंख्या

साधनानां दृष्ट्या लेखकेन ३४ संयोजनयोग्याः पायथन् कार्याणि साधनरूपेण चयनितानि, ये वास्तविकपरिदृश्यानां जटिलतायाः तुलनीयाः सन्ति ।

अस्मिन् देशी पायथन्-उपकरणं तथा च केचन एकीकृत-RapidAPI-उपकरणं च समाविष्टम् अस्ति, यत्र अन्वेषणं, संवादं, नेविगेशनं, मौसमं, चित्रसंसाधनं च इत्यादीनां अनेकसामान्यक्षेत्राणां कार्याणि सन्ति

प्रक्रियायाः दृष्ट्या प्रथमं सोपानं परीक्षणपरिदृश्यं सज्जीकर्तुं भवति शोधकर्तारः प्रारम्भिकविश्वस्थितिं परिभाषयिष्यन्ति, संग्रहीयुः च, तत्सहकालं प्रारम्भिकप्रयोक्तृसन्देशं जनयितुं मापनितस्य GPT-4o प्रतिरूपस्य उपयोगं करिष्यन्ति।

ततः अन्तरक्रियाशीलनिष्पादनपदे प्रविश्य, प्रणाली प्रथमं भूमिकानां मध्ये संचारमार्गरूपेण Message Bus इत्यस्य आरम्भं करोति, तथा च उपयोक्तारं परीक्षणधीनमाडलं च क्रीडति इति मॉडलं विन्यस्यति

यदा संभाषणपाशः आरभ्यते तदा उपयोक्तुः अनुकरणं कुर्वन् आदर्शः प्रारम्भिकसन्देशं प्रेषयति, परीक्षणधीनः प्रतिरूपः च सन्देशं प्राप्य अग्रिमक्रियायाः निर्णयं करोति-उपयोक्त्रे प्रत्यक्षतया उत्तरं ददाति, अथवा वातावरणेन सह अन्तरक्रियां कर्तुं साधनं आह्वयति वा

यदि मॉडल् साधनं आह्वयितुं चयनं करोति तर्हि तत् JSON प्रारूपेण आवश्यकानि मापदण्डानि प्रदाति, ततः निष्पादनवातावरणं एतस्य आह्वानस्य व्याख्यां करोति निष्पादयति च, सम्भवतः विश्वस्थितिं अद्यतनं करोति, सम्भाव्यसमानान्तरकॉलस्थितीनां निबन्धनं च करोति

परीक्षणाधीनप्रतिरूपे निष्पादनपरिणामानां प्रत्यागमनानन्तरं, परीक्षणाधीनप्रतिरूपः पुनः अग्रिमक्रियाम् निर्धारयति यावत् उपयोक्तृ अनुकरणकं कार्यं सम्पन्नम् इति न मन्यते (अथवा सम्पन्नं कर्तुं न शक्यते), तस्मिन् समये सः end_conversation इति आह्वयति संभाषणस्य समाप्त्यर्थं साधनम्।

सम्पूर्णे अन्तरक्रियाप्रक्रियायाः कालखण्डे प्रणाली सर्वान् सन्देशान् स्थितिपरिवर्तनानि च अभिलेखयित्वा सम्पूर्णं "संवादपटलं" निर्माति, यत् ततः मूल्याङ्कनपदे प्रविशति

मूल्याङ्कनं एजेण्ट्-प्रतिरूपस्य कार्यप्रदर्शनस्य मापनार्थं पूर्वनिर्धारित-“माइलस्टोन्स्” तथा “माइनफील्ड्”-इत्येतयोः उपयोगं करोति ।

क्रोशमापनपाषाणकार्यं पूर्णं कर्तुं मुख्यघटनानि परिभाषितानि भवन्ति, समयनिर्भरतां प्रतिबिम्बयितुं निर्देशितं अचक्रीयलेखं निर्मान्ति ।

प्रणाली माइलस्टोन्स् इत्यस्य टोपोलॉजिकल क्रमं निर्वाहयन् प्रक्षेपवक्रस्य घटनानां माइलस्टोनानां च सर्वोत्तममेलनं अन्वेषयति ।

खननक्षेत्रम्एतत् निषिद्धघटनानां परिभाषां करोति, मुख्यतया अपर्याप्तसूचनायाः कारणेन आदर्शः मतिभ्रमम् अनुभवति वा इति ज्ञातुं उपयुज्यते ।

यथा, अधोलिखितं चित्रं "अपर्याप्तसूचना" परिदृश्यस्य अन्तर्गतं खननक्षेत्रमूल्यांकनस्य उदाहरणं दर्शयति ।

अस्मिन् कार्ये वर्तमानसमयमुद्रिका उपलब्धा नास्ति इति कारणतः मॉडल् timestamp_diff इति साधनं न आह्वयितुं अर्हति, परन्तु मॉडल् वर्तमानसमयमुद्रकस्य गलत् अनुमानं कृत्वा साधनं आह्वयति, यस्य परिणामेण अस्य गोलस्य कृते 0 स्कोरः भवति

अन्ततः, प्रणाली एकं समष्टिस्कोरं गणयति यत् औसतमाइलस्टोन् मैचस्कोरस्य तथा च खननक्षेत्रदण्डस्य उत्पादः भवति ।

तदतिरिक्तं, प्रणाली कार्यं पूर्णं कर्तुं आवश्यकानां गोलानां औसतसङ्ख्यां अपि पूरकसूचकरूपेण गणयिष्यति यत् प्रतिरूपस्य कार्यक्षमतायाः मूल्याङ्कनं करिष्यति।

जटिलाः अन्तरक्रियापरिदृश्याः अद्यापि एकं आव्हानं वर्तते

समग्रतया .बन्दस्रोतप्रतिरूपाः उपकरणकॉलस्य दृष्ट्या मुक्तस्रोतप्रतिरूपेभ्यः उत्तमं प्रदर्शनं कुर्वन्ति。

यस्य सर्वाधिकं औसतं स्कोरः अस्ति सः GPT-4o अस्ति, यस्य स्कोरः 73.0 अस्ति, सः एकमात्रः अस्ति यः 70 इत्यस्मात् अधिकः अस्ति तथा च लेखकेन निर्धारितसप्तपरिदृश्येषु चतुर्षु सर्वाधिकं स्कोरं प्राप्तवान् ।

अपि च, GPT-4o अपि अत्यन्तं दृढं भवति लेखकेन साधनस्य परिवर्तनार्थं 8 पद्धतयः प्रयुक्ताः, तेषु GPT-4o इत्यस्य दृढता-अङ्कः सर्वाधिकः आसीत् ।

तस्य निकटतया अनुसरणं क्लाउड् ३-ओपस् इति भवति, यस्य औसतस्कोरः ६९.२ अस्ति, यः अपर्याप्तसूचनायुक्तेषु दृश्येषु जीपीटी-४ओ इत्यस्मात् अधिकं प्रदर्शनं करोति, ततः जीपीटी तथा क्लाउड् इत्यस्य अन्ये केचन संस्करणाः

गूगलस्य मिथुनं तुल्यकालिकरूपेण पश्चात् अस्ति 60.4, यत् केवलं उत्तीर्णं भवति तथापि अपर्याप्तसूचनायाः एकस्मिन् मदे उत्तमं प्रदर्शनं करोति।

मुक्तस्रोतप्रतिरूपस्य सर्वोच्चः औसतः स्कोरः केवलं ३१.४ अस्ति ।

Gorilla तथा Command-R इत्यादयः केचन मुक्तस्रोतप्रतिमानाः अपि उपकरणप्रतिसादं सर्वथा सम्भालितुं न शक्नुवन्ति, अथवा केवलं कष्टेन एव साधन-आह्वानस्य एकं चक्रं पूर्णं कर्तुं शक्नुवन्ति ।

अग्रे विश्लेषणेन तत् ज्ञातम्मुक्तस्रोतप्रतिमानाः कदा साधनानि आह्वयितुं समयः इति परिचययितुं दुर्बलाः सन्ति, समस्यां शुद्धपाठजननकार्यरूपेण व्यवहरितुं प्राधान्यं ददाति ।

कार्य-आयामात्, बृहत् मॉडल् एकस्मिन्/बहु-उपकरण-आह्वानयोः एक-गोल-उपयोक्तृ-अनुरोधयोः च उत्तमं प्रदर्शनं करोति, परन्तु...बहुपक्षीयसंवादेषु राज्याश्रितकार्येषु च लाभः दुर्बलः भवति。

जीपीटी, क्लाउड्, जेमिनी इत्यादिषु कुटुम्बेषुबहु-उपकरण-आह्वानं बहु-वार्-संवाद-कार्यं च बृहत्तर-माडलस्य अधिक-स्पष्ट-लाभाः सन्ति ।;किन्तुराज्याश्रितकार्येषु लघुमध्यमप्रमाणेषु प्रतिरूपेषु(如GPT-3.5、क्लाउड-3-सोनेट)प्रत्युत बृहत् आदर्शात् श्रेष्ठम् अस्ति(जीपीटी-4、क्लाउड-3-ओपस)उत्तमं प्रदर्शनं कुर्वन्तु。

तदतिरिक्तं सामान्यीकरणं सर्वेषां आदर्शानां कृते प्रमुखा आव्हानं भवति, विशेषतः तेषु परिदृश्येषु येषु सामान्यीकरणार्थं साधनानां आवश्यकता भवति, तथा च समयसम्बद्धानां मापदण्डानां सामान्यीकरणं अपि अतीव कठिनम् अस्ति

दृढतायाः विषये शोधं दर्शयति यत् उपकरणविवरणे, पैरामीटर् सूचना इत्यादिषु परिवर्तनेषु प्रतिरूपस्य संवेदनशीलता बहु भिन्ना भवति, तथा च स्पष्टाः नियमाः न प्राप्यन्ते

कार्यक्षमतायाः दृष्ट्या सशक्ताः आदर्शाः प्रायः अधिकं कार्यकुशलाः भवन्ति, परन्तु अपवादाः सन्ति यथा, क्लाउड् श्रृङ्खलायाः आदर्शानां कार्यक्षमता सामान्यतया जीपीटी इत्यस्मात् श्रेष्ठा भवति ।

संक्षेपेण, वास्तविकजगति जटिलपरस्परक्रियापरिदृश्यानां निवारणाय साधनानां उपयोगं कुर्वन् बृहत्प्रतिमानाः अद्यापि बहवः आव्हानाः सम्मुखीभवन्ति ।

लेखकस्य विषये

ToolSandbox दलस्य सदस्याः एप्पल् इत्यस्य यन्त्रशिक्षणं, आँकडाविज्ञानं, मूलभूतं बृहत् मॉडलं अन्यदलेभ्यः च आगच्छन्ति ।

प्रथमः लेखकः चीनीयः यन्त्रशिक्षणस्य अभियंता अस्तिजियारुई लु, सिङ्घुआ विश्वविद्यालयात् स्नातकपदवीं प्राप्तवान् अध्ययनकाले सः प्रोफेसर झू जुन् इत्यस्य प्रयोगशालायां शोधसहायकरूपेण अपि कार्यं कृतवान् ।

तदनन्तरं लु कार्नेगी मेलोन् विश्वविद्यालयात् यन्त्रशिक्षणविषये स्नातकोत्तरपदवीं प्राप्तवान्, स्नातकपदवीं प्राप्त्वा २०२० तमे वर्षे एप्पल्-संस्थायां सम्मिलितवान् ।

लु सहित, हस्ताक्षरित१२ लेखकानां मध्ये १० लेखकाः चीनदेशीयाः सन्ति, सर्वेषां च प्रतिष्ठितविद्यालयेषु पृष्ठभूमिः अस्ति ।

अस्मिन् मूलभूतस्य बृहत् आदर्शदलस्य प्रमुखः अपि अन्तर्भवतिपाङ्ग रुओमिंग(Ruoming Pang)。

तदतिरिक्तं एकः अभियांत्रिकीनिर्देशकः यः एप्पल्-संस्थायां ८ वर्षाणि यावत् कार्यं कृतवान्बर्नार्ड औमेयरअस्मिन् परियोजनायां अपि भागं गृहीतवान् ।

कागजस्य सम्बोधनम् : १.
https://arxiv.org/abs/2408.04682

समाचारं

परिदृश्ये प्रतिरूपस्य परीक्षणं कुर्वन्तु

जटिलाः अन्तरक्रियापरिदृश्याः अद्यापि एकं आव्हानं वर्तते

लेखकस्य विषये

आमुख

मम सम्पर्कसूचना