समाचारं

"Embodied Smart Town" अत्र अस्ति! रोबोट् सुपरमार्केट् गत्वा किराणां वस्तूनि क्रीत्वा वीथिषु धावन्ति, शाङ्घाई ए.आइ

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

मिङ्ग्मिन् आओफेइ मन्दिरात् आगच्छति
Qubits |.सार्वजनिक खाता QbitAI

अतिवास्तविकं रोबोट्-नगरं अत्र अस्ति!

अत्र रोबोट् मनुष्याणां इव सुपरमार्केट्-मध्ये शॉपिङ्गं कर्तुं शक्नुवन्ति :



किराणां क्रयणं गृहे पाकं च : १.



कार्यालये काफीं उद्धृत्य (भवतः पार्श्वे मानवसहकारिभिः सह):



न केवलं मानवरूपिणः रोबोट्, अपितु रोबोट् श्वाः, बाहुरोबोट् च अस्मिन् "नगरे" स्वतन्त्रतया शटलं कर्तुं शक्नुवन्ति ।



इदं प्रथमं अनुकरणीयं अन्तरक्रियाशीलं 3D विश्वं यत् अद्यतने शङ्घाई एआइ प्रयोगशालाद्वारा प्रस्तावितं अस्ति:GRUtopia(चीनी नाम: ताओयुआन)।

अत्र पर्यन्तम्१००kअन्तरक्रियाशीलाः, सूक्ष्मतया टिप्पणीकृताः दृश्याः स्वतन्त्रतया यथार्थनगरीयवातावरणेषु संयोजिताः भवन्ति ।

अन्तः बहिः च, भोजनालयाः, सुपरमार्केट्, कार्यालयाः, गृहाणि इत्यादयः समाविष्टाः।८९विभिन्न दृश्यवर्ग।



बृहत् मॉडल चालित एनपीसी, अस्मिन् जगति रोबोट्-सहितं वार्तालापं कर्तुं, संवादं कर्तुं च शक्नुथ ।



एवं प्रकारेण विभिन्नाः रोबोट् आभासीनगरे विविधाः व्यवहारानुकरणं सम्पूर्णं कर्तुं शक्नुवन्ति, यः सद्यः लोकप्रियः Sim2Real मार्गः अस्ति, यः मूर्तबुद्धिमान् वास्तविक-विश्वस्य आँकडानां संग्रहणस्य कठिनतां व्ययञ्च बहुधा न्यूनीकर्तुं शक्नोति

परियोजना मुक्तस्रोतस्य योजनां करोति, तथा च वर्तमानकाले GitHub इत्यत्र एकं प्रदर्शनं संस्थापनमार्गदर्शकं उपलभ्यते ।

सफलस्थापनानन्तरं, भवान् प्रदर्शने कक्षे गन्तुं मानवरूपं रोबोट् नियन्त्रयितुं शक्नोति, तथा च भिन्नदृश्यकोणानां समायोजनस्य समर्थनं कर्तुं शक्नोति ।



रोबोट्-इत्यस्य कृते आभासी-स्वर्गः

अत्र त्रीणि मूलकार्याणि सन्ति- १.

  • GRScenes
  • जीआररेसिडेंट्स
  • जीआरबेन्च

तेषु GRScenes इति बृहत्-परिमाणस्य दृश्यदत्तांशं युक्तः दत्तांशसमूहः अस्ति ।

एतत् वातावरणानां परिधिं बहु विस्तारयति यस्मिन् रोबोट्-इत्येतत् गन्तुं, कार्यं च कर्तुं शक्यते पूर्वकार्यं गृहदृश्येषु अधिकं केन्द्रितम् आसीत् ।

अध्ययनेन उक्तं यत् तेषां लक्ष्यं सामान्यप्रयोजनस्य रोबोट्-क्षमतां विविधसेवापरिदृश्येषु विस्तारयितुं वर्तते, यथा सुपरमार्केट्, चिकित्सालयादिषु अत्र मनोरञ्जनपार्काः, संग्रहालयाः, प्रदर्शनीभवनानि इत्यादयः आन्तरिकबाह्यवातावरणानि अपि अत्र सन्ति ।

प्रत्येकस्य दृश्यस्य कृते ते विस्तृतं उच्चगुणवत्तायुक्तं च प्रतिरूपणं कृतवन्तः, १०० दृश्येषु ९६ वर्गेषु २९५६ अन्तरक्रियाशीलवस्तूनि २२००१ अपरस्परक्रियाशीलवस्तूनि च आसन्



जीआररेसिडेंट्स् इति एनपीसी-प्रणाली अस्ति ।

अनुकरणीयवातावरणे दृश्यसूचनायाः विषये अतीव ज्ञात्वा बृहत् मॉडलैः चालितं भवति । अतः एनपीसी वस्तुनां मध्ये स्थानिकसम्बन्धानां अनुमानं कर्तुं शक्नुवन्ति तथा च गतिशीलवार्तालापेषु कार्यनिर्देशेषु च भागं ग्रहीतुं शक्नुवन्ति ।

अस्याः प्रणाल्याः साहाय्येन GRUtopia रोबोट्-इत्यस्य पूर्णतायै बहुधा दृश्यकार्यं जनयितुं शक्नोति ।



मनुष्यैः सह पार-सत्यापनस्य माध्यमेन एनपीसी-प्रणाल्याः वस्तुनां वर्णने, स्थाननिर्धारणे च उत्तमः सटीकता भवति ।

वर्णनप्रयोगे एनपीसी-प्रणाली वर्णयितुं वस्तुं यादृच्छिकरूपेण चिनोतु यदि मनुष्याः तत्सम्बद्धं वस्तु अन्वेष्टुं शक्नुवन्ति तर्हि तत् सफलं मन्यते ।

स्थितिनिर्धारणप्रयोगे तस्य विपरीतमेव भवति यदि एनपीसी-प्रणाली मनुष्यैः दत्तस्य वर्णनस्य आधारेण तत्सम्बद्धं वस्तु अन्वेष्टुं शक्नोति तर्हि सा सफला भविष्यति ।



भिन्न-भिन्न-बृहत्-माडल-आह्वानस्य सफलता-दराः भिन्नाः सन्ति समग्रतया, GPT-4o सर्वोत्तम-प्रदर्शनं करोति ।



GRBench एकः बेन्चमार्कः अस्ति यः मूर्तबुद्धिप्रदर्शनस्य मूल्याङ्कनं करोति ।

अस्मिन् ३ बेन्चमार्काः सन्ति, येषु Object Loco-Navigation, Social Loco-Navigation तथा Loco-Manipulation इत्येतयोः समावेशः अस्ति ।



एनपीसी तथा नियन्त्रण एपीआई इत्यस्य कार्यप्रदर्शनस्य विश्लेषणार्थं अध्ययनेन आधाररेखायाः डिजाइनस्य तर्कसंगततायाः सत्यापनार्थं एलएलएम तथा वीएलएम इत्येतयोः आधारेण आधाररेखा प्रस्ताविता अस्ति



प्रयोगात्मकपरिणामाः दर्शयन्ति यत् बृहत्प्रतिमानानाम् उपयोगः बैकएण्ड् एजेण्ट् इत्यस्य रूपेण सर्वेषु बेन्चमार्केषु यादृच्छिकरणनीतीनां तुलने उत्तमं प्रदर्शनं करोति ।

तथासंवादे Qwen-VL GPT-4o इत्यस्मात् अधिकं प्रदर्शनं करोति



अन्तिमतुलने अन्ये GRUtopia मञ्चाः प्रत्येकस्मिन् आयामे अधिकं शक्तिशालिनः सन्ति ।



अस्य शोधकार्यस्य नेतृत्वं शङ्घाई आर्टिफिशियल इन्टेलिजेन्स लैबोरेटरी ओपनरोबोट् लैब् इत्यनेन कृतम् ।

प्रयोगशाला मूर्तसामान्यकृत्रिमबुद्धेः अनुसन्धानं प्रति केन्द्रितः अस्ति तथा च सॉफ्टवेयर, हार्डवेयर, आभासीयवास्तविकता, वास्तविकता च एकीकृत्य सामान्यरोबोट् एल्गोरिदम् प्रणालीं निर्मातुं प्रतिबद्धा अस्ति

अस्मिन् वर्षे मेमासे दलेन Grounded 3D-LLM इति मूर्तरूपं बहु-मोडल-बृहत्-प्रतिरूपम् अपि प्रकाशितम्, यत् स्वयमेव दृश्य-विवरणं तथा वस्तुभ्यः स्थानीयक्षेत्रेभ्यः मूर्त-संवाद-दत्तांशं जनयितुं शक्नोति, यत् वर्तमान-त्रि-आयामी-दृश्य-अवगमनस्य सीमां प्रभावीरूपेण न्यूनीकरोति



कागजस्य सम्बोधनम् : १.
https://arxiv.org/abs/2407.10943

गिटहब पता : १.
https://github.com/openrobotlab/grutopia?tab=पठमे-ओव-सञ्चिका