समाचारं

अलीबाबा मेघ tongyi qianwen qwen2-vl द्वितीय पीढी दृश्य भाषा मॉडल खुला स्रोत

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

आईटी हाउस् इत्यनेन २ सितम्बर् दिनाङ्के ज्ञापितं यत् अलीबाबा क्लाउड् टोङ्गी किआन्वेन् इत्यनेन अद्य द्वितीयपीढीयाः दृश्यभाषायाः मॉडलस्य qwen2-vl इत्यस्य मुक्तस्रोतस्य घोषणा कृता, तथा च 2b तथा 7b इत्यस्य आकारद्वयं तस्य परिमाणितसंस्करणस्य मॉडलं च प्रारब्धम्। तस्मिन् एव काले अलीबाबा क्लाउड् बैलियन मञ्चे प्रमुखमाडलस्य qwen2-vl-72b इत्यस्य एपिआइ प्रक्षेपणं कृतम् अस्ति, उपयोक्तारः प्रत्यक्षतया तत् आह्वयितुं शक्नुवन्ति ।

अलीबाबा क्लाउड् आधिकारिकपरिचयस्य अनुसारं पूर्वपीढीयाः मॉडलस्य तुलने qwen2-vl इत्यस्य मूलभूतप्रदर्शने व्यापकरूपेण सुधारः कृतः अस्ति:

इदं भिन्न-संकल्पानां, आस्पेक्ट-अनुपातानाञ्च चित्राणि अवगन्तुं शक्नोति, docvqa, realworldqa, mtvqa इत्यादिषु बेन्चमार्क-परीक्षासु विश्वस्य अग्रणी-प्रदर्शनं प्राप्तुं शक्नोति;

२० मिनिट् अधिकं दीर्घं विडियो अवगन्तुं, तथा च विडियो-आधारितं प्रश्नोत्तरं, संवादं, सामग्रीनिर्माणं अन्येषां अनुप्रयोगानाम् समर्थनं कुर्वन्तु;

अस्मिन् दृढदृश्यबुद्धिक्षमता अस्ति तथा च जटिलतर्कस्य निर्णयस्य च क्षमतायाः सह qwen2-vl इत्यस्य दृश्यवातावरणस्य पाठनिर्देशानां च आधारेण स्वचालितसञ्चालनं कर्तुं मोबाईलफोनेषु, रोबोट्-इत्यादिषु उपकरणेषु एकीकृत्य स्थापयितुं शक्यते ;

चीनी, आङ्ग्ल, अधिकांशः यूरोपीयभाषा, जापानी, कोरियाई, अरबी, वियतनामी, इत्यादीनि च समाविष्टानि चित्रेषु, भिडियोषु च बहुभाषिकपाठं अवगच्छन्तु।

qwen2-vl vit प्लस् qwen2 इत्यस्य श्रृङ्खलासंरचनां निरन्तरं करोति ।

परन्तु आदर्शं दृश्यसूचनाः गृह्णाति, विडियो अधिकस्पष्टतया अवगन्तुं च, दलेन वास्तुकलायां केचन उन्नयनं कृतम्:

प्रथमं देशीगतिशीलसंकल्पस्य पूर्णसमर्थनं प्राप्यते । पूर्वपीढीयाः मॉडलात् भिन्नं, qwen2-vl कस्यापि रिजोल्यूशनस्य इमेज् इनपुट् सम्भालितुं शक्नोति भिन्न-भिन्न-आकारस्य इमेज् गतिशील-सङ्ख्यायां टोकन-सङ्ख्यायां परिवर्तिता भविष्यति, न्यूनतमं केवलं 4 टोकन-सहितम् । इदं डिजाइनं मानवस्य दृश्यबोधस्य प्राकृतिकमार्गस्य अनुकरणं करोति, आदर्शनिवेशस्य मूलप्रतिबिम्बसूचनायाश्च मध्ये उच्चस्तरीयं स्थिरतां सुनिश्चितं करोति, तथा च आदर्शाय कस्यापि आकारस्य चित्रसंसाधितुं शक्तिशालिनीं क्षमताम् अयच्छति, येन सः चित्रसंसाधनं अधिकलचीलतया कर्तुं शक्नोति तथा च कुशलतया।

द्वितीयं बहु-मोडल-घूर्णन-स्थिति-एम्बेडिंग् (m-rope) पद्धतेः उपयोगः । पारम्परिकं घूर्णनस्थानं एम्बेडिंग् केवलं एक-आयामी-अनुक्रमस्य स्थिति-सूचनाः गृहीतुं शक्नोति विडियो, भाषाप्रतिरूपं शक्तिशालिनः क्षमताः दत्त्वा बहुविधप्रक्रियाकरणं तर्कक्षमता च मॉडल् जटिलबहुविधदत्तांशं अधिकतया अवगन्तुं प्रतिरूपयितुं च अनुमतिं ददाति।

अस्मिन् समये qwen2-vl इत्यनेन मुक्तस्रोतस्य बहुविधमाडलस्य मध्ये प्रमुखस्य मॉडलस्य qwen2-vl-72b इत्यस्य एपिआइ अलीबाबा क्लाउड बैलियन मञ्चे प्रारब्धः अस्ति

तस्मिन् एव काले tongyi qianwen दलेन apache 2.0 प्रोटोकॉलस्य अन्तर्गतं qwen2-vl-2b तथा qwen2-vl-7b इत्येतयोः मुक्तस्रोतस्य कोडः hugging face transformers, vllm इत्यादिषु तृतीयपक्षरूपरेखासु एकीकृतः अस्ति विकासकाः hugging face तथा moda modelscope इत्येतयोः माध्यमेन मॉडल् डाउनलोड् कृत्वा उपयोगं कर्तुं शक्नुवन्ति, अथवा tongyi आधिकारिक वेबसाइट् तथा tongyi app इत्येतयोः मुख्यसंवादपृष्ठस्य माध्यमेन मॉडलस्य उपयोगं कर्तुं शक्नुवन्ति।