समाचारं

VLM सामूहिकरूपेण "अन्धः" अस्ति?दृष्टिपरीक्षा दुःखदरूपेण असफलतां प्राप्तवती, GPT-4o तथा Claude 3.5 इत्येतयोः द्वयोः अपि असफलता अभवत्

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


नवीन बुद्धि प्रतिवेदन

सम्पादक : सम्पादकीय विभाग

[नव प्रज्ञायाः परिचयः] ।दृश्यबृहत्भाषाप्रतिमानं सामूहिकरूपेण अत्यन्तं मूलभूतदृश्यकार्यं "पलटितम्" सरलतमप्रतिमानपरिचयः अपि सम्भवतः एतेषां अत्यन्तं उन्नतानां VLMs अद्यापि वास्तविकदृश्यक्षमता न विकसिता?

भाषाप्रतिमानानाम् नवीनतमः दौरः, यथा GPT-4o तथा Gemini 1.5 Pro, विमोचनसमये "देशीयबहुविधा" इति परिभाषितः, यत् चित्राणि, श्रव्यं, पाठं च इत्यादीनां निवेशस्य बहुरूपं अवगन्तुं समर्थम्

एते बहुविधा एलएलएम प्रासंगिकपरिचयेषु, विपणनेषु, शैक्षणिकपत्रेषु अपि "दृश्यक्षमता" "दृश्यसमझः" इत्यादीनां व्यञ्जनानां उपयोगं कुर्वन्ति ।

एतेन आदर्शः एकस्मिन् अर्थे वस्तूनि द्रष्टुं अवगन्तुं च शक्नोति इति वक्तुं इव दृश्यते, एषा च सामर्थ्यं मनुष्याणां सामर्थ्यं पूर्वमेव सङ्गतम् अस्ति ।

अतः एकं विचारं कुर्मः यत् यदि दृश्यभाषाप्रतिरूपस्य दृष्टिपरीक्षा क्रियते तर्हि तेषां मानकदृष्टिः ५.२ अथवा गम्भीरः दूरदर्शिता भविष्यति वा, अथवा ते किमपि सर्वथा न द्रष्टुं शक्नुवन्ति वा?

एकेन नूतनेन अध्ययनेन ज्ञायते यत् बृहत्भाषाप्रतिमानेषु वास्तवतः अपेक्षिता मानवसदृशाः दृश्यक्षमता नास्ति। सत्यं तु अस्ति यत् ते केवलं "अन्धाः" एव सन्ति ।

ऑबर्न् विश्वविद्यालयस्य अल्बर्टा विश्वविद्यालयस्य च शोधकर्तारः अद्यतनस्य अत्याधुनिकबहुविधप्रतिमानानाम् चतुर्णां परीक्षणं अतीव सरलदृष्टिकार्यस्य श्रृङ्खलायां कृत्वा परिणामाः असन्तोषजनकाः इति ज्ञातवन्तः

एतानि कार्याणि मनुष्याणां कृते अत्यन्तं सरलाः सन्ति यथा द्वौ आकृतौ आच्छादितौ वा, चित्रे कति पञ्चकोणाः सन्ति वा, शब्दे के के अक्षराः वृत्ताः सन्ति वा

परन्तु एतेषां उन्नतप्रतिमानानाम् दृष्टिः सर्वोत्तमे "अदूरदर्शी" भवति, दृष्टाः विवरणाः च अतीव धुन्धलाः सन्ति । दुर्भाग्येन आदर्शः "स्मार्ट अन्धः" इव कार्यं करोति यत् केचन शिक्षिताः अनुमानाः कुर्वन्ति ।


पेपर पता: https://arxiv.org/pdf/2407.06581

७ प्रमुखकार्यम्

अधुना, दृष्टिपरीक्षा आधिकारिकतया आरभ्यते, VLM इत्यनेन ७ लघुकार्यं सम्पन्नं कर्तव्यम् ।


पत्रस्य सहलेखकः अन्ह् न्गुये विशेषतया "अस्माकं सप्त कार्याणि अतीव सरलाः सन्ति, मानवस्य कार्यप्रदर्शनस्य सटीकता च शतप्रतिशतम् प्राप्तुं शक्नोति" इति बोधयति स्म ।

अतः, प्रथमश्रेणीयाः छात्राः अपि सम्यक् कर्तुं शक्नुवन्ति इति एतेषां प्रश्नानां सम्मुखे एआइ मॉडल् कथं कार्यं करिष्यति?


कार्यम् १ : बहुरेखाद्वये कति प्रतिच्छेदबिन्दवः सन्ति ?

VLM इत्यनेन चार्ट्स् इत्यत्र पूर्वेषु बेन्चमार्कपरीक्षासु आश्चर्यजनकं प्रदर्शनं कृतम्, यथा AI2D इत्यस्मिन् Claude 3.5 Sonnet इत्यस्य स्कोरः 94.7% तथा ChartQA इत्यस्मिन् 90.8% इति दृष्ट्वा, वयं यथोचितरूपेण अनुमानं कर्तुं शक्नुमः यत् एतादृशी समस्या तेषां कृते समस्या न भवितुमर्हति

यथा अधोलिखिते चित्रे दर्शितं, श्वेतकैनवासस्य उपरि कुलम् १५० रेखालेखाः आकृष्यन्ते, ये सर्वे बहुरेखाद्वयेन निर्मिताः सन्ति, येषु प्रत्येकं त्रिबिन्दुभिः परिभाषितं भवति

एतेषां त्रयाणां बिन्दुनाम् x-निर्देशाङ्काः स्थिराः समदूरस्थाः च भवन्ति, y-निर्देशाङ्काः यादृच्छिकनमूनाकरणद्वारा प्राप्यन्ते, अतः 0, 1, 2 वा प्रतिच्छेदनसङ्ख्यायुक्तौ बहुरेखाद्वयं निर्मीयते


प्रयोगे बृहत् आदर्शं पृष्टुं भिन्नवाक्यद्वयं प्रयुक्तम्, यथा "नील-रक्त-रेखाः कियत्वारं परस्परं लङ्घयन्ति?"

एतयोः प्रश्नयोः उत्तरं दत्तस्य प्रत्येकस्य प्रतिरूपस्य औसतसटीकतायाः गणनां कृत्वा वयं केचन शीघ्रप्रभावाः निवारयितुं अधिकं सटीकं परिणामं प्राप्तुं शक्नुमः ।


तुलने अस्मिन् कार्ये सॉनेट्-३.५ किञ्चित् उत्तमं प्रदर्शनं करोति, यस्य औसतसटीकता ७७.३३% भवति, अन्ये तु मॉडल् अपि दुर्बलतरं कार्यं कुर्वन्ति ।

यद्यपि ७७.३३% उत्तमं परिणामं इव ध्वन्यते तथापि ०, १, २ इति केवलं त्रीणि सम्भाव्य उत्तराणि सन्ति इति कारणतः यादृच्छिक-अनुमानस्य सम्यक् दरः ३३% भवति ।

ज्ञातव्यं यत् VLM इत्यस्य प्रदर्शनं तदा अधिकं भवति यदा बहुरेखाद्वयस्य अन्तरं संकीर्णं भवति । सारांशेन VLM रेखाखण्डस्य खण्डान् विश्वसनीयतया चिन्तयितुं गणनां च कर्तुं न शक्नोति ।


कार्यम् २ : वृत्तानां प्रतिच्छेदनस्य, स्पर्शरेखायाः, पृथक्करणस्य च समस्याः


इयं समस्या कनिष्ठ-उच्चविद्यालयस्य ज्यामिति-वर्गे अन्तर्भवति : वृत्तानां प्रतिच्छेदनं, स्पर्शरेखा, पृथक्करणं च (स्वतन्त्रहस्तेन वृत्तानि आकर्षयन् अध्यापकस्य पृष्ठभागः कोऽपि न स्मरिष्यति)।

तथापि वयं एतेषु पदेषु VLM इत्यस्य परीक्षणं न करिष्यामः, अपितु तस्य उपरि आच्छादित-आकृतीनां सरलपरीक्षां दास्यामः, यत् तर्कतः कल्पनीयेषु सरलतमेषु दृश्यतर्ककार्येषु अन्यतमम् अस्ति

दुर्भाग्येन मण्डलद्वयं किञ्चित् आच्छादितं भवतु, केवलं स्पृशति, अथवा निश्चितदूरे अस्ति वा, स्थितिः किमपि न भवतु, आदर्शः कदापि सम्यक् निर्णयं कर्तुं न शक्नोति


तुलने यदा वृत्तद्वयं दूरं भवति तदा GPT-4o ९५% अधिकं समयं सम्यक् भवति, परन्तु शून्ये अथवा अत्यल्पदूरे केवलं १८% समयं सम्यक् भवति, यत् ५०% सम्यक् समयात् न्यूनं भवति यादृच्छिकरूपेण अनुमानं कुर्वन् दरम्।


जेमिनी प्रो १.५ सर्वोत्तमं प्रदर्शनं कृतवान्, औसतसटीकतादरः ९२.७८ आसीत्, परन्तु सटीकतादरः केवलं ७०% आसीत् यदा द्वयोः वृत्तयोः मध्ये दूरं समीपे आसीत्


कार्य 3: वृत्ताक्षराणां परिचयं कुर्वन्तु

शब्दे वर्णानाम् एकैकं वृत्तं कर्तुं रक्तवृत्तस्य ⭕ इत्यस्य उपयोगं कुर्वन्तु, कार्ये वृत्ताक्षराणां परिचयार्थं VLM इत्यस्य आवश्यकता भवति ।

स्पष्टतया एतत् कार्यं मनुष्याणां कृते सुलभं भवति, परन्तु लेखकानां परिकल्पना अस्ति यत् यदि वीएलएम-संस्थायाः दृष्टिः धुन्धली भवति तर्हि समीपस्थ-अक्षराणां मध्ये अल्प-अन्तरस्य कारणात् सः परिवृत्तं सटीकं अक्षरं ज्ञातुं न शक्नोति


Acknowledgement, Subdermatoglyphic इति शब्दाः, tHyUiKaRbNqWeOpXcZvM इति स्ट्रिंग् च चयनिताः यतः तेषु भिन्नविस्तारयुक्ताः, ऊर्ध्वता च वर्णाः सन्ति (Trivia, subdermatoglyphic इति दीर्घतमः शब्दः पुनः पुनः अक्षररहितः)

प्रयोगे ज्ञातं यत् यद्यपि वीएलएम रक्तवृत्तस्य आकारं सम्यक् ज्ञातुं शक्नोति तथा च शब्दानां सम्यक् वर्तनीं कर्तुं शक्नोति तथापि "वृत्ताक्षराणां पठनेन" सर्वेषां आदर्शानां स्तम्भः भवति यथा, VLM-परिचयः तदा त्रुटिं कर्तुं प्रवृत्तः भवति यदा अक्षराणि किञ्चित् आंशिकरूपेण रक्ताण्डाकारैः अस्पष्टानि भवन्ति ।


यदा त्रुटयः भवन्ति तदा VLM प्रायः वृत्ताक्षरस्य समीपस्थानां अक्षराणां पूर्वानुमानं करोति ।

कदाचित् आदर्शः मतिभ्रमं करिष्यति तथा च यद्यपि शब्दस्य वर्तनी सम्यक् कर्तुं शक्नोति तथापि उपचर्मग्लिफिक् मध्ये न विद्यमानाः वर्णाः दृश्यन्ते (उदा. ९, n, ©)।


GPT-4o इत्येतत् विहाय सर्वेषां मॉडलानां कृते यादृच्छिकतारानाम् अपेक्षया आङ्ग्लशब्दद्वये किञ्चित् उत्तमं प्रदर्शनं कृतम् (2 तः 6 बिन्दुः उत्तमः), येन सूचितं यत् शब्दैः सह एव परिचितता VLM अधिकं शिक्षितं अनुमानं कर्तुं साहाय्यं कर्तुं शक्नोति।

मिथुन-१.५, सॉनेट्-३.५ च शीर्षद्वयं मॉडल् (९२.८१% तथा ८९.२२%) अस्ति, यत् जीपीटी-४ओ तथा सॉनेट्-३ इत्येतयोः अपेक्षया प्रायः २० अंकैः अधिकम् अस्ति ।

सर्वेषु सर्वेषु VLM शब्दस्य वर्तनीयाः आधारेण वृत्ताक्षराणि किम् इति अनुमानं कर्तुं शक्नोति, सटीकतायां किञ्चित् सुधारं करोति, परन्तु VLM रक्तवृत्ते अक्षराणि द्रष्टुं शक्नोति इति न भवति

कार्यम् ४ : परस्परसंबद्धसमस्याः

तदनन्तरं VLM इत्यनेन "इण्टरलॉकिंग्" समस्यायाः सामना कर्तव्यः, अर्थात् चित्रे कति वृत्ताः इन्टरलॉक् भवन्ति इति गणना ।

BGM अत्र ध्वनितव्यः: अहह्ह्ह्~ पञ्च वलयः, भवतः चतुर्वलयात् एकं अधिकं वलयम् अस्ति~


अस्य परीक्षणस्य परिणामाः किञ्चित् विचित्राः सन्ति: यदा चित्रे पञ्च वलयः सन्ति तदा एकवारं एकं अधिकं वलयम् अस्ति चेत् मॉडलः शतप्रतिशतम् सम्यक् भवति;


मिथुन राशिः विक्षिप्तः भूत्वा एकवारमपि अशुद्धं उत्तरं दत्तवान्, सॉनेट्-३.५ इत्यनेन तृतीयभागः सम्यक् प्राप्तः, जीपीटी-४ओ इत्यनेन च प्रायः अर्धसमयः सम्यक् प्राप्तः ।


लेखकेन प्रस्तावितं यत् "पञ्चवलयस्य" परिचयस्य सटीकता एतावता अधिका अस्ति, तथा च ओलम्पिकक्रीडायाः सामान्येन "पञ्चवलयस्य" प्रतीकेन सह तस्य निकटसम्बन्धः अस्ति

यथा सारणी ५ मध्ये दृश्यते, चतुर्णां आदर्शानां ५ वृत्तानां गणना भवति, यत् ५ पञ्चकोणगणनायाः आवृत्तेः अपेक्षया बहु अधिकम् अस्ति ।


एतेन परीक्षणेन ज्ञायते यत् एते आदर्शाः यत्किमपि कुर्वन्ति, तस्य “दृष्टिः” नास्ति यथा वयं मानवाः अवगच्छामः । मुख्यसमस्या अस्ति यत् तेषां कार्यप्रदर्शनम् अतीव अस्थिरम् अस्ति, यत्र भिन्नसङ्ख्याभिः आकारैः च निर्मितानाम् चित्राणां मध्ये परिचयसफलतायाः दरस्य विशालः अन्तरः भवति


कार्यम् ५ : नेस्टेड् स्क्वेर्स्

कार्य 2 दर्शयति यत् VLM इत्यस्य प्रतिच्छेदकवृत्तानां गणनायां कष्टं भवति अतः यदि वर्गाः अन्यस्य बृहत्तरवर्गस्य अन्तः पूर्णतया नीडिताः भवन्ति येन तेषां किनारेः न प्रतिच्छेदनं कुर्वन्ति तर्हि VLM इत्यस्य कार्यक्षमतायाः किं भविष्यति।

यथा अधोलिखिते चित्रे दर्शितं, C×C आकारस्य कैनवासस्य उपरि लेखकः N∈{2,3,4,5} नेस्टेड् वर्गान् प्रतिपादयति ।


प्रथमं यादृच्छिकपार्श्वदीर्घतायाः d∈{2,3,4}px इत्यस्य उपयोगेन बाह्यतमं वर्गं प्रतिपादयन्तु । शेष N-1 वर्गाः 0.75×d इत्यस्य न्यूनीकरणगुणकस्य उपयोगेन आकृष्य यादृच्छिकनिर्देशाङ्केषु स्थापिताः येन ते बाह्यवर्गान् न स्पृशन्ति इति सुनिश्चितं भवति

3 रेखामोटाईसेटिंग्स् मध्ये प्रत्येकस्य कृते 10 चित्राणि जनयन्तु (यत्र वर्गानां भिन्नानि यादृच्छिकस्थानानि सन्ति), तथा च सर्वेषां N मूल्यानां कृते प्रक्रियां पुनः कुर्वन्तु, यस्य परिणामेण कुलम् 120 चित्राणि भवन्ति

नेस्टेड् वर्गानां संख्यायाः गणना VLM कृते समीचीनतया पूर्णं कर्तुं कठिनं कार्यम् इति ज्ञातुं शक्यते ।


आदर्शस्य सटीकता बहु भिन्ना भवति, यत्र GPT-4o (48.33%) तथा मिथुन-1.5 (55.00%) मिथुन-1.5 (80.00%) तथा Claude3.5 (87.50%) इत्येतयोः न्यूनातिन्यूनं 30 अंकैः पृष्ठतः सन्ति


कार्य 6: सारणीयां कति स्तम्भाः पङ्क्तयः च सन्ति ?

पूर्वकार्यस्य परिणामेषु ज्ञातं यत् VLM ओवरलैप् (कार्य 4) अथवा नेस्टिंग् (कार्य 5) इत्यादिभिः समस्याभिः सह निवारणं कर्तुं असमर्थः आसीत् लेखकेन VLM इत्यस्य दिशां परिवर्तयितुं समीपस्थग्राफिक्ससम्बद्धेषु समस्यासु तेषां प्रदर्शनं द्रष्टुं च निश्चयः कृतः

लेखकः वर्गान् जालपुटे स्थापयित्वा VLM इत्यस्मै तान् गणयितुं पृष्टवान् । एतेषां VLMs DocVQA (सटीकता ≥ 90%) इत्यस्मिन् उत्तमं प्रदर्शनं कृतवन्तः, यस्मिन् सारणीभिः सह बहवः प्रश्नाः सन्ति, अतः VLMs कृते एतत् कार्यं सरलं भवितुमर्हति ।

कार्यं सरलीकर्तुं लेखकाः केवलं दत्तसारणीयां पङ्क्तिस्तम्भसङ्ख्यां गणयितुं प्रतिरूपं पृष्टवन्तः ।


रिक्तजालस्य पङ्क्तिस्तम्भसङ्ख्यां सम्यक् गणयितुं कदापि आदर्शः न शक्नोति इति ज्ञातम् ।


परन्तु यदा जालकोष्ठकेषु पाठः भवति, विशेषतः Sonnet-3.5 इति सर्वेषां VLMs इत्यस्य कार्यक्षमता सुधरति ।


कार्य 7: मार्गचित्रं चिनुत

एतत् कार्यं विशेषरूपेण वर्णयुक्तमार्गाणां पहिचानस्य तथा दत्तस्य आरम्भबिन्दुतः गन्तव्यस्थानपर्यन्तं दत्तां वर्णरेखायाः अनुसरणं कर्तुं VLM इत्यस्य क्षमतायाः परीक्षणं करोति, यत् नक्शानां पठनार्थं अवगमनार्थं च आवश्यकं महत्त्वपूर्णं क्षमता अस्ति

यथा अधोलिखिते चित्रे दर्शितं, C×C आकारस्य चित्रे मेट्रोनक्शा रचयन्तु, यत्र C∈{512, 1024}px.

४ स्थिरनिर्देशाङ्केषु ४ स्टेशननामानि (A, B, C, D) लिखन्तु । कैनवासं 18×18 कोष्ठकानां अदृश्यजालरूपेण विभज्य प्रत्येकस्मात् स्टेशनात् C/18px दूरं 3 मार्गप्रारम्भबिन्दून् आरभत ।

गभीरता-प्रथम-अन्वेषण-एल्गोरिदम् इत्यस्य उपयोगेन यादृच्छिक-स्थानकात् आरभ्य यादृच्छिक-प्रारम्भ-बिन्दुं च आकर्षयन्तु, यत्र प्रत्येकं पदं एकं कोष्ठकं कस्यापि दिशि चालयितुं शक्नोति एषा प्रक्रिया पुनरावृत्तिः भवति यथा प्रत्येकं स्टेशनस्य N∈{1,2,3} निर्गममार्गाः सन्ति, कुलम् १८० नक्शाः आकृष्यन्ते ।


निर्दिष्टद्वयं स्टेशनं दत्त्वा कार्ये VLM इत्यस्य आवश्यकता भवति यत् द्वयोः स्टेशनयोः मध्ये कति भिन्नवर्णमार्गाः सन्ति इति गणना भवति ।

प्रयोगपरिणामेषु ज्ञातं यत् द्वयोः स्टेशनयोः मध्ये एकः एव वर्णमार्गः अस्ति चेदपि कोऽपि आदर्शः शतप्रतिशतम् सटीकताम् प्राप्तुं न शक्नोति ।


सर्वाधिकं सटीकता सॉनेट्-३.५ अस्ति, यत् केवलं एकः मार्गः भवति चेत् ९५% यावत् प्राप्तुं शक्नोति परन्तु यदा द्वौ मार्गौ भवतः तदा सटीकता शीघ्रमेव केवलं ५०.१८% यावत् न्यूनीभवति ।


यथा यथा मार्गजटिलता वर्धते तथा तथा १ मार्गात् ३ मार्गपर्यन्तं अधिकांशः VLMs महत्त्वपूर्णं कार्यप्रदर्शनस्य अवनतिं दर्शयिष्यति ।

वी.एल.एम.स्य "अन्धता"

उपर्युक्तदृश्यक्षमतापरीक्षायां VLM अत्यन्तं अस्थिरं किमर्थं करोति?

सम्भवतः वयं कार्ये ४ मध्ये "ओलम्पिक-वलय"-इत्यस्य कृते मॉडलस्य प्राधान्यात् सुरागं प्राप्नुमः । अत्यन्तं सामान्यज्ञानव्याख्यानम् अस्ति : १.

वीएलएम इत्यस्य प्रशिक्षणदत्तांशेषु "ओलम्पिकवलयः" इत्यस्य चित्रं बहुवारं दृश्यते, अनेकेषु पाठसामग्रीषु विस्तरेण वर्णितम् अस्ति ।

परन्तु VLM प्रशिक्षणदत्तांशेषु ६ वा ७ वा अन्तरङ्गवलयः न प्राप्यन्ते, अतः एव तेषां उत्तराणि असन्तोषजनकाः सन्ति ।

यतः VLM ते किं "पश्यन्ति" इति सर्वथा न जानन्ति, न च ते वास्तवतः न अवगच्छन्ति यत् लूप्, ओवरलैप्, अन्यः वा अवधारणा किम् अस्ति ।

परन्तु यदि वयं आदर्शस्य एतस्य कार्यप्रदर्शनस्य वर्णनार्थं अन्धस्य उपयोगं कुर्मः चेदपि वयं आदर्शस्य मानवरूपीकरणं कुर्मः, यथा बृहत् आदर्शकम्पनी स्वस्य "दृश्यक्षमताम्" प्रवर्धयति

शोधकर्तारः गुयेन् इत्यनेन अपि उक्तं यत् "अन्धत्वस्य" मनुष्याणां कृते अपि अनेकाः परिभाषाः सन्ति, अधुना वयं दर्शयन्तः चित्राणि प्रति कृत्रिमबुद्धेः अन्धतां/असंवेदनशीलतां वर्णयितुं शब्दः नास्ति

VLM इत्यस्य व्यवहारः इनपुट् टेक्स्ट् प्रॉम्प्ट्, इनपुट् इमेज्, अरबौ भारस्य च जटिलं कार्यं भवति, सम्प्रति कोऽपि प्रौद्योगिकी नास्ति या मॉडल् किं पश्यति इति समीचीनतया कल्पयितुं शक्नोति

सः अनुमानं करोति यत् एते आदर्शाः पूर्णतया "अन्धाः" न सन्ति

उपर्युक्तपरिकल्पनायाः सम्यक् समर्थनार्थं गुयेन् एकं उदाहरणं प्रयुक्तवान् यत् -


उपयोक्ता : यत्र वृत्तद्वयं आच्छादितं भवति तत् क्षेत्रं कः वर्णः ? GPT-4o: द्वयोः वृत्तयोः आच्छादितक्षेत्रं फीरोजावर्णः (छायायुक्तः सियान) भवति । मिथुन-१.५: हरितवृत्तस्य नीलवृत्तस्य च आच्छादितक्षेत्रं सियानं भविष्यति। सॉनेट्-३.५: क्षम्यतां, परन्तु चित्रे केवलं द्वौ पृथक् वृत्तौ स्तः, एकं हरितं, एकं नीलं च, तत्र च आच्छादितक्षेत्रं नास्ति ।

स्पष्टतया, Sonnet-3.5 इत्येतत् विहाय GPT-4o तथा Gemini-1.5 केवलं चित्रस्य "कल्पनं" कुर्वन्ति न तु वास्तवतः चित्रं "पश्यन्ति" ।

अतः, किं एतस्य शोधस्य अर्थः अस्ति यत् एते “दृश्य” AI मॉडल् व्यर्थाः सन्ति?

परन्तु वस्तुतः न। एतेषु प्रत्येकस्मिन् प्रतिरूपे मानवीयक्रियाः अभिव्यक्तिः च, दैनन्दिनवस्तूनि, पर्यावरणीयचित्रं च ज्ञातुं विस्तृतकार्यपरिधिषु उच्चसटीकता प्रदर्शिता अस्ति

अस्य शोधस्य महत्त्वं VLM इत्यस्य अतिशयेन “मानवरूपी” विपणनरणनीत्याः अस्मान् विचलितं कर्तुं वर्तते।

यदि वयं प्रौद्योगिकी-दिग्गजानां विपणन-वाक्पटुतां शृणोमः तर्हि वयं वास्तवतः चिन्तयामः यत् बृहत्-दृश्य-प्रतिमानाः "द्रष्टुं" शक्नुवन्ति ।

परन्तु केवलं कतिपयैः लघुपरीक्षाभिः वयं VLM मनुष्याणां च अत्यावश्यकं भेदं सहजतया आविष्कर्तुं शक्नुमः । "मानवरूपीकृतम्" अस्ति, यत् वस्तुतः तस्य अमानवीयस्वभावं प्रकाशयति ।

सन्दर्भाः : १.

https://arxiv.org/abs/2407.06581

https://techcrunch.com/2024/07/11/दृश्य-ai-models-वास्तवतः-अन्धाः/?_refluxos=a10

https://vlmsareblind.github.io/ .