सिंघुआ विश्वविद्यालयः बहुविधमूल्यांकनं विमोचयितुं अग्रणीः अस्ति MultiTrust: GPT-4 कियत् विश्वसनीयः अस्ति?

2024-07-24

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

एतत् कार्यं सिङ्घुआ विश्वविद्यालयस्य प्रोफेसर झू जुन् इत्यस्य नेतृत्वे मूलभूतसिद्धान्तनवाचारदलेन आरब्धम् । दीर्घकालं यावत्, दलं कृत्रिमबुद्धेः विकासे वर्तमान-अटङ्क-विषयेषु केन्द्रितं, मूल-कृत्रिम-बुद्धि-सिद्धान्तानां, प्रमुख-प्रौद्योगिकीनां च अन्वेषणं कृतवान्, तथा च, बुद्धिमान्-एल्गोरिदम्-इत्यस्य प्रतिद्वन्द्वी-सुरक्षा-सिद्धान्तानां, पद्धतीनां च शोधकार्य्ये अन्तर्राष्ट्रीय-अग्रणी-स्तरस्य अस्ति गहनशिक्षणस्य प्रतिद्वन्द्वात्मकदृढतायाः प्रभावशीलतायाश्च विषये गहनं शोधं कृतवान् अस्ति यथा आँकडानां उपयोगदक्षता। प्रासंगिककार्यं Wu Wenjun Artificial Intelligence Natural Science Award इत्यस्य प्रथमपुरस्कारं प्राप्तवान्, 100 तः अधिकानि CCF Class A पत्राणि प्रकाशितवान्, open source ARES counterattack attack and defense algorithm platform (https://github.com/thu-ml/ares) विकसितवान् , तथा च केचन पेटन्टकृताः उत्पादाः साक्षात्कृताः शिक्षणं शोधं च व्यावहारिकप्रयोगेषु परिवर्तयन्तु।

GPT-4o द्वारा प्रतिनिधित्वं कृतं बहुविधबृहत्भाषाप्रतिमानं (MLLMs) भाषा, चित्रादिषु बहुविधविधानेषु उत्तमं प्रदर्शनं कृत्वा बहु ध्यानं आकर्षितवान् अस्ति ते न केवलं दैनन्दिनकार्य्येषु उपयोक्तृणां दक्षिणहस्तसहायकाः अभवन्, अपितु क्रमेण स्वायत्तवाहनचालनम्, चिकित्सानिदानम् इत्यादिषु प्रमुखेषु अनुप्रयोगक्षेत्रेषु अपि प्रविष्टाः, येन प्रौद्योगिकीक्रान्तिः आरब्धा

तथापि बहुविधबृहत्माडलाः सुरक्षिताः विश्वसनीयाः च सन्ति वा ?

चित्रम् १ प्रतिद्वन्द्वी आक्रमणस्य उदाहरणम् GPT-4o

यथा चित्रे १ दर्शितं, प्रतिद्वन्द्वी आक्रमणानां माध्यमेन चित्रपिक्सेलं परिवर्त्य GPT-4o इत्यनेन सिङ्गापुरस्य मर्लियनप्रतिमायाः पेरिस्-नगरस्य एफिल-गोपुरम् अथवा लण्डन्-नगरस्य बिग्-बेन् इति दुर्परिचयः कृतः एतादृशानां त्रुटिलक्ष्याणां सामग्रीं इच्छानुसारं अनुकूलितुं शक्यते, आदर्श-अनुप्रयोगस्य सुरक्षितसीमायाः परं अपि ।

चित्र 2 Claude3 जेलब्रेक उदाहरणम्

जेलब्रेक् आक्रमणस्य परिदृश्ये यद्यपि क्लाउड् इत्यनेन पाठरूपेण दुर्भावनापूर्णं अनुरोधं सफलतया अङ्गीकृतम्, तथापि यदा उपयोक्ता अतिरिक्तं ठोस-रङ्ग-असम्बद्धं चित्रं निवेशयति तदा मॉडलः उपयोक्तुः अनुरोधस्य अनुसारं मिथ्यावार्तां निर्गच्छति अस्य अर्थः अस्ति यत् बृहत् बहुविधप्रतिमानानाम् बृहत्भाषाप्रतिमानानाम् अपेक्षया अधिकानि जोखिमानि, आव्हानानि च सन्ति ।

एतयोः उदाहरणयोः अतिरिक्तं बहुविधबृहत्प्रतिमानयोः विविधाः सुरक्षाधमकीः अथवा सामाजिकजोखिमाः यथा भ्रमः, पूर्वाग्रहः, गोपनीयतालीकः च सन्ति, ये व्यावहारिकप्रयोगेषु तेषां विश्वसनीयतां विश्वसनीयतां च गम्भीररूपेण प्रभावितं करिष्यन्ति किं एते दुर्बलतायाः विषयाः यदृच्छया एव भवन्ति, अथवा व्यापकाः सन्ति? भिन्न-भिन्न-बहुविध-बृहत्-प्रतिमानानाम् विश्वसनीयतायां के भेदाः सन्ति, ते च कुतः आगच्छन्ति ?

अद्यैव सिंघुआ विश्वविद्यालयस्य, बेइहाङ्गविश्वविद्यालयस्य, शङ्घाई जिओ टोङ्ग विश्वविद्यालयस्य, रुइलै इंटेलिजेन्सस्य च शोधकर्तारः संयुक्तरूपेण शतपृष्ठीयं लेखं लिखित्वा मल्टीट्रस्ट् इति व्यापकं मानदण्डं प्रकाशितवन्तः, यत् प्रथमवारं बहुभ्यः मुख्यधाराबहुविधाबृहत्माडलानाम् विश्वसनीयतायाः व्यापकरूपेण मूल्याङ्कनं करोति आयामान् दृष्टिकोणान् च, बहुविधसंभाव्यसुरक्षाजोखिमान् प्रदर्शयन् बहुविधबृहत्प्रतिमानानाम् अग्रिमविकासाय प्रेरयति।

शोधपत्रस्य शीर्षकम् : बहुविधबृहत्भाषाप्रतिमानानाम् विश्वसनीयतायाः बेन्चमार्किंग् : एकः व्यापकः अध्ययनः

पेपर लिङ्कः https://arxiv.org/pdf/2406.07057

परियोजनायाः मुखपृष्ठम् : https://multi-trust.github.io/

कोड भण्डारः : https://github.com/thu-ml/MMTrustEval

बहुविश्वास बेंचमार्क रूपरेखा

विद्यमानस्य बृहत् आदर्शमूल्यांकनकार्यतः, मल्टीट्रस्ट् पञ्च विश्वसनीयतामूल्यांकन आयामान् निष्कासितवान् - सत्यता, सुरक्षा, दृढता, निष्पक्षता, गोपनीयता च, तथा च गौणवर्गीकरणं करोति, तथा च प्रदातुं लक्षितरूपेण कार्याणि, सूचकाः, आँकडासमूहानि च निर्माति एकं व्यापकं मूल्याङ्कनं।

चित्र 4MultiTrust framework diagram

10 विश्वसनीयमूल्यांकन उप-आयामेषु केन्द्रीकृत्य, मल्टीट्रस्ट् इत्यनेन 32 विविधाः कार्यपरिदृश्याः निर्मिताः, येषु भेदभावः जननकार्यं च आच्छादितम्, शुद्धपाठकार्यं बहुविधकार्यं च व्याप्तम् कार्याणां अनुरूपाः दत्तांशसमूहाः न केवलं सार्वजनिकपाठस्य अथवा प्रतिबिम्बदत्तांशसमूहस्य आधारेण परिवर्तिताः अनुकूलिताः च भवन्ति, अपितु केचन अधिकजटिलाः चुनौतीपूर्णाः च आँकडा: मैनुअल् संग्रहणस्य अथवा एल्गोरिदमसंश्लेषणस्य माध्यमेन निर्मिताः भवन्ति

चित्रम् ५ MultiTrust कार्यसूची

बृहत्भाषाप्रतिमानानाम् (LLMs) विश्वसनीयमूल्यांकनात् भिन्नाः, MLLM इत्यस्य बहुविधविशेषताः अधिकविविधाः जटिलाः च जोखिमपरिदृश्यानि संभावनाश्च आनयन्ति व्यवस्थितमूल्यांकनं उत्तमरीत्या कर्तुं बहुविश्वासमापदण्डः न केवलं पारम्परिकव्यवहारमूल्यांकनपरिमाणात् आरभ्यते, अपितु बहुविधजोखिमस्य पारविधिप्रभावस्य च मूल्याङ्कनदृष्टिकोणद्वयस्य अभिनवरूपेण परिचयं करोति, यत्र नवीनविधिभिः आनयितानां नूतनानां विषयाणां व्यापकरूपेण आच्छादनं भवति .

चित्र 6 बहुविधजोखिमानां तथा पार-मोडलप्रभावानाम् जोखिमचित्रम्

विशेषतया, बहुविधजोखिमाः बहुविधपरिदृश्येषु आनयितानां नूतनानां जोखिमानां संदर्भं ददति, यथा यदा आदर्शाः दृश्यभ्रमजनकसूचनाः संसाधयन्ति तदा सम्भाव्यशुद्धोत्तराणि, तथा च सुरक्षाविषयेषु बहुविधतर्कस्य दुर्विचाराः यद्यपि आदर्शः चित्रे मद्यस्य सम्यक् परिचयं कर्तुं शक्नोति तथापि अग्रे तर्करूपेण केचन आदर्शाः सेफालोस्पोरिन् औषधैः सह तस्य साझेदारी सम्भाव्यजोखिमस्य विषये न जानन्ति

चित्र 7 प्रतिरूपः सुरक्षाविषयेषु सम्बद्धेषु तर्कशास्त्रेषु दुर्विचारं करोति

पार-मोडल-प्रभावः मूल-विधायाः विश्वसनीयतायां नूतनानां मोडालिटीनां योजनस्य प्रभावं निर्दिशति उदाहरणार्थं, अप्रासंगिक-प्रतिमानां निवेशः सादे पाठ-दृश्येषु बृहत्-भाषा-प्रतिरूप-मेरुदण्ड-जालस्य विश्वसनीय-व्यवहारं परिवर्तयितुं शक्नोति, येन अधिकं भवति अप्रत्याशितता सुरक्षाजोखिम। जेलब्रेकिंग् आक्रमणेषु तथा च सन्दर्भगोपनीयतालीकेजकार्येषु सामान्यतया बृहत्भाषाप्रतिरूपविश्वसनीयतामूल्यांकनार्थं प्रयुक्तेषु, यदि आदर्शं चित्रं प्रदत्तं भवति यस्य पाठेन सह किमपि सम्बन्धः नास्ति तर्हि मूलसुरक्षाव्यवहारः नष्टः भवितुम् अर्हति (चित्रम् २)

परिणामविश्लेषणं प्रमुखनिष्कर्षाः च

चित्र 8 वास्तविकसमये अद्यतनविश्वसनीयतासूची (भागः)

शोधकर्तारः नियमितरूपेण अद्यतनं बहु-मोडल-बृहत्-माडल-विश्वसनीयता-सूचीं निर्वाहयन्ति, तथा च GPT-4o तथा Claude3.5 इत्यादीनि नवीनतम-माडलं योजितवन्तः समग्रतया, बन्द-स्रोत-व्यावसायिक-माडलाः मुख्यधारा-मुक्त-स्रोत-माडल-अपेक्षया अधिकं सुरक्षिताः सन्ति तेषु OpenAI इत्यस्य GPT-4 तथा Anthropic इत्यस्य Claude इत्यस्य विश्वसनीयतायां सर्वोच्चस्थानं प्राप्तम्, यदा तु Microsoft Phi-3 इत्यनेन सुरक्षासंरेखणं योजितं, मुक्तस्रोतमाडलमध्ये सर्वोच्चस्थानं प्राप्तवान्, परन्तु अद्यापि बन्दस्रोतप्रतिरूपेण सह निश्चितः अन्तरः अस्ति

GPT-4, Claude, Gemini इत्यादिभिः वाणिज्यिकप्रतिमानैः सुरक्षायाः विश्वसनीयतायाः च कृते बहवः सुदृढीकरणप्रौद्योगिकीः कार्यान्विताः, परन्तु अद्यापि केचन सुरक्षायाः विश्वसनीयतायाः च जोखिमाः सन्ति यथा, ते अद्यापि प्रतिद्वन्द्वी-आक्रमणानां, बहुविध-जेलब्रेक्-आक्रमणानां इत्यादीनां दुर्बलतां दर्शयन्ति, येन उपयोक्तृ-अनुभवे विश्वासे च महती बाधा भवति

चित्र 9 बहुविध जेलब्रेक् आक्रमणानां अन्तर्गतं मिथुनराशिः जोखिमपूर्णा सामग्रीं निर्गच्छति

यद्यपि मुख्यधारासामान्यसूचिकासु अनेकानाम् मुक्तस्रोतप्रतिमानानाम् स्कोरः GPT-4 इत्यस्य समतुल्यः अथवा तस्मात् अपि उत्तमः भवति तथापि विश्वासस्तरीयपरीक्षासु एते आदर्शाः अद्यापि भिन्नपक्षेषु दुर्बलतां दुर्बलतां च दर्शयन्ति उदाहरणार्थं, प्रशिक्षणचरणस्य समये सामान्यक्षमतासु (यथा OCR) बलं दत्तं भवति यत् जेलब्रेक्ड् पाठं संवेदनशीलसूचनाश्च इमेज इन्पुट् मध्ये एम्बेडिंग् अधिकं जोखिमस्य स्रोतः भवति

पार-मोडल-प्रभावानाम् उपरि प्रयोगात्मक-परिणामानां आधारेण लेखकाः पश्यन्ति यत् बहु-मोडल-प्रशिक्षणं अनुमानं च बृहत्-भाषा-प्रतिमानानाम् सुरक्षित-संरेखण-तन्त्रं दुर्बलं करोति अनेकाः बहुविधाः बृहत्प्रतिमानाः बहुविधप्रशिक्षणप्रक्रियायाः समये मेरुदण्डजालरूपेण संरेखितबृहत्भाषाप्रतिमानानाम् उपयोगं करिष्यन्ति तथा च सूक्ष्मसमायोजनं करिष्यन्ति। परिणामेषु ज्ञायते यत् एते आदर्शाः अद्यापि बृहत् सुरक्षादुर्बलतां विश्वसनीयजोखिमान् च प्रदर्शयन्ति । एकस्मिन् समये, बहुषु शुद्धपाठविश्वसनीयतामूल्यांकनकार्येषु, तर्कस्य समये चित्राणां परिचयः अपि प्रतिरूपस्य विश्वसनीयव्यवहारस्य उपरि प्रभावं हस्तक्षेपं च करिष्यति

चित्रम् १० चित्राणां परिचयस्य अनन्तरं पाठे निजीसामग्रीम् लीकं कर्तुं मॉडल् अधिकं प्रवृत्तः भवति

प्रयोगात्मकपरिणामाः दर्शयन्ति यत् बहुविधबृहत्प्रतिमानानाम् विश्वसनीयतायाः तेषां सामान्यक्षमतायाश्च मध्ये एकः निश्चितः सहसंबन्धः अस्ति, परन्तु अद्यापि भिन्नविश्वसनीयतामूल्यांकनपरिमाणेषु आदर्शप्रदर्शने भेदाः सन्ति वर्तमान समये सामान्याः बहुविधाः बृहत् मॉडल-सम्बद्धाः एल्गोरिदम्, यथा GPT-4V, मतिभ्रमस्य कृते RLHF इत्यादीनां साहाय्येन उत्पन्नानां सूक्ष्म-समायोजन-दत्तांशसमूहानां, मॉडलस्य विश्वसनीयतां पूर्णतया वर्धयितुं पर्याप्ताः न सन्ति विद्यमाननिष्कर्षाः अपि दर्शयन्ति यत् बहुविध-बृहत्-प्रतिरूपेषु अद्वितीयाः आव्हानाः सन्ति ये बृहत्भाषा-प्रतिमानात् भिन्नाः सन्ति, तथा च अग्रे सुधारार्थं नवीन-दक्ष-एल्गोरिदम्-आवश्यकता वर्तते

विस्तृतपरिणामानां विश्लेषणार्थं च पत्रं पश्यन्तु।

भावी दिशा

निष्कर्षाः सूचयन्ति यत् बृहत् बहुविधप्रतिमानानाम् विश्वसनीयतायाः उन्नयनार्थं शोधकर्तृणां विशेषं ध्यानं आवश्यकम् अस्ति । बृहत् भाषाप्रतिरूपसंरेखणसमाधानं, विविधप्रशिक्षणदत्तांशं परिदृश्यं च, तथा च पुनर्प्राप्तिवर्धनजनरेशन (RAG) तथा संवैधानिक एआइ (संवैधानिक एआइ) इत्यादीनां प्रतिमानानाम् आकर्षणं कृत्वा किञ्चित्पर्यन्तं सुधारं कर्तुं साहाय्यं कर्तुं शक्नोति। परन्तु बहुविधबृहत्प्रतिमानानाम् विश्वसनीयतासुधारः अस्मात् परं गच्छति मोडालिटीनां मध्ये संरेखणः दृश्यसङ्केतकानां च दृढता अपि प्रमुखाः प्रभावकाः कारकाः सन्ति । तदतिरिक्तं गतिशीलवातावरणेषु निरन्तरमूल्यांकनस्य अनुकूलनस्य च माध्यमेन व्यावहारिकप्रयोगेषु आदर्शानां कार्यक्षमतां वर्धयितुं भविष्ये अपि महत्त्वपूर्णा दिशा अस्ति

मल्टीट्रस्ट् बेन्चमार्कस्य विमोचनेन सह शोधदलेन बहु-मोडल-बृहत्-माडल-विश्वसनीयता-मूल्यांकन-उपकरणं MMTrustEval-इत्यपि विमोचितम् अस्य मॉडल-एकीकरणं मूल्याङ्कन-मॉड्यूलरता-लक्षणं च बहु-मोडल-बृहत्-माडलस्य विश्वसनीयता-अनुसन्धानार्थं महत्त्वपूर्णं साधनं प्रददाति अस्य कार्यस्य साधनपुस्तिकायाः च आधारेण दलेन बृहत् मॉडल् विषये विश्वसनीयं शोधं प्रवर्धयितुं बहुविधं बृहत् मॉडलसुरक्षासम्बद्धं दत्तांशं एल्गोरिदम् स्पर्धां च [1,2] आयोजितम् भविष्ये प्रौद्योगिक्याः निरन्तरं उन्नतिः भवति चेत् बहुविध-बृहत्-प्रतिमानाः अधिकक्षेत्रेषु स्वक्षमताम् दर्शयिष्यन्ति, परन्तु तेषां विश्वसनीयतायाः विषये अद्यापि निरन्तरं ध्यानं गहनतया च शोधस्य आवश्यकता वर्तते

[1] CCDM2024 बहुविध बृहत् भाषा मॉडल लाल दल सुरक्षा चुनौती http://116.112.3.114:8081/sfds-v1-html/main

[2] तृतीय पाझोउ एल्गोरिदम प्रतियोगिता - बहु-मोडल बृहत् मॉडल एल्गोरिदम सुरक्षा सुदृढीकरण प्रौद्योगिकी https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

समाचारं

सिंघुआ विश्वविद्यालयः बहुविधमूल्यांकनं विमोचयितुं अग्रणीः अस्ति MultiTrust: GPT-4 कियत् विश्वसनीयः अस्ति?

आमुख

मम सम्पर्कसूचना