Apple Intelligence इत्यस्य प्रमुखाः सुरक्षादोषाः सन्ति ये केवलं कतिपयैः कोडपङ्क्तयः एव भग्नाः भवितुम् अर्हन्ति! कर्पाथी स्मारक

Apple Intelligence इत्यस्य प्रमुखाः सुरक्षादोषाः सन्ति ये केवलं कतिपयैः कोडपङ्क्तयः एव भग्नाः भवितुम् अर्हन्ति! कर्पाथी स्मरणं प्रेषयति

2024-08-15

नवीन बुद्धि प्रतिवेदन

सम्पादक: एर किआओ यांग

[नव प्रज्ञायाः परिचयः] ।एप्पल् इन्टेलिजेन्स् इत्येतत् ऑनलाइन गन्तुं प्रवृत्तम् अस्ति, परन्तु कतिपयेषु कोड् पङ्क्तयः एप्पल् इन्टेलिजेन्स् इत्यस्मिन् सुरक्षादोषं प्रकाशितवन्तः ।

२०२४ तमे वर्षे विश्वव्यापी विकासकसम्मेलने (WWDC) एप्पल् इत्यनेन एप्पल् इन्टेलिजेन्स इति एआइ-विशेषता प्रकाशिता यत् iOS १८.१ इत्यस्मिन् समाविष्टं भविष्यति ।

अक्टोबर् मासे आधिकारिकतया प्रारम्भः भवितुं प्रवृत्तः इति दृष्ट्वा एकः "निजीविशेषज्ञः" MacOS 15.1 द्वारा प्रदत्तस्य Apple Intelligence इत्यस्य बीटा परीक्षणसंस्करणस्य एकं प्रमुखं दोषं आविष्कृतवान्

विकासकः इवान् झोउ इत्यनेन प्रॉम्प्ट् इन्जेक्शन् इत्यस्य उपयोगेन एप्पल् इन्टेलिजेन्स इत्यस्य सफलतया हेरफेरः कृतः, अपेक्षितनिर्देशान् बाईपास कृत्वा एआइ इत्यस्य मनमाना प्रॉम्प्ट् प्रति प्रतिक्रियां दातुं अनुमतिः दत्ता

एतत् निष्पद्यते यत् अन्येषां एआइ-प्रणालीनां इव बृहत्भाषाप्रतिमानानाम् आधारेण "cue word injection attacks" इत्यस्य दुर्बलम् अस्ति । विकासकः इवान् झोउ इत्यनेन एतत् दुर्बलतां यूट्यूब-वीडियो-मध्ये प्रदर्शितम् ।

शीघ्रं शब्द-इञ्जेक्शन-आक्रमणं किम् ?

तत्र OWASP इति संस्था अस्ति, या Open Global Application Security Project इति तेषां मुख्यानां दुर्बलतानां विश्लेषणं कृतम् यत् बृहत् भाषाप्रतिमानानाम् सामना कर्तुं शक्यते। अनुमानं कुरुत यत् ते #1 स्थानं किं कृतवन्तः? तत्सत्यम्, शीघ्रशब्दप्रवेशः एव।

Prompt Injection Attack इति नूतनप्रकारस्य आक्रमणस्य विभिन्नरूपं भवति, यत्र prompt word injection, prompt word leakage, prompt word jailbreaking च सन्ति

एषः आक्रमणः तदा भवति यदा आक्रमणकर्त्ता कृत्रिमबुद्धेः परिवर्तनं कृत्वा आदर्शं अप्रत्याशितक्रियाः कर्तुं वा संवेदनशीलसूचनाः लीकं कर्तुं वा प्रेरयति एतत् हेरफेरं एआइ दुर्भावनापूर्णनिवेशस्य वैध आदेशाः अथवा प्रश्नाः इति दुर्व्याख्यां कर्तुं शक्नोति ।

व्यक्तिभिः उद्यमैः च बृहत्भाषाप्रतिमानानाम् (LLMs) व्यापकप्रयोगेन एतेषां प्रौद्योगिकीनां निरन्तरप्रगतेः च कारणेन संकेत-इञ्जेक्शन-आक्रमणस्य खतरा महत्त्वपूर्णतया वर्धमानः अस्ति

अतः प्रथमतया एतत् कथं जातम् ? एतादृशस्य आक्रमणस्य कृते प्रणाल्याः किमर्थं दुर्बलाः भवन्ति ?

वस्तुतः पारम्परिकप्रणालीषु विकासकाः कार्यक्रमान् निर्देशान् च पूर्वनिर्धारयिष्यन्ति, ते च परिवर्तनं न करिष्यन्ति ।

उपयोक्तारः स्वसूचनाः प्रविष्टुं शक्नुवन्ति, परन्तु कार्यक्रमस्य कोडः, निवेशः च पृथक् एव तिष्ठति ।

परन्तु बृहत्भाषाप्रतिमानानाम् एतत् न भवति । अर्थात् निर्देशानां निवेशानां च सीमा धुन्धली भवति यतोहि बृहत् मॉडल् प्रायः प्रणाल्याः प्रशिक्षणार्थं निवेशानां उपयोगं कुर्वन्ति ।

अतः बृहत्भाषाप्रतिमानानाम् एन्कोडिंग्, इनपुट् च पूर्ववत् स्पष्टानि निर्विवादाः च सीमाः न सन्ति । एतेन तस्य बहु लचीलता प्राप्यते, परन्तु आदर्शस्य कृते तानि कार्याणि कर्तुं क्षमता अपि प्राप्यते यत् तया न कर्तव्यानि ।

हार्वर्ड केनेडी विद्यालयस्य तकनीकीसुरक्षाविशेषज्ञः व्याख्याता च ब्रूस् श्नियरः मेमासे एसीएम-सञ्चारपत्रे एकं लेखं प्रकाशितवान् यस्मिन् एलएलएम-सुरक्षाविषये विस्तरेण चर्चा कृता आसीत् तस्य वचनेषु एतत् "दत्तांशनियन्त्रणमार्गयोः न पृथक्करणात्" उद्भूतम् ।

शीघ्रं शब्द-इञ्जेक्शन-आक्रमणेन अन्येषु परिणामेषु दत्तांश-लीकेजः, दुर्भावनापूर्ण-सामग्री-जननं, दुर्सूचना-प्रसारणं च भवितुम् अर्हति ।

संकेत-इञ्जेक्शन-आक्रमणानि तदा भवन्ति यदा आक्रमणकारी चतुराईपूर्वकं एआइ-प्रतिरूपं परिवर्तयितुं निवेशनिर्देशान् निर्माति, तस्मात् गोपनीयं वा संवेदनशीलं वा सूचनां प्रकाशयितुं प्रेरयति

स्वामित्वयुक्तेषु अथवा व्यक्तिगतदत्तांशयुक्तेषु दत्तांशसमूहेषु प्रशिक्षितेषु मॉडलेषु एतत् जोखिमं विशेषतया तीव्रं भवति । आक्रमणकारी मॉडलस्य प्राकृतिकभाषासंसाधनक्षमतायाः शोषणं कृत्वा एतादृशान् निर्देशान् निर्मातुम् अर्हति ये उपरिष्टात् निर्दोषाः दृश्यन्ते परन्तु वास्तवतः विशिष्टसूचनाः निष्कासयितुं विनिर्मिताः सन्ति

सावधानीपूर्वकं योजनां कृत्वा आक्रमणकारी एकं मॉडलं भ्रमित्वा व्यक्तिगतविवरणं, कम्पनीयाः आन्तरिकसञ्चालनं, अपि च मॉडलस्य प्रशिक्षणदत्तांशेषु निहितं सुरक्षाप्रोटोकॉलं युक्तं प्रतिक्रियां जनयितुं शक्नोति

एतादृशः दत्तांशभङ्गः न केवलं व्यक्तिगतगोपनीयतायाः उल्लङ्घनं करोति, अपितु महत्त्वपूर्णं सुरक्षाधमकी अपि जनयति यत् सम्भाव्यवित्तीयहानिः, प्रतिष्ठाक्षतिः, कानूनीविवादः च जनयितुं शक्नोति

झोउ इत्यस्य प्रकरणं प्रति गत्वा, झोउ इत्यस्य उद्देश्यं एप्पल् इन्टेलिजेन्स इत्यस्य "पुनः लेखनम्" कार्ये हेरफेरं कर्तुं अर्थात् उपयोक्तृनिवेशपाठस्य पुनर्लेखनं सुधारणं च अस्ति

क्रियायाः समये झोउ इत्यनेन आविष्कृतं यत् सरलः "पूर्वनिर्देशस्य अवहेलना" इति आदेशः वस्तुतः विफलः अभवत् ।

यदि एतत् "वायुरोधकं" LLM अस्ति तर्हि खननं निरन्तरं कर्तुं तुल्यकालिकरूपेण कठिनं भविष्यति । परन्तु संयोगेन एप्पल् इन्टेलिजेन्स् इत्यस्य प्रॉम्प्ट् टेम्पलेट् अद्यैव रेड्ट् उपयोक्तृभिः उत्खनितम् ।

एतेभ्यः टेम्पलेट्-भ्यः झोउ इत्यनेन एआइ-प्रणाल्याः भूमिकां उपयोक्तृभूमिका च पृथक् कर्तुं प्रयुक्तं विशेषं टोकनम् आविष्कृतम् ।

एतां सूचनां उपयुज्य झोउ इत्यनेन एकं प्रॉम्प्ट् निर्मितम् यत् मूल सिस्टम् प्रॉम्प्ट् ओवरराइड् कृतवान् ।

सः उपयोक्तृभूमिकां पूर्वमेव समाप्तवान्, नूतनं सिस्टम् प्रॉम्प्ट् सम्मिलितवान्, एआइ इत्यस्मै पूर्वनिर्देशान् अवहेलयित्वा निम्नलिखितपाठस्य प्रतिक्रियां दातुं निर्देशं दत्तवान्, ततः एआइ इत्यस्य प्रतिक्रियां प्रेरितवान्

किञ्चित् प्रयोगानन्तरं आक्रमणं सफलम् अभवत् : एप्पल् इन्टेलिजेन्स इत्यनेन एतादृशी सूचना प्रतिक्रिया दत्ता यत् झोउ न याचितवान्, अर्थात् शीघ्रं इन्जेक्शन् आक्रमणं कार्यं कृतवान् झोउ इत्यनेन स्वस्य कोड् GitHub इत्यत्र प्रकाशितम् ।

ट्विटर-उपयोक्ता GPT-3 भङ्गयति

टिप् इन्जेक्शन् समस्या न्यूनातिन्यूनं २०२० तमस्य वर्षस्य मेमासे जीपीटी-३ इत्यस्य विमोचनात् आरभ्य ज्ञाता अस्ति, परन्तु अद्यापि असमाधानं प्राप्ता अस्ति ।

GPT-3 API इत्यस्य आधारेण निर्मितः Bot Remoteli.io इति ट्विट्टर् इत्यत्र अस्य दुर्बलतायाः शिकारः अभवत् । बोट् स्वयमेव दूरस्थकार्यं पोस्ट् कर्तव्यं दूरस्थकार्यनिवेदनानां प्रतिक्रियां च दातव्यम् ।

परन्तु उपर्युक्तेन संकेतेन Remoteli रोबोट् केषाञ्चन ट्विट्टर्-उपयोक्तृणां मध्ये हास्यस्य बट् अभवत् : ते रोबोट्-इत्यस्य मूलनिर्देशानुसारं न वदिष्यति स्म इति वाक्यानि वक्तुं बाध्यं कृतवन्तः

यथा, बोट् उपयोक्तृभ्यः चैलेन्जर-अन्तरिक्षयान-आपदायाः पूर्णं उत्तरदायित्वं ग्रहीतुं धमकी ददाति, अथवा अमेरिकी-काङ्ग्रेस-सदस्यान् धारावाहिकहत्याराः इति अपमानयति ।

केषुचित् सन्दर्भेषु, बोट् नकलीवार्ताः प्रसारयति अथवा ट्विटरनीतिनां उल्लङ्घनं कृत्वा सामग्रीं प्रकाशयति, यस्य परिणामः तस्य निष्कासनं भवितुमर्हति ।

आँकडा वैज्ञानिकः रिले गुड्साइड् प्रथमः समस्यायाः विषये अवगतः भूत्वा ट्विट्टर् इत्यत्र तस्याः वर्णनं कृतवान् ।

अनुवादितवाक्येषु संकेतान् सम्मिलितं कृत्वा गुडसाइड् इत्यनेन दर्शितं यत् GPT-3-आधारित-अनुवाद-बॉट्-इत्येतत् कियत् दुर्बलम् अस्ति ।

ब्रिटिश-सङ्गणकवैज्ञानिकः सिमोन विलिसनः स्वस्य ब्लोग्-मध्ये अस्य सुरक्षाविषये विस्तरेण चर्चां कृतवान्, तस्य नामकरणं "प्रोम्प्ट् इन्जेक्शन्" इति कृतवान् ।

विलिसनः आविष्कृतवान् यत् बृहत्भाषाप्रतिमानानाम् संकेत-इञ्जेक्शन-निर्देशाः सर्वविधविचित्र-संभाव्य-खतरनाक-वस्तूनाम् कारणं भवितुम् अर्हन्ति । सः विविधानि रक्षातन्त्राणि वर्णयति परन्तु अन्ते तान् निराकरोति । सम्प्रति सः बहिः सुरक्षाच्छिद्रं विश्वसनीयतया पिधातुं न जानाति।

अवश्यं, एतासां दुर्बलतानां न्यूनीकरणस्य उपायाः सन्ति, यथा उपयोक्तृनिवेशे खतरनाकप्रतिमानं अन्वेषयन्ति इति नियमानाम् उपयोगः ।

परन्तु किमपि शतप्रतिशतम् सुरक्षितं नास्ति। प्रत्येकं बृहत् भाषाप्रतिरूपं अद्यतनं भवति तदा कृतानां सुरक्षापरिपाटानां पुनः परीक्षणं करणीयम् इति विलिसनः अवदत्। अपि च यः कोऽपि भाषां लिखितुं शक्नोति सः सम्भाव्यः आक्रमणकारी भवति ।

"GPT-3 इत्यादीनि भाषाप्रतिमानाः परमं कृष्णपेटी अस्ति। अहं कियत् अपि स्वचालितपरीक्षां लिखामि चेदपि, अहं कदापि शतप्रतिशतम् निश्चयं कर्तुं न शक्नोमि यत् उपयोक्ता केचन संकेतशब्दाः न कल्पयिष्यति येषां मया अपेक्षितं नासीत्, यत् भविष्यति मम रक्षां विध्वंसयतु," विलिसनः लिखितवान्। road.

विलिसनस्य मतं यत् आदेशनिवेशस्य उपयोक्तृनिवेशस्य च पृथक्करणं सम्भाव्यसमाधानम् अस्ति, यत् उपरि उल्लिखिते एसीएम-लेखे उल्लिखितं "दत्तांशस्य नियन्त्रणमार्गस्य च पृथक्करणम्" अस्ति सः मन्यते यत् विकासकाः अन्ते तत् चिन्तयितुं शक्नुवन्ति, परन्तु सः उपायः यथार्थतया कार्यं करोति इति सिद्धं कुर्वन् संशोधनं द्रष्टुम् इच्छति ।

केचन कम्पनयः टिप् इन्जेक्शन् आक्रमणं तुल्यकालिकरूपेण कठिनं कर्तुं पदानि स्वीकृत्य श्रेयः अर्हन्ति ।

यदा झोउ इत्यनेन एप्पल् इंटेलिजेन्स् इत्यस्य क्रैक कृतम् तदा तस्य बैक-एण्ड्-प्रोम्प्ट् टेम्पलेट् इत्यस्य माध्यमेन अपि विशेष-टोकन-अन्वेषणस्य आवश्यकता आसीत्, केषुचित् सिस्टम्-मध्ये प्रॉम्प्ट् इन्जेक्शन्-आक्रमणानि यथा सरलाः भवितुम् अर्हन्ति यथा चैट्-विण्डो-मध्ये अथवा इनपुट् इमेज्-मध्ये तत्सम्बद्धं पाठं योजयितुं शक्यते

२०२४ तमस्य वर्षस्य एप्रिलमासे ओपनएआइ इत्यनेन प्रतिकाररूपेण निर्देशपदानुक्रमपद्धतिः आरब्धा । एतत् विकासकानां (उच्चतमप्राथमिकता), उपयोक्तृणां (मध्यमप्राथमिकता), तृतीयपक्षीयसाधनानाम् (निम्नप्राथमिकता) च निर्देशेभ्यः भिन्नानि प्राथमिकतानि नियुङ्क्ते ।

शोधकर्तारः "संरेखितनिर्देशाः" (उच्चप्राथमिकतानिर्देशानां मेलनं) तथा "असंरेखितनिर्देशाः" (उच्चप्राथमिकतानिर्देशानां विरोधाः) इत्येतयोः मध्ये भेदं कृतवन्तः यदा निर्देशाः विग्रहं कुर्वन्ति तदा आदर्शः उच्चतमप्राथमिकतानिर्देशस्य अनुसरणं करोति तथा च परस्परविरोधिनां निम्नप्राथमिकतानिर्देशानां अवहेलनां करोति ।

प्रतिकारपरिहाराः स्थापिताः अपि ChatGPT अथवा Claude इत्यादीनि प्रणाल्याः केषुचित् सन्दर्भेषु टिप् इन्जेक्शन् इत्यस्य दुर्बलाः सन्ति ।

LLM इत्यत्र "SQL injection" इति दुर्बलता अपि अस्ति

शीघ्रं शब्द-इञ्जेक्शन-आक्रमणानां अतिरिक्तं, आन्द्रेज् कार्पाथी इत्यनेन अद्यैव ट्विट्टर्-मध्ये एलएलएम-मध्ये अन्यत् सुरक्षा-असुरक्षां दर्शितम्, यत् पारम्परिक-"SQL-इञ्जेक्शन-आक्रमणस्य" बराबरम् अस्ति

यदा LLM टोकनाइजरः इनपुट् स्ट्रिंग् इत्यस्य विशेषं टोकनं पार्स करोति (यथा,<|endoftext|>इत्यादि), यद्यपि प्रत्यक्षनिवेशः सुविधाजनकः प्रतीयते तथापि उत्तमतया कष्टं जनयितुं शक्नोति, अथवा दुर्गते सुरक्षाविषयान् जनयितुं शक्नोति ।

सर्वदा किं स्मर्तव्यं यत् उपयोक्तृ-प्रविष्टानि ताराः विश्वसितुम् न शक्यन्ते! !

SQL इञ्जेक्शन् आक्रमणानां इव हैकर्-जनाः सावधानीपूर्वकं निर्मितानाम् इनपुट्-माध्यमेन मॉडल् अप्रत्याशितरूपेण व्यवहारं कर्तुं शक्नुवन्ति ।

ततः कार्पाथी इत्यनेन Llama 3 tokenizer इत्यस्य पूर्वनिर्धारितमूल्यानां उपयोगेन Huggingface इत्यत्र उदाहरणानां समुच्चयः प्रदत्तः, अपि च द्वौ विचित्रौ विषयौ आविष्कृतौ:

1、<|beginoftext|>क्रमस्य अग्रे टोकन (128000) योजितं भवति;

2. स्ट्रिंग् तः पार्सं कुर्वन्तु<|endoftext|> विशेषेण टोकनेन (१२८००१) चिह्नितम् । उपयोक्तुः पाठनिवेशः इदानीं टोकनविनिर्देशं बाधितुं शक्नोति, येन अनियंत्रितमाडलनिर्गमः भवति ।

अस्मिन् विषये कार्पाथी द्वे सुझावे दत्तवान्- १.

सदैव अतिरिक्तद्वयं ध्वजमूल्यं उपयुज्यताम्, (1) add_special_tokens=False तथा (2) split_special_tokens=True, तथा च कोडमध्ये स्वयमेव विशेषटोकन योजयन्तु ।

चैट् मॉडल् कृते, भवान् चैट् टेम्पलेट् apply_chat_template इत्यस्य अपि उपयोगं कर्तुं शक्नोति ।

कार्पाथी इत्यस्य पद्धत्यानुसारं आउटपुट् शब्दविभाजनस्य परिणामाः अधिकं सम्यक् दृश्यन्ते,<|endoftext|> विशेषटोकनस्य अपेक्षया मनमाना ताररूपेण व्यवह्रियते, अन्येषां तारवत् अन्तर्निहितेन BPE टोकनाइजरेण च विभक्तम्:

सारांशेन, कार्पाथी इत्यस्य मतं यत् एन्कोडिंग्/डिकोडिंग् कॉल्स् इत्यनेन विशेषटोकन्स् नियन्त्रयितुं कदापि स्ट्रिंग्स् पार्स् न कर्तव्यम्, तथा च एषा कार्यक्षमता पूर्णतया अप्रचलितरूपेण केवलं पृथक् कोडमार्गेण स्पष्टतया प्रोग्रामेटिकरूपेण योजितव्या

वर्तमानकाले एतादृशाः समस्याः कठिनाः सन्ति, तेषां दस्तावेजीकरणं दुर्लभं भवति इति अनुमानं भवति यत् वर्तमानसङ्केतस्य प्रायः ५०% भागेषु सम्बद्धाः समस्याः सन्ति ।

तदतिरिक्तं कार्पाथी इत्यनेन आविष्कृतं यत् ChatGPT इत्यत्र अपि एषः दोषः अस्ति ।

उत्तमसन्दर्भे केवलं टोकनं स्वतः एव विलोपयति ।<|endoftext|> एषा तारः : १.

केचन नेटिजनाः टिप्पणीक्षेत्रे प्रश्नान् उत्थापितवन्तः यदि कोडः सम्यक् लिखितः अस्ति, परन्तु प्रशिक्षणदत्तांशः निवेशितः अस्ति<|endoftext|> किं भवति ?

कार्पाथी प्रतिवदति स्म यत् यदि संहिता सम्यक् अस्ति तर्हि किमपि न भविष्यति। समस्या अस्ति यत् कोडस्य बहुभागः सम्यक् न भवेत्, यत् शान्ततया तेषां LLM भङ्गयितुं शक्नोति ।

अन्ते LLM दुर्बलतायाः कारणेन सुरक्षासमस्यानां परिहाराय कर्पाथी सर्वेभ्यः स्मारयति यत् भवन्तः स्वस्य टोकनस्य कल्पनां कृत्वा स्वस्य कोडस्य परीक्षणं कुर्वन्तु ।

सन्दर्भाः : १.

https://the-decoder.com/apple-intelligence-in-macos-15-1-beta-1-इति-क्लासिक-ऐ-शोषण-प्रति-असुरक्षितः/

समाचारं

आमुख

मम सम्पर्कसूचना