मास्टर कार्पाथी : अहं बृहत् मॉडल् कृते "SQL injection" आक्रमणं दत्तवान् तथा च easy

मास्टर कार्पाथी : अहं बृहत् मॉडल् कृते "SQL injection" इति आक्रमणानि दत्तवान्, तत् च सर्वथा सुलभं नासीत्

2024-08-16

मशीन हृदय रिपोर्ट

सम्पादकः - डु वी, जेनन

बृहत्-माडलानाम् अभयस्य विषये “बहु-सुधारस्य स्थानं” इति वक्तुं शक्यते ।

ए.आइ.गुरु आन्द्रेज् कार्पाथी पुनः विज्ञानज्ञानं लोकप्रियं कर्तुं अत्र अस्ति अस्मिन् समये विषयः "" इति ।LLM इत्यत्र SQL इन्जेक्शन्-सदृशानि आक्रमणानि कर्तुं विशेषटोकनस्य उपयोगः」。

तथाकथितं SQL इन्जेक्शन् आक्रमणं नेटवर्क् आक्रमणप्रौद्योगिकी अस्ति । आक्रमणकारी अनुप्रयोगस्य निवेशक्षेत्रेषु सम्मिलितं कृत्वा दुर्भावनापूर्णं SQL कथनानि निष्पादयितुं पृष्ठभागदत्तांशकोशं छलयति । एषः प्रकारः आक्रमणः प्रायः अनुप्रयोगस्य उपयोक्तृनिवेशस्य अनुचितनियन्त्रणस्य शोषणं करोति, यथा निवेशस्य सम्यक् छाननं न वा पलायनं वा, आक्रमणकर्त्रेण दत्तांशकोशे दत्तांशं प्राप्तुं, परिवर्तनं, अथवा विलोपनं अपि कर्तुं शक्यते

जनानां सुरक्षाजागरूकतायाः वर्धमानस्य कारणात् वर्तमानकाले अधिकांशेषु सॉफ्टवेयर-उत्पादेषु SQL-इञ्जेक्शन् न भवेत् ।

परन्तु बृहत् मॉडल्-जगति सर्वं अद्यापि प्रारम्भिकावस्थायां एव अस्ति । LLM टोकनिजरः इनपुट् स्ट्रिंग् मध्ये विशेषटोकन्स् (यथा <|endoftext|> इत्यादयः) पार्सिंग् कर्तुं उत्तरदायी भवति । यद्यपि एतत् सुविधाजनकं प्रतीयते तथापि सर्वोत्तमे दुर्विवेचनं तथा च SQL-इञ्जेक्शन-आक्रमणस्य समकक्षं LLM-सुरक्षा-असुरक्षां दुर्बलतया च जनयितुं शक्नोति ।

अत्र महत्त्वपूर्णं यत् उपयोक्तृनिवेशताराः अविश्वसनीयदत्तांशाः सन्ति ।

SQL injection इत्यस्मिन्, भवान् दुष्टसङ्केतं भङ्गयितुं "DROP TABLE" आक्रमणस्य उपयोगं कर्तुं शक्नोति । LLM इत्यस्मिन् अपि एतादृशी एव समस्या भविष्यति दुष्टसङ्केतः स्ट्रिंग् इत्यस्य विशेषटोकनवर्णकं वास्तविकविशेषटोकनमध्ये विश्लेषणं करिष्यति, येन निवेशप्रतिनिधित्वं भ्रमितं भविष्यति, येन LLM गपशपसारूप्यवितरणं कर्तुं असमर्थः भविष्यति

अधः वर्तमान huggingface Llama 3 tokenizer default इत्यस्य उपयोगेन उदाहरणम् अस्ति ।

यथा भवन्तः पश्यन्ति, एकस्मिन् समये द्वौ अज्ञानात्मकौ परिस्थितौ भवतः -

<|begin_of_text|> टोकनः क्रमस्य अग्रे (128000) योजितः अस्ति
<|end_of_text|> टोकन (128001) स्ट्रिंग् तः विश्लेषितं भवति तथा च विशेषं टोकनं सम्मिलितं भवति । इदानीं पाठः (सम्भवतः उपयोक्तुः) टोकन-प्रोटोकॉल-सहितं भ्रमितः भवितुम् अर्हति तथा च LLM-वितरणं विफलं कर्तुं शक्यते, यस्य परिणामः अपरिभाषितं निर्गमं भवति ।

अतः, कार्पाथी टोकनीकरणक्रियाणां कृते सदैव अतिरिक्तध्वजद्वयस्य उपयोगं कर्तुं, add_special_tokens=False तथा split_special_tokens=True अक्षमीकरणं, कोडमध्ये स्वयमेव विशेषटोकनं योजयितुं च अनुशंसति विकल्पद्वयस्य नामकरणं किञ्चित् भ्रान्तिकं भविष्यति इति सः चिन्तितवान् । गपशपप्रतिरूपस्य कृते, भवान् गपशपसारूप्यस्य apply_chat_template इत्यस्य अपि उपयोगं कर्तुं शक्नोति ।

उपर्युक्तं कृत्वा भवन्तः किमपि अधिकं सम्यक् द्रष्टुं शक्नुवन्ति । यथा <|end_of_text|> इदानीं अन्यस्य स्ट्रिंग्-क्रमस्य इव व्यवह्रियते तथा च अन्येषां स्ट्रिंग्-वत् अन्तर्निहितेन BPE टोकेनिजर्-द्वारा विभक्तं भवति ।

कार्पाथी इत्यस्य मतं यत् एन्कोडिंग्, डिकोडिंग् इत्येतयोः आह्वानैः विशेषटोकन्स् नियन्त्रयितुं कदापि स्ट्रिंग्-पार्स् न कर्तव्यम्, अस्माभिः च एतत् कार्यक्षमतां पूर्णतया अवहेलितव्यम् । अपि तु एतानि केवलं पृथक् कोडमार्गेण स्पष्टतया प्रोग्रामेटिकरूपेण च योजयितव्यानि । tiktoken इत्यस्मिन्, huggingface इत्यस्मिन् सर्वदा encode_ordinary इत्यस्य उपयोगं कुर्वन्तु, उपरि उल्लिखितस्य ध्वजस्य उपयोगः सुरक्षितः भवति । न्यूनातिन्यूनं एतस्याः समस्यायाः विषये अवगताः भवन्तु तथा च सर्वदा स्वस्य टोकनं दृश्यमानं स्थापयन्तु तथा च स्वस्य कोडस्य परीक्षणं कुर्वन्तु।

कार्पाथी इत्यस्य मतं यत् एतानि वस्तूनि अतीव सूक्ष्माणि, दुर्बलदस्तावेजितानि च सन्ति, तथा च सः अनुमानयति यत् इदानीं प्रायः ५०% कोड् मध्ये उपर्युक्तसमस्यानां कारणेन दोषाः सन्ति

कारखानात् निर्गन्तुं पूर्वं कठोरपरीक्षणं कृतस्य ChatGPT इत्यस्य अपि काश्चन विचित्रसमस्याः सन्ति । उत्तमतया केवलं टोकनं विलोपयति, दुर्भाग्येन LLM अनिर्धारितरूपेण भ्रमितं करोति । कर्पाथी न जानाति स्म यत् पर्दापृष्ठे किं भवति, परन्तु ChatGPT तस्मै <|endoftext|> इति तारं बहुवारं प्रेषयितुं न शक्तवान् । अतः अत्र अतिरिक्तं ध्यानं ददातु।

आन्द्रेज् कार्पाथी इत्यस्य लेखः बहिः आगत्य तत्क्षणमेव चर्चां जनयति स्म । कश्चन पृष्टवान् यत् - अतः सुरक्षासुधारार्थं LLM विकासकानां के उपायाः करणीयाः सन्ति?

कार्पाथी मन्यते यत् वक्तुं सुलभं भवति, केवलं सर्वदा "सामान्य" प्रकारेण स्ट्रिंग्-चिह्नं कुर्वन्तु, अर्थात् utf8 बाइट्-अनुक्रमाः । एतत् सुरक्षायां "न्यूनतमविशेषाधिकारस्य" सिद्धान्तस्य स्मरणं करोति - मूलतः, कार्यक्षमतां यत् सर्वथा आवश्यकं तत्पर्यन्तं सीमितं कृत्वा, भवान् अनभिप्रेतपरिणामानां सम्भावनां न्यूनीकरोति

केचन जनाः अपि अवदन् यत् वयं पूर्वमेव अस्याः दिशि गच्छामः इति । VLM मॉडलस्य लेखकः PaliGemma तथा Google DeepMind वैज्ञानिकः Lucas Beyer इत्यनेन उक्तं यत् वयं नूतने कार्यसङ्केते सुरक्षातन्त्रे सुधारं कृतवन्तः, यत् किञ्चित् कष्टप्रदं भविष्यति, विशेषतः बहुविधटोकेनिजरस्य समर्थने, परन्तु समग्रतया तस्य मूल्यम् अस्ति। एतेन कोडः अधिकं सरलः अपि भवति ।

केचन नेटिजनाः अपि पृष्टवन्तः, यदि कोडः सम्यक् अस्ति, परन्तु दत्तांशप्रशिक्षणकाले <|endoftext|> प्रविष्टः भवति तर्हि किं भवति?

कर्पाथी कथयति यत् यदि संहिता सम्यक् अस्ति तर्हि किमपि न भविष्यति। परन्तु समस्या अस्ति यत् कोडस्य बहुभागः सम्यक् न भवेत्, यत् बृहत् मॉडलस्य विश्वदृष्टिं शान्ततया नाशयितुं शक्नोति ।

कार्पाथी इत्यनेन आविष्कृतानां नूतनानां समस्यानां विषये भवतः किं मतम् ?

सन्दर्भ सामग्रीः १.

https://twitter.com/karpathy/status/1823418177197646104

समाचारं

मास्टर कार्पाथी : अहं बृहत् मॉडल् कृते "SQL injection" इति आक्रमणानि दत्तवान्, तत् च सर्वथा सुलभं नासीत्

आमुख

मम सम्पर्कसूचना