iPhone 2B लघु इस्पात तोपं चालयितुं शक्नोति! Google Gemma 2 आगच्छति, सर्वाधिकशक्तिशाली सूक्ष्मदर्शी LLM_news इत्यस्य मस्तिष्कस्य विच्छेदनं कर्तुं शक्नोति

iPhone 2B लघु इस्पात तोपं चालयितुं शक्नोति!Google Gemma 2 आगच्छति, अत्यन्तं शक्तिशाली सूक्ष्मदर्शकः LLM मस्तिष्कस्य विच्छेदनं कर्तुं शक्नोति

2024-08-01

नवीन बुद्धि प्रतिवेदन

सम्पादक : सम्पादकीय विभाग

[नव प्रज्ञायाः परिचयः] । Google DeepMind इत्यस्य लघु मॉडल परमाणुबम्बः अत्र अस्ति Gemma 2 2B इत्यनेन GPT-3.5 तथा Mixtral 8x7B इत्येतयोः प्रत्यक्षतया पराजयः कृतः, यस्य परिमाणस्य अनेकाः क्रमाः बृहत्तराः मापदण्डाः आसन्! एकस्मिन् समये मुक्तः गेम्मा स्कोप् सूक्ष्मदर्शकवत् LLM कृष्णपेटीं भङ्गयति, येन गेम्मा २ कथं निर्णयं करोति इति स्पष्टतया द्रष्टुं शक्नुमः ।

Google DeepMind इत्यस्य लघु मॉडल् पुनः नूतनम् अस्ति!

अधुना एव गूगल DeepMind इत्यनेन Gemma 2 2B इति चलच्चित्रं प्रकाशितम् ।

गेम्मा २ २७ख इत्यस्मात् आस्वादितं भवति ।

यद्यपि तस्य मापदण्डाः केवलं २.६B सन्ति तथापि LMSYS-क्षेत्रे अस्य स्कोरः GPT-3.5 तथा Mixtral 8x7B इत्येतौ अतिक्रान्तवान्!

एमएमएलयू तथा एमबीपीपी बेन्चमार्केषु क्रमशः ५६.१ तथा ३६.६ इति उत्तमं परिणामं प्राप्तवान् तस्य प्रदर्शनं पूर्वस्य मॉडल् गेम्मा १ २बी इत्यस्मात् १०% अधिकं कृतवान्;

लघुप्रतिरूपं बृहत्प्रतिरूपं पराजितवान् यत् परिमाणस्य अनेकक्रमाणि बृहत्तरम् आसीत्, पुनः एकवारं लघुप्रतिरूपानाम् दिशां पुष्टयति यस्य विषये उद्योगः अद्यतनकाले अतीव आशावादी अस्ति

अद्य गूगलेन गेम्मा २ परिवारस्य कुलत्रयः नूतनाः सदस्याः घोषिताः - १.

गेम्मा २ २ ख .लघु 2B मॉडल् कार्यक्षमतायाः कार्यक्षमतायाः च मध्ये सर्वाधिकं संतुलनं प्राप्नोति
कवचजेम्मा .उपयोक्तृसुरक्षां सुनिश्चित्य AI मॉडलस्य निवेशं निर्गमं च छानयितुं Gemma 2 इत्यत्र निर्मितं सुरक्षितं सामग्रीवर्गीकरणप्रतिरूपम्
गेम्मा व्याप्ति : .एकं व्याख्यानक्षमतासाधनं यत् भवतः प्रतिरूपस्य आन्तरिककार्यस्य अप्रतिमं अन्वेषणं प्रदाति

जूनमासे २७बी, ९बी गेम्मा २ मॉडल् इत्येतयोः जन्म अभवत् ।

तस्य विमोचनात् आरभ्य 27B मॉडल् शीघ्रमेव बृहत् मॉडल् श्रेणीषु शीर्षस्थेषु मुक्तस्रोतमाडलेषु अन्यतमः अभवत्, वास्तविकवार्तालापेषु द्विगुणं मापदण्डैः सह लोकप्रियमाडलानाम् अपि उत्तमं प्रदर्शनं कृतवान्

Gemma 2 2B: भवतः उपकरणे तत्क्षणमेव उपलब्धम्

लघुभारयुक्तं लघुमाडलं Gemma 2 2B बृहत् मॉडलात् आसुतं भवति, तस्य कार्यक्षमता च न्यूना नास्ति ।

बृहत् मॉडल-क्षेत्रे LMSYS इत्यत्र नूतनं मॉडल् 1130 इत्यस्य प्रभावशालिनः स्कोरं प्राप्तवान्, यत् 10x मापदण्डैः सह मॉडलैः सह सममूल्यम् अस्ति ।

GPT-3.5-Turbo-0613 इत्यनेन 1117, Mixtral-8x7b इत्यनेन 1114 रनस्य स्कोरः प्राप्तः ।

एतेन ज्ञायते यत् गेम्मा २ २ बी सर्वोत्तमः अन्त्यतः पार्श्वपर्यन्तं मॉडलः अस्ति ।

केचन नेटिजन्स् क्वाण्टाइज्ड् गेम्मा २ २ बी इत्येतत् iPhone 15 Pro इत्यस्मिन् MLX Swift इत्यनेन चालयितुं दत्तवन्तः, तस्य गतिः च आश्चर्यजनकरूपेण द्रुतगतिः आसीत् ।

विशेषतः, Vertex AI तथा Google Kubernetes Engine (GKE) इत्येतयोः उपयोगेन मोबाईल-फोन्, लैपटॉप्, अपि च शक्तिशालिनः मेघः इत्यादिषु विविध-टर्मिनल्-यन्त्रेषु परिनियोजितुं शक्यते

मॉडलस्य त्वरिततायै NVIDIA TensorRT-LLM इत्यस्य माध्यमेन अनुकूलितं भवति, यत् NVIDIA NIM मञ्चे अपि उपलभ्यते ।

अनुकूलितं प्रतिरूपं विविधमञ्चनियोजनेषु कार्यं करोति, यत्र आँकडाकेन्द्राणि, मेघाः, परिसरे कार्यस्थानानि, पीसी, एज उपकरणानि च सन्ति

सीमान्त AI परिनियोजनं पूर्णं कर्तुं RTX, RTX GPU, Jetson मॉड्यूल् इत्येतयोः समर्थनं अपि कर्तुं शक्नोति ।

तदतिरिक्तं Gemma 2 2B Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp इत्यादीन् निर्विघ्नतया एकीकृत्य, विकासस्य सरलीकरणाय शीघ्रमेव MediaPipe इत्यनेन सह एकीकृतं भविष्यति

अवश्यं गेम्मा २ इव २बी मॉडल् इत्यस्य उपयोगः अनुसन्धानार्थं व्यावसायिकप्रयोगाय च कर्तुं शक्यते ।

अपि च, यतः तस्य पैरामीटर् आयतनं पर्याप्तं न्यूनं भवति, तस्मात् सः Google Colab इत्यस्य मुक्त T4 GPU स्तरस्य उपरि चालयितुं शक्नोति, विकासस्य सीमां न्यूनीकरोति ।

सम्प्रति प्रत्येकं विकासकः Gemma 2 इत्यस्य मॉडल् वेट् इत्येतत् Kaggle, Hugging Face, Vertex AI Model Garden इत्यस्मात् डाउनलोड् कर्तुं शक्नोति, अपि च Google AI Studio इत्यत्र तस्य कार्याणि अपि प्रयतितुं शक्नोति

गोदाम पता: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma: अत्याधुनिकः सुरक्षावर्गीकारः

यथा तस्य नाम सूचयति, ShieldGemma सर्वाधिकं उन्नतं सुरक्षावर्गीकर्ता अस्ति, यत् एआइ आउटपुट् सामग्री आकर्षकं, सुरक्षितं, समावेशी च इति सुनिश्चितं करोति, तथा च हानिकारकसामग्रीनिर्गमस्य अन्वेषणं न्यूनीकरणं च करोति

ShieldGemma विशेषरूपेण चतुर्णां प्रमुखानां हानिकारकक्षेत्राणां लक्ष्यं कर्तुं डिजाइनं कृतम् अस्ति:

- द्वेषभाषणम्

- उत्पीडन सामग्री

- स्पष्ट सामग्री

- खतरनाक सामग्री

एते मुक्तस्रोतवर्गीकरणाः Responsible AI toolkit इत्यस्मिन् Google इत्यस्य विद्यमानस्य सुरक्षावर्गीकरणसमूहस्य पूरकाः सन्ति ।

साधनपुस्तिकायां सीमितदत्तांशबिन्दूनाधारितनीतिविशिष्टवर्गीकरणकर्तृणां निर्माणस्य पद्धतिः, तथैव एपिआइद्वारा प्रदत्ताः आफ्-द-शेल्फ्-गुगल-क्लाउड्-वर्गीकाराः च समाविष्टाः सन्ति

ShieldGemma इत्येतत् उद्योगस्य अग्रणीं सुरक्षावर्गीकरणं Gemma 2 इत्यस्य उपरि निर्मितम् अस्ति ।

एतत् विविधं मॉडल् पैरामीटर् आकारं प्रदाति, यत्र 2B, 9B, 27B च सन्ति, ये सर्वे NVIDIA गतिं कृते अनुकूलिताः सन्ति तथा च विभिन्नेषु हार्डवेयर् इत्यत्र कुशलतया चालयितुं शक्नुवन्ति ।

तेषु 2B ऑनलाइन वर्गीकरणकार्यस्य कृते अतीव उपयुक्तः अस्ति, यदा तु 9B तथा 27B संस्करणाः न्यूनविलम्बतायाः आवश्यकतायुक्तानां अफलाइन-अनुप्रयोगानाम् कृते उच्चतरं प्रदर्शनं प्रददति

गेम्मा व्याप्तिः : मुक्तस्रोतविरलस्वचालकानाम् माध्यमेन एआइ निर्णयप्रक्रियायाः प्रकाशनम्

तस्मिन् एव काले विमोचितः अन्यः हाइलाइट् अस्ति मुक्तस्रोतः विरलः स्वयम्-एन्कोडर-Gemma Scope इति ।

भाषाप्रतिरूपस्य अन्तः किं भवति ? एषा समस्या चिरकालात् शोधकर्तृन् विकासकान् च भ्रमितवती अस्ति ।

भाषाप्रतिमानानाम् आन्तरिककार्यं प्रायः रहस्यं भवति, तान् प्रशिक्षमाणानां शोधकर्तृणां कृते अपि ।

गेम्मा स्कोप् एकः शक्तिशाली सूक्ष्मदर्शकः इव अस्ति यः विरल-स्वचालकानाम् (SAEs) माध्यमेन मॉडले विशिष्टान् बिन्दून् वर्धयति, येन मॉडलस्य आन्तरिककार्यस्य व्याख्या सुलभा भवति

गेम्मा स्कोप् इत्यनेन सह शोधकर्तारः विकासकाः च गेम्मा २ मॉडलस्य निर्णयप्रक्रियायां अभूतपूर्वं पारदर्शितां प्राप्नुवन्ति ।

गेम्मा स्कोप् गेम्मा २ ९ बी तथा गेम्मा २ २ बी इत्येतयोः कृते शतशः मुक्तस्य मुक्तस्य च विरलस्वयम्-एन्कोडरस्य (SAE) संग्रहः अस्ति ।

एते SAEs विशेषरूपेण परिकल्पिताः तंत्रिकाजालाः सन्ति ये अस्मान् Gemma 2 द्वारा संसाधितानां सघनानां, जटिलानां च सूचनानां व्याख्यां कर्तुं साहाय्यं कुर्वन्ति तथा च तस्याः विस्तारं कृत्वा एकस्मिन् रूपे विस्तारयन्ति यस्य विश्लेषणं अवगमनं च सुलभं भवति।

एतेषां विस्तारितानां दृष्टिकोणानां अध्ययनेन शोधकर्तारः गेम्मा २ कथं प्रतिमानं ज्ञापयति, सूचनां संसाधयति, भविष्यवाणीं च करोति इति विषये बहुमूल्यं सूचनां प्राप्तुं शक्नुवन्ति ।

गेम्मा स्कोप् इत्यनेन एआइ समुदायः अधिकसुलभतया एआइ-प्रणाल्याः निर्माणं कर्तुं शक्नोति यत् अधिकं अवगम्यमानं, उत्तरदायी, विश्वसनीयं च भवति ।

तस्मिन् एव काले गूगल डीपमाइण्ड् इत्यनेन २० पृष्ठीयं तकनीकीप्रतिवेदनमपि प्रकाशितम् ।

तकनीकी प्रतिवेदनम् : https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

सारांशेन गेम्मा स्कोप् इत्यस्य निम्नलिखित त्रीणि नवीनतानि सन्ति -

मुक्तस्रोत SAEs: Gemma 2 2B तथा 9B इत्येतयोः सर्वान् स्तरान् कवरयन्तः 400 तः अधिकाः स्वतन्त्रतया उपलब्धाः SAEs
अन्तरक्रियाशीलप्रदर्शनम् : SAE क्षमतां अन्वेष्टुम् तथा च कोडं लिखितुं विना Neuronpedia इत्यत्र मॉडलव्यवहारस्य विश्लेषणं कुर्वन्तु
उपयोगाय सुलभं संसाधनपुस्तकालयम्: SAEs तथा Gemma 2 इत्यनेन सह अन्तरक्रियायाः कोडं उदाहरणानि च प्रदाति

भाषाप्रतिमानानाम् आन्तरिककार्यस्य व्याख्यां कुर्वन्तु

भाषाप्रतिमानानाम् व्याख्याक्षमतायाः समस्या किमर्थम् एतावत् कठिना अस्ति ?

एतत् एलएलएम इत्यस्य संचालनसिद्धान्तात् आरभ्यते ।

यदा भवान् LLM इत्यस्मै प्रश्नं पृच्छति तदा तत् भवतः पाठनिवेशं "सक्रियीकरणानां" श्रृङ्खलायां परिवर्तयति । एते सक्रियताः भवता निवेशितानां शब्दानां मध्ये सम्बन्धानां नक्शाङ्कनं कुर्वन्ति, येन मॉडल् भिन्नशब्दानां मध्ये सम्पर्कं कर्तुं तदनुसारं उत्तराणि जनयितुं च साहाय्यं कुर्वन्ति ।

यथा यथा मॉडलः पाठनिवेशं संसाधयति तथा मॉडलस्य तंत्रिकाजालस्य विभिन्नस्तरस्य सक्रियीकरणं बहुविधं प्रगतिशीलरूपेण उच्चस्तरीयसंकल्पनानां प्रतिनिधित्वं करोति, यत् "विशेषताः" इति उच्यन्ते

यथा, आदर्शस्य प्रारम्भिकाः स्तराः जॉर्डन् बास्केटबॉलक्रीडा इव तथ्यानि ज्ञातुं शक्नुवन्ति, पश्चात् स्तराः तु अधिकजटिलसंकल्पनाः चिन्तयितुं शक्नुवन्ति, यथा पाठस्य प्रामाणिकता

विरलस्वचालकानाम् उपयोगेन आदर्शसक्रियीकरणस्य व्याख्यानस्य उदाहरणम् - कथं आदर्शः "प्रकाशस्य नगरं पेरिस् अस्ति" इति तथ्यं स्मरणं करोति ।फ्रेंचभाषासम्बद्धाः अवधारणाः सन्ति, परन्तु असम्बद्धाः अवधारणाः न सन्ति इति द्रष्टुं शक्यते

तथापि व्याख्याक्षमतासंशोधकाः एकस्याः प्रमुखसमस्यायाः सामनां कुर्वन्ति स्म : आदर्शसक्रियता अनेकविधविशेषतानां मिश्रणम् अस्ति ।

शोधस्य प्रारम्भिकपदे शोधकर्तारः आशां कृतवन्तः यत् तंत्रिकाजालसक्रियीकरणेषु विशेषताः व्यक्तिगतन्यूरोनैः, अथवा सूचनानोड्भिः सह संरेखितुं शक्यन्ते इति ।

परन्तु दुर्भाग्येन व्यवहारे न्यूरॉन्साः अनेकेषां अप्रासंगिकविशेषतानां कृते सक्रियः भवन्ति ।

के विशेषताः सक्रियीकरणस्य भागाः इति ज्ञातुं स्पष्टः उपायः नास्ति इति भावः ।

अत्रैव च विरलाः स्वयम्-एन्कोडर्-आगच्छन्ति ।

अवगच्छन्तु यत् कश्चन विशेषः सक्रियीकरणं केवलं कतिपयानां विशेषतानां मिश्रणं भविष्यति, यद्यपि भाषाप्रतिरूपं कोटिशो वा कोटिशो वा विशेषताः अपि ज्ञातुं समर्थः भवितुम् अर्हति (अर्थात् आदर्शः विशेषतानां विरलतया उपयोगं करोति)

यथा, भाषाप्रतिरूपः आइन्स्टाइनस्य विषये प्रश्नस्य उत्तरं ददाति समये सापेक्षतां चिन्तयति, परन्तु आमलेटस्य विषये लेखनं कुर्वन् सापेक्षतां न चिन्तयति ।

विरलाः स्वयम्-एन्कोडराः अस्य तथ्यस्य शोषणं कृत्वा सुप्तविशेषतानां समुच्चयं आविष्करोति तथा च प्रत्येकं सक्रियीकरणं मुष्टिभ्यां विशेषतासु विघटयन्ति ।

शोधकर्तारः आशान्ति यत् विरल-स्वयम्-एन्कोडर्-इत्यस्य कृते एतत् कार्यं साधयितुं सर्वोत्तमः उपायः अस्ति यत् भाषा-प्रतिमानाः यथार्थतया उपयुज्यमानाः अत्यावश्यक-विशेषताः अन्वेष्टव्याः ।

महत्त्वपूर्णं यत् अस्मिन् क्रमे शोधकर्तारः विरल-स्वचालकं न अवदन् यत् के विशेषताः अन्वेष्टव्याः इति ।

फलतः ते पूर्वं अप्रत्याशितसमृद्धसंरचनानां आविष्कारं कर्तुं समर्थाः अभवन् ।

तथापि, यतः ते एतेषां आविष्कृतविशेषतानां सटीकं अर्थं तत्क्षणं न जानन्ति, ते पाठोदाहरणेषु सार्थकप्रतिमानं अन्विषन्ति यत् विरलः स्वयम्सङ्केतः विशेषताः "उत्प्रेरक" इति मन्यते

अत्र एकं उदाहरणं अस्ति यत्र विशेषतायाः कृते प्रेरिताः टोकनाः विशेषतायाः उत्प्रेरकस्य बलस्य आधारेण नीलवर्णीयेन ढालेन प्रकाशिताः भवन्ति:

विरलस्वचालकैः सह विशेषतासक्रियीकरणस्य आविष्कारस्य उदाहरणम् । प्रत्येकं बुदबुदा एकं Token (शब्दं वा शब्दखण्डं वा) प्रतिनिधियति, तथा च चरः नीलवर्णः अस्य विशेषतायाः बलं दर्शयति ।एवं सति विशेषणं स्पष्टतया मुहावरेण सह सम्बद्धम् अस्ति

गेम्मा स्कोप् इत्यस्य विषये किं विशिष्टम् अस्ति ?

पूर्वविरल-स्वचालकानाम् तुलने गेम्मा स्कोप् इत्यस्य अनेकानि अद्वितीयविशेषतानि सन्ति ।

पूर्वः मुख्यतया लघुप्रतिमानानाम् अथवा बृहत्प्रतिमानानाम् एकस्तरस्य आन्तरिककार्यस्य अध्ययनं प्रति केन्द्रितः अस्ति ।

परन्तु यदि भवान् व्याख्याक्षमतासंशोधनं गभीरं गन्तुम् इच्छति तर्हि तस्मिन् बृहत् मॉडल् मध्ये स्तरितजटिल एल्गोरिदम्स् डिकोडिंग् अन्तर्भवति ।

अस्मिन् समये गूगल डीपमाइण्ड् इत्यस्य शोधकर्तारः गेम्मा २ २ बी तथा ९ बी इत्यस्य प्रत्येकस्य लेयरस्य उपस्तरस्य च आउटपुट् विषये विरलान् ऑटोएन्कोडर्स् प्रशिक्षितवन्तः ।

एवं निर्मितेन गेम्मा स्कोप् इत्यनेन कुलम् ४०० तः अधिकाः विरलाः स्वयम्-एन्कोडराः उत्पन्नाः, ३० मिलियनतः अधिकाः विशेषताः च प्राप्ताः (यद्यपि बहवः विशेषताः अतिव्याप्ताः भवितुम् अर्हन्ति)

एतेन शोधकर्तृभ्यः अध्ययनं कर्तुं शक्यते यत् सम्पूर्णे प्रतिरूपे विशेषताः कथं विकसिताः भवन्ति तथा च ते कथं परस्परं क्रियान्वयं कृत्वा अधिकजटिलविशेषताः निर्मान्ति इति ।

तदतिरिक्तं Gemma Scope नवीनतमस्य उन्नतस्य च JumpReLU SAE आर्किटेक्चरस्य उपयोगेन प्रशिक्षितः अस्ति ।

मूलविरलस्वचालक-वास्तुकलायां प्रायः विशेषता-उपस्थिति-परिचयस्य तीव्रता-अनुमानस्य च लक्ष्यद्वयस्य मध्ये कठिनं संतुलनं भवति । JumpReLU आर्किटेक्चर अधिकसुलभतया द्वयोः मध्ये सन्तुलनं प्राप्तुं शक्नोति तथा च त्रुटयः महत्त्वपूर्णतया न्यूनीकर्तुं शक्नोति ।

अवश्यं, एतावता विरल-स्वयम्-एन्कोडर-प्रशिक्षणम् अपि प्रमुखं अभियांत्रिकी-चुनौत्यम् अस्ति, अतः बहु-गणना-संसाधनानाम् आवश्यकता भवति ।

अस्मिन् क्रमे शोधकर्तारः Gemma 2 9B प्रशिक्षणगणनायाः प्रायः 15% (आसुतलेबलं जनयितुं आवश्यकं गणनां विहाय) उपयुज्य प्रायः 20 PiB सक्रियकरणानाम् डिस्कं (आङ्ग्लविकी विश्वकोशसामग्रीणां दशलाखप्रतियाः समतुल्यम्) रक्षितवन्तः , कुलम् शतशः अरबं विरल-स्वचालक-मापदण्डान् जनयति ।

सन्दर्भाः : १.

https://developers.googleblog.com/en/लघु-सुरक्षित-अधिक-पारदर्शी-उन्नत-जिम्मेदार-ai-with-gemma/

समाचारं

आमुख

मम सम्पर्कसूचना