जिया याङ्गकिंगः - बृहत् मॉडल आकाराः CNN इत्यस्य पुरातनमार्गे पुनः आगच्छन्ति: Tesla

जिया याङ्गकिंगः - बृहत् मॉडल आकाराः सीएनएन इत्यस्य पुरातनमार्गे पुनः आगच्छन्ति: टेस्ला इत्यत्र अपि तथैव अस्ति;

2024-08-01

अस्य गृहस्य उत्पत्तिः आओफेइ मन्दिरात् अभवत्
Qubits |.सार्वजनिक खाता QbitAI

ट्रांसफॉर्मरस्य विशालः मॉडल् आकारः परिवर्तते, तथा च सः CNN इत्यस्य पुरातनमार्गे पुनः आगच्छति!

सर्वे LLaMA 3.1 इत्यनेन आकृष्टाः इति दृष्ट्वा,जिया यांगकिंगएतादृशः भावः ।

बृहत् मॉडल आकारस्य विकासस्य तुलनां CNN इत्यस्य विकासेन सह कृत्वा वयं स्पष्टां प्रवृत्तिं घटनां च ज्ञातुं शक्नुमः:

इमेजनेट् युगे शोधकर्तारः तकनीकी-अभ्यासकारिणः च पैरामीटर्-आकारस्य तीव्रवृद्धिं दृष्टवन्तः ततः लघुतर-अधिक-कुशल-प्रतिरूपेषु गन्तुं आरब्धवन्तः

किं GPT इत्यस्य मॉडल् पैरामीटर्स् इत्यस्य स्केलिंग् अप इत्यस्य समानं ध्वनितुं शक्यते?

जिया याङ्गकिंगः स्मितं कृत्वा अवदत्, "एतत् पूर्व-बृहत् मॉडल-युगस्य अस्ति, बहवः जनाः च एतत् सम्यक् न स्मर्यन्ते :)" इति ।

अपि च, जिया याङ्गकिंगः एव एतत् न गृह्णाति ।एआइ स्वामी कापासी अपि तथैव मन्यते：

बृहत् मॉडल आकारेषु स्पर्धा वर्धमाना अस्ति...किन्तु रोलाः विपरीतदिशि आगच्छन्ति!
आदर्शेन प्रथमं "लघुतरं" अनुसरणं कर्तुं पूर्वं "बृहत्तरं" अनुसरणं कर्तव्यं, यतः अस्माकं प्रशिक्षणदत्तांशस्य पुनर्निर्माणं आदर्शे, कृत्रिमस्वरूपेण कर्तुं साहाय्यं कर्तुं एतस्याः प्रक्रियायाः आवश्यकता वर्तते

सः अपि पणं करोति यत् वयं तादृशानि आदर्शानि पश्यामः ये चिन्तनार्थं उत्तमाः विश्वसनीयाः च सन्ति।

तथा च पैरामीटर् स्केल अतीव लघु अस्ति ।

कपासस्य टिप्पणीक्षेत्रे मस्कः अपि बहुवारं अवदत् यत् -

उपर्युक्तं सम्भवतः "बृहत्पुरुषाः अपि तथैव पश्यन्ति" इति वक्तुं शक्यते ।

विस्तारं कृत्वा वार्तालापं कुरुत

जिया याङ्गकिङ्ग् इत्यस्य भावः LLaMA 3.1 इत्यनेन आरभ्यते, यत् केवलं अल्पदिनं यावत् बलिष्ठतमसिंहासनस्य उपरि एव स्थितम् ।

प्रथमवारं "सशक्ततमं मुक्तस्रोतप्रतिरूपं = बलिष्ठतमं प्रतिरूपं" साकारं जातम् इति आश्चर्यं नास्ति, एतत् बहु ध्यानं आकर्षितवान् ।

तथापि जिया याङ्गकिङ्ग् इत्यनेन अस्मिन् समये एकं बिन्दुः अग्रे स्थापितः यत् -

"किन्तु अहं मन्ये,लघु ऊर्ध्वाधरमाडलयोः उपरि उद्योगः वास्तवमेव समृद्धः भविष्यति。”

यथा लघु ऊर्ध्वाधरमाडलं किम् इति, जिया याङ्गकिङ्ग् इत्यनेन अपि अतीव स्पष्टं कृतम्, यथा ते महान् लघुमध्यम-आकारस्य मॉडल् येषां प्रतिनिधित्वं Patrouns AI इत्यस्य Iynx (कम्पनीयाः मतिभ्रम-परिचय-प्रतिरूपं, यत् मतिभ्रम-कार्येषु GPT-4o-इत्येतत् अतिक्रमयति) इत्यनेन प्रतिनिधित्वं कृतम्

जिया याङ्गकिङ्ग् इत्यनेन उक्तं यत् व्यक्तिगतप्राथमिकतस्य दृष्ट्या सः व्यक्तिगतरूपेण १०० अरब पैरामीटर् मॉडल् अतीव रोचते।

परन्तु वास्तविकतायाम् सः अवलोकितवान् यत् 7B तः 70B पर्यन्तं पैरामीटर्-परिधियुक्ताः बृहत्-माडलाः सर्वेषां कृते उपयोगः सुकरः भवति:

तेषां आतिथ्यं सुकरं भवति, लाभप्रदाय महती यातायातस्य आवश्यकता नास्ति;
यावत् भवन्तः स्पष्टप्रश्नान् पृच्छन्ति तावत् भवन्तः शिष्टगुणवत्तायुक्तं उत्पादनं प्राप्तुं शक्नुवन्ति - पूर्वस्य केषाञ्चन विश्वासानां विपरीतम्।

तस्मिन् एव काले सः श्रुतवान् यत् OpenAI इत्यस्य नवीनतमाः, द्रुततराः मॉडल् अपि "अत्याधुनिकाः" बृहत्तराः मॉडल् इत्यस्मात् लघुः भवितुम् आरब्धाः सन्ति ।

"यदि मम अवगमनं सम्यक् अस्ति, तर्हि एतत् निश्चितरूपेण उद्योगस्य प्रवृत्तीनां सूचकं भवति" इति जिया याङ्गकिंगः प्रत्यक्षतया स्वस्य दृष्टिकोणं उक्तवान्, "अर्थात् वास्तविकजगति, एतादृशानां प्रतिमानानाम् उपयोगं कुर्वन्तु ये प्रयोज्याः, व्यय-प्रभाविणः, अद्यापि शक्तिशालिनः च सन्ति

ततः परं जिया याङ्गकिङ्ग् इत्यनेन सीएनएन-संस्थायाः विकास-इतिहासस्य संक्षेपेण क्रमः कृतः ।

प्रथमं तु CNN इत्यस्य उदयस्य युगः अस्ति ।

एलेक्सनेट् (2012) इत्यस्य आरम्भबिन्दुरूपेण गृहीत्वा आदर्शपरिमाणवृद्धेः प्रायः त्रयः वर्षाणां अवधिः आरब्धा ।

२०१४ तमे वर्षे प्रादुर्भूतं VGGNet अतीव शक्तिशाली प्रदर्शनं, स्केल च युक्तं मॉडलम् अस्ति ।

द्वितीयं, आकारस्य न्यूनीकरणस्य अवधिः अस्ति ।

२०१५ तमे वर्षे गूगलनेट् इत्यनेन मॉडल् आकारः "GB" तः "MB" स्तरपर्यन्तं न्यूनीकृतः, अर्थात् १०० गुणा न्यूनीकृतः तथापि अस्य कारणात् मॉडल् इत्यस्य कार्यक्षमतायाः तीव्रः न्यूनता न अभवत्, परन्तु उत्तमं प्रदर्शनं निर्वाहितम्

तथैव प्रवृत्तीनां अनुसरणं २०१५ तमे वर्षे प्रारब्धं स्क्वीज़नेट् मॉडल् अस्ति ।

किञ्चित्कालं यावत् विकासस्य केन्द्रं संतुलनं साधयितुं आसीत् ।

तदनन्तरं अध्ययनं यथा ResNet (2015), ResNeXT (2016), इत्यादिषु मध्यमं मॉडल आकारं निर्वाहितम् अस्ति ।

ज्ञातव्यं यत् मॉडल-आकारस्य नियन्त्रणेन गणनानां परिमाणे न्यूनता न भवति - वस्तुतः सर्वे अधिकगणना-संसाधनानाम् निवेशं कर्तुं "समान-मापदण्डानां किन्तु अधिक-कुशलतायाः" अवस्थां अन्वेष्टुं इच्छन्ति

तदनन्तरं यत् अभवत् तत् पार्श्वे सीएनएन-नृत्यस्य कालः आसीत् ।

यथा, मोबाईलनेट् इति २०१७ तमे वर्षे गूगलेन आरब्धः रोचकः प्रयासः ।

किं रोचकं यत् एतत् अत्यल्पानि संसाधनानि गृह्णाति परन्तु उत्तमं प्रदर्शनं भवति ।

अधुना एव गतसप्ताहे कश्चन जिया याङ्गकिंग् इत्यस्य उल्लेखं कृतवान् यत् "वाह~ वयम् अद्यापि MobileNet इत्यस्य उपयोगं कुर्मः यतोहि एतत् उपकरणे चालयितुं शक्नोति तथा च उत्तमं फीचर एम्बेडिंग् सामान्यीकरणं (Feature Embedding Generality) अस्ति।

अन्ते जिया याङ्गकिंग इत्यनेन घिमिरे इत्याख्येन कृतं "कुशलं कन्वोल्यूशनल् न्यूरल नेटवर्क्स् एण्ड् हार्डवेयर एक्सेलरेशन इत्यस्य सर्वेक्षणम्" इत्यस्मात् चित्रं उधारं गृहीतम्:

पुनः च तस्य प्रश्नं पृष्टवान्-

किं बृहत् मॉडल आकाराः CNN युगस्य समानं प्रवृत्तिम् अनुसरन्ति?

नेटिजनाः किं चिन्तयन्ति ?

वस्तुतः GPT-4o mini इत्यस्य बृहत् मॉडल् इत्यस्य विकासमार्गं स्वीकृत्य "न तु बृहत् किन्तु लघु" इति बहवः उदाहरणानि सन्ति ।

यदा पूर्वोक्ताः जनाः एतत् मतं प्रकटयन्ति स्म तदा केचन जनाः तत्क्षणमेव शिरः न्यस्य अन्ये अपि तत्सदृशानि उदाहरणानि कल्पयन्ति स्म यत् तेषां समाना प्रवृत्तिः दृष्टा इति सिद्धं भवति स्म

तत्क्षणमेव कश्चन अनुसृत्य अगच्छत् :

अत्र मम नूतनं सकारात्मकं उदाहरणम् अस्ति! गेम्मा-२ २७B इत्यस्य पैरामीटर् आकारेण सह मॉडल् ज्ञानं लघुसंस्करणे आसुतयति ।

केचन नेटिजनाः अवदन् यत् बृहत्तरमाडलविकासस्य अर्थः लघुतरस्य अधिकलंबवतमाडलस्य अनन्तरं पीढीनां प्रशिक्षणं "तीव्रीकरणं" इति ।

एषा पुनरावर्तनीयप्रक्रिया अन्ते यत् "सिद्धप्रशिक्षणसमूहः" इति कथ्यते तत् उत्पादयति ।

एवं प्रकारेण लघुतराः बृहत्माडलाः विशिष्टक्षेत्रेषु विशालमापदण्डयुक्तानां अद्यतनबृहत्माडलानाम् अपेक्षया स्मार्टाः वा स्मार्टतराः अपि भवितुम् अर्हन्ति ।

संक्षेपेण .मॉडलं लघुतरं कर्तुं पूर्वं प्रथमं बृहत्तरं करणीयम् ।

अस्य दृष्टिकोणस्य चर्चां कृतवन्तः अधिकांशजना: अद्यापि अस्याः प्रवृत्त्या सह सहमताः सन्ति, "एतत् साधु वस्तु अस्ति तथा च 'मम प्रतिरूपं भवतः आदर्शात् बृहत्तरम्' इति पैरामीटर् स्पर्धायाः अपेक्षया अधिकं व्यावहारिकं उपयोगी च अस्ति" इति

परन्तु अवश्यम् !

ऑनलाइन टिप्पणीविभागेषु ब्राउज् कृत्वा,अन्ये भिन्नान् शब्दान् कृतवन्तः ।

यथा, अयं मित्रः जिया याङ्गकिङ्ग् इत्यस्य ट्वीट् इत्यस्य अन्तर्गतं सन्देशं त्यक्तवान् यत् -

Mistral Large (तस्य पृष्ठतः कम्पनी, Mistral AI), LLaMA 3.1 (तस्य पृष्ठतः कम्पनी, Meta) तथा OpenAI, अत्यन्तं प्रतिस्पर्धात्मकं मॉडल् युक्ताः कम्पनयः, सर्वे वर्तमानकाले बृहत्तरमाडलस्य प्रशिक्षणं कुर्वन्ति स्यात्
“लघुमाडलैः सह प्रौद्योगिकी-सफलताः” इति प्रवृत्तिः अहं न पश्यामि ।

अस्य प्रश्नस्य सम्मुखे जिया याङ्गकिङ्ग् इत्यनेन शीघ्रमेव प्रतिक्रिया दत्ता ।

एतत् एव सः अवदत् यत् "तत् सत्यम्! यदा अहं वदामि यत् बृहत् मॉडल आकाराः CNN इत्यस्य पुरातनमार्गं अनुसरन्ति स्यात् तदा मम निश्चितरूपेण सर्वेभ्यः आह्वानं न भवति यत् बृहत्तराणां मॉडल्-प्रशिक्षणं त्यजन्तु।

सः अपि व्याख्यातवान् यत् एतत् वक्तुं मूलं अभिप्रायः अस्ति यत् यथा यथा प्रौद्योगिकी (सीएनएन-बृहत्-माडल-सहितं) अधिकाधिकं व्यापकरूपेण कार्यान्वितं भवति तथा तथा सर्वेषां अधिकाधिक-व्यय-प्रभावि-माडल-विषये अधिकाधिकं ध्यानं दातुं आरब्धम् अस्ति " " .

अतः सम्भवतः अधिकदक्षाः लघुबृहत्प्रतिमाः एआइ-इत्यस्य "बुद्धिः" पुनः परिभाषितुं शक्नुवन्ति तथा च "बृहत्तरं श्रेष्ठम्" इति धारणाम् आव्हानं कर्तुं शक्नुवन्ति ।

किं भवन्तः एतत् मतं सहमताः सन्ति ?

सन्दर्भलिङ्कानि : १.
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/स्थिति/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497

समाचारं

जिया याङ्गकिंगः - बृहत् मॉडल आकाराः सीएनएन इत्यस्य पुरातनमार्गे पुनः आगच्छन्ति: टेस्ला इत्यत्र अपि तथैव अस्ति;

विस्तारं कृत्वा वार्तालापं कुरुत

नेटिजनाः किं चिन्तयन्ति ?

आमुख

मम सम्पर्कसूचना