समाचारं

विरल ऑटोएन्कोडर्स् कथं कार्यं कुर्वन्ति, अत्र सहजव्याख्यानम् अस्ति

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



मशीन हृदय रिपोर्ट

सम्पादक: पाण्डा

संक्षेपेण : आकृतिः → ReLU सक्रियीकरणं → आकृतिः

यन्त्रशिक्षणप्रतिमानानाम् व्याख्यानार्थं विरलस्वतःसङ्केतारः (SAEs) अधिकाधिकं सामान्यं साधनं भवति (यद्यपि SAEs १९९७ तमे वर्षात् प्रचलति) ।

यन्त्रशिक्षणप्रतिमानाः एलएलएम च अधिकाधिकं शक्तिशालिनः उपयोगिनो च भवन्ति, परन्तु ते अद्यापि कृष्णपेटिकाः एव सन्ति, ते स्वकार्यं कथं साधयन्ति इति वयं न अवगच्छामः। ते कथं कार्यं कुर्वन्ति इति अवगत्य बहु दूरं गन्तव्यम्।

SAE अस्मान् एकस्य मॉडलस्य गणनां अवगम्यघटकेषु विभज्य सहायकं भवति । अद्यैव एलएलएम-व्याख्यात्मकता-संशोधकः एडम् कार्वोनेन्-इत्यनेन एसएई-कार्यं कथं भवति इति सहजतया व्याख्यातुं ब्लॉग-पोस्ट् प्रकाशितम् ।

व्याख्याक्षमतासमस्या

तंत्रिकाजालस्य प्राकृतिकतमाः घटकाः व्यक्तिगतन्यूरोन् भवन्ति । दुर्भाग्येन एकः न्यूरॉन् एकस्याः अवधारणायाः, यथा शैक्षणिक-उद्धरणं, आङ्ग्ल-वार्तालापः, HTTP-अनुरोधः, कोरिया-पाठः च इत्यादिभिः सह सुविधानुसारं न मेलति तंत्रिकाजालेषु न्यूरॉन्-संयोजनद्वारा अवधारणाः प्रतिनिधिताः भवन्ति, यत् सुपरपोजिशनम् इति कथ्यते ।

अस्य कारणं यत् जगति बहवः चराः स्वाभाविकतया विरलाः सन्ति ।

यथा, कस्यचित् प्रसिद्धस्य जन्मस्थानं कोटिप्रशिक्षणटोकने एकस्मात् न्यूनेन दृश्यते, परन्तु आधुनिकाः एलएलएम-जनाः अद्यापि एतत् तथ्यं विश्वस्य विषये अन्यज्ञानस्य धनं च ज्ञातुं शक्नुवन्ति प्रशिक्षणदत्तांशेषु आदर्शे न्यूरॉन्सस्य अपेक्षया अधिकाः व्यक्तिगततथ्यानि अवधारणाश्च सन्ति, यस्मात् सम्भवतः सुपरपोजिशनं भवति ।

अद्यतनकाले तंत्रिकाजालस्य विघटनार्थं विरलस्वचालक (SAE) प्रौद्योगिक्याः अधिकतया उपयोगः भवति यत् अवगम्यघटकरूपेण भवति । एसएई इत्यस्य परिकल्पना तंत्रिकाविज्ञाने विरलसङ्केतनपरिकल्पनाया: प्रेरणा: अस्ति । अद्यत्वे कृत्रिम-तंत्रिका-जालस्य व्याख्यानार्थं SAE इत्येतत् आशाजनकं साधनं जातम् । SAE मानकस्वचालकस्य सदृशं भवति ।

पारम्परिकः ऑटोएन्कोडरः एकः तंत्रिकाजालः अस्ति यस्य उपयोगः निवेशदत्तांशस्य संपीडनार्थं पुनर्निर्माणार्थं च भवति ।

यथा, यदि निवेशः १००-आयामी सदिशः (१०० मूल्यानि युक्ता सूची) अस्ति तर्हि स्वयम्-एन्कोडरः प्रथमं निवेशं ५०-आयामी सदिशे संपीडयितुं एन्कोडर-स्तरस्य माध्यमेन पारयति, ततः एतत् संपीडयति The encoded representation is fed to 100-आयामी निर्गमसदिशं प्राप्तुं डिकोडरम् । पुनर्निर्माणप्रक्रिया प्रायः सिद्धा न भवति, यतः संपीडनप्रक्रिया पुनर्निर्माणस्य कार्यं अतीव कठिनं करोति ।



1x4 इनपुट वेक्टर, 1x2 मध्यवर्ती अवस्था सदिश, 1x4 आउटपुट वेक्टर च सह मानक ऑटोएन्कोडरस्य योजनाबद्धचित्रम् । कोष्ठकस्य वर्णः सक्रियीकरणमूल्यं प्रतिनिधियति । निर्गमः निवेशस्य अपूर्णः पुनर्निर्माणः भवति ।

विरल ऑटोएन्कोडर् व्याख्यानम्

विरलाः स्वयम्-एन्कोडराः कथं कार्यं कुर्वन्ति

विरलः स्वयम्-एन्कोडरः निवेशसदिशं मध्यवर्ती सदिशे परिवर्तयति यस्य आयामाः निवेशात् अधिकाः, समानाः, न्यूनाः वा भवितुम् अर्हन्ति । LLM इत्यस्मिन् प्रयुक्ते सति मध्यवर्ती सदिशानां प्रायः इनपुट् इत्यस्मात् अधिकानि आयामानि भवन्ति । अस्मिन् सन्दर्भे अतिरिक्तबाधां विना कार्यं सरलं भवति तथा च SAE किमपि आश्चर्यं विना निवेशस्य सम्यक् पुनर्निर्माणार्थं परिचयमात्रिकायाः ​​उपयोगं कर्तुं शक्नोति परन्तु वयं बाधाः योजयिष्यामः, येषु एकं प्रशिक्षणहानिषु विरलतादण्डं योजयितुं, येन SAE विरलमध्यवर्तीसदिशं निर्माति ।

उदाहरणार्थं, वयं 100-आयामीं निवेशं 200-आयामी एन्कोडेड् प्रतिनिधित्वसदिशे विस्तारयितुं शक्नुमः, तथा च वयं SAE इत्यस्य प्रशिक्षणं कर्तुं शक्नुमः यत् एन्कोडेड् प्रतिनिधित्वे केवलं प्रायः 20 अशून्यतत्त्वानि भवेयुः



विरल ऑटोएन्कोडर का योजनाबद्ध आरेख। ध्यानं कुर्वन्तु यत् मध्यवर्ती सक्रियताः विरलाः सन्ति, केवलं २ अशून्यमूल्यानि सन्ति ।

वयं तंत्रिकाजालस्य अन्तः मध्यवर्ती सक्रियीकरणानां कृते SAE इत्यस्य उपयोगं कुर्मः, यस्मिन् बहवः स्तराः भवितुम् अर्हन्ति । अग्रे गन्तुं प्रत्येकं स्तरस्य अन्तः प्रत्येकस्य स्तरस्य मध्ये च मध्यवर्ती सक्रियताः भवन्ति ।

यथा GPT-3 इत्यस्य ९६ स्तराः सन्ति । अग्रे पासस्य समये इनपुट् मध्ये प्रत्येकस्य टोकनस्य १२,२८८-आयामी सदिशः (१२,२८८ मूल्यानां सूची) भवति । अयं सदिशः प्रक्रियायाः प्रत्येकस्मिन् स्तरे अग्रिमस्य टोकनस्य पूर्वानुमानार्थं मॉडलेन प्रयुक्तानि सर्वाणि सूचनानि सञ्चयति, परन्तु सः अपारदर्शकः अस्ति, येन तस्मिन् का सूचना अस्ति इति अवगन्तुं कठिनं भवति

एतत् मध्यवर्ती सक्रियीकरणं अवगन्तुं वयं SAE इत्यस्य उपयोगं कर्तुं शक्नुमः । SAE मूलतः "मैट्रिक्स → ReLU सक्रियण → मैट्रिक्स" अस्ति ।

उदाहरणार्थं, यदि GPT-3 SAE इत्यस्य विस्तारगुणकः 4 अस्ति तथा च तस्य निवेशसक्रियीकरणानां 12,288 आयामाः सन्ति, तर्हि तस्य SAE-एन्कोडेड् प्रतिनिधित्वस्य 49,512 आयामाः (12,288 x 4) सन्ति प्रथमा आकृतिः आकारस्य एन्कोडर-मात्रिका (१२,२८८, ४९,५१२) द्वितीया आकृतिः (४९,५१२, १२,२८८) च डिकोडर-मात्रिका एन्कोडर इत्यनेन सह GPT सक्रियीकरणानां गुणनं कृत्वा ReLU इत्यस्य उपयोगेन च 49,512-आयामी SAE एन्कोडेड् विरलप्रतिनिधित्वं प्राप्तुं शक्यते यतोहि SAE हानिकार्यं विरलतां प्रवर्धयति

सामान्यतया अस्माकं लक्ष्यं भवति यत् SAE प्रतिनिधित्वे 100 अशून्यमूल्यानि न्यूनानि भवेयुः । डिकोडर इत्यनेन सह SAE प्रतिनिधित्वं गुणयित्वा १२,२८८-आयामी पुनर्निर्माणं मॉडल् सक्रियीकरणं प्राप्यते । इदं पुनर्निर्माणं मूल-जीपीटी-सक्रियीकरणानां सम्यक् मेलनं न करोति यतोहि विरलता-प्रतिबन्धाः सम्यक्-सङ्गतिं प्राप्तुं कठिनं करिष्यन्ति ।

सामान्यतया, एकः SAE केवलं मॉडले एकस्य स्थानस्य कृते उपयुज्यते उदाहरणार्थं, वयं 26 तथा 27 स्तरयोः मध्ये मध्यवर्ती सक्रियीकरणेषु SAE प्रशिक्षितुं शक्नुमः । GPT-3 इत्यस्य सर्वेषां ९६ स्तरानाम् निर्गमेषु विद्यमानसूचनाः विश्लेषितुं ९६ पृथक् पृथक् SAE प्रशिक्षिताः भवितुम् अर्हन्ति - प्रत्येकस्य स्तरस्य निर्गमस्य कृते एकः । यदि वयं प्रत्येकस्य स्तरस्य अन्तः विविधानि मध्यवर्ती सक्रियतानि अपि विश्लेषयितुम् इच्छामः तर्हि शतशः SAEs आवश्यकाः भविष्यन्ति । एतेषां SAEs कृते प्रशिक्षणदत्तांशं प्राप्तुं, अस्मिन् GPT मॉडले भिन्नपाठस्य बृहत् परिमाणं पूरयितुं आवश्यकं भवति, ततः प्रत्येकस्य चयनितस्थानस्य मध्यवर्ती सक्रियताः एकत्रिताः भवन्ति

SAE इत्यस्य PyTorch सन्दर्भकार्यन्वयनं अधः प्रदत्तम् अस्ति । चराः आकृतयः सह टिप्पणीकृताः सन्ति एषः विचारः Noam Shazeer इत्यस्मात् आगतः, पश्यन्तु: https://medium.com/@NoamShazeer/shape-suffixes-good-coding-style-f836e72e24fd । कृपया ज्ञातव्यं यत् अधिकतमं कार्यक्षमतां प्राप्तुं भिन्न-भिन्न-SAE-कार्यन्वयनेषु प्रायः भिन्नाः पूर्वाग्रहपदाः, सामान्यीकरणयोजनाः, अथवा आरम्भयोजनाः सन्ति । एकं सामान्यं परिवर्तनं डिकोडर सदिश मानदण्डे किञ्चित् प्रकारस्य बाध्यता अस्ति । अधिकविवरणार्थं कृपया अधोलिखितं कार्यान्वयनम् अवलोकयन्तु:

  • OpenAI:https://github.com/openai/विरल_ऑटोएन्कोडर/blob/मुख्य/विरल_ऑटोएन्कोडर/model.py # L16
  • SAELens:https://github.com/jbloomAus/SAELens/blob/मुख्य/sae_lens/sae.py # L97
  • शब्दकोश_शिक्षण:https://github.com/saprmarks/शब्दकोश_शिक्षण/blob/मुख्य/शब्दकोश.py#L30

आयात मशाल

आयात मशाल.nn as nn

# D = d_model, F = शब्दकोशस्य_आकारः

# यथा यदि d_model = 12288 तथा शब्दकोश_आकार = 49152

# ततः मॉडल_सक्रियीकरणानि_D.shape = (12288,) तथा एन्कोडर_DF.weight.shape = (12288, 49152)

class SparseAutoEncoder (nn.मॉड्यूल): 1.1.

एकस्तरीयः स्वयम्-एन्कोडरः ।

def __init__ (स्वयं, सक्रियण_मंद: int, dict_size: int):

सुपर ().__प्रारम्भ__()

self.activation_dim = सक्रियीकरण_मंद

self.dict_size = डिक्ट_आकार

self.encoder_DF = nn.Linear (सक्रियता_मंद, dict_size, पूर्वाग्रह = सत्य)

self.decoder_FD = nn.Linear (डिक्ट_आकार, सक्रियण_मंद, पूर्वाग्रह = सत्य)

def एन्कोड (स्वयं, मॉडल_सक्रियीकरण_D: मशाल.Tensor) -> मशाल.Tensor:

return nn.ReLU () (self.encoder_DF (मॉडल_सक्रियीकरण_डी))

def decode (स्वयं, एन्कोडेड_प्रतिनिधित्व_F: मशाल.Tensor) -> मशाल.Tensor:

return self.decoder_FD (एन्कोडेड_प्रतिनिधित्व_F)

def forward_pass (स्वयं, मॉडल_सक्रियीकरण_D: मशाल.टेंसर) -> tuple [मशाल.टेंसर, मशाल.टेंसर]:

encoded_representation_F = self.encode (मॉडल_सक्रियीकरण_D)

reconstructed_model_activations_D = self.decode (एन्कोडेड_प्रतिनिधित्व_F)

return reconstructed_model_activations_D, एन्कोडेड_प्रतिनिधित्व_F

मानकस्वचालकस्य हानिकार्यं निवेशपुनर्निर्माणपरिणामस्य सटीकतायां आधारितं भवति । विरलतायाः परिचयार्थं सर्वाधिकं सरलः उपायः अस्ति यत् SAE इत्यस्य हानिकार्यं प्रति विरलतादण्डपदं योजयितुं शक्यते । अस्य दण्डपदस्य गणनायाः सर्वाधिकं सामान्यः उपायः अस्ति यत् अस्य SAE इत्यस्य एन्कोडेड् प्रतिनिधित्वस्य L1 हानिः (SAE भाराः न) गृहीत्वा L1 गुणांकेन गुणयितुं शक्यते इदं L1 गुणांकं SAE प्रशिक्षणे एकः प्रमुखः अतिपैरामीटर् अस्ति यतः एषः विरलतां प्राप्तुं पुनर्निर्माणसटीकतां निर्वाहयितुम् च मध्ये व्यापार-अवस्थां निर्धारयति

ध्यानं कुर्वन्तु यत् एतत् व्याख्यानार्थं अनुकूलितं नास्ति । तस्य स्थाने व्याख्यानीयाः SAE विशेषताः विरलतायाः अनुकूलनस्य पुनर्निर्माणस्य च दुष्प्रभावः भवति । अधः सन्दर्भहानिकार्यं भवति ।

# B = बैच आकार, D = d_model, F = शब्दकोश_आकार

def calculate_loss (autoencoder: SparseAutoEncoder, मॉडल_सक्रियीकरण_BD: मशाल.Tensor, l1_coeffient: फ्लोट) -> मशाल.Tensor:

पुनर्निर्माण_मॉडल_सक्रियीकरण_BD, एन्कोडेड_प्रतिनिधित्व_BF = autoencoder.forward_pass (model_activations_BD)

पुनर्निर्माण_त्रुटि_BD = (पुनर्निर्मित_मॉडल_सक्रियीकरण_BD - मॉडल_सक्रियीकरण_BD).pow (2)

पुनर्निर्माण_त्रुटि_बी = einops.reduce (पुनर्निर्माण_त्रुटि_बीडी, 'बीडी -> बी', 'योग')

l2_loss = पुनर्निर्माण_त्रुटि_B.mean ()

l1_हानि = l1_गुणांक * एन्कोडेड_प्रतिनिधित्व_BF.sum ()

हानि = ल2_हानि + ल1_हानि

return loss



विरलस्य स्वयम्सङ्केतकस्य अग्रे पासस्य योजनाबद्धचित्रम् ।

एषः विरलस्य स्वयम्सङ्केतकस्य एकः अग्रे गमनम् अस्ति । प्रथमं 1x4 आकारस्य आदर्शसदिशः अस्ति । ततः एतत् 4x8 एन्कोडर-मात्रिकायाः ​​गुणितं भवति यत् 1x8 एन्कोडेड् सदिशं प्राप्नोति, तथा च ReLU इत्यनेन ऋणात्मकमूल्यानि शून्यरूपेण परिणतुं प्रयुक्तं भवति । एषः संकेतितः सदिशः विरलः अस्ति । ततः, 1x4 अपूर्णरूपेण पुनर्निर्मितं मॉडल् सक्रियीकरणं प्राप्तुं 8x4 डिकोडर-मात्रिकायाः ​​गुणनं कुर्वन्तु ।

काल्पनिक SAE विशेषता प्रदर्शन

आदर्शतः, SAE प्रतिनिधित्वे प्रत्येकं महत्त्वपूर्णं संख्यात्मकं मूल्यं कस्यचित् अवगम्यघटकस्य अनुरूपं भवति ।

अत्र दृष्टान्तार्थं प्रकरणं कल्पयामः । कल्पयतु यत् १२,२८८-आयामी सदिशः [१.५, ०.२, -१.२, ...] GPT-३ इत्यस्य दृष्ट्या "Golden Retriever" इत्यस्य प्रतिनिधित्वं करोति । SAE आकारस्य (४९,५१२, १२,२८८) आकृतिः अस्ति, परन्तु वयं तत् ४९,५१२ सदिशानां समुच्चयरूपेण अपि चिन्तयितुं शक्नुमः, येषु प्रत्येकस्य आकारः (१, १२,२८८) अस्ति । यदि SAE डिकोडरस्य 317 सदिशः GPT-3 इत्यस्य समानं "Golden Retriever" अवधारणां शिक्षते तर्हि डिकोडर सदिशः [1.5, 0.2, -1.2, ...] इत्यस्य मोटेन समानः भवति

यदा कदापि SAE सक्रियीकरणस्य 317 तत्त्वः अशून्यः भवति, तदा "Golden Retriever" इत्यस्य अनुरूपः सदिशः (तथा 317 तत्त्वस्य परिमाणस्य आधारेण) पुनर्निर्माणसक्रियीकरणे योजितः भवति यांत्रिकव्याख्याक्षमतापदेषु एतस्य संक्षेपेण वर्णनं कर्तुं शक्यते यत् “डिकोडरसदिशः अवशिष्टप्रवाहस्थाने विशेषतानां रेखीयप्रतिपादनेन सह सङ्गच्छते”

एन्कोडेड् प्रतिनिधित्वस्य ४९,५१२ आयामयुक्तस्य SAE इत्यस्य ४९,५१२ विशेषताः सन्ति इति अपि वक्तुं शक्यते । विशेषतासु तत्सम्बद्धाः एन्कोडर-डिकोडर-सदिशः सन्ति । एन्कोडर-सदिशस्य भूमिका अन्येषां अवधारणानां हस्तक्षेपं न्यूनीकरोति चेत् मॉडलस्य आन्तरिक-अवधारणानां अन्वेषणं भवति, यदा तु डिकोडर-सदिशस्य भूमिका "वास्तविक" विशेषता-दिशायाः प्रतिनिधित्वं भवति शोधकर्तृणां प्रयोगेषु ज्ञातं यत् प्रत्येकस्य विशेषतायाः एन्कोडर-डिकोडर-विशेषताः भिन्नाः सन्ति, तथा च मध्यमकोसाइन-सादृश्यं ०.५ भवति । अधोलिखिते चित्रे त्रयः रक्तपेटिकाः व्यक्तिगतविशेषतानां अनुरूपाः सन्ति ।



विरल ऑटोएन्कोडरस्य योजनाबद्धचित्रम्, यस्मिन् त्रयः रक्ताः पेटीः SAE विशेषता 1 इत्यस्य अनुरूपाः सन्ति तथा च हरितवर्णीयः पेटी विशेषता 4 इत्यस्य अनुरूपः भवति । प्रत्येकं विशेषतायां 1x4 एन्कोडर वेक्टर्, 1x1 फीचर सक्रियणम्, 1x4 डिकोडर वेक्टर् च भवति । पुनर्निर्मितसक्रियीकरणानां निर्माणं केवलं SAE विशेषतानां 1 तथा 4 तः डिकोडर वेक्टर् इत्यस्य उपयोगेन कृतम् आसीत् । यदि रक्तपेटी "लालवर्णः" हरितपेटी च "कन्दुकं" प्रतिनिधियति, तर्हि आदर्शः "लालगोलक" प्रतिनिधित्वं कर्तुं शक्नोति ।

अतः वयं कथं ज्ञास्यामः यत् ३१७ परिकल्पितं विशेषता किं प्रतिनिधियति? सम्प्रति, अभ्यासः अस्ति यत् एतादृशान् निवेशान् अन्वेष्टव्यः ये विशेषतासक्रियीकरणं अधिकतमं कुर्वन्ति तथा च तेषां व्याख्याक्षमतायाः सहजप्रतिक्रियां ददति । प्रत्येकं विशेषतां सक्रियं कुर्वन्ति ये निवेशाः ते प्रायः व्याख्यायोग्याः भवन्ति ।

उदाहरणार्थं एन्थ्रोपिक् इत्यनेन क्लाउड् सोनेट् इत्यत्र एसएई इत्यस्य प्रशिक्षणं दत्तं तथा च गोल्डन् गेट सेतुः, तंत्रिकाविज्ञानं, लोकप्रियपर्यटनस्थलानि च सम्बद्धाः पाठाः चित्राणि च भिन्नानि एसएई-विशेषतानि सक्रियं कुर्वन्ति इति ज्ञातम् अन्ये विशेषताः तादृशैः अवधारणाभिः सक्रियः भविष्यन्ति ये स्पष्टाः न सन्ति यथा, पायथिया-विषये प्रशिक्षितस्य SAE इत्यस्य विशेषता "वाक्यस्य विषयस्य परिवर्तनार्थं प्रयुक्तस्य सापेक्षवाक्यस्य अथवा विभक्तिवाक्यस्य अन्तिमचिह्नम्" इति अवधारणायाः द्वारा सक्रियः भविष्यति । " " .

यतो हि SAE डिकोडर सदिशस्य आकारः LLM इत्यस्य मध्यवर्ती सक्रियीकरणानां समानः भवति, केवलं मॉडलसक्रियीकरणेषु डिकोडरसदिशं योजयित्वा कारणहस्तक्षेपः कर्तुं शक्यते अस्य हस्तक्षेपस्य बलं अस्य डिकोडरसदिशस्य प्रसारणकारकेण गुणयित्वा समायोजितुं शक्यते । यदा एन्थ्रोपिक् शोधकर्तारः क्लाउड् इत्यस्य सक्रियीकरणे "गोल्डन् गेट ब्रिज" SAE डिकोडर वेक्टर् योजितवन्तः तदा क्लाउड् प्रत्येकं प्रतिक्रियायां "गोल्डन् गेट ब्रिज" इत्यस्य उल्लेखं कर्तुं बाध्यः अभवत्

अधः परिकल्पितविशेषतायाः ३१७ इत्यस्य उपयोगेन कारणहस्तक्षेपस्य सन्दर्भकार्यन्वयनम् अस्ति । "गोल्डन गेट ब्रिज" क्लाउड् इत्यस्य सदृशम् अयं अतीव सरलः हस्तक्षेपः GPT-3 मॉडलं प्रत्येकं प्रतिक्रियायां "गोल्डन् रिट्रीवर" इत्यस्य उल्लेखं कर्तुं बाध्यते ।

def perform_intervention (model_activations_D: मशाल.Tensor, decoder_FD: मशाल.Tensor, पैमाने: फ्लोट) -> मशाल.Tensor:

हस्तक्षेप_सदिश_डी = डिकोडर_एफडी [317, :]

scaled_intervention_vector_D = हस्तक्षेप_सदिश_D * स्केल

modified_model_activations_D = मॉडल_सक्रियीकरण_D + स्केल_हस्तक्षेप_सदिश_D

परिवर्तित_मॉडल_सक्रियीकरण_D

विरलस्वचालकानाम् मूल्याङ्कनदुविधा

SAE इत्यस्य उपयोगस्य प्रमुखासु आव्हानासु एकं मूल्याङ्कनम् अस्ति । भाषाप्रतिमानानाम् व्याख्यानार्थं विरल-स्वचालकानाम् प्रशिक्षणं कर्तुं शक्नुमः, परन्तु प्राकृतिकभाषाप्रतिपादनानां मापनीयं अन्तर्निहितं भूमिसत्यं अस्माकं नास्ति । सम्प्रति मूल्याङ्कनं अतीव व्यक्तिपरकं भवति, मूलतः "वयं विशेषतानां श्रृङ्खलायाः सक्रियीकरणनिवेशस्य अध्ययनं कुर्मः, ततः एतेषां विशेषतानां व्याख्यानक्षमताम् सहजतया व्याख्यास्यामः

शोधकर्तारः केचन सामान्याः प्रॉक्सीः आविष्कृताः ये विशेषताव्याख्याक्षमतायाः अनुरूपाः दृश्यन्ते । सर्वाधिकं प्रयुक्ताः L0 तथा Loss Recovered इति । L0 SAE इत्यस्य एन्कोडेड्-मध्यवर्ती-प्रतिपादने शून्य-तत्त्वानां औसत-सङ्ख्या अस्ति । लॉस रिकवरड् जीपीटी इत्यस्य मूलसक्रियीकरणानां स्थाने पुनर्निर्माणसक्रियीकरणानि स्थापयति तथा च अपूर्णपुनर्निर्माणपरिणामानां अतिरिक्तहानिः मापयति। प्रायः एतयोः मेट्रिकयोः मध्ये व्यापारः भवति, यतः SAE विरलतायाः उन्नयनार्थं पुनर्निर्माणसटीकतायां न्यूनतां जनयति इति समाधानं चिन्वति

SAEs इत्यस्य तुलनायां सामान्यः उपायः अस्ति यत् द्वयोः चरयोः प्लॉट् करणीयम् ततः तयोः मध्ये व्यापार-अवरोधस्य परीक्षणं करणीयम् । उत्तमं व्यापारं प्राप्तुं अनेके नवीनाः SAE पद्धतयः (यथा DeepMind इत्यस्य Gated SAE तथा OpenAI इत्यस्य TopK SAE) विरलतादण्डं परिवर्तयन्ति । अधोलिखितं चित्रं DeepMind इत्यस्य Gated SAE पत्रात् अस्ति। गेटेड् SAE इति रक्तरेखायाः प्रतिनिधित्वं भवति, या आलेखस्य उपरि वामभागे स्थिता अस्ति, यत् दर्शयति यत् अस्मिन् व्यापारे इदं उत्तमं प्रदर्शनं करोति ।



गेटेड SAE L0 तथा हानि पुनः प्राप्त

एसएई-मापनस्य कठिनतायाः अनेकाः स्तराः सन्ति । L0 तथा Loss Recovered इति द्वौ प्रॉक्सी सूचकौ स्तः । परन्तु प्रशिक्षणकाले वयं तान् न उपयुञ्ज्महे यतोहि L0 भेद्यः नास्ति तथा च SAE प्रशिक्षणकाले Loss Recovered इति गणना गणनायाः दृष्ट्या अतीव महत्त्वपूर्णा भवति। तस्य स्थाने अस्माकं प्रशिक्षणहानिः L1 दण्डपदेन तथा आन्तरिकसक्रियीकरणस्य पुनर्निर्माणस्य सटीकता च निर्धारिता भवति, न तु अधःप्रवाहहानिषु तस्य प्रभावः।

प्रशिक्षणहानिकार्यं प्रत्यक्षतया प्रतिनियुक्तमेट्रिकस्य अनुरूपं न भवति, तथा च प्रतिनिधीमापकं केवलं विशेषताव्याख्याक्षमतायाः व्यक्तिपरकमूल्यांकनस्य प्रॉक्सी भवति यतो हि अस्माकं वास्तविकं लक्ष्यं "प्रतिरूपं कथं कार्यं करोति इति अवगन्तुम्" अस्ति तथा च व्यक्तिपरकव्याख्याक्षमतामूल्यांकनानि केवलं प्रॉक्सी एव सन्ति, अतः अन्यः असङ्गतिः स्तरः भविष्यति एलएलएम-मध्ये केचन महत्त्वपूर्णाः अवधारणाः व्याख्यातुं सुलभाः न भवेयुः, तथा च वयं व्याख्यानक्षमतायाः अन्धरूपेण अनुकूलनं कुर्वन्तः एताः अवधारणाः उपेक्षितुं शक्नुमः ।

सारांशं कुरुत

व्याख्यानक्षमताक्षेत्रे अद्यापि दीर्घः मार्गः अस्ति, परन्तु SAE वास्तविकप्रगतिः एव। SAE रोचकं नवीनं अनुप्रयोगं सक्षमं करोति, यथा गोल्डन् गेट ब्रिज स्टीयरिंग सदिश इव सुगतिसदिशं अन्वेष्टुं अनिरीक्षितपद्धतिः । SAE अस्मान् भाषाप्रतिमानयोः पाशान् अधिकसुलभतया अन्वेष्टुं अपि साहाय्यं कर्तुं शक्नोति, यस्य उपयोगः प्रतिरूपस्य अन्तः अनावश्यकं पूर्वाग्रहं दूरीकर्तुं भवितुं शक्यते ।

एसएई व्याख्यानीयविशेषताः अन्वेष्टुं शक्नुवन्ति (यद्यपि लक्ष्यं केवलं सक्रियीकरणेषु प्रतिमानानाम् अभिज्ञानं भवति) इति तथ्यं सूचयति यत् ते किमपि सार्थकं प्रकाशयितुं शक्नुवन्ति। एलएलएम खलु किमपि सार्थकं शिक्षितुं शक्नोति इति अपि प्रमाणानि सन्ति, न तु केवलं सतही सांख्यिकीयप्रतिमानं कण्ठस्थं कर्तुं।

एसएई एकं प्रारम्भिकं माइलस्टोन् अपि प्रतिनिधितुं शक्नोति यस्य लक्ष्यं एन्थ्रोपिक् इत्यादीनि कम्पनयः आसन्, यत् "यन्त्रशिक्षणप्रतिमानानाम् कृते एमआरआइ (चुम्बकीयप्रतिनादप्रतिबिम्बनम्)" इति । SAE अद्यापि सम्यक् अवगमनं न ददाति, परन्तु तस्य उपयोगेन दुर्व्यवहारस्य अन्वेषणं कर्तुं शक्यते । एसएई तथा एसएई मूल्याङ्कनस्य प्रमुखाः आव्हानाः दुर्गमाः न सन्ति, अस्मिन् विषये बहवः शोधकर्तारः पूर्वमेव कार्यं कुर्वन्ति ।

विरल-स्वचालकानाम् अग्रे परिचयार्थं कृपया Callum McDougal’s Colab नोटबुकं पश्यन्तु: https://www.lesswrong.com/posts/LnHowHgmrMbWtpkxx/intro-to-superposition-and-sparse-autoencoders-colab

https://www.reddit.com/r/MachineLearning/comments/1eeihdl/d_an_an_intuitive_explanation_of_sparse_autoencoders/

https://adamkarvonen.github.io/मशीन_शिक्षण/2024/06/11/sae-intuitions.html