समाचारं

li feifei इत्यस्य नवीनतमं वार्तालापः : ai प्रौद्योगिक्याः प्रगतिः अकल्पनीयानि नवीनाः अनुप्रयोगपरिदृश्यानि आनयिष्यति

2024-09-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

अद्यतने ली फेइफेइतथाa16z भागीदारःमार्टिन् कासाडोअपि चशोधकर्त्ता जस्टिन जॉन्सन्आतन्चर्चा कृताक्षेत्रस्य इतिहासः, वर्तमानस्थितिः, भविष्यस्य विकासस्य दिशा च, विषयाःएआइ प्रौद्योगिक्याः सर्वान् पक्षान् विशेषतया जननात्मक एआइ तथा स्थानिकबुद्धेः भविष्यस्य क्षमताम् आच्छादयति ।
ली फेइफेइ इत्यनेन स्नातकपदवीं प्राप्तुं जननात्मकः एआइ पूर्वमेव अस्ति इति बोधितम्, परन्तु प्रारम्भिकप्रौद्योगिकी अद्यापि परिपक्वा नासीत् । गहनशिक्षणस्य कम्प्यूटिंगशक्तेः च कूर्दनेन सह जनरेटिव् एआइ इत्यनेन अन्तिमेषु वर्षेषु उल्लेखनीयप्रगतिः कृता अस्ति तथा च एआइ-क्षेत्रे मूलभूत-सफलतासु अन्यतमः अभवत्
सा नवीनतम उद्यमशीलता परियोजना वर्ल्ड लैब्स् इत्यस्य अपि परिचयं कृतवती, यत् "स्थानिकबुद्धिः" इति विषये केन्द्रितम् अस्ति, अर्थात् यन्त्राणां 3d तथा 4d अन्तरिक्षेषु अवगन्तुं अन्तरक्रियां च कर्तुं क्षमता
सा सूचितवती यत् स्थानिकबुद्धिः न केवलं आभासीलोकानां जननार्थं उपयुक्ता अस्ति, अपितु वास्तविकजगत् अपि एकीकृतुं शक्नोति तथा च संवर्धितवास्तविकता (ar), आभासीवास्तविकता (vr) रोबोटिक्स च क्षेत्रेषु व्यापकरूपेण उपयुज्यते।प्रौद्योगिक्याः उन्नतिः अस्मान् अकल्पनीयानि नवीन-अनुप्रयोग-परिदृश्यानि आनयिष्यति, यत्र आभासी-विश्व-जननम्, संवर्धित-वास्तविकता, भौतिक-जगतः सह अन्तरक्रिया च सन्ति
अस्य सम्भाषणस्य मुख्यविषयः निम्नलिखितम् अस्ति, आनन्दयन्तु~

मार्टिन् कासाडो

विगतवर्षद्वये वयं उपभोक्तृस्तरीय-एआइ-कम्पनीनां प्रौद्योगिकीनां च तरङ्गं उद्भूतं दृष्टवन्तः, प्रक्रिया च उन्मत्तः अभवत् । भवन्तः च दशकैः अस्मिन् क्षेत्रे कार्यं कुर्वन्ति। अतः वयं भवता अस्मिन् क्रमे कृतानां मुख्ययोगदानानाम् अन्वेषणानाञ्च विषये वदामः।

फेइफेइ लि

अतीव रोमाञ्चकारी समयः अस्ति, पश्चात् पश्यन् एआइ रोमाञ्चकारीसमये अस्ति। अहं व्यक्तिगतरूपेण दशकद्वयाधिकं यावत् अस्मिन् क्षेत्रे संलग्नः अस्मि वयं गत-ए.आइ.-शीतकालात् उद्भूताः, आधुनिक-ए.आइ. ततः वयं गहनशिक्षणस्य उदयं दृष्टवन्तः, यत् अस्मान् शतरंजक्रीडा इव किं सम्भवं दर्शयति स्म ।

ततः वयं भाषाप्रतिमानादिषु प्रारम्भिकसंभावनानां प्रौद्योगिक्यां उद्योगप्रयोगे च गहनतरविकासान् द्रष्टुं आरब्धाः। अधुना अहं मन्ये वयं "कैम्ब्रियनविस्फोटस्य" मध्ये स्मः।

एकस्मिन् अर्थे इदानीं पाठस्य अतिरिक्तं वयं पिक्सेल, विडियो, ऑडियो इत्यादीनि अपि पश्यामः, एआइ अनुप्रयोगैः, मॉडलैः च सह संयोजितुं आरब्धाः, अतः एषः अतीव रोमाञ्चकारी समयः अस्ति

मार्टिन् कासाडो

अहं भवन्तौ चिरकालात् जानामि, बहुजनाः भवन्तं जानन्ति यतोहि भवन्तौ अस्मिन् क्षेत्रे एतावन्तः प्रमुखाः सन्ति। परन्तु सर्वे न जानन्ति यत् भवान् एआइ क्षेत्रे कथं आरब्धवान्, अतः भवतु वयं भवतः पृष्ठभूमिं संक्षेपेण परिचययितुं शक्नुमः यत् प्रेक्षकाणां मूलभूतबोधं स्थापयितुं साहाय्यं भवति।

जस्टिन जॉन्सन्

ठीकम्, एआइ-सम्बद्धः मम प्रथमः संपर्कः मम स्नातकपदवीयाः अन्ते एव आसीत् । अहं caltech इत्यत्र गणितं सङ्गणकशास्त्रं च अधीत्य महान् समयः आसीत्। तस्मिन् काले एकः अतीव प्रसिद्धः पत्रः प्रकाशितः, यत् होम नेक् ली, एण्ड्रयू एङ्ग् इत्यादीनां कृते गूगल ब्रेन इत्यत्र "बिल्लीपत्रम्" आसीत् एतत् मम प्रथमः गहनशिक्षणस्य अवधारणायाः परिचयः आसीत् ।

एषा प्रौद्योगिकी मां आश्चर्यचकितवती, तदा एव प्रथमवारं मया एतत् नुस्खं सम्मुखीकृतम्: यदा शक्तिशालिनः सामान्य-उद्देश्य-शिक्षण-अल्गोरिदम्, विशालाः गणना-संसाधनाः, बृहत्-मात्रायां दत्तांशः च संयोजिताः भवन्ति तदा किमपि जादुई भवति २०११ अथवा २०१२ तमस्य वर्षस्य समीपे एषः विचारः मया ज्ञातः, तस्मिन् समये मया अनुभूतं यत् भविष्ये एतत् किमपि करिष्यामि इति ।

स्पष्टतया एतत् कार्यं कर्तुं भवद्भिः स्नातकविद्यालयं गन्तव्यम् आसीत्, अतः अहं आविष्कृतवान् यत् फेइफेइ स्टैन्फोर्ड-नगरे अस्ति, सा च विश्वस्य कतिपयेषु जनासु अन्यतमा आसीत् ये अस्य क्षेत्रस्य गहनतया अध्ययनं कुर्वन्ति स्म गहनशिक्षणस्य सङ्गणकदृष्टेः च कार्यं कर्तुं महान् समयः आसीत्, यतः एषः एव क्षणः आसीत् यदा प्रौद्योगिकी शैशवावस्थातः परिपक्वतायाः व्यापकस्वीकरणपर्यन्तं च गच्छति स्म

तस्मिन् काले वयं भाषाप्रतिरूपणस्य आरम्भं दृष्टवन्तः, विवेकपूर्णसङ्गणकदृष्टेः आरम्भाः अपि दृष्टवन्तः—चित्रे किं प्रचलति इति भवन्तः अवगन्तुं शक्नुवन्ति स्म अस्मिन् काले अद्यत्वे वयं यत् जनरेटिव् एआइ इति वदामः तस्य प्रारम्भिकविकासः अपि अभवत् ।

तस्मिन् समये प्रतिदिनं प्रातःकाले जागरणसमये अहं arxiv उद्घाट्य नवीनतमं शोधपरिणामान् पश्यन् आसीत् । विगतवर्षद्वये शेषविश्वः अपि अवगन्तुं आरब्धवान् यत् प्रतिदिनं एआइ-प्रौद्योगिक्याः माध्यमेन नूतनानि “क्रिसमस-उपहाराः” प्राप्यन्ते |. परन्तु ये अस्माकं दशवर्षाधिकं अस्मिन् क्षेत्रे सन्ति, तेषां कृते एषः अनुभवः पूर्वमेव अस्ति ।

फेइफेइ लि

स्पष्टतया अहं जस्टिनात् बहु वृद्धः अस्मि। अहं भौतिकशास्त्रात् एआइ-क्षेत्रे प्रविष्टवान् यतः मम स्नातकपृष्ठभूमिः भौतिकशास्त्रे एव आसीत् । भौतिकशास्त्रम् एकः विषयः अस्ति यः भवन्तं साहसिकप्रश्नानां विषये चिन्तयितुं शिक्षयति, यथा जगतः अनवधानं रहस्यम्। भौतिकशास्त्रे एताः समस्याः परमाणुजगत्, ब्रह्माण्डेन सह सम्बद्धाः भवेयुः, परन्तु एतेन प्रशिक्षणेन अन्यस्मिन् समस्यायां - बुद्धिः - विषये रुचिः अभवत् । अतः अहं caltech इत्यत्र ai तथा computational neuroscience इत्यत्र डॉक्टरेट् शोधं कृतवान्। यद्यपि जस्टिन् अहं च caltech इत्यत्र ओवरलैप् न कृतवन्तौ तथापि वयं समानं अल्मा मेटरं साझां कृतवन्तौ।

जस्टिन जॉन्सन्

स एव च ​​मार्गदर्शकः ?

फेइफेइ लि

आम्, भवतः स्नातकपरामर्शदाता अपि मम पीएचडी सल्लाहकारः पिएट्रो पेरोना आसीत् । यदा अहं पीएचडी-अध्ययनं कुर्वन् आसीत् तदा ए.आइ.-इत्यस्य जनानां दृष्टौ शीतल-शीतकालस्य मध्ये आसीत्, परन्तु मम दृष्टौ तत् न आसीत् । इदं वसन्तपूर्वस्य शीतनिद्राकालस्य सदृशं अधिकं भवति, यत्र यन्त्रशिक्षणं, जननात्मकप्रतिमानं च बलं सङ्गृह्णन्ति । अहं यन्त्रशिक्षणक्षेत्रे स्वं "देशीयः" इति मन्ये, जस्टिनस्य पीढी च गहनशिक्षणक्षेत्रे "देशीयः" अस्ति ।

यन्त्रशिक्षणं गहनशिक्षणस्य पूर्ववर्ती अस्ति, तस्मिन् समये वयं विविधप्रतिमानानाम् प्रयोगं कृतवन्तः । परन्तु मम पीएचडी-परीक्षायाः अन्ते मम सहायकप्रोफेसरत्वेन च मम छात्राः मम प्रयोगशाला च अवगच्छन् यत् एआइ-वाहनसामान्यीकरणस्य एकः उपेक्षितः तत्त्वः अस्ति यस्य विषये तस्मिन् समये क्षेत्रेण बहु न चिन्तितम् आसीत् : दत्तांशः |. वयं बेयसियन मॉडल् इत्यादिषु जटिलप्रतिरूपेषु केन्द्रीकृताः आसन् तथा च आँकडानां प्रतिरूपं चालयितुं दत्तस्य महत्त्वं उपेक्षितवन्तः।

एतत् एकं कारणं यत् वयं imagenet इत्यत्र सट्टेबाजीं कुर्मः। तस्मिन् समये सर्वेषु क्षेत्रेषु दत्तांशसमूहानां आकारः अतीव लघुः आसीत् . दिष्ट्या अन्तर्जालयुगम् अपि वर्धमानम् आसीत्, वयम् एतां तरङ्गं आरुह्य अस्मिन् एव काले अहं स्टैन्फोर्ड-नगरम् आगतः ।

मार्टिन् कासाडो

एते युगाः येषां विषये वयं बहु वदामः, यथा इमेजनेट्, स्पष्टतया सङ्गणकदृष्टिः प्रवर्धयितुं न्यूनतया वा जनरेटिव एआइ क्षेत्रे लोकप्रियं व्यवहार्यं च कर्तुं महत्त्वपूर्णाः युगाः सन्ति। वयं प्रायः द्वौ प्रमुखौ भङ्गौ उल्लेखयामः : एकं transformer पत्रं, यत् "ध्यानतन्त्रम्" अस्ति, अपरं च "स्थिरप्रसारस्य" विषये न्यूनतया चर्चा कृता अस्ति

किं शैक्षणिकक्षेत्रात् (विशेषतः गूगलतः) एतयोः अल्गोरिदमिक-अवकाशयोः एवं प्रकारेण अवगन्तुं युक्तम्? अथवा एषा अधिकतया अभिप्रायप्रक्रिया अस्ति ? अथवा अन्ये केचन प्रमुखाः भङ्गाः आसन् येषां प्रायः उल्लेखः न भवति ये अस्मान् अद्यत्वे यत्र स्मः तत्र अपि धक्कायन्ति स्म?

जस्टिन जॉन्सन्

आम्, अहं मन्ये यत् बृहत्तमं सफलतां कम्प्यूटिंग् शक्तिः एव। अहं जानामि यत् एआइ-कथा प्रायः कम्प्यूटिंग्-शक्ति-कथा अपि भवति, परन्तु प्रायः उल्लिखिता अपि तस्य प्रभावः न्यूनीकृतः इति मन्ये ।

विगतदशके वयं कम्प्यूटिंग्-शक्तेः वृद्धिं दृष्टवन्तः तत् स्तब्धं भवति । सङ्गणकदृष्टौ गहनशिक्षणस्य कृते प्रथमः पत्रः आसीत् यः एलेक्सनेट् इति २०१२ तमे वर्षे निर्मितः पत्रः यस्मिन् गहनं तंत्रिकाजालं इमेजनेट् आव्हाने उत्तमं प्रदर्शनं कृतवान्, तत्कालीनानाम् अन्येभ्यः एल्गोरिदम्भ्यः दूरं अधिकं प्रदर्शनं कृतवान्

स्नातकविद्यालयस्य समये भवन्तः येषां एल्गोरिदम्स्-सम्बद्धाः भवितुम् अर्हन्ति ते alexnet इत्यस्य तुलने विवर्णाः भवन्ति । alexnet इति गहनं तंत्रिकाजालम् अस्ति यस्य पैरामीटर् 60 मिलियनं भवति ।

अहं गतरात्रौ किञ्चित् दत्तांशं पश्यन् आसीत्, एतत् बृहत्तरे सन्दर्भे स्थापयितुम् इच्छामि स्म। nvidia इत्यस्य नवीनतमं ग्राफिक्स् कार्ड् gb200 अस्ति वा gtx 580 तथा gb200 इत्येतयोः मध्ये कम्प्यूटिंग् पावर अन्तरं अनुमानं कर्तुं शक्नुवन्ति?

संख्या सहस्रेषु अस्ति, अतः अहं गतरात्रौ गणितं कृतवान्। यथा, प्रशिक्षणस्य सप्ताहद्वये षड्दिनानि gtx 580 विमानयोः चालितानि आसन् यदि विस्तारितं भवति तर्हि सम्भवतः gb200 इत्यनेन पञ्चनिमेषेभ्यः न्यूनेन समये चालयितुं शक्नोति स्म ।

यदि भवान् एवं चिन्तयति तर्हि वस्तुतः एकः उत्तमः तर्कः अस्ति - इमेजनेट् चैलेन्ज इत्यस्य विषये २०१२ तमे वर्षे एलेक्स्नेट् पत्रं वस्तुतः अतीव क्लासिकं प्रतिरूपम् अस्ति, अर्थात् कन्वोल्यूशनल् न्यूरल नेटवर्क् मॉडल् अस्ति

वस्तुतः एषा अवधारणा १९८० तमे दशके एव प्रादुर्भूतवती यत् मया स्नातकस्य छात्रत्वेन अध्ययनं कृतं प्रथमं पत्रं तथैव आसीत्, यत्र षट् वा सप्त वा स्तराः जालसंरचना आसीत् । alexnet तथा ​​convolutional neural network model इत्येतयोः मध्ये प्रायः एकमात्रः अन्तरः gpu अस्ति - द्वयोः gpuयोः उपयोगः तथा च विशालमात्रायां आँकडानां उपयोगः

अतः अहं यत् वक्तुं गच्छामि स्म तत् अस्ति यत्, अधिकांशजना: इदानीं "कटुपाठ" इति कथ्यमानेन परिचिताः सन्ति, यत्, यदि भवान् एल्गोरिदम् विकसयति तर्हि केवलं सुनिश्चितं कुरु यत् भवान् स्वस्य विद्यमानस्य कम्प्यूटिंग् संसाधनानाम् लाभं ग्रहीतुं शक्नोति, यतः एते संसाधनाः भविष्यन्ति कालान्तरे उपलभ्यते। अतः भवद्भ्यः केवलं एतादृशी व्यवस्था आवश्यकी यत् निरन्तरं सुधरति।

अपरपक्षे अन्यः अपि तथैव प्रेरणादायकः तर्कः अस्ति इति भासते, यत् नूतनाः दत्तांशस्रोताः वस्तुतः गहनशिक्षणस्य तालान् उद्घाटयन्ति इति । इमेजनेट् इति उत्तमं उदाहरणम् अस्ति । यद्यपि बहवः जनाः मन्यन्ते यत् ट्रांसफॉर्मर-प्रतिरूपस्य कृते आत्म-अवधान-तन्त्रं महत्त्वपूर्णम् अस्ति तथापि ते अपि वदिष्यन्ति यत् एतत् मानव-लेबल-कृत-दत्तांशस्य लाभं ग्रहीतुं एकः उपायः अस्ति

यतो हि मनुष्याः वाक्यसंरचनायाः टिप्पणीः प्रदास्यन्ति, यदि भवान् clip मॉडल् पश्यति तर्हि वस्तुतः मनुष्यान् अन्तर्जालस्य सर्वत्र alt टैग् इत्यस्य उपयोगेन चित्राणि टैग् कर्तुं शक्नोति अतः एषा वस्तुतः दत्तांशस्य विषये कथा अस्ति, न तु कम्प्यूटिङ्ग् विषये । अतः उत्तरं उभयम् अस्ति, उत अधिकं एकपक्षम् ? अहं मन्ये यत् इदं किञ्चित् उभयोः अस्ति, परन्तु भवता अन्यत् अतीव महत्त्वपूर्णं बिन्दुम् अपि उक्तम्।

मार्टिन् कासाडो

अहं मन्ये एल्गोरिदम्-क्षेत्रे वस्तुतः द्वौ विशिष्टौ युगौ स्तः । इमेजनेट् युगः पर्यवेक्षितशिक्षणस्य युगः अस्ति । अस्मिन् युगे अस्माकं बहु दत्तांशः अस्ति, परन्तु केवलं दत्तांशैः एव प्रशिक्षणं कर्तुं न जानीमः ।

imagenet इत्यादिभिः समकालीनदत्तांशसमूहैः सह अपेक्षा आसीत् यत् अस्माकं बहु चित्राणि भविष्यन्ति, परन्तु प्रत्येकं चित्रं टिप्पणीं कर्तुं मनुष्याणां आवश्यकता भविष्यति । अस्माभिः प्रशिक्षिताः सर्वे दत्तांशाः मानवीय-टिप्पणीकारैः एकैकशः अवलोकिताः, टिप्पणीकृताः च आसन् ।

एल्गोरिदम् इत्यस्य महती सफलता अस्ति यत् वयम् अधुना मानवीय-टिप्पणी-विषये न अवलम्बितानां दत्तांशानां प्रशिक्षणं कर्तुं जानीमः । एआइ पृष्ठभूमिरहितस्य औसतस्य व्यक्तिस्य कृते इदं प्रतीयते यत् यदि भवान् मानवदत्तांशस्य प्रशिक्षणं करोति तर्हि मानवैः वस्तुतः टिप्पणी कृता, परन्तु टिप्पणी स्पष्टा नास्ति

जस्टिन जॉन्सन्

आम्, दार्शनिकदृष्ट्या एषः अतीव महत्त्वपूर्णः प्रश्नः, परन्तु बिम्बक्षेत्रे अपेक्षया भाषाक्षेत्रे अधिकं सत्यम् अस्ति । आम्, परन्तु अहं मन्ये यत् एषः महत्त्वपूर्णः भेदः अस्ति। clip इति खलु मनुष्यैः टिप्पणीकृतम् अस्ति। अहं मन्ये आत्म-अवधान-तन्त्रम् अस्ति यत् मनुष्याः वस्तुनां मध्ये सम्बन्धान् अवगतवन्तः, ततः भवन्तः एतेषां सम्बन्धानां माध्यमेन शिक्षन्ति ।

अतः अद्यापि मनुष्यैः टिप्पणीकृतम् अस्ति, परन्तु टिप्पणी स्पष्टं न तु अन्तर्निहितम् अस्ति । अन्तरं तु एतत् यत् पर्यवेक्षितशिक्षणयुगे अस्माकं शिक्षणकार्यं अधिकं प्रतिबन्धितं भवति । अस्माभिः तान् अवधारणानां अस्तित्वविज्ञानं कल्पनीयं येषां आविष्कारं कर्तुम् इच्छामः।

यथा, इमेजनेट् इत्यस्मिन् fei-fei li तस्याः छात्रैः सह इमेजनेट् आव्हाने एकसहस्रवर्गाः किं भवेयुः इति चिन्तयन् बहुकालं व्यतीतवान् । अन्येषु दत्तांशसमूहेषु एकस्मिन् समये, यथा लक्ष्यपरिचयार्थं प्रयुक्ते coco दत्तांशसमूहेषु, ते अपि बहु चिन्तनं कृतवन्तः यत् तस्मिन् के ८० वर्गाः स्थापयितव्याः इति निर्णयः कृतः

मार्टिन् कासाडो

अतः जननात्मक एआइ विषये वदामः। यदा अहं पीएचडी करोमि स्म तदा भवतां कृते आगमनात् पूर्वं अहं एण्ड्रयू एङ्ग् इत्यस्य यन्त्रशिक्षणपाठ्यक्रमं गृहीतवान्, अहं च डाफ्ने कोलर इत्यस्य अतीव जटिलं बेयसियनपाठ्यक्रमं गृहीतवान्, यत् मम कृते अतीव जटिलं आसीत्।

तदा तस्य बहुभागः भविष्यवाणीप्रतिरूपणम् आसीत् । अहं स्मरामि यत् भवान् एतत् समग्रं दृष्टिवस्तुं अनलॉक् कृतवान्, परन्तु जननात्मकः एआइ केवलं गतचतुर्वर्षेषु वा अस्ति। मम कृते एतत् सर्वथा भिन्नं क्षेत्रम् अस्ति - भवन्तः वस्तुनः परिचयं न कुर्वन्ति, किमपि पूर्वानुमानं न कुर्वन्ति, नूतनानि वस्तूनि जनयन्ति ।

अतः भवतु वयं वक्तुं शक्नुमः यत् जननात्मकं एआइ सम्भवं कुर्वन्ति प्रमुखाः कारकाः के सन्ति, पूर्वापेक्षया कथं भिन्नम् अस्ति, तथा च अस्माभिः एतत् भिन्नरूपेण द्रष्टव्यम्, किं निरन्तरविकासभागः अस्ति वा अन्यत् सर्वथा नूतनं क्षेत्रम्?

फेइफेइ लि

मम स्नातकविद्यालयदिनात् अपि जननात्मकप्रतिमानाः सन्ति इति अतीव रोचकम्। वयं तदा जनरेशनं कर्तुम् इच्छन्तः आसन्, परन्तु कोऽपि न स्मरति स्म यत्, अक्षरैः संख्याभिः च जनरेशनं कुर्मः चेदपि वयं किमपि प्रयत्नशीलाः स्मः। तस्मिन् समये जेफ् हिण्टनस्य जनरेशनविषये केचन पत्राणि आसन्, वयं च कथं जनरेशनं कर्तव्यमिति अपि चिन्तयन्तः आसन् ।

वस्तुतः यदि भवान् संभाव्यतावितरणस्य दृष्ट्या पश्यति तर्हि गणितीयरूपेण तत् उत्पन्नं कर्तुं शक्यते, परन्तु तस्मिन् समये यत् उत्पन्नं तत् सर्वथा आश्चर्यजनकं नासीत् अतः यद्यपि गणितीयदृष्ट्या जननस्य अवधारणा विद्यते तथापि वस्तुतः जननप्रभावः नास्ति यः सन्तोषजनकः भवति ।

ततः अहं विशेषतया एकस्य पीएचडी-छात्रस्य उल्लेखं कर्तुम् इच्छामि यः गहनशिक्षणस्य प्रबलरुचिं कृत्वा मम प्रयोगशालायां आगतः। अस्य डॉक्टरेट्-छात्रस्य सम्पूर्णः डॉक्टरेट्-अध्ययन-अनुभवः अस्य क्षेत्रस्य विकास-प्रक्षेपवक्रस्य सूक्ष्म-विश्वः इति प्रायः वक्तुं शक्यते ।

तस्य प्रथमा परियोजना दत्तांशः आसीत्, अहं च तं कर्तुं बाध्यः अभवम् यद्यपि तस्मै तत् न रोचते स्म तथापि पश्चात् सः स्वीकृतवान् यत् सः बहु उपयोगी वस्तूनि ज्ञातवान् । "अधुना अहं प्रसन्नः अस्मि यत् भवान् तत् अवदत्।" वस्तुतः अस्मिन् क्रमे त्रयः स्पष्टाः चरणाः सन्ति ।

प्रथमः चरणः चित्राणां पाठस्य च मेलनं भवति । अस्माकं चित्राणि पाठश्च सन्ति, तदनन्तरं तेषां सम्बन्धः कथं वर्तते इति द्रष्टव्यम् । मम प्रथमं शैक्षणिकपत्रं, मम प्रथमः डॉक्टरेट्-प्रबन्धः अपि, दृश्य-लेखानां आधारेण चित्र-पुनर्प्राप्तेः अध्ययनं कृतवान् । तदनन्तरं वयं गहनतया अध्ययनं कुर्मः, पिक्सेलतः पाठं जनयामः च सः आन्द्रेज् च अस्मिन् विषये बहु कार्यं कृतवन्तौ, परन्तु अद्यापि एषा अतीव हानियुक्ता जननविधिः अस्ति, सूचना च यदा प्राप्ता भवति तदा बहुधा नष्टा भवति पिक्सेल जगत्।

मध्यपदे अतीव प्रसिद्धं कृतिः आसीत् तस्मिन् समये कश्चन प्रथमवारं वास्तविकसमयं अवगच्छत् । २०१५ तमे वर्षे लियोन् गैटिस् इत्यस्य नेतृत्वे "the art style of neural algorithms" इति पत्रं प्रकाशितम् । ते वास्तविकजगतः छायाचित्रं वैन गॉगशैल्याः चित्रेषु परिवर्तनं प्रदर्शितवन्तः ।

वयम् इदानीं तत् गृह्णीमः, परन्तु तत् २०१५ तमे वर्षे आसीत्, तत् पत्रं च arxiv इत्यत्र उत्पद्य मां स्तब्धं कृतवान् । अहं अनुभवामि यत् मम मस्तिष्के "ai-जननयुक्तः वायरसः" प्रविष्टः अस्ति। अहं मनसि चिन्तितवान् यत्, “अहो, मया एतत् अल्गोरिदम् अवगन्तुं, तया सह क्रीडितुं, मम चित्राणि वैन गॉग् इव दृश्यन्ते इति प्रयतितव्यम्” इति ।

अतः, मया दीर्घसप्ताहस्य समाप्तिः एल्गोरिदम् पुनः कार्यान्वितुं व्यतीतवान् यथा सः सम्यक् चालयितुं शक्नोति। वस्तुतः, एतत् अतीव सरलं एल्गोरिदम् अस्ति मम कार्यान्वयनम् केवलं प्रायः ३०० पङ्क्तयः कोड् अस्ति, यतः तस्मिन् समये pytorch नासीत्, अतः वयं lua torch इत्यस्य उपयोगं कृतवन्तः । परन्तु अल्गोरिदम् इत्यस्य सरलतायाः अभावेऽपि अतीव मन्दम् अस्ति । प्रत्येकं भवन्तः चित्रं जनयन्ति तदा भवन्तः अनुकूलनपाशं चालयितुं प्रवृत्ताः भवन्ति, यत् बहुकालं गृह्णाति । परिणामी चित्राणि सुन्दराणि सन्ति, परन्तु अहं केवलं इच्छामि यत् किञ्चित् द्रुततरं स्यात्। अन्ते वयं द्रुततरं कृतवन्तः एव ।

अन्यत् यत् अहं बहु गर्वितः अस्मि यत् सः स्वस्य डॉक्टरेट्-संशोधनस्य अन्तिमे भागे अतीव अत्याधुनिकं कार्यं कृतवान्, ततः पूर्वं जेनरेटिव् ए.आइ. एषा परियोजना प्राकृतिकभाषां निवेश्य सम्पूर्णानि चित्राणि जनयति, यत् प्रारम्भिकजननात्मकेषु एआइ-प्रयत्नेषु अन्यतमम् इति वक्तुं शक्यते । वयं gans इत्यस्य उपयोगं कुर्वन्तः आसन्, परन्तु तस्मिन् समये तस्य उपयोगः अतीव कठिनः आसीत् । समस्या अस्ति यत्, वयम् अद्यापि प्राकृतिकभाषायाः उपयोगेन सम्पूर्णप्रतिबिम्बस्य वर्णनं कर्तुं सज्जाः न स्मः ।

अतः, सः दृश्यलेखसंरचनानिवेशविधिं प्रयुक्तवान्, निवेशसामग्री च "मेष", "तृणं", "आकाशम्", इत्यादीनि आसीत्, तथा च एतस्य पद्धतेः उपयोगेन सम्पूर्णं चित्रं जनयति स्म ।

दत्तांशमेलनात् आरभ्य शैलीस्थापनपर्यन्तं चित्रजननपर्यन्तं वयं क्रमेण सम्पूर्णं परिवर्तनं पश्यामः । भवान् पृच्छति यत् एषः महत् परिवर्तनम् अस्ति वा, अस्माकं सदृशानां जनानां कृते एषा एकः सततं प्रक्रिया अस्ति, परन्तु जनसमूहस्य कृते परिणामाः आकस्मिकाः प्रभावशालिनः च दृश्यन्ते एव।

मार्टिन् कासाडो

अहं भवतः पुस्तकं पठामि तथा च एतत् महत् पुस्तकम् अस्ति यत् अहं सर्वेभ्यः पठितुं बहु अनुशंसयामि। तथा च, fei-fei, अहं यत् वक्तुम् इच्छामि तत् अस्ति यत् दीर्घकालं यावत् भवतः बहवः संशोधनाः दिशाः च स्थानिकबुद्धिः, पिक्सेल-प्रक्रियाकरणम् इत्यादिषु क्षेत्रेषु केन्द्रीकृताः सन्ति इदानीं भवान् यस्मिन् विश्वप्रयोगशालायां कार्यं करोति तत् स्थानिकबुद्धिविषये अपि सम्बद्धम् अस्ति । किं भवन्तः एतत् भवतः दीर्घकालीनयात्रायाः भागत्वेन वक्तुं शक्नुवन्ति? किमर्थं भवता इदानीं एतत् कर्तुं निश्चयः कृतः ? किम् एतत् किमपि प्रकारस्य प्रौद्योगिकी-सफलता अस्ति वा व्यक्तिगतकारणानि वा? किं भवान् अस्मान् एआइ-संशोधनस्य सन्दर्भात् वर्ल्ड लैब्स्-इत्यत्र नेतुम् अर्हति ?

फेइ-फेइ लि

मम कृते एषः व्यक्तिगतः साधना अपि च बौद्धिकयात्रा अपि अस्ति । भवान् मम पुस्तकस्य उल्लेखं कृतवान्, मम सम्पूर्णा बौद्धिकयात्रा च वास्तवतः "उत्तरतारकाणां" अन्वेषणं, ते उत्तरतारकाः अस्माकं क्षेत्रस्य उन्नतये महत्त्वपूर्णाः इति दृढः विश्वासः च अभवत्

आरम्भे, अहं स्मरामि स्नातकविद्यालयस्य अनन्तरं, अहं चिन्तितवान् यत् मम उत्तरतारकं "प्रतिमानां कृते कथाः कथयति," यतः मम दृष्ट्या, सः दृश्यबुद्धेः एकः बृहत् भागः अस्ति, यत् भवन्तः एआइ भागं वदन्ति।

परन्तु यदा जस्टिनः आन्द्रेज् च स्वकार्यं समाप्तवन्तौ तदा अहं चिन्तितवान् यत्, “अहो, एषः मम आजीवनं स्वप्नः, अग्रे अहं किं करिष्यामि?” एतत् प्राप्तुं वर्षशतानि यावत् समयः स्यात् ।

दृग्बुद्धिः मम सर्वदा एव अनुरागः आसीत् । अहं दृढतया विश्वसिमि यत् प्रत्येकस्य बुद्धिमान् जीवस्य कृते, मानवस्य, रोबोट्, अन्यस्य वा जीवस्य कृते, जगत् कथं द्रष्टव्यम्, कथं तर्कः कर्तव्यः, जगतः सह कथं संवादः कर्तव्यः इति ज्ञातुं महत्त्वपूर्णम् अस्ति नौकायानं वा, नियन्त्रणं वा, निर्माणं वा, सभ्यतायाः निर्माणमपि वा, दृश्यबुद्धिः, स्थानिकबुद्धिः च मौलिकभूमिकां निर्वहति ।

भाषा इव मौलिकं भवेत्, केनचित् प्रकारेण अपि प्राचीनतरं मौलिकं च भवेत् । अतः वर्ल्ड लैब्स् इत्यस्य नॉर्थ् स्टार इत्यस्य अन्तरिक्षगुप्तचरस्य तालान् उद्घाटयितुं वर्तते, अधुना एव समीचीनः समयः अस्ति ।

यथा जस्टिनः उक्तवान्, अस्माकं समीपे पूर्वमेव आवश्यकाः संसाधनाः सन्ति - गणनाशक्तिः, दत्तांशस्य गहनतया अवगमनं च । इमेजनेट् युगे यत् किमपि कृतवन्तः तस्मात् अपेक्षया वयं दत्तांशस्य अवगमने अधिकं परिष्कृताः अभवम ।

अस्माकं सह-संस्थापकौ ben mildenhall, christoph lassner च nerf इत्यस्य विषये अत्याधुनिकं कार्यं अस्माकं कृते एल्गोरिदमिक-प्रगतिः अपि अस्ति । वयं मन्यामहे यत् इदानीं निर्णयं कर्तुं, अस्मिन् क्षेत्रे ध्यानं दातुं, तस्य क्षमताम् उद्घाटयितुं च समीचीनः समयः अस्ति।

मार्टिन् कासाडो

सर्वेषां स्पष्टतया अवगन्तुं भवद्भिः इदानीं एतां कम्पनी - वर्ल्ड लैब्स् इति संस्थापिता, यस्याः समस्यायाः समाधानं भवन्तः कर्तुम् इच्छन्ति सः "स्थानिकबुद्धिः" इति । स्थानिकबुद्धिः किम् इति संक्षेपेण वर्णयितुं शक्नुथ वा ?

फेइ-फेइ लि

स्थानिकबुद्धिः यन्त्राणां 3d अन्तरिक्षे काले च अवगन्तुं, बोधयितुं, तर्कयितुं, कार्यं कर्तुं च क्षमतां निर्दिशति । विशेषतः, एतत् अवगन्तुं निर्दिशति यत् 3d अन्तरिक्षे काले च वस्तुनः घटनाश्च कथं स्थिताः सन्ति, तथा च जगति अन्तरक्रियाः एतानि 3d स्थानानि कथं प्रभावितयन्ति इति

एतत् केवलं यन्त्राणि दत्तांशकेन्द्रेषु अथवा होस्ट्-मध्ये स्थातुं न दत्तुं, अपितु तान् वास्तविकजगति गत्वा एतत् समृद्धं 3d तथा 4d जगत् अवगन्तुं दत्तुं विषयः अस्ति ।

मार्टिन् कासाडो

किं भवता यत् "जगत्" उक्तं तत् वास्तविकं भौतिकं जगत् निर्दिशति, अथवा अमूर्तं अवधारणात्मकं जगत्?

फेइ-फेइ लि

अहं मन्ये उभयम् एव। एतत् अस्माकं दीर्घकालीनदृष्टिम् अपि प्रतिनिधियति। यदि भवान् आभासीजगत् वा सामग्रीं वा जनयति चेदपि 3d मध्ये स्थितस्य बहवः लाभाः सन्ति । अथवा यदा भवान् वास्तविकजगत् परिचययति तदा वास्तविकजगति 3d अवगमनं प्रयोक्तुं शक्नुवन् तस्य भागः अस्ति ।

मार्टिन् कासाडो

भवतः सहसंस्थापकदलः वास्तवतः, वास्तवमेव प्रबलः अस्ति। अतः भवन्तः किमर्थम् इदानीं एव एतत् कर्तुं योग्यः समयः इति मन्यन्ते ?

फेइ-फेइ लि

एषा वस्तुतः दीर्घकालीनविकासप्रक्रिया अस्ति । पी.एच्.डी. अहं तदा निष्कर्षं गतवान् यत् गतदशकं पूर्वमेव विद्यमानदत्तांशस्य अवगमनस्य विषयः आसीत्, अग्रिमदशकं नूतनदत्तांशस्य अवगमनस्य विषयः भविष्यति ।

अतीतानां दत्तांशः मुख्यतया अन्तर्जालस्य पूर्वमेव विद्यमानाः चित्राणि, भिडियो च आसन्, परन्तु भविष्यस्य दत्तांशः सर्वथा नूतनः अस्ति - स्मार्टफोनस्य उद्भवः, येषु कॅमेरा, नूतनाः संवेदकाः सन्ति, 3d-जगति च स्थापनं कर्तुं शक्यते न केवलं भवन्तः अन्तर्जालतः पिक्सेल-समूहं गृहीत्वा बिडालः वा श्वः वा इति ज्ञातुं प्रयतन्ते इति विषयः।

वयं आशास्महे यत् एतानि चित्राणि भौतिकजगत् प्रति सार्वभौमिकसंवेदकरूपेण व्यवहारं कुर्मः, येन भौतिक-जनन-अन्तरिक्षे विश्वस्य 3d तथा 4d-संरचनायाः अवगमने अस्मान् सहायकं भविष्यति |.

पीएचडी-पदवीं प्राप्त्वा अहं महत् परिवर्तनं कृत्वा 3d सङ्गणकदृष्टेः क्षेत्रे प्रविष्टवान्, मम सहकारिभिः सह वस्तुनां 3d आकारस्य पूर्वानुमानं कथं कर्तव्यमिति कार्यं कृतवान् पश्चात् 2d-दत्तांशतः 3d-संरचनानां शिक्षणस्य विचारे मम अतीव रुचिः अभवत् ।

यदा वयं दत्तांशस्य चर्चां कुर्मः तदा वयं प्रायः उल्लेखयामः यत् 3d दत्तांशं प्राप्तुं कठिनं भवति, परन्तु वस्तुतः 2d चित्राणि 3d जगतः प्रक्षेपणानि सन्ति, तथा च अनेकानि गणितीयसंरचनानि सन्ति येषां शोषणं कर्तुं शक्यते यदि भवतां समीपे बहु 2d दत्तांशः अस्ति चेदपि एतेषां गणितीयसंरचनानां माध्यमेन 3d जगतः संरचनां निष्कर्षयितुं शक्नोति ।

२०२० तमः वर्षः भङ्गस्य क्षणः अस्ति । अस्माकं सहसंस्थापकः बेन् मिल्डेन्हाल् इत्यनेन nerf (neural radiation field) इति पद्धतिः प्रस्ताविता । 2d अवलोकनात् 3d संरचनानां निष्कर्षणस्य एषः अतीव सरलः स्पष्टः च उपायः अस्ति, 3d सङ्गणकदृष्टेः सम्पूर्णं क्षेत्रं प्रज्वलितवान् ।

तस्मिन् एव काले एलएलएम इत्यस्य अपि उद्भवः आरब्धः । भाषाप्रतिरूपणस्य बहु कार्यं वस्तुतः शैक्षणिकक्षेत्रे दीर्घकालात् विकसितम् अस्ति । पीएचडी-काले अपि अहं २०१४ तमे वर्षे आन्द्रेज् कार्पाथी इत्यनेन सह किञ्चित् भाषाप्रतिरूपणकार्यं कृतवान् ।

जस्टिन जॉन्सन्

एतत् वस्तुतः किञ्चित् आसीत् यत् transformer इत्यस्मात् पूर्वं प्रादुर्भूतम्, परन्तु gpt-2 इत्यस्य युगे शैक्षणिकक्षेत्रे एतादृशानि आदर्शानि निर्मातुं भवद्भ्यः कठिनं भवति यतोहि तेषु अत्यधिकं कम्प्यूटिंग् संसाधनानाम् आवश्यकता भवति परन्तु रोचकं तत् अस्ति यत् बेन् इत्यनेन प्रस्तावितायाः nerf पद्धत्या केवलं एकस्मिन् gpu इत्यत्र कतिपयानि घण्टानि प्रशिक्षणस्य आवश्यकता भवति ।

एतेन बहवः शैक्षणिकशोधकाः एतेषु समस्यासु पुनः ध्यानं दत्तवन्तः, यतः सीमितगणनासंसाधनैः केचन मूल-एल्गोरिदमिक-समस्याः समाधानं कर्तुं शक्यन्ते, तथा च भवान् एकस्मिन् gpu-इत्यत्र अत्याधुनिक-परिणामान् प्राप्तुं शक्नोति अतः तस्मिन् समये बहवः शैक्षणिकसंशोधकाः चिन्तयन्ति स्म यत् वयं कोर-एल्गोरिदम्-माध्यमेन अस्य क्षेत्रस्य विकासं कथं प्रवर्धयितुं शक्नुमः ? फेइ-फेइ च अहं च बहु वार्तालापं कृतवन्तौ, अस्मिन् विषये वयं द्वौ अपि अतीव निश्चिन्तः स्मः।

फेइ-फेइ लि

आम्, अस्माकं शोधदिशाः किञ्चित्पर्यन्तं समानलक्ष्यं प्रति गच्छन्ति इति वयं पश्यामः। अहम् अपि अतीव रोचकं तान्त्रिकं विषयं, अथवा पिक्सेल-विषये तान्त्रिक-कथां कथयितुम् इच्छामि ।

भाषासंशोधनं कुर्वन्तः बहवः जनाः न जानन्ति स्यात् यत् जननात्मक-एआइ-युगात् पूर्वं अस्माकं ये सङ्गणकदृष्टिक्षेत्रे संलग्नाः सन्ति तेषां वस्तुतः 3d पुनर्निर्माणम् इति संशोधनस्य दीर्घः इतिहासः अस्ति

एतत् १९७० तमे दशके गच्छति, तथा च भवान् छायाचित्रं ग्रहीतुं शक्नोति स्म - यतः मनुष्याणां नेत्रद्वयं भवति, भवान् त्रिकोणीकरणं कृत्वा 3d आकृतयः निर्मातुं प्रयत्नार्थं स्टीरियो-चित्रस्य उपयोगं कर्तुं शक्नोति स्म । परन्तु एषा अतीव कठिना समस्या अस्ति यस्याः पूर्णतया समाधानं मेलसमस्या इत्यादीनां जटिलतानां कारणात् अद्यापि न जातम् ।

अस्मिन् क्षेत्रे प्रगतेः दीर्घः इतिहासः अस्ति, परन्तु यदा nerf इत्येतत् जननात्मकपद्धतिभिः सह संयोजितं भवति, विशेषतः प्रसारप्रतिमानस्य सन्दर्भे, तदा 3d पुनर्निर्माणं, जनरेशनं च सहसा विलयं प्रारभते सङ्गणकदृष्टेः क्षेत्रे वयं सहसा आविष्कृतवन्तः यत् यदि वयं किमपि पश्यामः, अथवा किमपि कल्पयामः तर्हि उभयम् अपि तस्य जननदिशि अभिसरणं कर्तुं शक्नोति । एषः अतीव महत्त्वपूर्णः क्षणः अस्ति, परन्तु बहवः जनाः एतत् न लक्षयन्ति यतोहि वयं एतस्य विषये यथा विस्तृतं वदामः तथा llm विषये न वदामः।

जस्टिन जॉन्सन्

आम्, पिक्सेल-अन्तरिक्षे पुनर्निर्माणं भवति, उदाहरणार्थं भवान् वास्तविकं दृश्यं पुनर्निर्माणं करोति यदि च भवान् तत् दृश्यं न पश्यति तर्हि जननात्मक-तकनीकानां उपयोगं करोति; तौ वस्तुतः अतीव समानौ स्तः । भवान् अस्मिन् सम्भाषणे भाषायाः पिक्सेलस्य च विषये वदति स्म, अतः सम्भवतः एषः उत्तमः समयः भविष्यति यत् स्थानिकबुद्धिः वर्सेस् भाषा-दृष्टिकोणानां विषये वक्तुं शक्यते, यथा किं ते पूरकाः सन्ति, अथवा ते सर्वथा भिन्नाः सन्ति?

फेइ-फेइ लि

अहं मन्ये ते पूरकाः सन्ति। "पूर्णतया भिन्नम्" कथं परिभाषितव्यम् इति अहं न निश्चितः, परन्तु तुलनां कर्तुं प्रयतितुं शक्नोमि । अद्यत्वे बहवः जनाः gpt, open ai, multi-modal models इत्येतयोः विषये वदन्ति । एते आदर्शाः पिक्सेल-भाषां च सम्भालितुं शक्नुवन्ति इति अनुभूयते । अतः ते अस्माभिः इष्टं स्थानिकं तर्कं प्राप्तुं शक्नुवन्ति वा ? अस्य प्रश्नस्य उत्तरं दातुं अस्माभिः एतेषां प्रणालीनां "कृष्णपेटी" उद्घाट्य द्रष्टव्यं यत् ते कथं हुडस्य अधः कार्यं कुर्वन्ति ।

भाषाप्रतिमानानाम्, बहुविधभाषाप्रतिमानानाम् च अन्तर्निहितं प्रतिनिधित्वं "एकविमीयम्" अस्ति । वयं सन्दर्भदीर्घतायाः, transformers, sequences, attention mechanisms इत्येतयोः विषये वदामः, परन्तु दिवसस्य अन्ते एतेषां मॉडल्-प्रतिनिधित्वं एक-आयामी क्रमबद्ध-टोकन-आधारितं भवति

भाषाविषये एतत् प्रतिनिधित्वं अतीव स्वाभाविकं भवति यतः पाठः एव विच्छिन्नाक्षराणां एकविमीयक्रमैः युक्तः भवति । इदं एकविमीयं प्रतिनिधित्वं एलएलएम-सफलतायाः आधारः अस्ति, अधुना वयं पश्यामः बहुविध-एलएलएम-कृते अपि तथैव भवति, यत् "कठोर-कोर" अन्येषां मोडानां (बिम्ब-इत्यादीनां) अस्मिन् एक-आयामी-प्रतिपादने

स्थानिकबुद्धेः क्षेत्रे वयं तस्य विपरीतमेव चिन्तयामः - जगतः त्रिविमस्वभावः एव प्रतिनिधित्वस्य कोरः भवितुम् अर्हति इति वयं मन्यामहे। एल्गोरिदमिकदृष्ट्या एतेन अस्माकं कृते दत्तांशसंसाधितुं भिन्नप्रकारस्य उत्पादनं प्राप्तुं च नूतनाः अवसराः उद्घाटिताः भवन्ति, येन अस्माकं काश्चन अत्यन्तं भिन्नाः समस्याः समाधानं कर्तुं साहाय्यं भवति

रूक्षस्तरस्य अपि भवान् वक्तुं शक्नोति यत् "बहुविध-एलएलएम-इत्येतत् चित्राणि अपि द्रष्टुं शक्नुवन्ति, परन्तु ते चित्राणि संसाधयन्ते सति त्रि-आयाम-प्रकृतिं स्वस्य उपायस्य मूलं न स्थापयन्ति

जस्टिन जॉन्सन्

एकविमीयत्रिविमप्रतिपादनस्य मौलिकभेदस्य चर्चा अतीव केन्द्रीयम् इति अहं पूर्णतया सहमतः । तदतिरिक्तं किञ्चित् अधिकं दार्शनिकः बिन्दुः अस्ति, परन्तु मम कृते महत्त्वपूर्णः न न्यूनः यत् भाषा मूलतः विशुद्धरूपेण उत्पन्नः संकेतः अस्ति, विश्वे च भाषा नास्ति। प्रकृतौ निर्गत्य आकाशे लेखनं न द्रक्ष्यसि । भवान् किमपि दत्तांशं पोषयति चेदपि भाषाप्रतिरूपं पर्याप्तसामान्यीकरणेन सह प्रायः समानदत्तांशं थूकयितुं शक्नोति ।

परन्तु 3d जगत् भिन्नं भौतिकशास्त्रस्य नियमानाम् अनुसरणं करोति, तस्य स्वकीया संरचना सामग्री च अस्ति । मूलतः एतां सूचनां निष्कासयितुं, तस्याः प्रतिनिधित्वं कर्तुं, तस्याः जननं कर्तुं च शक्नुवन् सर्वथा भिन्ना समस्या अस्ति । यद्यपि भाषाप्रतिमानात् केचन उपयोगिनो विचाराः ऋणं गृह्णीमः तथापि एषः मौलिकरूपेण भिन्नः दार्शनिकः प्रश्नः अस्ति ।

मार्टिन् कासाडो

सम्यक्, अतः भाषाप्रतिरूपं एकविमीयं सम्भवतः भौतिकजगत्स्य दुर्बलप्रतिपादनं च यतोहि तत् हानिसहितं मानवजनितम् अस्ति। जनरेटिव मॉडल् कृते अन्यः मोडालिटी पिक्सेलः अस्ति, ये 2d इमेज्, विडियो च सन्ति । यदि भवान् कञ्चन विडियो पश्यति तर्हि 3d दृश्यं द्रष्टुं शक्नोति यतः कॅमेरा पैन् कर्तुं शक्नोति। अतः स्थानिकबुद्धिः 2d विडियो च मध्ये किं भेदः ?

फेइ-फेइ लि

अत्र द्वौ बिन्दौ चिन्तनीयौ स्तः । एकं अन्तर्निहितं प्रतिनिधित्वं, अपरं च उपयोक्तृ-अनुभवस्य सुविधा । तौ कदाचित् भ्रान्तौ भवतः। वयं यत् गृह्णामः तत् 2d - अस्माकं रेटिना द्विविमीयसंरचना अस्ति, परन्तु अस्माकं मस्तिष्कं त्रिविमीयजगत् प्रक्षेपणरूपेण पश्यति ।

भवान् वस्तुनि चालयितुम् इच्छति, कॅमेरा चालयितुम् इच्छति, सिद्धान्ततः च तानि कार्याणि 2d प्रतिनिधित्वेन मॉडलैः च कर्तुं शक्नोति, परन्तु भवान् पृच्छति समस्यायाः कृते एतत् समीचीनं नास्ति गतिशीलस्य त्रिविमीयस्य जगतः द्वि-आयामी प्रक्षेपणं प्रतिरूपणीयं भवितुम् अर्हति, परन्तु त्रि-आयामी-प्रतिपादनं प्रतिरूपस्य हृदये स्थापयित्वा समस्यायाः आवश्यकतासु अधिकतया अनुरूपं भवति

अस्माकं लक्ष्यं उपयोक्तृभ्यः उत्तमं अनुभवं प्रदातुं मॉडलस्य कोरमध्ये अधिकं 3d प्रतिनिधित्वं एकीकृत्य अस्ति। एतत् मम “उत्तरतारकम्” अपि बध्नाति । "सपाटपिक्सेलबुद्धिः" इत्यस्य अपेक्षया "स्थानिकबुद्धिः" इति किमर्थं वयं बलं दद्मः ?

बुद्धिस्य प्रक्षेपवक्रतायाः कारणात् यदि विकासस्य इतिहासं पश्चात् पश्यति तर्हि तस्य परमं लक्ष्यं पशवः मनुष्याणां च जगति स्वतन्त्रतया गन्तुं, अन्तरक्रियां कर्तुं, सभ्यतायाः निर्माणं कर्तुं, सैण्डविचम् अपि निर्मातुं च अनुमतिः भवति अतः, एतस्य 3d सारस्य प्रौद्योगिक्यां अनुवादः असंख्यसंभाव्य-अनुप्रयोगानाम् अनलॉक् करणस्य कुञ्जी अस्ति, यद्यपि केचन सतही उन्नतिः इव प्रतीयन्ते।

मार्टिन् कासाडो

अहं मन्ये एषः अतीव सूक्ष्मः किन्तु निर्णायकः बिन्दुः अस्ति। कदाचित् वयं केषाञ्चन अनुप्रयोगपरिदृश्यानां विषये कथयित्वा अस्मिन् चर्चायां अधिकं गहनतां प्राप्तुं शक्नुमः। यदा वयं स्थानिकबुद्धिं सक्षमं कुर्वन्तं प्रौद्योगिकीप्रतिरूपं विकसितुं वदामः तदा तत् विशेषतया कीदृशं भवेत्? सम्भाव्य अनुप्रयोगपरिदृश्याः के सन्ति ?

फेइ-फेइ लि

वयं यत् स्थानिकबुद्धिप्रतिरूपं कल्पयामः तत् बहुकार्यं कर्तुं शक्नोति, येषु एकं विशेषतया अहं उत्साहितः अस्मि "विश्वजननम्" इति । पाठ-प्रतिबिम्ब-जनरेटर्-सदृशम् अधुना अस्माकं समीपे पाठ-वीडियो-जनरेटर्-इत्येतत् अस्ति - चित्रं वा विडियो वा निवेशयन्तु ततः प्रणाली एकं आश्चर्यजनकं द्वि-सेकेण्ड्-क्लिप् जनयिष्यति । परन्तु अहं मन्ये वयम् एतत् अनुभवं 3d जगति नेतुं शक्नुमः।

वयं कल्पयितुं शक्नुमः यत् स्थानिकबुद्धिः भविष्ये एतान् अनुभवान् 3d मध्ये उन्नयनं कर्तुं अस्मान् साहाय्यं करिष्यति, न केवलं चित्रं वा विडियो वा जनयिष्यति, अपितु सम्पूर्णं, अनुकरणीयं, समृद्धं च अन्तरक्रियाशीलं 3d जगत् जनयिष्यति। भवतु नाम क्रीडानां कृते उपयुज्यते, भवतु आभासी छायाचित्रणार्थं उपयुज्यते, अनुप्रयोगक्षेत्राणि एतावन्तः विस्तृतानि सन्ति यत् अकल्पनीयम् अस्ति।

जस्टिन जॉन्सन्

अहं मन्ये कालान्तरे प्रौद्योगिक्याः उन्नतिः भविष्यति। एतानि वस्तूनि निर्मातुं अतीव कठिनं भवति, अतः स्थिरसमस्या तुल्यकालिकरूपेण सरलं भवितुम् अर्हति, परन्तु दीर्घकालं यावत् वयं इच्छामः यत् सा पूर्णतया गतिशीलः, अन्तरक्रियाशीलः, भवता अधुना एव वर्णितं सर्वं भवेत्

फेइ-फेइ लि

आम्, एषा एव स्थानिकबुद्धेः परिभाषा अस्ति । वयं अधिकैः स्थिरविषयैः आरभेमः, परन्तु भवता उक्तं सर्वं स्थानिकबुद्धेः भविष्ये अस्ति ।

जस्टिन जॉन्सन्

एतत् अस्माकं “world labs” इति कम्पनीयाः नाम्ना अपि प्रतिबिम्बितम् अस्ति – नाम विश्वस्य निर्माणस्य अवगमनस्य च विषये अस्ति । यदा वयं जनान् नाम वदामः तदा ते प्रथमं सर्वदा न अवगच्छन्ति, यतः सङ्गणकदृष्टिः, पुनर्निर्माणं, जननं च इति क्षेत्रेषु वयं प्रायः किं कर्तुं शक्नुमः इति भेदं कुर्मः प्रथमस्तरः जगति माइक्रोफोन-कुर्सी-आदि-विच्छिन्न-वस्तूनाम् इत्यादीनां वस्तूनाम् अभिज्ञानम् । इमेजनेट् इत्यस्य अधिकांशं कार्यं वस्तुपरिचयेन सह सम्बद्धम् अस्ति ।

परन्तु तदा वयं दृश्यानां स्तरं यावत् गच्छामः - दृश्याः वस्तुभिः निर्मिताः भवन्ति। यथा, अधुना अस्माकं रिकार्डिङ्ग-स्टूडियो अस्ति यत्र मेजः, माइक्रोफोनः, कुर्सीषु उपविष्टाः जनाः च सन्ति, यत् वस्तुनां संयोजनम् अस्ति । परन्तु वयं यत् “जगत्” कल्पयामः तत् दृश्यान् अतिक्रमयति । दृश्यं एकमेव वस्तु भवेत्, परन्तु वयं ताः सीमाः भङ्गयित्वा बहिः, वीथिं प्रति, गच्छन्तं यातायातं पश्यितुं, वायुना डुलन्तः पत्राणि पश्यितुं, ताभिः वस्तूभिः सह संवादं कर्तुं समर्थाः भवितुम् इच्छामः

फेइ-फेइ लि

अन्यत् अतीव रोमाञ्चकं वस्तु "नवमाध्यमम्" इति पदस्य विषये अस्ति । एतेन प्रौद्योगिक्या वास्तविकजगत्, आभासीकल्पितजगत्, अथवा संवर्धितस्य पूर्वानुमानितस्य च जगतः मध्ये रेखाः धुन्धलाः भवन्ति । वास्तविकजगत् 3d अस्ति, अतः डिजिटलजगति वास्तविकजगत् सह मिश्रणं कर्तुं 3d प्रतिनिधित्वं आवश्यकम् अस्ति । केवलं 2d अथवा 1d इत्यत्र अपि वास्तविक 3d जगतः सह प्रभावीरूपेण अन्तरक्रियां कर्तुं न शक्नुवन्ति।

एषा क्षमता असीमित-अनुप्रयोग-परिदृश्यानि अनलॉक् करोति । जस्टिन् इत्यनेन उल्लिखितस्य प्रथमस्य अनुप्रयोगपरिदृश्यस्य इव आभासीजगतः जननस्य उपयोगः किमपि प्रयोजनाय कर्तुं शक्यते । द्वितीयः स्यात्संवर्धितवास्तविकता. वर्ल्ड लैब्स् इत्यस्य स्थापनायाः समये एव एप्पल् इत्यनेन विजन प्रो इति विमोचनं कृतम्, तेषां कृते "स्थानिकगणना" इति पदं प्रयुक्तम् । वयं प्रायः एकस्यैव विषये वदामः, यत् वयं बोधयामः तत् "स्थानिकबुद्धिः" इति । स्थानिकगणनायां स्थानिकबुद्धेः आवश्यकता भवति इति न संशयः ।

वयं न जानीमः यत् भविष्ये हार्डवेयरस्य रूपाणि कीदृशानि भविष्यन्ति – तत् चक्षुः, चक्षुः, संपर्कचक्षुः अपि भवितुम् अर्हति । परन्तु वास्तविक-आभासी-जगत्योः मध्ये अन्तरफलके, भवेत् तत् भवतः कार्यं कर्तुं क्षमतां वर्धयति, भवतः वाहनस्य मरम्मतं कर्तुं साहाय्यं करोति यद्यपि भवतः व्यावसायिकः यान्त्रिकः नास्ति, अथवा केवलं मनोरञ्जनाय "पोकेमॉन् गो++"-सदृशं अनुभवं प्रदातुं, एषा प्रौद्योगिकी will ar/vr कृते ऑपरेटिंग् सिस्टम् भविष्यति।

जस्टिन जॉन्सन्

अत्यन्तं सति एआर-यन्त्रेण यत् कर्तव्यं तत् अस्ति यत् सः सर्वदा भवता सह गन्तुं, वास्तविकसमये भवता दृष्टं जगत् अवगन्तुं, दैनन्दिनजीवने कार्याणि सम्पन्नं कर्तुं च भवतः सहायतां कर्तुं शक्नोति अहम् अस्मिन् विषये विशेषतः आभासी-वास्तविकतायोः संलयनस्य विषये यथार्थतया उत्साहितः अस्मि । यदा भवान् वास्तविकसमये 3d मध्ये स्वस्य परिवेशं सम्यक् अवगन्तुं शक्नोति तदा वास्तविकजगति केषाञ्चन वस्तूनाम् अपि स्थानं गृह्णीयात् ।

यथा, अधुना अस्माकं समीपे विविधप्रमाणस्य पटलाः सन्ति-आइपैड्, सङ्गणकनिरीक्षकाः, टीवी, घडिका इत्यादयः—ये भिन्न-भिन्न-परिदृश्येषु सूचनां प्रस्तुतयन्ति । परन्तु यदि वयं भौतिकजगत् सह आभासीसामग्रीम् निर्विघ्नतया विलीनं कर्तुं शक्नुमः तर्हि एतानि यन्त्राणि पुनः आवश्यकानि न भविष्यन्ति । आभासीलोकाः भवन्तं समीचीनक्षणे, अत्यन्तं समुचितरीत्या च भवतः आवश्यकसूचनाः दर्शयितुं शक्नुवन्ति ।

अन्यत् विशालं अनुप्रयोगं डिजिटल-वर्चुअल्-जगत् 3d-भौतिक-जगत् सह मिश्रयति, विशेषतः रोबोटिक्स-क्षेत्रे । रोबोट् भौतिकजगति कार्यं कर्तुं अर्हन्ति, यदा तु तेषां कम्प्यूटिंग् मस्तिष्कं च अङ्कीयजगति भवति । शिक्षणव्यवहारयोः सेतुः स्थानिकबुद्ध्या अवश्यं निर्मातव्यः ।

मार्टिन् कासाडो

भवान् आभासीलोकानां, संवर्धितवास्तविकतायाः च उल्लेखं कृतवान्, अधुना भवान् विशुद्धभौतिकजगत् विषये वदति, उदाहरणार्थं रोबोटिक्स् इत्यत्र । एतत् अतीव विस्तृतं क्षेत्रं विशेषतः यदि भवान् एतेषु भिन्नक्षेत्रेषु शाखाप्रसारणं कर्तुं योजनां करोति । एतेषां विशिष्टानां अनुप्रयोगक्षेत्राणां सम्बद्धं गहनं प्रौद्योगिकी कथं पश्यति?

फेइ-फेइ लि

वयं स्वयमेव गहनप्रौद्योगिकीकम्पनीं मन्यामहे, मञ्चकम्पनीरूपेण, एतेषां भिन्नानां अनुप्रयोगपरिदृश्यानां सेवां कर्तुं शक्नुवन्ति इति आदर्शान् प्रदास्यामः। यथा वयं आरम्भे यत् ध्यानं दत्तवन्तः तदर्थं कः अनुप्रयोगपरिदृश्यः अधिकं उपयुक्तः इति विषये अहं मन्ये वर्तमानं उपकरणं पर्याप्तं परिपूर्णं नास्ति।

मया वस्तुतः प्रथमं vr हेडसेट् प्राप्तम् यदा अहं स्नातकविद्यालये आसम्। यदा अहं तत् स्थापितवान् तदा अहं मनसि चिन्तितवान् यत् "अहो देव, एतत् उन्मत्तम् अस्ति!"

अहं vision pro इत्येतत् एतावत् प्रेम करोमि यत् एकं स्नैप अप कर्तुं यस्मिन् दिने एतत् मुक्तम् आसीत् तस्मिन् दिने अहं विलम्बेन जागृतवान्, परन्तु अधुना एतत् जन-विपण्य-मञ्चरूपेण पूर्णतया परिपक्वं नास्ति। अतः वयं कम्पनीरूपेण प्रवेशार्थं पूर्वमेव अधिकं परिपक्वं विपण्यं चिन्वितुं शक्नुमः।

कदाचित् बहुमुख्यतायाः सरलता भवति । अस्माकं गहनप्रौद्योगिकीकम्पनीरूपेण दृष्टिः अस्ति तथा च मन्यामहे यत् केचन मौलिकसमस्याः सन्ति येषां सम्यक् समाधानं करणीयम्, यदि च सम्यक् समाधानं क्रियते तर्हि अनेकेषु भिन्नक्षेत्रेषु प्रयोक्तुं शक्यते। वयं कम्पनीयाः दीर्घकालीनलक्ष्यं स्थानिकबुद्धेः स्वप्नस्य निर्माणं साकारीकरणं च इति मन्यामहे।

जस्टिन जॉन्सन्

वस्तुतः अहं मन्ये यत् भवन्तः यत् कुर्वन्ति तस्य प्रभावः तत्रैव भवति। अहं न मन्ये यत् वयं कदापि वास्तवतः तत्र सम्यक् गमिष्यामः, यतः एतत् एतादृशं मौलिकं वस्तु अस्ति - ब्रह्माण्डं मूलतः एकः विकसितः चतुर्विमीयसंरचना अस्ति, तथा च व्यापकरूपेण स्थानिकबुद्धिः तस्याः संरचनायाः पूर्णगहनतां अवगत्य अन्वेषणस्य विषयः अस्ति अनुप्रयोगस्य सर्वं। अतः, अद्यत्वे अस्माकं विचाराणां विशिष्टः समुच्चयः अस्ति चेदपि, मम विश्वासः अस्ति यत् एषा यात्रा अस्मान् तेषु स्थानेषु नेष्यति यत्र वयं केवलं इदानीं कल्पयितुं न शक्नुमः |

फेइ-फेइ लि

प्रौद्योगिक्याः आश्चर्यं यत् एतत् अधिकानि संभावनानि निरन्तरं उद्घाटयति। यथा यथा वयं अग्रे गच्छामः तथा तथा एताः सम्भावनाः निरन्तरं विस्तारिताः भविष्यन्ति ।