जिया याङ्गकिंगस्य दशवर्षीयः क्लासिकः टाइम् टेस्ट् पुरस्कारं प्राप्तवान्! ICML 2024 दश सर्वोत्तम पत्र पुरस्कार आकर्षित, लोकप्रिय SD3, Gu

जिया याङ्गकिंगस्य दशवर्षीयः क्लासिकः टाइम् टेस्ट् पुरस्कारं प्राप्तवान्! ICML 2024 दस सर्वश्रेष्ठ कागज पुरस्कार आकर्षित, लोकप्रिय SD3, गु

2024-07-24

नवीन बुद्धि प्रतिवेदन

सम्पादकः - ताओजी एतावत् निद्रालुः अस्ति

[नव प्रज्ञायाः परिचयः] । अन्ततः वार्षिकं ICML शीर्षपुरस्कारस्य घोषणा अभवत्! अस्मिन् वर्षे कुलम् दशपत्राणि सर्वोत्तमपत्रपुरस्कारं प्राप्तवन्तः, तेषु त्रीणि गृहनामानि सन्ति - इमेजजनरेशन मॉडल् SD3, विडियोजनरेशन मॉडल् VideoPoet, मूलभूतविश्वप्रतिरूपं Genie च तदतिरिक्तं दशवर्षपूर्वं जिया याङ्गकिङ्ग् इत्यनेन तस्य दलेन च प्रस्तावितायाः ढाञ्चायाः DeCAF इत्यस्य कृते समयपरीक्षापुरस्कारः प्रदत्तः ।

ICML 2024 पुरस्कारस्य नवघोषणा अभवत्!

अधुना एव ICML उद्घाटनसमारोहः आधिकारिकतया आयोजितः आसीत्, सत्रे १० उत्तमपत्रपुरस्काराः घोषिताः, दशवर्षपूर्वं एकः पत्रः समयपरीक्षापुरस्कारं प्राप्तवान् ।

उत्तमपत्रेषु एआइ-प्रतिबिम्बस्य, विडियोजननस्य च क्षेत्रे अनेकाः लोकप्रियाः कार्याः सन्ति, येषु SD3 तकनीकीप्रतिवेदनं, CMU Google AI विडियो मॉडल् VideoPoet, Google basic world model Genie च सन्ति

ज्ञातव्यं यत् एआइ-गुरुः जिया याङ्गकिङ्ग् इत्यादिभिः अक्टोबर् २०१३ तमे वर्षे प्रकाशितं पत्रं DeCAF इति पत्रिकायाः समयपरीक्षापुरस्कारः प्राप्तः ।

अधुना एव सः लिखितवान् यत् एतत् सम्मानं प्राप्य सः अतीव गौरवान्वितः अभवत् ।

CMU इत्यस्य प्राध्यापकः Meta GenAI इत्यस्य उपाध्यक्षः Russ Salakhutdinov इत्यनेन ICML 2024 इत्यस्य समग्रभर्तीपरिणामानां सारांशः दत्तः यत् -

अस्मिन् सम्मेलने कुलम् ९,४७३ पत्राणि प्राप्तानि, येषु २,६१० पत्राणि स्वीकृतानि, स्वीकारस्य दरः २७.५५% आसीत् । १४४ लेखाः मौखिकाः, १९१ लेखाः च स्पोट्लाइट् इति ।

अस्मिन् वर्षे पदपत्राणि नवीनतया प्रवर्तन्ते स्म, २८६ पत्राणि प्रदत्तानि, ७५ पत्राणि स्वीकृतानि (२६%)। १५ लेखाः मौखिकाः, ११ लेखाः स्पोट्लाइट् च सन्ति ।

तदतिरिक्तं कार्यशालायां १४५ प्रस्तावाः आसन्, येषु ३० प्रस्तावाः स्वीकृताः । ट्यूटोरियल्-मध्ये ५५ प्रस्तावाः आसन्, १२ स्वीकृताः च ।

अस्मिन् वर्षे ICML 2024 इत्यस्य ४१तमं वार्षिकसम्मेलनं (प्रतिवर्षं एकवारं) अस्ति, यत् आस्ट्रियादेशस्य वियनानगरे जुलैमासस्य २१ दिनाङ्कात् २७ दिनाङ्कपर्यन्तं भविष्यति।

८,६७५ जनाः क्रमेण सभायां उपस्थिताः आसन्, प्रेक्षकाणां मध्ये आसनानि अपि नासन् ।

ICML 2024 शिखरसम्मेलनस्य अवलोकनम्

पुरस्कारप्रदानात् पूर्वं आयोजनसमित्या प्रथमं अस्मिन् वर्षे सम्मेलनस्य समग्रस्थितेः परिचयः कृतः यत् -

· ९ एक्स्पो वार्ताफलकाः

· १२ पाठ्यक्रमाः

· ६ आमन्त्रिताः वक्तारः

· २,६१० पत्राणि (मुख्यसम्मेलनम्) २.

· ३० कार्यशालाः

· १२,३४५ लेखकाः वक्तारः च

· ३९% प्रतिभागिनः छात्राः सन्ति

· १० अफलाइन सामाजिकक्रियाकलापाः

· ३ आत्मीयताघटना

· ५२ स्वयंसेवकाः

· 97 वरिष्ठ क्षेत्र अध्यक्ष (SAC), 492 क्षेत्र अध्यक्ष (AC), 7473 समीक्षक

· ९,४०६ पञ्जीकृताः प्रतिभागिनः (येषु ८,६७५ स्थले एव उपस्थिताः)

स्वीकृतपत्राणाम् आधारेण ICML इत्यनेन ये उच्चावृत्तिशब्दाः प्रादुर्भूताः तेषां सारांशः कृतः, ये अपि अस्मिन् वर्षे उष्णशब्दाः सन्ति-

बृहत् मॉडल् अधिकतया, ६००+ वारं अधिकं दृश्यते ।

तदनन्तरं सुदृढीकरणशिक्षणं, गहनशिक्षणं, आलेखन्यूरलजालं, मशीनशिक्षणं, संघीयशिक्षणं, प्रसारप्रतिरूपणं, परिवर्तक, एलएलएम, प्रतिनिधित्वशिक्षणं, जननात्मकप्रतिरूपम् इत्यादयः।

पञ्जीकृतदेशानां/प्रदेशानां दृष्ट्या अमेरिकादेशे २४६३ जनाः सन्ति, चीनदेशः १,१०० तः अधिकाः जनाः सन्ति ।

समय परीक्षित पुरस्कार

सामान्यतया समयपरीक्षापुरस्कारः तेषां शैक्षणिकपत्राणां कृते प्रदत्तः भवति येषां महत्त्वपूर्णः स्थायिप्रभावः १० वर्षाणाम् अधिककालात् अस्ति ।

इदं पत्रं कैफे इत्यस्य पित्रा जिया याङ्गकिङ्ग् इत्यनेन अपि सम्पन्नं शास्त्रीयं कार्यम् अस्ति, यः यूसी बर्कले इत्यत्र अध्ययनं कृतवान्, गूगल इत्यत्र स्वस्य इण्टर्न्शिप् इत्यस्य समये दलेन सह सहकार्यं कृतवान् च

एकदा सः एकस्मिन् साक्षात्कारे अवदत् यत् २०१३ तमे वर्षे गूगल-संस्थायां प्रशिक्षणं कुर्वन् अतिशयेन काफीं पिबति स्म, अतः सः काफी-पानं त्यक्तुं स्वयमेव आग्रहं कर्तुं DeCAF इति नामकरणं कृतवान् ।

अतिरिक्तसमयं कार्यं कुर्वन् सः पोस्ट् कृतवान् यत्, "DeCAF दृष्टिक्षेत्रे आधारविशेषताः गहनं च निवेशनं भवितुमर्हति, सङ्गणकदृष्टेः क्षेत्रं सामान्यीकरणीयं विशेषता अपि दातव्यम्..." इति

DeCAF अनुसन्धानस्य प्रभावः अस्ति यत् एतेन सामान्यवस्तुपरिचयरूपरेखा R-CNN इति उच्चप्रदर्शनविषमगणनारूपरेखा Caffe इत्यस्य जन्म अभवत् तथा च प्रथमपीढीयाः त्वरणरूपरेखा CuDNN इति लेखनार्थं Berkeley तथा NVIDIA इत्येतयोः सहकार्यं परोक्षरूपेण योगदानं दत्तम्, तथा च the large-scale distribution of Yahoo Labs creation CaffeOnSpark प्रशिक्षण इत्यादिकार्यस्य श्रृङ्खलायाम् गहनशिक्षणतरङ्गे बर्कले-नगरस्य अग्रणीस्थानं स्थापितं अस्ति

题目:DeCAF: सामान्यदृश्यपरिचयस्य कृते गहनं परिवर्तनकारी सक्रियकरणविशेषता

作者:जेफ डोनाहुए,यांगकिंग जिया,ओरिओल विन्याल्स,जूडी हॉफमैन,निंग झांग,एरिक त्ज़ेंग,ट्रेवर डैरेल

संस्थाः कैलिफोर्निया विश्वविद्यालयः, बर्कले

पेपर पता: https://arxiv.org/abs/1310.1531

मानवव्यवहारं व्यक्तं कर्तुं उत्तमसंभाव्यरूपरेखायाः उपयोगाय दलेन व्यक्तिगतरूपेण प्रथमं रूपरेखां-DeCAF इति लिखितम् ।

अस्मिन् कार्ये लेखकाः मूल्याङ्कनं कुर्वन्ति यत् स्थिरवस्तुपरिचयकार्यस्य विशालसमूहे पूर्णतया पर्यवेक्षितरीत्या प्रशिक्षितस्य गहनविवर्तजालतः निष्कासितानां विशेषतानां पुनः उद्देश्यं नूतनसामान्यप्रयोजनकार्यं कर्तुं शक्यते वा इति।

एतानि सामान्यकार्यं मूलप्रशिक्षणकार्यात् महत्त्वपूर्णतया भिन्नानि भवेयुः, तथा च पर्याप्तं टिप्पणीकृतदत्तांशस्य अभावः भवितुम् अर्हति, अथवा टिप्पणीकृतदत्तांशस्य सर्वथा अभावः भवितुम् अर्हति, येन नूतनकार्यस्य अनुकूलतायै गहनजालस्य प्रशिक्षणार्थं वा सूक्ष्मसमायोजनाय पारम्परिकपद्धतीनां उपयोगः न भवति

तदतिरिक्तं, लेखकः दृश्यपरिचयः, डोमेन-अनुकूलनं, सूक्ष्म-कणिका-परिचयः इत्यादिषु कार्येषु गहन-संकुल-विशेषतानां शब्दार्थ-समूहीकरणस्य अपि दृश्यं कृतवान्, तथा च जालस्य विभिन्न-स्तर-आश्रितानां नियत-विशेषतानां परिभाषा-प्रभावानाम् तुलनां कृत्वा, अनेके प्रस्ताविताः important दृश्यचुनौत्येषु प्राप्तं नवीनं SOTA।

अन्ते लेखकाः एतेषां गहनानां कन्वोल्यूशनल् सक्रियकरणविशेषतानां मुक्तस्रोतकार्यन्वयनं - DeCA, सर्वेषां सम्बद्धानां संजालमापदण्डानां सह विमोचयन्ति एतेन दृश्यलेखकानां विविधदृश्यसंकल्पनाशिक्षणप्रतिमानयोः गहनप्रतिनिधित्वस्य प्रयोगः भवति ।

दश उत्तमपत्राणि

अस्मिन् वर्षे दश उत्तमपत्राणि सन्ति ।

उपर्युक्तानि श्रेणीनि सर्वाणि मौखिकप्रदर्शनक्रमेण सन्ति ।

论文一:दत्तांशवितरणस्य अनुपातानाम् अनुमानं कृत्वा असततप्रसारप्रतिरूपणम्

लेखकः एरोन् लू, चेन्लिन् मेङ्ग, स्टीफनो एर्मोन

संस्था : स्टैन्फोर्ड विश्वविद्यालय, पिका प्रयोगशाला

कागज पता: https://arxiv.org/abs/2310.16834

अस्मिन् शोधकार्य्ये नूतनं यन्त्रशिक्षणप्रतिरूपं SEDD (Score Entropy Discrete Diffusion) प्रस्तावितं भवति, यत् मुख्यतया असततदत्तांशजननकार्यं लक्षितम् अस्ति ।

सम्प्रति प्रसारप्रतिरूपाः अनेकेषु जननात्मकप्रतिरूपणकार्येषु भङ्गप्रदर्शनं दर्शयन्ति, परन्तु प्राकृतिकभाषा इत्यादिषु विच्छिन्नदत्तांशक्षेत्रेषु ते दुर्बलप्रदर्शनं कुर्वन्ति

पत्रे लेखकेन अस्य अन्तरस्य पूरणार्थं स्कोर एन्ट्रोपी इत्यस्य अवधारणा प्रस्ताविता ।

इदं एकं नवीनं हानिकार्यं यत् स्वाभाविकतया स्कोरमेलनं विच्छिन्नस्थानपर्यन्तं विस्तारयति, असततप्रसारप्रतिमाननिर्माणार्थं निर्विघ्नतया एकीकृत्य, कार्यप्रदर्शने महत्त्वपूर्णतया सुधारं करोति च

प्रयोगात्मकमूल्यांकनप्रक्रियायाः कालखण्डे SEDD इत्यनेन विद्यमानभाषाप्रसारप्रतिमानानाम् अपेक्षया उत्तमं प्रदर्शनं कृतम् (भ्रमं २५-७५% न्यूनीकृतम्) ।

अपि च, केषुचित् पक्षेषु GPT-2 इत्यादीनां स्वप्रतिगमनप्रतिमानानाम् अपि अतिक्रमणं करोति ।

सारांशेन SEDD इत्यस्य लाभाः सन्ति- १.

- उच्चगुणवत्तायुक्तः पाठः तापमानमापनम् इत्यादीनां तकनीकानां उपयोगं विना जनयितुं शक्यते (अननील्ड् GPT-2 इत्यस्मात् प्रायः 6-8 गुणाधिकं भ्रान्तिं जनयति)

- कम्प्यूटिंग् संसाधनानाम् उत्पादनगुणवत्तायाः च मध्ये लचीलाः व्यापारः (सदृशं प्रदर्शनं प्राप्तुं ३२ गुणाधिकं संजालमूल्यांकनस्य उपयोगं करोति)

- नियन्त्रणीयपाठपूरणस्य समर्थनं करोति, अधिकं लचीलतां प्रदाति । (नाभिकस्य नमूनाकरणगुणवत्तायाः मेलनं, यदा वामतः दक्षिणतः प्रेरणात् परं रणनीतयः समर्थयति)।

पत्र 2: उच्च-संकल्प-प्रतिबिम्ब-संश्लेषणार्थं सुधारित-प्रवाह-परिवर्तकानां स्केलिंग्

作者:पैट्रिक एस्सर,सुमिथ कुलाल,आंद्रेयस ब्लैटमैन,रहीम एंटेजारी,जोनास मुलर,हैरी सैनी,यम लेवी,डोमिनिक लोरेन्ज,एक्सेल सौर,फ्रेडरिक बोएसेल,डस्टिन पोडेल,टिम डॉकहॉर्न,ज़ियोन ले लेसी,एलेक्स गुडविन,यांनिक मारेक, रोबिन् रोम्बच्

संगठनः स्थिरता ए.आइ

पेपर पता: https://arxiv.org/abs/2403.03206

यथा आरम्भे उक्तं, अयं पत्रः लोकप्रियस्य Stable Diffusion 3 इत्यस्य तान्त्रिकप्रतिवेदनम् अस्ति ।

सोरा इत्यस्य सदृशं SD3 इत्यत्र Diffusion मॉडलस्य उन्नतसंस्करणस्य उपयोगः भवति तथा च DiT इत्यस्य Vincentian graph इत्यस्य आधारेण नूतनं आर्किटेक्चर इत्येतत् उपयुज्यते ।

विशेषतः, लेखकाः पाठसूचनाः संसाधितुं त्रयः भिन्नाः पाठसङ्केतकाः-द्वौ CLIP-प्रतिरूपौ, एकः T5 च-उपयोगं कृतवन्तः, यदा तु चित्रसूचना-संसाधनाय अधिक-उन्नतस्व-एन्कोडिंग-प्रतिरूपस्य उपयोगं कृतवन्तः

नवप्रस्तावितः बहु-मोडल-प्रसार-परिवर्तक (MMDiT) आर्किटेक्चर क्रमशः चित्र-भाषा-प्रतिपादनार्थं स्वतन्त्र-भार-समूहानां उपयोगं करोति

मूल्याङ्कनपरिणामाः दर्शयन्ति यत् SD3 अनुसरणं प्रॉम्प्ट्, पाठस्य स्पष्टप्रस्तुतिः, चित्राणां दृश्यसौन्दर्यस्य च दृष्ट्या विन्सेन्टियन-आरेख-जनन-प्रौद्योगिक्याः वर्तमान-अत्याधुनिकतां प्राप्नोति वा अतिक्रमयति वा

论文三:मुड़ल क्रमिक मोंटे कार्लो मार्गेण भाषाप्रतिरूपेषु संभाव्यतावादी अनुमानम्

作者:स्टीफन झाओ,रॉब ब्रेकेलमैन्स,अलिरेजा मखजानी,रोजर ग्रोस

संस्था : टोरोन्टो विश्वविद्यालय, वेक्टर संस्थान

पेपर पता: https://arxiv.org/abs/2404.17546

अयं शोधः बृहत्प्रतिमानयोः नमूनाकरणस्य अनुमानस्य च विषयेषु केन्द्रितः अस्ति ।

एलएलएम इत्यस्य बहवः क्षमताः सुरक्षाप्रौद्योगिकीश्च, यथा आरएलएचएफ, स्वचालितं लालदलपरीक्षणं, शीघ्रं अभियांत्रिकी, पैडिंग् च, इति विचारयितुं शक्यते:

पुरस्कारं वा सम्भाव्यं कार्यं वा दत्तं तस्य परिभाषितस्य असमानीकृतलक्ष्यवितरणस्य नमूना । एतत् वितरणं सम्पूर्णक्रमस्य कृते परिभाषितम् अस्ति ।

पत्रे लेखकः एतासां नमूनाकरणसंभावनासमस्यानां समाधानार्थं क्रमिकमोंटे कार्लो (SMC) पद्धतेः उपयोगं कर्तुं प्रस्तावति ।

अस्मिन् विषये लेखकेन नमूनाप्रक्रियायाः अनुकूलनार्थं प्रत्येकं समयपदे सम्भाव्यभविष्यमूल्यानां अनुमानं कर्तुं ट्विस्ट् फंक्शन्स् प्रस्ताविताः ।

तदतिरिक्तं तेषां एलएलएम-अनुमान-प्रविधिनां सटीकतायां मूल्याङ्कनार्थं नवीन-द्विदिशात्मक-एसएमसी-सीमानां उपयोगस्य पद्धतिः अपि प्रस्ताविता ।

अन्तिमपरिणामाः दर्शयन्ति यत् Twisted SMC पूर्वप्रशिक्षितमाडलात् दुष्टनिर्गमस्य नमूनाकरणं, भिन्नभावनाभिः सह समीक्षां जनयितुं, पूरककार्यं कर्तुं च प्रबलप्रभावशीलतां प्रदर्शयति।

पत्र 4: स्थितिः: आँकडासंग्रहवैविध्यं मापयन्तु, केवलं तस्य दावान् मा कुरुत

作者:डोरा झाओ,जेरोन टीए एंड्रयूज,ओरेस्टिस Papakyriakopoulos,एलिस ज़ियांग

संस्थाः : स्टैन्फोर्ड विश्वविद्यालयः, म्यूनिखस्य तकनीकीविश्वविद्यालयः, सोनी ए.आइ

पेपर पता: https://arxiv.org/abs/2407.08188

सम्प्रति अनेके दत्तांशसमूहाः स्वयमेव विविधतां लेबलं कुर्वन्ति परन्तु वस्तुतः अमूर्तविवादास्पदसामाजिकसंकल्पनाः मूर्तरूपं ददति ।

अस्मिन् कार्ये लेखकाः १३५ चित्रपाठदत्तांशसमूहेषु "वैविध्यं" विश्लेषणं कृत्वा अस्य प्रश्नस्य अन्वेषणं कुर्वन्ति ।

यथा अधः दर्शितं, लेखकाः सामाजिकविज्ञानसिद्धान्तात् मापनसिद्धान्तं विचारयितुं कारकरूपेण आकर्षयन्ति तथा च आँकडासमूहेषु विविधतायाः अवधारणा, परिचालनं, मूल्याङ्कनं च कर्तुं सुझावः प्रदास्यन्ति।

अस्य शोधस्य अन्तिमः उद्देश्यः अस्ति यत् एआइ विद्वांसः यन्त्रशिक्षणसंशोधनस्य मूल्यनिर्णयैः सह विशेषतादत्तांशस्य अधिकविस्तृताः सटीकाः च संसाधनविधयः स्वीकर्तुं आह्वयन्तु, विशेषतः आँकडासमूहनिर्माणप्रक्रियायां।

पत्र ५ : उत्पादनभाषाप्रतिरूपस्य भागस्य चोरी

作者:निकोलस कार्लिनी,डैनियल पलेका,कृष्णमूर्ति डीजे द्विजोथम,थॉमस स्टीनके,जोनाथन हयासे,ए. फेडर कूपर,कैथरीन ली,मैथ्यू जगिलस्की,मिलाद नस्र,आर्थर कोन्मी,इटाय योना,एरिक वालेस,डेविड रोल्निक,फ्लोरियन ट्रामेर

संस्थाः : ईटीएच ज्यूरिच्, वाशिंगटनविश्वविद्यालयः, मैकगिल् विश्वविद्यालयः, गूगल डीपमाइण्ड्, ओपनएआइ

पेपर पता: https://arxiv.org/abs/2403.06634

अस्मिन् कार्ये लेखकाः प्रथमं मॉडल-चोरी-आक्रमणं प्रस्तुतयन्ति यत् OpenAI इत्यस्य ChatGPT अथवा Google इत्यस्य PaLM-2 इत्यादिभ्यः ब्लैक-बॉक्स-भाषा-माडल-भ्यः सटीकं जटिलं च सूचनां निष्कासयितुं समर्थम् अस्ति

विशेषतः, एषः आक्रमणः नियमित-एपिआइ-प्रवेशद्वारा ट्रांसफॉर्मर-प्रतिरूपस्य (समरूपता-स्थितौ) एम्बेडेड्-प्रोजेक्शन-स्तरस्य पुनर्निर्माणं कर्तुं समर्थः अस्ति ।

तथा च, $20 तः न्यूनेन मूल्येन, भवान् OpenAI इत्यस्य Ada तथा Babbage भाषाप्रतिरूपस्य सम्पूर्णं प्रक्षेपणमात्रिकां निष्कासयितुं शक्नोति । एतेन प्रथमवारं पुष्टिः अभवत् यत् एतयोः कृष्णपेटीमाडलयोः क्रमशः १०२४, २०४८ च गुप्तपरिमाणाः सन्ति ।

तदतिरिक्तं लेखकः gpt-3.5-turbo मॉडलस्य सटीकं गुप्तं आयामं आकारं अपि पुनः स्थापितवान् । अस्मिन् समये सम्पूर्णस्य प्रक्षेपणमात्रिकायाः निष्कर्षणव्ययः केवलं २००० अमेरिकीडॉलर् आसीत् ।

अन्ते लेखकाः सम्भाव्यरक्षा-शमन-उपायान् प्रस्तावयन्ति, भविष्यस्य कार्यस्य निहितार्थानां चर्चां च कुर्वन्ति ।

论文六:संयोगात्मक उत्तल अनुकूलनस्य सूचनाजटिलता: सामान्यीकरणस्य कण्ठस्थीकरणस्य च अनुप्रयोगाः

作者:इडान अट्टियास,गिंटरे कैरोलिना द्ज़ुगैते,महदी हाघिफाम,रॉय लिवनी,डैनियल एम. राय

संस्थाः : बेन गुरियन विश्वविद्यालयः, पूर्वोत्तर विश्वविद्यालयः, तेल अवीव विश्वविद्यालयः, टोरंटो विश्वविद्यालयः, वेक्टर संस्थानम्, गूगल डीपमाइंड

पेपर पता: https://arxiv.org/abs/2402.09327

अस्मिन् कार्ये लेखकाः आकस्मिकउत्तल अनुकूलनसमस्यानां (SCO) सन्दर्भे कण्ठस्थीकरणस्य शिक्षणस्य च अन्तरक्रियायाः अध्ययनं कुर्वन्ति ।

प्रथमं प्रशिक्षणदत्तांशबिन्दुविषये सूचनां प्रकाशयितुं शिक्षण-अल्गोरिदम्-द्वारा कण्ठस्थीकरणं परिभाषितं भवति । ततः, परिमाणनिर्धारणाय सशर्तपरस्परसूचना (CMI) रूपरेखायाः उपयोगः भवति । एवं शिक्षण-अल्गोरिदमस्य सटीकतायां तस्य CMI-इत्येतयोः मध्ये व्यापारस्य सटीकं वर्णनं प्राप्यते ।

परिणामानि दर्शयन्ति यत् L^2 Lipschitz सीमाबद्ध सेटिंग् तथा सशक्त उत्तलतास्थितौ अतिरिक्तदोष ε युक्तस्य प्रत्येकस्य शिक्षिकायाः CMI क्रमशः Ω(1/ε^2) तथा Ω(1/ε) इत्यत्र निम्नसीमाः सन्ति।

अपि च, लेखकाः एससीओ-शिक्षणसमस्यासु कण्ठस्थीकरणस्य महत्त्वपूर्णां भूमिकां प्रदर्शयन्ति यत् एकं प्रतिद्वन्द्वी परिकल्पयन्ति यत् विशिष्टे एससीओसमस्यायां अधिकांशप्रशिक्षणनमूनानां समीचीनतया पहिचानं कर्तुं शक्नोति।

अन्ते लेखकाः अनेकाः महत्त्वपूर्णाः निहितार्थाः उद्धृताः, यथा एससीओ-समस्यायां सीएमआई-आधारितसामान्यीकरणसीमानां सीमाः, नमूना-असंपीडनक्षमता च

论文七:पदः बृहत्-परिमाणेन सार्वजनिकपूर्वप्रशिक्षणेन सह विभेदकरूपेण निजीशिक्षणस्य विचाराः

लेखक : फ्लोरियन ट्रामेर, गौतम कामथ, निकोलस कार्लिनी

संस्थाः : ईटीएच ज्यूरिच, वाटरलू विश्वविद्यालय, वेक्टर संस्थान, गूगल डीपमाइंड

पेपर पता: https://arxiv.org/abs/2212.06470

बृहत् सार्वजनिकदत्तांशसमूहेषु पूर्वप्रशिक्षितानां गैर-निजी-माडलानाम् स्थानान्तरण-शिक्षणक्षमतानां लाभं गृहीत्वा भिन्न-भिन्न-निजी-यन्त्र-शिक्षणस्य कार्यप्रदर्शने महत्त्वपूर्णतया सुधारः कर्तुं शक्यते

अस्मिन् कार्ये लेखकाः प्रश्नं कुर्वन्ति यत् बृहत् जाल-स्क्रेप्ड्-दत्तांशसमूहानां उपयोगः विभेदक-गोपनीयता-संरक्षणेन सह सङ्गतः अस्ति वा इति । एतदपि चेतवति यत् संजालदत्तांशस्य पूर्वप्रशिक्षितानां एतेषां आदर्शानां "निजी" इति वदन् अनेकानि हानिः भवितुम् अर्हति, यथा विभेदकगोपनीयतायाः अवधारणायां जनविश्वासः दुर्बलः भवति

सार्वजनिकदत्तांशस्य उपयोगस्य गोपनीयताविचारानाम् अतिरिक्तं लेखकाः अस्य दृष्टिकोणस्य व्यावहारिकतायाः विषये अधिकं प्रश्नं कुर्वन्ति ।

पूर्वप्रशिक्षणस्य प्रभावः विशेषतया तेषां आदर्शानां कृते लक्ष्यते ये अन्त्यप्रयोक्तृभ्यः स्वयन्त्रेषु चालयितुं अतिविशालाः सन्ति । यतो हि एतदर्थं अधिकगणनाशक्तियुक्ताय तृतीयपक्षाय निजीदत्तांशस्य बहिःनिर्देशनस्य आवश्यकता भविष्यति, एतादृशस्य प्रतिरूपस्य परिनियोजनेन गोपनीयतायाः शुद्धहानिः भविष्यति

अन्ते लेखकाः गोपनीयताशिक्षणक्षेत्रस्य सम्भाव्यविकासमार्गेषु चर्चां कुर्वन्ति यतः सार्वजनिकपूर्वप्रशिक्षणं अधिकं लोकप्रियं शक्तिशाली च भवति।

पत्र 8: अधिकप्रत्ययप्रद-एलएलएम-सहितं बहसः अधिकसत्य-उत्तरं प्राप्नोति

作者:अकबीर खान, जॉन ह्युग्स, दान वैलेंटाइन, लौरा रुइस, क्षितिज सचन, अंश राधाकृष्णन, एडवर्ड ग्रेफेनस्टेट, सैमुअल आर बोमन, टिम रॉकटाशेल, एतान पेरेज

संस्थाः : विश्वविद्यालय महाविद्यालय लण्डन, स्पीचमैटिक्स, MATS, एन्थ्रोपिक, FAR AI

कागज पता: https://arxiv.org/abs/2402.06782

वर्तमान समये सामान्यतया प्रयुक्ताः LLM संरेखणविधयः हस्तचलितरूपेण टिप्पणीकृतदत्तांशस्य उपरि बहुधा निर्भराः सन्ति ।

परन्तु यथा यथा आदर्शाः जटिलाः भवन्ति तथा तथा ते मानवविशेषज्ञतां अतिक्रमयिष्यन्ति तथा च मानवमूल्यांककानां भूमिका विशेषज्ञानाम् पर्यवेक्षकाणां अविशेषज्ञानाम् भूमिकां यावत् विकसिता भविष्यति।

अस्य आधारेण लेखकः एकः प्रश्नः उत्थापितवान् यत् किं दुर्बलतरं प्रतिरूपं दृढतरस्य प्रतिरूपस्य सम्यक्त्वस्य मूल्याङ्कनं कर्तुं शक्नोति ?

डिजाइनद्वारा बलिष्ठानां आदर्शानां (विशेषज्ञानाम्) प्रश्नस्य उत्तरं दातुं आवश्यका सूचना भवति, यदा तु दुर्बलतरमाडलानाम् (अविशेषज्ञानाम्) एतस्याः सूचनायाः अभावः भवति ।

मूल्याङ्कनस्य पद्धतिः वादविवादः अस्ति, यस्मिन् द्वौ एलएलएम-विशेषज्ञौ प्रत्येकं भिन्न-भिन्न-उत्तराणां रक्षणं कुर्वतः, न तु विशेषज्ञाः उत्तराणि चिन्वन्ति ।

परिणामेषु ज्ञातं यत् वादविवादेन निरन्तरं अविशेषज्ञप्रतिमानानाम्, मनुष्याणां च प्रश्नानाम् उत्तम उत्तरं दातुं साहाय्यं कृतम्, क्रमशः ७६%, ८८% च सटीकता प्राप्ता (आधाररेखा क्रमशः ४८%, ६०% च आसीत्)

अपि च, अनिरीक्षितसाधनद्वारा विशेषज्ञविमर्शकर्तृणां अनुनयशीलतायाः अनुकूलनं कृत्वा अविशेषज्ञानाम् वादविवादेषु सत्यस्य परिचयस्य क्षमतायां सुधारः भवति

पत्र 9: जिनी: जननात्मक अन्तरक्रियाशील वातावरण

作者:जेक ब्रूस,माइकल डेनिस,एशले एडवर्ड्स,जैक पार्कर-धारक,युगे शि,एडवर्ड ह्यूजेस,मैथ्यू लाइ,अदिति मावलंकर,रिची स्टाइगरवाल्ड,क्रिस एप्स,युसुफ आयतार,सारा बेचटल,फेरियल बेहबहानी ,स्टेफनी चान,निकोलस हीस,लुसी गोंजालेज,साइमन ओसिंडेरो,शेर्जिल ओजैर,स्कॉट रीड,जिंगवेई झांग,कोनराड ज़ोल्ना,जेफ क्लूने,नन्डो डी फ्रेटास,सतिंदर सिंह,टिम रॉकटाशेल

संस्थाः कोलम्बिया विश्वविद्यालयः, Google DeepMind

पेपर पता: https://arxiv.org/pdf/2402.15391

Google DeepMind दलेन विमोचितं मूलभूतं विश्वप्रतिरूपं - Genie "Elf" ।

चित्रात्, फोटोतः, स्केचतः, अनन्तं जगत् जनयितुं शक्नोति।

जिनी इत्यस्य उन्मत्तं वस्तु अस्ति यत् एतत् द्विलक्षघण्टानां अलेबल-अन्तर्जाल-वीडियाभ्यः शिक्षितवान्, पर्यवेक्षणं विना प्रशिक्षितवान् च ।

किमपि क्रियाटिप्पणीं विना नायकः कोऽस्ति इति निर्धारयितुं, उत्पन्नजगति उपयोक्त्रे तस्य नियन्त्रणं दातुं च शक्यते ।

विशेषतः, इदं त्रयाणां मूलघटकानाम् माध्यमेन कार्यान्वितं भवति: सुप्तक्रियाप्रतिरूपं, विडियोखण्डकं, स्वप्रतिगमनगतिशीलप्रतिरूपं च ।

परिणामस्वरूपं ज्ञातं सुप्तक्रियास्थानं न केवलं उपयोक्तृ-अन्तर्क्रियाम् सक्षमं करोति अपितु अदृष्ट-वीडियोषु व्यवहारानां अनुकरणं कर्तुं एजेण्ट्-प्रशिक्षणं कर्तुं अपि सहायकं भवति ।

सर्वेषु सर्वेषु, जिनी भविष्यस्य सामान्यवादी एजेण्टस्य संवर्धनार्थं नूतनं मार्गं उद्घाटयति तथा च अन्तरक्रियाशीलजननात्मकवातावरणानां परिदृश्यं पुनः आकारयति।

पेपर १०: वीडियोकविः शून्य-शॉट्-वीडियो-जनरेशनस्य कृते एकं विशालं भाषा-प्रतिरूपम्

作者:डैन कोंड्राट्युक,लिजुन यु,Xiuye गु,जोसे लेजामा,जोनाथन हुआंग,ग्रांट शिंडलर,राचेल हॉर्नुंग,विघ्नेश बिरोडकर,जिमी यान,मिंग-चांग चिउ,कृष्ण सोमन्देपल्ली,हसन अकबरी,Yair Alon, योंग चेंग,जोश डिलन,अग्रिम गुप्ता,मीरा हाहन,अन्जा हौथ,डेविड हेंडन,एलोन्सो मार्टिनेज,डेविड मिनेन्,मिखाइल सिरोटेनको,किह्युक सोहन,जुआन यांग,हार्टविग एडम,मिंग-हसुआन यांग,इरफान एस्सा,हुइशेंग वांग,डेविड ए ybold,लु जियांग

संस्था : कार्नेगी मेलन विश्वविद्यालय, गूगल

पेपर पता: https://arxiv.org/pdf/2312.14125

सोरा इत्यस्य विमोचनात् पूर्वं गूगलः सीएमयू-दलेन च सोरा-सदृशं विडियो-जनन-प्रौद्योगिकीम् विडियोपोएट्-इत्येतत् २०२३ तमस्य वर्षस्य डिसेम्बर्-मासे तकनीकी-मार्गचित्रे प्रारब्धम् ।

VideoPoet एकस्मिन् समये १० सेकेण्ड् यावत् अतिदीर्घं, सुसंगतं बृहत्-क्रिया-वीडियो जनयितुं शक्नोति, तथा च विडियो जनयितुं कोऽपि विशिष्टः आँकडा आवश्यकः नास्ति ।

विशेषतः, VideoPoet इत्यत्र मुख्यतया निम्नलिखितघटकाः समाविष्टाः सन्ति ।

- पूर्वप्रशिक्षितः MAGVIT V2 विडियो टोकेनिजरः तथा SoundStream ऑडियो टोकेनाइजरः भिन्नदीर्घतायाः चित्राणि, विडियो, ऑडियो क्लिप्स् च एकीकृतशब्दावलीयां असततसङ्केतक्रमेषु परिवर्तयितुं शक्नुवन्ति। एते कोडाः पाठ्यभाषाप्रतिमानैः सह सङ्गताः सन्ति, पाठादिभिः अन्यैः मोडैलिटीभिः सह सहजतया संयोजितुं शक्यन्ते ।

- स्वप्रतिगमनभाषाप्रतिरूपं विडियो, चित्रं, श्रव्यं, पाठं च मध्ये पार-मोडल-शिक्षणं कर्तुं शक्नोति, तथा च स्व-प्रतिगमन-प्रकारेण क्रमे अग्रिम-वीडियो अथवा श्रव्य-टोकनस्य पूर्वानुमानं कर्तुं शक्नोति

- बृहत्भाषाप्रतिरूपप्रशिक्षणरूपरेखायां बहुविधजननशिक्षणस्य उद्देश्यं प्रवर्तते, यत्र पाठतः विडियो, पाठतः चित्रं, चित्रं विडियो, विडियो फ्रेम निरन्तरता, विडियो मरम्मत/विस्तारः, विडियो शैलीकरणं तथा च विडियोतः श्रव्यं इत्यादयः सन्ति . अपि च, एतानि कार्याणि परस्परं संयोजयित्वा अतिरिक्तशून्य-नमूनाक्षमता (उदा. पाठतः श्रव्यं) प्राप्तुं शक्यन्ते ।

अग्रणीमाडलात् भिन्नः विडियोपोट् प्रसारप्रतिरूपे आधारितः नास्ति, अपितु विशालः बहुविधाप्रतिरूपः, यस्मिन् T2V, V2A इत्यादयः क्षमताः भवितुम् अर्हन्ति

संक्षेपेण, VideoPoet इत्यस्य त्रयः प्रमुखाः लाभाः सन्ति : दीर्घतरं विडियो जनयितुं, अधिकं सटीकं नियन्त्रणं प्राप्तुं, शक्तिशालिनः कॅमेरा-गतिः च ।

सर्वश्रेष्ठ समीक्षक पुरस्कार

सर्वोत्तमम् अस्ति यत् ICML 2024 सम्मेलने सर्वोत्तमसमीक्षकपुरस्कारः अपि घोषितः ।

सन्दर्भाः : १.

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211

समाचारं

आमुख

मम सम्पर्कसूचना