समाचारं

गूगल डीपमाइण्ड् इत्यनेन मुक्तस्रोतपरिणामानां चोरी कृता इति प्रकाशितम्, तस्य पत्रं च शीर्षसम्मेलनेषु स्वीकृतम्

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

मत्स्य-मेषयोः पश्चिमवायुः आओफेइ-मन्दिरात् उत्पद्यते
Qubits |.सार्वजनिक खाता QbitAI

बृहत् आदर्शवृत्तेन पुनः एकवारं दगुआतः साहित्यिकचोरीं उजागरितम्, अस्मिन् समये,“प्रतिवादी” अद्यापि प्रसिद्धः गूगल डीपमाइण्ड् अस्ति



“वादी” साक्षात् क्रुद्धः उद्घोषितवान् यत् -ते केवलं अस्माकं तकनीकीप्रतिवेदनं प्रक्षालितवन्तः

विशेषतः : १.

एकं Google DeepMind पत्रं यत् शीर्षनवीनपीढीसम्मेलने CoLM 2024 स्वीकृतम् आसीत्, तत् अङ्गीकृतम् आसीत् स्वामिना दर्शितं यत् तया एकवर्षपूर्वं arXiv इत्यत्र प्रकाशितस्य अध्ययनस्य चोरी कृता। मुक्तस्रोतप्रकारः ।



उभयपत्रेषु आदर्शपाठजननस्य संरचनायाः औपचारिकीकरणस्य पद्धतिः अन्वेषिता अस्ति ।

ग्रहणं तु अस्ति यत् गूगल-डीपमाइण्ड्-पत्रे "वादी"-पत्रस्य स्पष्टतया उद्धरणं ददाति एव ।



परन्तु यदि उद्धरणं सूचितं भवति चेदपि "वादी" पत्रस्य लेखकद्वयं ब्रैण्डन् टी. विलार्ड् (ब्राण्डन्) आर'एमी लौफ् (रेमी) च अद्यापि गूगलेन चोरीं कृतवान् इति आग्रहं कुर्वतः, तथा च मन्यन्ते यत्:

गूगलस्य द्वयोः भेदस्य वर्णनं "मात्रं हास्यास्पदम्" अस्ति ।



अनेके नेटिजनाः पत्रं पठित्वा शनैः शनैः प्रश्नचिह्नं उत्थापितवन्तः यत् CoLM इत्यनेन पाण्डुलिप्याः समीक्षा कथं कृता?



केवलं भेदः अस्ति यत् अवधारणा परिवर्तिता अस्ति?



शीघ्रं कागदस्य तुलनां पश्यन्तु...

द्वयोः पत्रयोः तुलना

पत्रद्वयस्य अमूर्ततुलनं शीघ्रं पश्यामः ।

Google DeepMind इत्यस्य पत्रं यत् वदति तत् अस्ति यत् टोकनाइजेशनं बाध्यभाषाप्रतिरूपनिर्गमाय कष्टम् आनयति यत् ते एतासां समस्यानां समाधानार्थं automata सिद्धान्तं प्रवर्तयन्ति स्म ।

एषा पद्धतिः केवलं प्रत्येकस्य टोकनस्य विकोडितं तार्किकं मूल्यं प्राप्तुं आवश्यकं भवति, तथा च गणना भाषाप्रतिरूपस्य आकारात् स्वतन्त्रा भवति, प्रायः सर्वेषु भाषाप्रतिरूपवास्तुकलासु एषा कार्यक्षमता सुलभा च भवति

“वादी” इत्यस्य वचनं मोटेन अस्ति यत् -

भाषाप्रतिरूपस्य शब्दावलीयां सूचकाङ्कं निर्माय बाध्यपाठजननस्य कार्यक्षमतायाः महतीं सुधारं कर्तुं कुशलरूपरेखा प्रस्ताविता अस्तिसरलतया वक्तुं शक्यतेअनुक्रमणिकाद्वारा सर्वाणि तार्किकमूल्यानि भ्रमितुं परिहरन्तु

अपि च "विशिष्टप्रतिरूपे न आश्रितः" ।



दिशि खलु महत् अन्तरम् अस्ति अतः अधिकविवरणं पश्यामः ।

वयं द्वयोः पत्रयोः मुख्यसामग्रीणां सारांशं ज्ञातुं Google Gemini 1.5 Pro इत्यस्य उपयोगं कृतवन्तः, ततः Gemini इत्यनेन द्वयोः मध्ये समानतायाः भेदस्य च तुलनां कर्तुं पृष्टवन्तः ।

"प्रतिवादी" गूगलपत्रस्य विषये मिथुनपत्रेण स्वस्य पद्धतिः यथा सारांशतःडिटोकनाइजेशनं परिमितराज्यपरिवर्तक (FST) संचालनरूपेण पुनः परिभाषयन्तु



एतत् FST एकेन स्वचालितेन सह संयोजयन्तु यत् लक्ष्य औपचारिकभाषां प्रतिनिधियति, यस्य प्रतिनिधित्वं नियमितव्यञ्जनेन वा व्याकरणेन वा कर्तुं शक्यते ।

उपर्युक्तसंयोजनस्य माध्यमेन टोकन-आधारितः स्वचालितः उत्पद्यते, यस्य उपयोगः डिकोडिंग्-प्रक्रियायाः समये भाषा-प्रतिरूपस्य बाधां कर्तुं भवति यत् तस्य आउटपुट्-पाठः पूर्वनिर्धारित-औपचारिक-भाषा-विनिर्देशानां अनुरूपः इति सुनिश्चितं भवति

तदतिरिक्तं गूगलपत्रेण नियमितव्यञ्जनविस्तारस्य श्रृङ्खला अपि निर्मितवती, या पाठसंसाधनकाले प्रणाल्याः कार्यक्षमतायाः अभिव्यञ्जकतायां च महत्त्वपूर्णं सुधारं कर्तुं विशेषरूपेण नामकृतानां कैप्चरसमूहानां उपयोगेन लिखिता आसीत्

"वादी" पत्रस्य विषये मिथुनराशिः स्वस्य उपायस्य मूलं यथापरिमित अवस्थायन्त्राणां (FSMs) मध्ये परिवर्तनरूपेण पाठजननसमस्यां पुनः स्वरूपयन्तु ।

"वादी" इत्यस्य विशिष्टा विधिः अस्ति : १.

  • नियमितव्यञ्जनानां अथवा सन्दर्भरहितव्याकरणानाम् उपयोगेन FSMs निर्माय पाठजननप्रक्रियायाः मार्गदर्शनाय तेषां उपयोगं कुर्वन्तु ।
  • प्रत्येकं पदे वैधशब्दानां कुशलतापूर्वकं परिचयं कुर्वन्तु तथा च शब्दावलीसूचकाङ्कं निर्माय सम्पूर्णशब्दकोशस्य भ्रमणं परिहरन्तु।



मिथुनपत्रे द्वयोः पत्रयोः साम्यताः सूचीकृताः सन्ति ।



द्वयोः भेदस्य विषये पूर्वस्य नेटिजनस्य वचनं किञ्चित् इव अस्ति सरलः सारांशः अस्ति यत् गूगलः शब्दावलीं FST इति परिभाषयति।



यथा पूर्वं उक्तं, गूगलेन वादीपत्रं “सम्बद्धकार्यम्” इत्यत्र “अत्यन्तं प्रासंगिकं” कार्यं इति सूचीकृतम्:

अत्यन्तं प्रासंगिकं शोधं Outlines (Willard & Louf, 2023) अस्ति, यत् परिमितस्थितिस्वचालितानां (FSA) तथा पुशडाउन ऑटोमेटा (PDA) इत्येतयोः अपि बाधारूपेण उपयोगं करोति - अस्माकं पद्धतिः २०२३ तमस्य वर्षस्य आरम्भे स्वतन्त्रतया विकसिता आसीत्

गूगलस्य मतं यत् द्वयोः मध्ये अन्तरं अस्ति यत् Outlines इत्यस्य पद्धतिः विशेषरूपेण निर्मितस्य "indexing"-सञ्चालनस्य आधारेण अस्ति यस्य कृते नूतन-अनुप्रयोग-परिदृश्येषु हस्त-विस्तारस्य आवश्यकता भवति तस्य विपरीतम् गूगलेन automata सिद्धान्तस्य उपयोगेन सम्पूर्णप्रक्रियायाः पूर्णतया पुनः परिभाषा कृता, येन FSA इत्यस्य प्रयोगः, PDAs इत्यत्र सामान्यीकरणं च सुकरं जातम् ।

अन्यः अन्तरः अस्ति यत् गूगलेन वाइल्डकार्ड् मेलनं समर्थयितुं उपयोगितायाः उन्नयनार्थं च विस्ताराः परिभाषिताः सन्ति ।



गूगलेन निम्नलिखितयोः सम्बन्धितयोः कार्ययोः परिचयं कुर्वन् Outlines इत्यस्य उल्लेखः अपि कृतः ।

एकं यत् यिन इत्यादयः (2024) पूर्वजनसंख्यायां पाठखण्डान् "संपीडयितुं" क्षमतां योजयित्वा Outlines इत्यस्य विस्तारं कृतवन्तः ।

अन्यत् अद्यैव उगेरे इत्यादिभिः (2024) प्रस्ताविता प्रणाली अस्ति यस्य नाम SynCode इति । एतत् FSA इत्यस्य अपि उपयोगं करोति, परन्तु व्याकरणस्य संसाधनार्थं PDA इत्यस्य स्थाने LALR तथा LR पार्सर् इत्यस्य उपयोगं करोति ।

Outlines इत्यस्य सदृशं एषा पद्धतिः custom algorithms इत्यस्य उपरि अवलम्बते ।

परन्तु ये जनाः खरबूजं खादन्ति ते स्पष्टतया तत् बहु न क्रीणन्ति:

CoLM समीक्षकाः संज्ञानं गृह्णीयुः। न मन्ये एते पृथक् "समकालीनप्रयत्नाः" इति दृश्यन्ते ।



नेटिजनः - एतत् असामान्यं न...

एषा घटना प्रकाशं प्राप्तमात्रेण बहवः नेटिजनाः क्रुद्धाः अभवन्, साहित्यचोरी लज्जाजनकः आसीत्, "एतत् प्रथमवारं न यत् प्रौद्योगिकीविशालकायः लघुदलस्य कार्यस्य चोरीं कृतवान्" इति।

वैसे, ब्रैण्डन् रेमी च द्वौ अपि २०२२ तमे वर्षे स्थापितायाः एआइ इन्फ्रा कम्पनीयाः नॉर्मल् कम्प्यूटिङ्ग् इत्यस्य कृते दूरस्थरूपेण कार्यं कुर्वन्तौ आस्ताम्, यदा ते वादीनां पत्रं प्रकाशितवन्तौ

अहो, वैसे, Normal Computing इत्यस्य संस्थापकदलस्य भागः Google Brain इत्यस्मात् आगतः...



तदतिरिक्तं ब्रैण्डन् रेमी च अधुना एकत्र व्यापारं आरब्धवन्तौ नूतना कम्पनी .txt इति आधिकारिकजालस्थलसूचनानुसारं तस्याः लक्ष्यं द्रुतं विश्वसनीयं च सूचनानिष्कासनं प्रतिरूपं प्रदातुं वर्तते। तथा च आधिकारिकजालस्थले सूचीकृतं GitHub मुखपृष्ठं Outlines गोदामम् अस्ति ।

पुनः नेटिजन्स् प्रति आगत्य सर्वेषां अधिकं क्रुद्धं भवति यत् "एषा स्थितिः सामान्या अभवत्" इति ।

नेदरलैण्ड्देशस्य डेल्फ्ट् प्रौद्योगिकीविश्वविद्यालयस्य एकः पोस्टडॉक् स्वस्य अनुभवं साझां कृतवान् यत् -

वयं गत अक्टोबर् मासे एकं कार्यं सम्पन्नवन्तः, अधुना एव स्वीकृतं पत्रम् आसीत् यस्मिन् समानविचाराः अवधारणाः च उपयुज्यन्ते स्म, परन्तु अस्माकं पत्रस्य उद्धरणमपि न दत्तम्।



अमेरिकादेशस्य पूर्वोत्तरविश्वविद्यालयस्य एकः वृद्धः अपि अस्ति यः तस्मात् अपि दुर्बलतरः अस्ति सः द्विवारं एतां स्थितिं सम्मुखीकृतवान्, अपराधिनः च सर्वदा एकः एव समूहः आसीत् तथा च विपरीततः प्रथमः लेखकः अपि स्वस्य GitHub...



परन्तु केचन नेटिजनाः भिन्नानि मतं प्रकटितवन्तः यत् -

यदि ब्लॉग-पोस्ट् अथवा अमूल्यांकितं पूर्वमुद्रणपत्रं पोस्ट् करणं वञ्चनारूपेण गण्यते तर्हि सर्वे वञ्चनं कुर्वन्ति, किम्?



तस्य प्रतिक्रियारूपेण रेमी क्रुद्धः अवदत् यत् -

हे बन्धुजनाः, पूर्वमुद्रणपत्रं प्रकाशयन् तथा च कोडं मुक्तस्रोतः = परिस्थितेः लाभं गृहीत्वा;
गणितपत्रं लिखन्तु यस्य किमपि छद्मकोडस्य अपि आवश्यकता नास्ति = उत्तमं कार्यं? ? ?



ब्रैण्डन् भ्राता अपि युए इति अवदत् ।

मुक्तस्रोतसङ्केतः सम्बद्धानि पत्राणि च लिखित्वा "अन्यस्य लाभं ग्रहीतुं" भवति, परन्तु अन्येषां कार्यस्य प्रतिलिपिं कृत्वा "मम एषः विचारः पूर्वं आसीत्" इति वदन् सम्मेलने प्रस्तौति इति सम्यक् नास्ति? कथं घृणितम्।



प्रथमं खरबूजं खादामः । भवान् टिप्पणीक्षेत्रे चर्चां निरन्तरं कर्तुम् इच्छति~

पत्रद्वयस्य कृते अत्र क्लिक् कुर्वन्तु:
गूगल डीपमाइंड पेपर: https://arxiv.org/abs/2407.08103v1
वादी के पत्र: https://arxiv.org/abs/2307.09702

सन्दर्भलिङ्कानि : १.
[1]https://x.com/remilouf/status/1812164616362832287?s=46
[2]https://x.com/karan4d/status/1812172329268699467?s=46
[3]https://x.com/brandontwillard/status/1812163165767053772?s=46