मैनुअल् एनोटेशनं परित्यज्य, AutoAlign पद्धतिः ज्ञानं graph_news पूर्णतया स्वचालितं कर्तुं बृहत् मॉडल् आधारिता अस्ति

मैनुअल् एनोटेशनं परित्यज्य AutoAlign पद्धतिः बृहत् मॉडल् आधारितं ज्ञानलेखान् पूर्णतया स्वचालितं करोति

2024-07-26

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन एआइक्सिव् स्तम्भे २००० तः अधिकाः प्रतिवेदनाः प्राप्ताः, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः समाविष्टाः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

इदं कार्यं सिंघुआ विश्वविद्यालयात्, मेलबर्नविश्वविद्यालयात्, चीनीयहाङ्गकाङ्गविश्वविद्यालयात्, चीनीयविश्वविद्यालयात्, हाङ्गकाङ्गविश्वविद्यालयात् च रुई झाङ्ग, यिक्सिन् सु, बायु डिस्टियावान त्रिसेद्या, जिओयान् झाओ, मिन याङ्ग, हाङ्गचेङ्ग, जियान्झोङ्ग क्यूई इत्यादीनां विद्वानानां दलेन संयुक्तरूपेण सम्पन्नम् चीनी विज्ञान अकादमी। दलं बृहत्प्रतिमानानाम्, ज्ञानलेखानां, अनुशंसितसन्धानस्य, प्राकृतिकभाषाप्रक्रियाकरणस्य, बृहत्दत्तांशस्य अन्यदिशासु च शोधकार्यं प्रति केन्द्रितं भवति ।

संरचितज्ञानस्य महत्त्वपूर्णवाहकत्वेन ज्ञानलेखानां व्यापकरूपेण उपयोगः सूचनापुनर्प्राप्तिः, ई-वाणिज्यम्, निर्णयनिर्माणतर्कः इत्यादिषु अनेकक्षेत्रेषु भवति परन्तु यतः भिन्न-भिन्न-संस्थाभिः अथवा पद्धतैः निर्मितानाम् ज्ञान-लेखानां प्रतिनिधित्व-विधिषु, कवरेज-आदिषु भेदः भवति, अतः अधिकव्यापकं समृद्धं च ज्ञान-व्यवस्थां प्राप्तुं भिन्न-भिन्न-ज्ञान-लेखानां प्रभावीरूपेण एकीकरणं कथं करणीयम् इति, तस्य कवरेज-कवरेज-सुधारार्थं महत्त्वपूर्णः विषयः अभवत् ज्ञानलेखाः।सटीकतायाः महत्त्वपूर्णः विषयः ज्ञानलेखसंरेखणकार्यद्वारा समाधानं कर्तव्यं मूलचुनौत्यम् अस्ति।

पारम्परिकज्ञानलेखसंरेखणविधयः केषाञ्चन सत्तानां विधेयानां च बीजसत्तायुग्मरूपेण संरेखितुं मैनुअल् एनोटेशनस्य उपरि अवलम्बन्ते । एतादृशाः पद्धतयः महत्, अकुशलं, दुर्बलं संरेखणं च ददति । सिंघुआ विश्वविद्यालयस्य, मेलबर्नविश्वविद्यालयस्य, हाङ्गकाङ्गस्य चीनीयविश्वविद्यालयस्य, चीनीयविज्ञानस्य विश्वविद्यालयस्य च विद्वांसः संयुक्तरूपेण बृहत्प्रतिमानानाम् आधारेण पूर्णतया स्वचालितज्ञानलेखसंरेखणपद्धतिं प्रस्तावितवन्तः - AutoAlign AutoAlign इत्यस्य कृते संरेखितबीजसत्तानां वा विधेययुग्मानां वा मैनुअल् एनोटेशनस्य आवश्यकता नास्ति तस्य स्थाने, एतत् पूर्णतया एल्गोरिदमस्य सत्ताशब्दार्थस्य संरचनायाः च अवगमनस्य माध्यमेन संरेखणं करोति, येन दक्षतायां सटीकतायां च महत्त्वपूर्णं सुधारः भवति

论文:AutoAlign: बृहत् भाषा मॉडल द्वारा सक्षम पूर्णतः स्वचालित तथा प्रभावी ज्ञान ग्राफ संरेखण,36 (6) TKDE 2024

पेपर लिङ्कः https://arxiv.org/abs/2307.11772

कोडलिङ्कः https://github.com/ruizhang-ai/AutoAlign इति

आदर्श परिचय

AutoAlign मुख्यतया द्वौ भागौ भवतः : १.

विधेयानाम् संरेखणार्थं प्रयुक्तम्विधेय एम्बेडिंग मॉड्यूल(विधेय एम्बेडिंग मॉड्यूल)。

सत्तानां संरेखणार्थं शिक्षणभागं एम्बेडिंग् एण्टीटी इत्यस्मिन् द्वौ मॉड्यूलौ समाविष्टौ स्तः:गुण एम्बेडिंग मॉड्यूल(विशेषता एम्बेडिंग मॉड्यूल) 和संरचनात्मक एम्बेडेड मॉड्यूल(संरचना एम्बेडिंग मॉड्यूल)。

समग्रप्रक्रिया अधोलिखिते चित्रे दर्शिता अस्ति ।

विधेय एम्बेडिंग मॉड्यूल : predicate embedding module इत्यस्य उद्देश्यं predicates इत्यस्य संरेखणं भवति ये ज्ञानलेखद्वये समानार्थस्य प्रतिनिधित्वं कुर्वन्ति । यथा, "is_in" तथा "located_in" इत्येतयोः संरेखणं कुर्वन्तु । एतत् लक्ष्यं प्राप्तुं शोधदलेन Predicate Proximity Graph इति ग्राफः निर्मितः, यत्र ज्ञानलेखद्वयं एकस्मिन् आलेखे विलीनं कृत्वा तस्मिन् विद्यमानानां सत्तानां स्थाने तेषां तत्सम्बद्धप्रकारैः (Entity Type) स्थापितं इयं पद्धतिः निम्नलिखित-अनुमानस्य आधारेण भवति: समानाः (अथवा तत्सदृशाः) विधेयकाः, तेषां तत्सम्बद्धाः सत्ताप्रकाराः अपि समानाः भवेयुः (उदाहरणार्थं, "is_in" तथा "located_in" इत्येतयोः लक्ष्यसत्ताप्रकारयोः स्थानस्य अथवा सम्बद्धतायाः उच्चसंभावना भवति नगरी)। बृहत्भाषाप्रतिमानद्वारा प्रकाराणां शब्दार्थबोधः एतेषां प्रकाराणां अधिकं संरेखणं करोति, त्रिगुणशिक्षणस्य सटीकतायां सुधारं करोति । अन्ते, विधेयपरिजनस्य आलेखः आलेखसङ्केतनविधिभिः (यथा TransE) ज्ञायते, येन समानेषु (अथवा तत्सदृशेषु) विधेयेषु समानानि एम्बेडिंग् भवन्ति, तस्मात् विधेयसंरेखणं प्राप्यते

विशिष्टकार्यन्वयनस्य दृष्ट्या शोधदलेन प्रथमं विधेयसमीपतालेखः निर्मितः । विधेयसमीपतालेखः एकः आलेखः अस्ति यः सत्ताप्रकारयोः सम्बन्धान् वर्णयति । सत्ताप्रकाराः सत्तानां व्यापकवर्गाणां प्रतिनिधित्वं कुर्वन्ति तथा च स्वयमेव भिन्नानां सत्तानां संयोजनं कर्तुं शक्नुवन्ति । यद्यपि केषाञ्चन विधेयानां पृष्ठीयरूपं भिन्नं भवति (उदा. “lgd:is_in” तथा “dbp:located_in”), तर्हि विधेयसमीपतालेखं ज्ञात्वा तेषां सादृश्यं प्रभावीरूपेण चिह्नितुं शक्यते विधेयसमीपतालेखस्य निर्माणार्थं सोपानानि निम्नलिखितरूपेण सन्ति ।

सत्ता प्रकार निष्कर्षण : शोधदलेन ज्ञानलेखे प्रत्येकस्य सत्तायाः rdfs:type predicate इत्यस्य मूल्यं प्राप्य सत्ताप्रकारं निष्कासितम् । सामान्यतया प्रत्येकस्य सत्तायाः बहुविधाः भवन्ति । यथा, जर्मनी-सत्तायाः ज्ञानलेखे बहुविधाः भवितुम् अर्हन्ति, यथा "वस्तु", "स्थानं", "स्थानं" "देशः" च । विधेयसमीपतालेखे ते प्रत्येकस्य त्रिगुणस्य शिरःपुच्छसत्तां सत्ताप्रकारसमूहेन प्रतिस्थापयन्ति ।

प्रकार संरेखण : यतः भिन्न-भिन्न-ज्ञान-लेखेषु सत्ता-प्रकाराः भिन्न-भिन्न-पृष्ठ-रूपानाम् (उदा., “व्यक्तिः” तथा “जनाः”) उपयोगं कर्तुं शक्नुवन्ति, अतः शोध-दलस्य एतेषां प्रकाराणां संरेखणस्य आवश्यकता वर्तते अस्य कृते शोधदलः एतान् प्रकारान् स्वयमेव संरेखयितुं ChatGPT, Claude इत्यादीनां अत्याधुनिकबृहत्भाषाप्रतिमानानाम् उपयोगं करोति । यथा, एकः शोधदलः Claude2 इत्यस्य उपयोगेन द्वयोः ज्ञानलेखयोः समानप्रकारस्य युग्मानां परिचयं कर्तुं शक्नोति ततः सर्वान् समानप्रकारान् एकीकृतप्रतिपादने संरेखितुं शक्नोति अस्य कृते शोधदलेन स्वचालितप्रोम्प्ट् (प्रोम्प्ट्) इत्यस्य समुच्चयः परिकल्पितः यत् स्वयमेव भिन्न-भिन्न-ज्ञान-लेखानां आधारेण संरेखणशब्दान् प्राप्तुं शक्नोति

विधेयसादृश्यं ग्रहीतुं बहुविधसत्ताप्रकारस्य समुच्चयः आवश्यकः । शोधदलेन द्वौ समुच्चयपद्धतौ प्रस्तावितौ : भारितकार्यं ध्यानाधारितं च कार्यम् । प्रयोगेषु तेषां ज्ञातं यत् ध्यानाधारितकार्यं उत्तमं कार्यं करोति । विशेषतः, ते प्रत्येकस्य सत्ताप्रकारस्य ध्यानभारस्य गणनां कुर्वन्ति तथा च भारितसमीकरणद्वारा अन्तिमछद्मप्रकारस्य एम्बेडिंगं प्राप्नुवन्ति । तदनन्तरं शोधदलेन उद्देश्यकार्यं न्यूनीकृत्य विधेयनिक्षेपणानि प्रशिक्षितानि येन समानविशेषणानां सदिशप्रतिपादनं समानं भवति ।

गुण एम्बेडिंग मॉड्यूल तथा संरचना एम्बेडिंग मॉड्यूल : एट्रिब्यूट एम्बेडिंग् मॉड्यूल् तथा स्ट्रक्चर एम्बेडिंग् मॉड्यूल् इत्येतौ द्वौ अपि एण्टीटी संरेखणार्थं उपयुज्यन्ते । तेषां विचाराः विधेयनिक्षेपणसदृशाः सन्ति अर्थात् समानस्य (अथवा तत्सदृशस्य) सत्तायाः कृते तत्सम्बद्धत्रिगुणे अन्यसत्त्वे च विधेयम् अपि समानं भवेत् अतः, predicate alignment (predicate embedding module मार्गेण) तथा attribute alignment ( Attribute Character Embeding मेथड् मार्गेण) इत्येतयोः सन्दर्भे वयं TransE इत्यस्य माध्यमेन समानानि एम्बेडिंग् ज्ञातुं समानानि संस्थानि सक्षमानि कर्तुं शक्नुमः विशेषतः : १.

विशेषता एम्बेडिंग लर्निंग : एट्रिब्यूट एम्बेडिंग् मॉड्यूल् एट्रिब्यूट् वैल्यू इत्यस्य वर्णक्रमं एन्कोड् कृत्वा हेडर एन्टीटी इत्यस्य एट्रिब्यूट् मूल्यस्य च मध्ये सम्बन्धं स्थापयति । शोधदलेन विशेषतामूल्यानां संकेतनार्थं त्रीणि संयोजनकार्यं प्रस्तावितानि: समीकरणसंयोजनकार्यं, LSTM-आधारितं संयोजनकार्यं, N-ग्राम-आधारितं संयोजनकार्यं च एतेषां कार्याणां माध्यमेन वयं विशेषतामूल्यानां साम्यं ग्रहीतुं समर्थाः स्मः, येन ज्ञानलेखद्वये सत्ताविशेषणानि संरेखितुं शक्यन्ते

संरचनात्मकं समाहितं शिक्षणम् : संरचना एम्बेडिंग् मॉड्यूल् TransE पद्धत्याः आधारेण उन्नतं भवति तथा च भिन्न-भिन्न-परिजनानाम् भिन्न-भिन्न-भारं दत्त्वा सत्तानां एम्बेडिंग् ज्ञायते संरेखिताः, अन्तर्निहितरूपेण च संरेखिताः विधेयाः अधिकं भारं प्राप्नुयुः, असंरेखिताः विधेयाः तु कोलाहलः इति मन्यन्ते । एवं प्रकारेण संरचनात्मकः एम्बेडिंग् मॉड्यूल् अधिकतया संरेखितत्रिगुणात् शिक्षितुं समर्थः भवति ।

संयुक्त प्रशिक्षण : प्रीडिकेट एम्बेडिंग मॉड्यूल, एट्रिब्यूट एम्बेडिंग मॉड्यूल तथा संरचना एम्बेडिंग मॉड्यूल इत्येतयोः त्रयः मॉड्यूलाः क्रमेण प्रशिक्षिताः भवितुम् अर्हन्ति, वैकल्पिकशिक्षणस्य माध्यमेन परस्परं प्रभावितुं शक्नुवन्ति, एम्बेडिंग् इत्यस्य अनुकूलनं कृत्वा प्रत्येकस्य संरचनायाः प्रतिनिधित्वे समग्रं इष्टतमं प्राप्तुं शक्नुवन्ति। प्रशिक्षणानन्तरं शोधदलेन सत्तानां, विधेयानाम्, विशेषतानां, प्रकाराणां च निहितप्रतिनिधित्वं प्राप्तम् । अन्ते वयं ज्ञानलेखद्वये सत्तासादृश्यस्य (यथा कोसाइनसादृश्यस्य) तुलनां कुर्मः तथा च सत्तासंरेखणार्थं उच्चसादृश्ययुक्तानि सत्तायुग्मानि (दहलीजात् अधिकं भवितुम् आवश्यकम्) ज्ञास्यामः

प्रयोगात्मकाः परिणामाः

शोधदलेन नवीनतमबेन्चमार्कदत्तांशसमूहे DWY-NB (Rui Zhang, 2022) इत्यस्य प्रयोगाः कृताः, मुख्यपरिणामाः च अधोलिखिते सारणीयां दर्शिताः सन्ति

AutoAlign इत्यनेन ज्ञानलेखसंरेखणस्य कार्यप्रदर्शने महत्त्वपूर्णतया सुधारः कृतः, विशेषतः मैनुअल् एनोटेशनबीजानां अभावे । मानवीय टिप्पणीं विना विद्यमानानाम् आदर्शानां प्रभावीरूपेण संरेखणं प्रायः असम्भवम् अस्ति । परन्तु एतादृशेषु परिस्थितिषु AutoAlign इत्येतत् अद्यापि उत्तमं प्रदर्शनं प्राप्तुं समर्थम् अस्ति । उभयत्र दत्तांशसमूहेषु, AutoAlign बीजानां मैनुअल् एनोटेशनं विना सर्वोत्तमविद्यमानमूलरेखाप्रतिमानानाम् (हस्तचलितटिप्पण्या सह अपि) तुलने महत्त्वपूर्णं सुधारं प्राप्नोति एते परिणामाः दर्शयन्ति यत् AutoAlign न केवलं संरेखणसटीकतायां विद्यमानविधिभ्यः अधिकं प्रदर्शनं करोति, अपितु पूर्णतया स्वचालितसंरेखणकार्येषु अपि दृढलाभान् प्रदर्शयति

सन्दर्भाः : १.

रुई झांग, बायू डी त्रिसेद्या, मियाओ ली, योंग जियांग, और जियानझोंग क्यूई (2022). प्रतिनिधित्वशिक्षणद्वारा ज्ञानग्राफः इकाईसंरेखणस्य विषये एकः बेन्चमार्कः व्यापकः सर्वेक्षणः च। वीएलडीबी जर्नल, 31 (5), 1143-1168, 2022.

समाचारं

मैनुअल् एनोटेशनं परित्यज्य AutoAlign पद्धतिः बृहत् मॉडल् आधारितं ज्ञानलेखान् पूर्णतया स्वचालितं करोति

आमुख

मम सम्पर्कसूचना