माइक्रोसॉफ्टस्य मुक्तस्रोतस्य GraphRAG लोकप्रियतायाः विस्फोटं करोति, किं जननात्मकं AI ज्ञानलेखानां युगे प्रविष्टवान्?

2024-07-15

मशीन हृदय रिपोर्ट

सम्पादकः पाण्डा डब्ल्यू

ज्ञानलेखः कदापि पर्यावरणात् निवृत्तः न भवति!

एलएलएम अतीव शक्तिशाली अस्ति, परन्तु अस्य केचन स्पष्टाः दोषाः अपि सन्ति, यथा मतिभ्रमसमस्याः, दुर्बलव्याख्याक्षमता, समस्यायाः केन्द्रीकरणं न गृह्णाति, गोपनीयतायाः सुरक्षायाः च विषयाः इत्यादयः पुनर्प्राप्ति-वर्धित-जनरेशन (RAG) एलएलएम-जनन-गुणवत्तायां परिणाम-उपयोगितायां च महत्त्वपूर्णं सुधारं कर्तुं शक्नोति ।

अस्य मासस्य आरम्भे माइक्रोसॉफ्ट् इत्यनेन GraphRAG इति सर्वाधिकं शक्तिशाली मुक्तस्रोतस्य RAG ज्ञानाधारसमाधानं प्रकाशितम्, एषा परियोजना ऑनलाइन गमनात् तत्क्षणमेव लोकप्रियतां प्राप्तवती, अधुना ताराणां संख्या 10.5k अभवत्

परियोजनायाः पताः https://github.com/microsoft/graphrag इति
आधिकारिकदस्तावेजनम् : https://microsoft.github.io/graphrag/

केचन जनाः वदन्ति यत् साधारणराग् इत्यस्मात् अधिकं शक्तिशाली अस्ति :

GraphRAG ज्ञानलेखानां निर्माणार्थं LLM इत्यस्य उपयोगं करोति, यत् जटिलसूचनासु दस्तावेजविश्लेषणं कुर्वन्, विशेषतः निजीदत्तांशैः सह व्यवहारं कुर्वन् प्रश्नोत्तरप्रदर्शने महत्त्वपूर्णतया सुधारं कर्तुं शक्नोति

GraphRAG तथा पारम्परिक RAG इत्येतयोः मध्ये तुलनायाः परिणामाः

अद्यत्वे RAG एकः तकनीकः अस्ति या LLM-निर्गमस्य उन्नयनार्थं वास्तविक-जगति-सूचनाः उपयुज्यते तथा च अधिकांश-LLM-आधारित-उपकरणानाम् एकः महत्त्वपूर्णः भागः अस्ति सामान्यतया, RAG अन्वेषणरूपेण सदिश-सादृश्यस्य उपयोगं करोति, यस्य नाम Baseline RAG इति परन्तु Baseline RAG केषुचित् परिस्थितिषु सम्यक् कार्यं न करोति । उदाहरणतया:

आधाररेखा RAG बिन्दून् संयोजयितुं संघर्षं करोति। एतत् तदा भवति यदा प्रश्नस्य उत्तरं दातुं नूतनानि संयुक्तानि अन्वेषणं प्रदातुं साझागुणानां माध्यमेन विभिन्नसूचनाखण्डानां भ्रमणस्य आवश्यकता भवति;
आधाररेखा RAG यदा बृहत् दत्तांशसमूहेषु अथवा एकस्मिन् बृहत् दस्तावेजे अपि सारांशितशब्दार्थसंकल्पनाः व्यापकरूपेण अवगन्तुं कथ्यते तदा दुर्बलं कार्यं करोति ।

Microsoft द्वारा प्रस्तावितं GraphRAG इत्येतत् निवेशपाठपुस्तकालयस्य आधारेण ज्ञानलेखं निर्मातुं LLM इत्यस्य उपयोगं करोति । अयं आलेखः प्रश्नसमये संकेतान् वर्धयितुं समुदायसारांशान् आलेखयन्त्रशिक्षणस्य च निर्गमं संयोजयति । GraphRAG उभयप्रकारस्य प्रश्नानाम् उत्तरं दातुं महत्त्वपूर्णं सुधारं दर्शयति, निजीदत्तांशसमूहेषु पूर्वविधिषु उत्कृष्टप्रदर्शनं प्रदर्शयति।

परन्तु यथा यथा सर्वेषां GraphRAG इत्यस्य गहनतया अवगमनं जातम् तथा तथा तेषां सिद्धान्ताः सामग्री च वास्तवतः कठिनतया अवगन्तुं शक्यते इति ज्ञातम् ।

अद्यैव Neo4j कम्पनीयाः CTO Philip Rathle इत्यनेन "GraphRAG Manifesto: Adding Knowledge to Generative AI" इति शीर्षकेण एकः ब्लॉग् लेखः प्रकाशितः GraphRAG इत्यादीनि अधिकानि।

सः अवदत् यत् - "भवतः अग्रिमः जननात्मकः AI अनुप्रयोगः सम्भवतः ज्ञानलेखस्य उपयोगं करिष्यति।"

Neo4j सीटीओ फिलिप रथले

अधः एतत् लेखं पठन्तु।

वयम् एतत् अवगन्तुं आगच्छामः यत् जननात्मक-AI इत्यनेन सह किमपि वास्तविकं सार्थकं कर्तुं, भवान् केवलं स्वस्य कृते निर्णयं कर्तुं autoregressive LLMs इत्यस्य उपरि अवलम्बितुं न शक्नोति।

अहं जानामि यत् भवान् किं चिन्तयति: "RAG इत्यस्य उपयोगं कुरुत।"

आम्‌। वेक्टर-आधारित-पुनर्प्राप्ति-वर्धन-जनरेशन (RAG) तथा च फाइन-ट्यूनिङ्ग् इत्यादीनि तकनीकानि भवतः सहायतां कर्तुं शक्नुवन्ति । तथा च ते कतिपयानां उपयोगप्रकरणानाम् समाधानं पर्याप्तं सम्यक् कुर्वन्ति एव। परन्तु एकः प्रकारः उपयोगप्रकरणः अस्ति यः एतानि सर्वाणि प्रौद्योगिकीनि स्थगयिष्यति।

अनेकसमस्यानां कृते सदिश-आधारितस्य RAG (तथा च सूक्ष्म-समायोजनस्य) समाधानं मूलतः सम्यक् उत्तरस्य सम्भावनां वर्धयितुं भवति । परन्तु द्वयोः अपि तन्त्रयोः सम्यक् उत्तरस्य विषये निश्चयस्य स्तरः न प्राप्यते । तेषु प्रायः सन्दर्भस्य अभावः भवति तथा च भवता पूर्वमेव ज्ञातस्य किमपि वस्तुनः सह सम्बद्धता कठिना भवति । तदतिरिक्तं एतेषु साधनेषु निर्णयविशेषः किमर्थं कृतः इति सूचकाः न ददति ।

२०१२ तमे वर्षे अस्माकं ध्यानं पुनः प्रेषयामः, यदा गूगलः स्वस्य द्वितीयपीढीयाः अन्वेषणयन्त्रं प्रारब्धवान् तथा च "ज्ञानस्य आलेखस्य परिचयः: वस्तूनि, न तु ताराः" इति प्रतिष्ठितं ब्लॉग्-पोस्ट् प्रकाशितवान् तेषां ज्ञातं यत् यदि ते विविधतारसंसाधनस्य अतिरिक्तं जालपुटे ताररूपेण प्रतिनिधित्वं कृतानि सर्वाणि वस्तूनि व्यवस्थित्यै ज्ञानलेखस्य उपयोगं कुर्वन्ति तर्हि अन्वेषणस्य महती उन्नतिः भवितुम् अर्हति

अधुना जननात्मक-एआइ-क्षेत्रे अपि एतादृशः एव प्रतिमानः उद्भवति । अनेकाः जननात्मकाः एआइ परियोजनाः भित्तिं मारयन्ति, यत्र तेषां परिणामानां गुणवत्ता सीमितं भवति यत् समाधानं तारैः सह व्यवहारं करोति, न तु वस्तूनि ।

अद्यत्वे शीघ्रं गच्छन्तु, अत्याधुनिकाः एआइ-इञ्जिनीयराः शैक्षणिकशोधकाः च एकदा गूगलेन यत् आविष्कृतम् तत् पुनः आविष्कृतवन्तः : एतस्य अटङ्कस्य भङ्गस्य रहस्यं ज्ञानलेखः एव अन्येषु शब्देषु, सांख्यिकी-आधारित-पाठ-प्रौद्योगिक्यां वस्तूनाम् विषये ज्ञानं प्रविष्टुं भवति । इदं यथा कार्यं करोति तत् अन्येषां RAG-सदृशं भवति, केवलं सदिश-अनुक्रमणस्य अतिरिक्तं ज्ञान-लेखम् अपि आह्वयति इति व्यतिरिक्तम् । अर्थात् : GraphRAG ! (GraphRAG = ज्ञान आलेख + RAG)

अस्य लेखस्य लक्ष्यं GraphRAG इत्यस्य व्यापकं अवगम्यमानं च परिचयं प्रदातुं वर्तते। शोधं दर्शयति यत् भवतः दत्तांशं ज्ञानलेखे निर्माय RAG इत्यस्य माध्यमेन तस्य उपयोगः भवतः कृते अनेकाः शक्तिशालिनः लाभाः आनेतुं शक्नुवन्ति। अत्र बहु शोधं सिद्धं भवति यत् GraphRAG केवलं साधारणसदिशस्य उपयोगेन RAG इत्यस्मात् अपेक्षया अधिकांशं वा सर्वेषां वा प्रश्नानाम् उत्तरं दातुं शक्नोति यत् भवान् LLM इत्यनेन पृच्छति।

केवलं एषः लाभः GraphRAG इत्यस्य स्वीकरणस्य महतीं प्रचारार्थं पर्याप्तः अस्ति ।

परन्तु तत्रैव न समाप्तं भवति यतः एप् निर्मायन्ते सति दत्तांशः दृश्यते, तस्मात् विकासः अपि सरलः भवति ।

GraphRAG इत्यस्य तृतीयः लाभः अस्ति यत् मनुष्याः यन्त्राणि च आलेखान् सम्यक् अवगन्तुं शक्नुवन्ति, तेषां आधारेण अनुमानं कर्तुं च शक्नुवन्ति । फलतः, GraphRAG इत्यस्य उपयोगेन अनुप्रयोगानाम् निर्माणं सरलतरं भवति तथा च उत्तमं परिणामं जनयति, तथैव व्याख्यां लेखापरीक्षणं च सुलभं भवति (बहुषु उद्योगेषु महत्त्वपूर्णम्)

मम विश्वासः अस्ति यत् GraphRAG अधिकांशस्य उपयोगप्रकरणानाम् पूर्वनिर्धारित RAG आर्किटेक्चररूपेण vector-only RAG इत्यस्य स्थाने स्थास्यति । अस्मिन् लेखे किमर्थमिति व्याख्यातम्।

नक्शा किम् ?

प्रथमं अस्माभिः स्पष्टं कर्तव्यं यत् आलेखः किम् अस्ति ।

आलेखः, यः आलेखः इति अपि ज्ञायते, प्रायः "ग्राफः" इति अनुवादितः भवति, परन्तु अतः सः चित्रं, चित्रम् इत्यादिभिः अवधारणाभिः सह सहजतया भ्रमितः भवति । भेदस्य सुविधायै अस्मिन् लेखे केवलं "图图" इति अनुवादविधिः एव उपयुज्यते ।

आलेखः सम्भवतः एतादृशः दृश्यते :

नक्शा उदाहरणम्

यद्यपि एतत् चित्रं प्रायः ज्ञानलेखस्य उदाहरणरूपेण उपयुज्यते तथापि तस्य स्रोतः लेखकश्च न ज्ञायते ।

अथवा एतत्- १.

"गेम आफ् थ्रोन्स" चरित्रसम्बन्धनक्शा, विलियम लायनतः

अथवा एतत्- १.

लण्डन भूमिगत मानचित्र। मजेदारं तथ्यम् : ट्रांसपोर्ट् फ़ॉर् लण्डन् इत्यनेन अद्यैव घटनाप्रतिसादक्षमतासु सुधारं कर्तुं, भीडं न्यूनीकर्तुं च ग्राफ्-आधारितं डिजिटल-युग्म-अनुप्रयोगं नियोजितम् ।

अन्येषु शब्देषु मानचित्रं चित्रं न भवति ।

अत्र वयं परिभाषाविषयेषु अधिकं न स्थास्यामः, भवन्तः पूर्वमेव नक्शाः किम् इति अवगच्छन्ति इति कल्पयित्वा ।

यदि भवान् उपरिष्टाद् चित्राणि अवगच्छति, तर्हि भवान् सम्भवतः द्रष्टुं शक्नोति यत् अन्तर्निहितज्ञानस्य आलेखदत्तांशस्य (ग्राफदत्तांशकोशे संगृहीतस्य) कथं पृच्छितुं शक्यते, RAG कार्यप्रवाहस्य भागरूपेण च उपयोक्तुं शक्यते सः GraphRAG इति ।

ज्ञानस्य प्रस्तुतीकरणस्य द्वौ रूपौ : सदिशः आलेखः च

एकस्य विशिष्टस्य RAG इत्यस्य मूलं सदिश अन्वेषणं भवति, यत् निवेशपाठखण्डाधारितं अभ्यर्थीलिखितसामग्रीभ्यः अवधारणात्मकरूपेण समानग्रन्थान् अन्वेष्टुं प्रत्यागन्तुं च भवति एतादृशं स्वचालनं महत् कार्यं करोति, मूलभूताः अन्वेषणाः अपि उपयोगिनो भवन्ति ।

परन्तु प्रत्येकं अन्वेषणं कृत्वा भवन्तः सदिशः किम् अथवा सादृश्यगणना कथं कार्यान्विता इति न चिन्तितवन्तः स्यात् । तदनन्तरं एप्पल् इत्येतत् अवलोकयामः । मानवीयदृष्टिकोणात्, सदिशदृष्टिकोणात्, आलेखदृष्टिकोणात् च भिन्नानि रूपाणि प्रस्तुतं करोति : १.

मानवीयदृष्टिकोणात्, सदिशदृष्टिकोणात् तथा नक्शादृष्टिकोणात् एप्पलम्

मनुष्याणां कृते सेबस्य प्रतिनिधित्वं जटिलं बहुविधं च भवति, तस्य लक्षणं कागदपत्रे पूर्णतया वर्णयितुं न शक्यते । अत्र वयं काव्यरूपेण कल्पयितुं शक्नुमः यत् एषः रक्तः फोटो बोधात्मकरूपेण अवधारणात्मकरूपेण च सेबस्य प्रतिनिधित्वं कर्तुं शक्नोति।

अस्य सेबस्य सदिशप्रतिपादनं सरणी अस्ति । सदिशानां जादू अस्ति यत् ते प्रत्येकं स्वस्य तत्सम्बद्धस्य पाठस्य सारं संकेतितरूपेण गृह्णन्ति । परन्तु RAG इत्यस्य सन्दर्भे सदिशानां आवश्यकता तदा एव भवति यदा भवद्भिः निर्धारितव्यं भवति यत् पाठस्य खण्डः अन्यस्य पाठखण्डस्य कियत् सदृशः अस्ति । एतत् कर्तुं केवलं सादृश्यगणनां कृत्वा मेलनं पश्यन्तु । परन्तु यदि भवान् सदिशस्य अन्तः अर्थं अवगन्तुं इच्छति, पाठे किं प्रतिनिधित्वं भवति इति अवगन्तुं इच्छति, तस्य बृहत्तरसन्दर्भेण सह तस्य सम्बन्धस्य अन्वेषणं च कर्तुम् इच्छति तर्हि सदिशप्रतिपादनस्य उपयोगेन युक्तिः न भविष्यति

तस्य विपरीतम् ज्ञानलेखाः घोषणारूपेण जगतः प्रतिनिधित्वं कुर्वन्ति - एआइ क्षेत्रस्य शब्दावलीयां अर्थात् प्रतीकात्मकरूपेण । अतः मनुष्याः यन्त्राणि च ज्ञानलेखं अवगत्य तस्य आधारेण तर्कं कर्तुं शक्नुवन्ति । एतत् महत्त्वपूर्णं, पश्चात् तस्य उल्लेखः भविष्यति।

तदतिरिक्तं ज्ञानलेखं पृच्छितुं, दृश्यमानं कर्तुं, टिप्पणीं कर्तुं, परिवर्तनं कर्तुं, विस्तारयितुं च शक्नुवन्ति । ज्ञानलेखः एकः विश्वप्रतिरूपः अस्ति यः भवतः वर्तमानकार्यक्षेत्रे विश्वस्य प्रतिनिधित्वं कर्तुं शक्नोति ।

GraphRAG तथा RAG

तौ स्पर्धायां न स्तः। RAG कृते सदिशप्रश्नाः, आलेखप्रश्नाः च द्वौ अपि उपयोगिनो भवन्ति । यथा LlamaIndex इत्यस्य संस्थापकः Jerry Liu इत्ययं दर्शयति यत् GraphRAG इत्यस्य विषये चिन्तयन्ते सति वेक्टर् इत्यस्य समावेशः सहायकः भवति । इदं "केवलं सदिश-RAG" इत्यस्मात् भिन्नम् अस्ति - पूर्णतया पाठ-एम्बेडिंग्-मध्ये समानतायाः आधारेण ।

मौलिकरूपेण GraphRAG एकप्रकारस्य RAG अस्ति, केवलं तस्य अन्वेषणमार्गे ज्ञानलेखः अपि अन्तर्भवति । यथा भवन्तः अधः पश्यन्ति, GraphRAG इत्यस्य मूलयोजना अतीव सरलम् अस्ति । अस्य वास्तुकला सदिशस्य उपयोगेन RAG इत्यस्य समाना अस्ति, परन्तु ज्ञानलेखस्तरः अन्तर्भवति ।

GraphRAG मोड

GraphRAG कृते एकः सामान्यः प्रतिरूपः

यथा भवन्तः पश्यन्ति, उपरिष्टात् चित्रे एकः आलेखप्रश्नः प्रेरितः आसीत् । एतत् वैकल्पिकरूपेण सदिशसादृश्यघटकं समावेशयितुं शक्नोति । भवान् ग्राफं सदिशं च द्वयोः भिन्नदत्तांशकोषयोः संग्रहीतुं चयनं कर्तुं शक्नोति, अथवा Neo4j इत्यादिं आलेखदत्तांशकोशं उपयोक्तुं शक्नोति यत् सदिशसन्धानं समर्थयति ।

GraphRAG इत्यस्य उपयोगाय सामान्यं प्रतिरूपं अधः दत्तम् अस्ति ।

1. प्रारम्भिकनोड्-समूहं अन्वेष्टुं सदिश-अन्वेषणं वा कीवर्ड-अन्वेषणं वा कुर्वन्तु;

2. आलेखं भ्रमित्वा प्रासंगिकनोड्स् विषये सूचनां पुनः आनयन्तु;

3. (वैकल्पिकम्) दस्तावेजानां पुनः क्रमाङ्कनार्थं PageRank इत्यादीनां ग्राफ-आधारित-क्रमाङ्कन-एल्गोरिदम्-प्रयोगं कुर्वन्तु

भिन्न-भिन्न-उपयोग-प्रकरणैः भिन्न-भिन्न-उपयोग-प्रतिमानाः भविष्यन्ति । अद्यतन-एआइ-क्षेत्रे सर्वासु शोध-दिशासु इव GraphRAG अपि शोध-समृद्धं क्षेत्रम् अस्ति, यत्र प्रतिसप्ताहं नूतनाः आविष्काराः उद्भवन्ति ।

GraphRAG जीवन चक्र

GraphRAG इत्यस्य उपयोगेन जननात्मकः AI अन्यस्य कस्यापि RAG अनुप्रयोगस्य प्रतिमानं अपि अनुसरति आरम्भे "create graph" इति चरणः अस्ति ।

GraphRAG जीवन चक्र

आलेखस्य निर्माणं दस्तावेजस्य खण्डीकरणं कृत्वा सदिशदत्तांशकोशे लोड् करणं सदृशम् अस्ति । साधनेषु उन्नतिः कृत्वा नक्शानिर्माणं अत्यन्तं सुलभं जातम् । अत्र त्रयः सुसमाचारखण्डाः सन्ति-

1. मानचित्रं अतीव पुनरावर्तनीयं भवति - भवान् "न्यूनतम व्यवहार्यमानचित्रेण" आरभ्य तस्य आधारेण विस्तारं कर्तुं शक्नोति ।

2. एकदा ज्ञानलेखे दत्तांशं योजितं जातं चेत् तस्य विकासः सुलभतया कर्तुं शक्यते। दत्तांशजालप्रभावानाम् लाभं प्राप्तुं लाभं च ग्रहीतुं अधिकप्रकारस्य दत्तांशं योजयितुं शक्नुवन्ति । भवान् स्वस्य अनुप्रयोगस्य मूल्यं वर्धयितुं स्वस्य दत्तांशस्य गुणवत्तां अपि सुधारयितुम् अर्हति ।

3. क्षेत्रं तीव्रगत्या विकसितं भवति, यस्य अर्थः अस्ति यत् यथा यथा साधनानि परिष्कृतानि भवन्ति तथा तथा नक्शानिर्माणं केवलं सुलभं सुलभं च भविष्यति।

पूर्वचित्रे नक्शानिर्माणपदार्थाः योजयित्वा अधः दर्शितवत् कार्यप्रवाहः भविष्यति ।

नक्शानिर्माणपदार्थाः योजयन्तु

GraphRAG इत्यनेन के के लाभाः आनेतुं शक्यन्ते इति अवलोकयामः ।

GraphRAG इत्यस्य उपयोगः किमर्थम् ?

केवलं सदिश-RAG इत्यस्य तुलने GraphRAG इत्यस्य लाभाः मुख्यतया त्रयः वर्गाः विभक्ताः सन्ति ।

1. उच्चतरसटीकता अधिकपूर्णानि च उत्तराणि (रनटाइम्/उत्पादनलाभः)

2. एकदा ज्ञानलेखः निर्मितः जातः चेत्, RAG अनुप्रयोगानाम् निर्माणं परिपालनं च सुकरं भविष्यति (विकाससमयलाभः)

3. उत्तमव्याख्यानक्षमता, अनुसन्धानक्षमता, अभिगमनियन्त्रणं च (शासनलाभाः)

अत्र एतेषां लाभानाम् गहनं अवलोकनं भवति ।

1. अधिका सटीकता अधिकानि उपयोगी उत्तराणि च

GraphRAG इत्यस्य प्रथमः लाभः (तथा च सर्वाधिकं तत्क्षणं दृश्यते) तस्य प्रतिक्रियाणां उच्चगुणवत्ता अस्ति । शैक्षणिकक्षेत्रे वा उद्योगे वा अस्य अवलोकनस्य समर्थनार्थं बहु प्रमाणानि वयं द्रष्टुं शक्नुमः ।

यथा Data.world इत्यस्मात् data catalog company इत्यस्मात् एतत् उदाहरणम्। २०२३ तमस्य वर्षस्य अन्ते तेषां कृते एकं शोधप्रतिवेदनं प्रकाशितम् यत् दर्शयति यत् GraphRAG इत्यनेन ४३ व्यावसायिकप्रश्नेषु औसतेन ३ गुणा LLM प्रतिक्रियाणां सटीकतायां सुधारः कर्तुं शक्यते। एतत् बेन्चमार्क अध्ययनं प्रमाणं ददाति यत् ज्ञानलेखाः प्रतिक्रियासटीकतायां महत्त्वपूर्णतया सुधारं कर्तुं शक्नुवन्ति।

ज्ञानलेखः एलएलएमप्रतिसादस्य सटीकतायां ५४.२ प्रतिशताङ्कैः सुधारं करोति, यत् प्रायः ३ गुणा भवति ।

माइक्रोसॉफ्ट इत्यनेन प्रमाणानां श्रृङ्खला अपि प्रदत्ता, यत्र फरवरी २०२४ तमे वर्षे एकः शोधब्लॉगः "GraphRAG: Unlocking LLM discovery on narrative private data" तथा च तत्सम्बद्धं शोधपत्रं "From Local to Global: A Graph RAG Approach to Query-Focused Summarization" 》And software: https://github.com/microsoft/graphrag (उपरि आरम्भे उल्लिखितः GraphRAG) ।

तेषु ते सदिशस्य उपयोगेन आधाररेखायाः RAG इत्यस्य निम्नलिखितसमस्याद्वयं अवलोकितवन्तः ।

आधाररेखा RAG इत्यनेन बिन्दून् संयोजयितुं कठिनं भवति । नवीन अन्वेषणं प्राप्तुं भिन्नानां सूचनानां संश्लेषणार्थं साझाविशेषणानां माध्यमेन भिन्नानां सूचनाखण्डानां भ्रमणस्य आवश्यकता वर्तते अस्मिन् समये आधाररेखा RAG कृते भिन्नानां सूचनाखण्डानां संयोजनं कठिनम् अस्ति
आधाररेखा RAG दुर्बलं कार्यं करोति यदा बृहत् आँकडासंग्रहेषु अथवा एकेषु बृहत् दस्तावेजेषु अपि आगमनात्मकरूपेण सारांशितानि शब्दार्थसंकल्पनानि व्यापकरूपेण अवगन्तुं कथ्यते।

Microsoft इत्यनेन ज्ञातं यत्: “LLM द्वारा उत्पन्नस्य ज्ञानलेखस्य उपयोगेन, GraphRAG RAG इत्यस्य “पुनर्प्राप्ति” भागस्य महत्त्वपूर्णं सुधारं कर्तुं शक्नोति, सन्दर्भविण्डो कृते अधिकानि प्रासंगिकानि सामग्रीं पूरयितुं, तस्मात् उत्तमाः उत्तराणि प्राप्तुं प्रमाणस्रोताः च प्राप्तुं शक्नोति। ” तेषां इदमपि ज्ञातं यत् अन्येषां वैकल्पिकपद्धतीनां तुलने GraphRAG इत्यस्य कृते २६% तः ९७% पर्यन्तं न्यूनानि टोकनानि आवश्यकानि सन्ति, अतः न केवलं उत्तमं उत्तरं ददाति, अपितु न्यूनव्ययः, उत्तममापनीयता च अस्ति

सटीकतायां किञ्चित् गभीरं खनित्वा वयं जानीमः यत् उत्तरं सम्यक् इति महत्त्वपूर्णं चेदपि तस्य उपयोगी अपि भवितुम् आवश्यकम् । GraphRAG न केवलं उत्तराणि अधिकं सटीकं करोति, अपितु उत्तराणि समृद्धतराणि, अधिकपूर्णानि, अधिकानि च उपयोगिनो भवन्ति इति ज्ञातम् ।

लिङ्क्डइनस्य हाले प्रकाशितं पत्रं "ग्राहकसेवाप्रश्नोत्तरार्थं ज्ञानग्राफैः सह पुनर्प्राप्ति-संवर्धित-जनरेशन" इति ग्राहकसेवा-अनुप्रयोगेषु GraphRAG-इत्यस्य प्रभावस्य उत्तमं उदाहरणम् अस्ति GraphRAG इत्यनेन ग्राहकसेवा-उत्तराणां सटीकतायां समृद्धौ च सुधारः कृतः, तेषां उपयोगिता अधिका अभवत्, तथा च प्रत्येकस्य समस्यायाः समाधानार्थं ग्राहकसेवादलस्य मध्यमसमयः २८.६% न्यूनीकृतः

Neo4j इत्यस्य Generative AI कार्यशालायाः अपि एतादृशं उदाहरणम् अस्ति । यथा अधः दर्शितं, एतत् SEC दाखिलानां समुच्चयस्य कृते "vector + GraphRAG" तथा "vector only" इति पद्धत्या प्राप्तम् उत्तरम् अस्ति:

"केवलं सदिशः" तथा "सदिश + GraphRAG" इति पद्धतीनां तुलना

कृपया "लिथियम-अभावेन प्रभावितानां कम्पनीनां लक्षणानाम् वर्णनं कुर्वन्तु" तथा "प्रभावितानां विशिष्टानां कम्पनीनां सूचीं कुर्वन्तु" इति भेदं अवलोकयन्तु यदि भवान् बाजारपरिवर्तनस्य प्रतिक्रियारूपेण पोर्टफोलियो पुनः सन्तुलनं कर्तुं इच्छति निवेशकः अस्ति, अथवा प्राकृतिकविपदायाः प्रतिक्रियारूपेण स्वस्य आपूर्तिशृङ्खलां पुनः संरेखितुं इच्छन् कम्पनी अस्ति, तर्हि उपर्युक्तस्य चार्टस्य दक्षिणभागे सूचना अवश्यमेव सूचनायाः अपेक्षया बहु अधिका महत्त्वपूर्णा अस्ति वामे । अत्र उत्तरद्वयं समीचीनम् अस्ति । परन्तु दक्षिणतः उत्तरं स्पष्टतया अधिकं उपयोगी अस्ति।

येशु बर्रासा इत्यस्य गोइंग मेटा एपिसोड् २३ अन्यत् महत् उदाहरणं ददाति: कानूनी दस्तावेजैः सह कार्यं कर्तुं शब्दनक्शेन आरभ्य।

वयं काले काले शैक्षणिकक्षेत्रेभ्यः उद्योगेभ्यः च नूतनानि उदाहरणानि अपि पश्यामः। उदाहरणार्थं, लेट्रिआ इत्यस्य चार्ल्स बॉर्डरी इत्यनेन "केवलं सदिशः" तथा "सदिश + ग्राफ्राग्" इति पद्धतीनां तुलनात्मकं उदाहरणं दत्तम्;

केवलं अन्वेषक-विधयः बनाम आलेख-अन्वेषक-विधयः

साधारणस्य RAG इत्यस्य उपयोगस्य तुलने GraphRAG इत्यस्य उपयोगेन न केवलं उत्तराणां गुणवत्तायां सुधारः कर्तुं शक्यते, अपितु तस्य उत्तरेषु टोकनस्य संख्यां एकतृतीयभागं न्यूनीकर्तुं शक्यते इति द्रष्टुं शक्यते

Writer इत्यस्मात् अन्यत् उदाहरणं गृह्णामः। तेषां कृते अद्यैव RobustQA-रूपरेखायाः आधारेण RAG-बेन्चमार्क-रिपोर्ट् प्रकाशितम्, यस्मिन् तेषां GraphRAG-आधारित-पद्धतेः अन्यैः समान-उपकरणैः सह तुलना कृता । GraphRAG द्वारा प्राप्तः स्कोरः ८६% अस्ति, यः अन्यविधिभ्यः (३३% तः ७६% पर्यन्तं) महत्त्वपूर्णतया उत्तमः अस्ति, यदा तु समानं वा उत्तमं वा विलम्बप्रदर्शनं भवति

RAG पद्धतेः सटीकता प्रतिक्रियासमयमूल्यांकनस्य परिणामाः

GraphRAG विविधजननात्मक AI अनुप्रयोगानाम् सहायतां कुर्वन् अस्ति । ज्ञानलेखाः जननात्मक-एआइ-परिणामान् अधिकसटीकान् उपयोगिनोश्च कर्तुं मार्गं उद्घाटयन्ति ।

2. दत्तांशस्य अवगमनं सुदृढं द्रुततरं पुनरावृत्तिः च

ज्ञानलेखाः अवधारणात्मकरूपेण दृग्गतरूपेण च सहजज्ञानयुक्ताः भवन्ति । ज्ञानलेखानां अन्वेषणेन प्रायः नूतनाः अन्वेषणाः प्राप्यन्ते ।

अनेकाः ज्ञानलेखप्रयोक्तारः एतत् अप्रत्याशितम् परिणामं साझां कृतवन्तः: एकदा ते स्वस्य ज्ञानलेखस्य पूर्णीकरणे निवेशं कुर्वन्ति तदा, अप्रत्याशितरूपेण स्वस्य जननात्मक-AI-अनुप्रयोगानाम् निर्माणे, त्रुटिनिवारणे च तेषां सहायतां कर्तुं शक्नोति कारणस्य भागः अस्ति यत् यदि भवान् दत्तांशं आलेखरूपेण पश्यितुं शक्नोति तर्हि एतेषां अनुप्रयोगानाम् अन्तर्निहितदत्तांशः सजीवं दत्तांशचित्रं प्रस्तुतं करोति इति द्रष्टुं शक्नोति

आलेखाः उत्तराणि अन्वेष्टुं, दत्तांशं अन्वेष्टुं, मार्गे कारणशृङ्खलायाः अनुसन्धानं कर्तुं च शक्नुवन्ति ।

उपरिष्टात् लिथियमस्य अभावस्य विषये उदाहरणं पश्यामः । यदि भवान् तस्य सदिशं कल्पयति तर्हि अधोलिखितं चित्रं इव किमपि प्राप्स्यति, परन्तु अधिकपङ्क्तयः स्तम्भाः च सन्ति ।

सदिश दृश्यीकरण

तथा च यदि भवान् दत्तांशं आलेखे परिवर्तयति तर्हि भवान् तत् एतादृशेन प्रकारेण अवगन्तुं शक्नोति यत् सदिशप्रतिपादनं न शक्नोति ।

निम्नलिखितम् अद्यतनस्य LlamaIndex वेबिनारस्य उदाहरणम् अस्ति, यत् दर्शयति यत् ते कथं "MENTIONS" सम्बन्धस्य उपयोगं कुर्वन्ति सदिशकृतशब्दखण्डान् (शब्दकोशस्य आलेखः) निष्कासयितुं तथा च LLM इत्यनेन सत्तानां आलेखं (डोमेन आलेखं) निष्कासयितुं तथा च क्षमताद्वयं संयोजयितुं:

शब्दावली मानचित्रं डोमेन मानचित्रं च निष्कासयन्तु

(Langchain, Haystack, SpringAI इत्यादीनां साधनानां उपयोगेन अपि बहवः उदाहरणानि सन्ति ।)

अस्मिन् चित्रे भवान् दत्तांशस्य समृद्धं संरचनां द्रष्टुं शक्नोति तथा च एतेन सक्षमं कृत्वा नूतनविकासस्य दोषनिवारणसंभावनानां च कल्पनां कर्तुं शक्नोति । प्रत्येकस्य दत्तांशस्य स्वकीयं मूल्यं भवति, तथा च संरचना एव अतिरिक्तार्थं संगृह्णाति, प्रसारयति च यस्य उपयोगेन भवान् स्वस्य अनुप्रयोगं अधिकं बुद्धिमान् कर्तुं शक्नोति ।

न केवलं दृश्यीकरणं। एतत् भवतः दत्तांशसंरचनानां अर्थं प्रसारयितुं संग्रहीतुं च अनुमतिं दातुं अपि अस्ति । अत्र एकस्य सुप्रसिद्धस्य फिन्टेक् कम्पनीयाः विकासकस्य प्रतिक्रिया अस्ति, तेषां RAG कार्यप्रवाहे ज्ञानलेखानां परिचयस्य एकसप्ताहस्य अनन्तरमेव:

GraphRAG प्रति विकासकस्य प्रतिक्रिया

अस्य विकासकस्य प्रतिक्रिया "परीक्षण-सञ्चालित-विकासः" परिकल्पनायाः सह अतीव सङ्गता अस्ति, यत् उत्तरं सम्यक् अस्ति वा इति सत्यापयितुं (किन्तु विश्वासः न) व्यक्तिगतरूपेण अहं त्रस्तः भविष्यामि यदि मया मम स्वायत्ततायाः शतप्रतिशतम् एआइ-इत्यस्मै दातुं प्रार्थ्यते यस्य निर्णयनिर्माणं सर्वथा अपारदर्शकं भवति। अधिकविशेषतः, यदि भवान् AI प्रलयदिवसस्य विश्वासी नास्ति चेदपि, भवान् सहमतः भविष्यति: यदि भवान् "Apple, Inc." महत् मूल्यं खलु भविष्यति। यतो हि अन्ततः दत्तांशः एव जननात्मक-AI-निर्णयान् चालयति, अतः दत्तांशस्य सम्यक्त्वस्य मूल्याङ्कनं सुनिश्चितं च कर्तुं तर्कतः सर्वाधिकं महत्त्वपूर्णम् अस्ति ।

3. शासनम् : व्याख्यानक्षमता, सुरक्षा इत्यादीनि

जननात्मकस्य एआइ-निर्णयस्य यथा यथा अधिकः प्रभावः भवति तथा तथा निर्णयः भ्रष्टः चेत् अन्ततः उत्तरदायी इति जनान् प्रत्यययितुं आवश्यकम्। अस्मिन् प्रायः प्रत्येकस्य निर्णयस्य लेखापरीक्षा भवति । एतदर्थं सद्निर्णयानां विश्वसनीयः पुनरावृत्तिः च अभिलेखः आवश्यकः । किन्तु एतत् पर्याप्तं नास्ति। निर्णयं स्वीकुर्वन् परित्यक्तुं वा तस्य पृष्ठतः कारणानि अपि व्याख्यातव्यानि ।

एलएलएम स्वयं एतत् सम्यक् न करोति। आम्, भवान् अस्य निर्णयस्य प्राप्त्यर्थं प्रयुक्तं दस्तावेजं द्रष्टुं शक्नोति । परन्तु एते दस्तावेजाः निर्णयस्य एव व्याख्यानं न कुर्वन्ति - एलएलएम-संस्थायाः स्रोताः निर्मिताः इति न वक्तव्यम् । ज्ञानलेखाः पूर्णतया अन्यस्तरस्य सन्ति, येन जननात्मक एआइ इत्यस्य तर्कतर्कः स्पष्टः भवति तथा च निवेशानां व्याख्यानं सुलभं भवति ।

उपरिष्टाद् उदाहरणेन सह अग्रे गच्छामः : लेट्रिआतः चार्ल्सः १०,००० वित्तीयलेखात् निष्कासितानि संस्थानि ज्ञानलेखे लोड् कृतवान्, तथा च GraphRAG इत्यस्य निष्पादनार्थं LLM इत्यस्य उपयोगं कृतवान् एतेन उत्तमाः उत्तराणि अवश्यं प्राप्यन्ते इति वयं पश्यामः। दत्तांशं अवलोकयामः :

१०,००० वित्तीयलेखात् निष्कासितानि संस्थानि ज्ञानलेखे भारयन्तु

प्रथमं भवतः दत्तांशं आलेखरूपेण चिन्तयन्तु । तदतिरिक्तं वयं दत्तांशं नेविगेट् कृत्वा पृच्छितुं शक्नुमः, तथा च कदापि तस्य संशोधनं कृत्वा अपडेट् कर्तुं शक्नुमः । शासनस्य लाभः अस्ति यत् अस्य दत्तांशस्य "विश्वप्रतिरूपं" द्रष्टुं लेखापरीक्षणं च बहु सरलं भवति । आलेखस्य उपयोगेन तस्यैव दत्तांशस्य सदिशसंस्करणस्य उपयोगात् अपेक्षया अन्ततः उत्तरदायी व्यक्तिः निर्णयस्य पृष्ठतः तर्कं अवगमिष्यति इति अधिका सम्भावना भवति

गुणवत्तां सुनिश्चित्य यदि भवान् स्वदत्तांशं ज्ञानलेखे स्थापयितुं शक्नोति तर्हि त्रुटयः आश्चर्यं च अन्वेष्टुं तेषां स्रोतांशं प्रति अनुसन्धानं च सुकरं भविष्यति भवन्तः आलेखे उत्पत्तिविश्वाससूचनाः अपि प्राप्तुं शक्नुवन्ति, येषां उपयोगः ततः गणनासु व्याख्यासु च कर्तुं शक्यते । भवान् केवलं समानदत्तांशस्य केवलं सदिश-संस्करणेन एतत् कर्तुं न शक्नोति, तथा च यथा वयं पूर्वं चर्चां कृतवन्तः, सदिशीकृतदत्तांशः औसतस्य (असामान्यस्य अपि) जनानां कृते अवगन्तुं कठिनम् अस्ति

ज्ञानलेखाः सुरक्षां गोपनीयतां च महत्त्वपूर्णतया वर्धयितुं शक्नुवन्ति ।

आद्यरूपस्य निर्माणे प्रायः सुरक्षागोपनीयता च बहु महत्त्वपूर्णा न भवति, परन्तु यदि तत् उत्पादे निर्मातव्यं भवति तर्हि तत् महत्त्वपूर्णम् अस्ति । बैंकिंग् अथवा स्वास्थ्यसेवा इत्यादिषु विनियमित-उद्योगेषु कस्यापि कर्मचारिणः आँकडा-प्रवेशः तस्य कार्य-उपाधिना निर्भरं भवति ।

LLM अथवा सदिशदत्तांशकोशः भवतु, दत्तांशप्रवेशस्य व्याप्तिः सीमितुं कोऽपि उत्तमः उपायः नास्ति । ज्ञानलेखाः उत्तमं समाधानं दातुं शक्नुवन्ति, अनुमतिनियन्त्रणस्य उपयोगेन प्रतिभागिनः अभिगन्तुं शक्नुवन्ति दत्तांशकोशानां व्याप्तिम् नियन्त्रयितुं शक्नुवन्ति, तेषां दत्तांशं द्रष्टुं न शक्नुवन्ति निम्नलिखितम् एकः सरलः सुरक्षानीतिः अस्ति या ज्ञानलेखे सूक्ष्मकणिकायुक्तं अनुमतिनियन्त्रणं कार्यान्वितुं शक्नोति:

एकः सरलः सुरक्षारणनीतिः या ज्ञानलेखेषु कार्यान्वितुं शक्यते

ज्ञानलेखं रचयन्तु

ज्ञानलेखस्य निर्माणार्थं किं आवश्यकम् ? प्रथमं सोपानं जननात्मक-एआइ-अनुप्रयोगानाम् अत्यन्तं प्रासंगिकौ आलेखद्वयं अवगन्तुम् अस्ति ।

डोमेनग्राफः वर्तमान-अनुप्रयोगस्य प्रासंगिकं विश्व-प्रतिरूपं प्रतिनिधियति । अत्र सरलं उदाहरणम् अस्ति :

डोमेन मानचित्र

शाब्दिकलेखः दस्तावेजसंरचनायाः आलेखः भवति । अत्यन्तं मूलभूतः शब्दावलीलेखः शब्दखण्डैः निर्मितैः नोडैः युक्तः भवति :

शब्दावली मानचित्र

जनाः प्रायः तस्य विस्तारं कुर्वन्ति यत् चङ्क्स्, दस्तावेजवस्तु (यथा सारणी), अध्यायाः, अनुच्छेदाः, पृष्ठसङ्ख्याः, दस्तावेजनामानि वा संख्याः, संग्रहाः, स्रोताः इत्यादीनां मध्ये सम्बन्धाः समाविष्टाः भवन्ति डोमेन-नक्शान् शब्दावली-नक्शान् च एकत्र संयोजयितुं अपि शक्नुवन्ति, यथा अधः दर्शितम् अस्ति ।

डोमेनस्तरं शब्दावलीस्तरं च संयोजयन्तु

शब्दावलीमानचित्रस्य निर्माणं अतीव सरलं भवति, मुख्यतया केवलं सरलं पार्सिंग्, चङ्किंग् च । डोमेन-नक्शस्य विषये तु दत्तांशस्य स्रोतः (संरचितदत्तांशस्रोतात्, असंरचितदत्तांशस्रोतात्, उभयतः वा) आधारेण भिन्नाः निर्माणमार्गाः सन्ति सौभाग्येन असंरचितदत्तांशस्रोतात् ज्ञानलेखानां निर्माणार्थं साधनानि तीव्रगत्या विकसितानि सन्ति ।

यथा, नूतनः Neo4j ज्ञानलेखनिर्माता PDF दस्तावेजानां, जालपुटानां, YouTube-वीडियोनां, विकिपीडिया-लेखानां च उपयोगेन स्वयमेव ज्ञानलेखान् निर्मातुम् अर्हति । समग्रप्रक्रिया बटनस्य कतिपयानि क्लिक् इव सरलं भवति, तथा च भवान् प्रविष्टस्य पाठस्य डोमेन्, शब्दावली-नक्शान् च दृश्यमानं पृच्छितुं च शक्नोति । इदं साधनं अतीव शक्तिशाली रोचकं च अस्ति, ज्ञानलेखानां निर्माणस्य सीमां बहु न्यूनीकर्तुं शक्नोति च ।

यथा संरचितदत्तांशस्य (यथा भवतः कम्पनी ग्राहकानाम्, उत्पादानाम्, भौगोलिकस्थानानां इत्यादीनां विषये संरचितदत्तांशं संगृह्णाति), तस्य प्रत्यक्षतया ज्ञानलेखे नक्शाङ्कनं कर्तुं शक्यते यथा, संरचितदत्तांशस्य कृते, यत् अधिकतया सम्बन्धदत्तांशकोषेषु संगृह्यते, सिद्धविश्वसनीयनियमानाम् आधारेण सम्बन्धानां आलेखेषु नक्शाङ्कनार्थं केषाञ्चन मानकसाधनानाम् उपयोगः कर्तुं शक्यते

ज्ञानलेखस्य उपयोगं कुर्वन्तु

एकदा भवतां समीपे ज्ञानलेखः भवति तदा भवान् GraphRAG इत्येतत् निर्मातुम् अर्हति, यथा LlamaIndex Property Graph Index, Langchain integrated Neo4j तथा Haystack integrated version इत्यादीनि । एतत् क्षेत्रं तीव्रगत्या विकसितं भवति, परन्तु अधुना प्रोग्रामिंग्-विधिः अतीव सरलः भवति ।

इदानीं Neo4j Importer (यत् ग्राफिकल-अन्तरफलकस्य माध्यमेन सारणीबद्ध-दत्तांशं आयातं कृत्वा ग्राफ-मध्ये मैप् कर्तुं शक्नोति) इत्यादीनां उपकरणानां कृते अपि तथैव भवति । अधोलिखिते चित्रे ज्ञानलेखस्य निर्माणस्य सोपानानि सारांशतः दर्शितानि सन्ति ।

जननात्मक एआइ कृते स्वयमेव ज्ञानलेखानां निर्माणं कुर्वन्तु

ज्ञानलेखानां उपयोगेन मानवभाषाप्रश्नानां आलेखदत्तांशकोशप्रश्नेषु अपि नक्शाङ्कनं कर्तुं शक्यते । Neo4j इत्यनेन एकं मुक्तस्रोतसाधनं NeoConverse इति विमोचितम्, यत् ज्ञानलेखानां प्रश्नं कर्तुं प्राकृतिकभाषायाः उपयोगे सहायकं भवति: https://neo4j.com/labs/genai-ecosystem/neoconverse/

यद्यपि आलेखानां उपयोगं आरभ्य किञ्चित् शिक्षणं आवश्यकं भवति तथापि सुसमाचारः अस्ति यत् यथा यथा साधनानि विकसितानि भवन्ति तथा तथा सुलभं भवति ।

सारांशः - GraphRAG इति RAG इत्यस्य अपरिहार्यं भविष्यम् अस्ति

एलएलएम इत्यस्य निहितशब्द-आधारित-गणना-भाषा-कौशलं सदिश-आधारित-आरएजी-सहितं मिलित्वा अतीव उत्तमं परिणामं दातुं शक्नोति । स्थिररूपेण उत्तमं परिणामं प्राप्तुं तारस्तरात् परं गत्वा शब्दप्रतिरूपस्य उपरि विश्वप्रतिरूपं निर्मातुं आवश्यकम् । तथैव गूगलेन ज्ञातं यत् अन्वेषणं निपुणतां प्राप्तुं केवलं पाठविश्लेषणात् परं गत्वा ताराः येषां वस्तूनाम् प्रतिनिधित्वं कुर्वन्ति तेषां मध्ये सम्बन्धानां नक्शाङ्कनं कर्तव्यम् एआइ-जगति अपि एतादृशमेव प्रतिमानं उद्भूतं द्रष्टुं आरब्धाः स्मः । एषः मोड् GraphRAG अस्ति ।

प्रौद्योगिक्याः विकासवक्रः S-आकारः अस्ति : एकस्याः प्रौद्योगिक्याः चरमपर्यन्तं प्राप्तस्य अनन्तरं अन्यः प्रौद्योगिकी प्रगतिम् प्रवर्धयिष्यति, पूर्वं च अतिक्रमयिष्यति । यथा यथा जनरेटिव एआइ विकसितं भवति तथा तथा सम्बन्धित-अनुप्रयोगानाम् आवश्यकताः अपि वर्धन्ते - उच्च-गुणवत्ता-उत्तराणां व्याख्यानक्षमतायाः यावत् आँकडा-प्रवेश-अनुमतेः, गोपनीयतायाः, सुरक्षायाः च सूक्ष्म-कणिका-नियन्त्रणं यावत्, ज्ञान-लेखानां मूल्यं अपि वर्धयिष्यति

जननात्मक एआइ इत्यस्य विकासः

भवतः अग्रिमः जननात्मकः AI अनुप्रयोगः सम्भवतः ज्ञानलेखस्य उपयोगं करिष्यति ।

सन्दर्भलिङ्कः https://neo4j.com/blog/graphrag-manifesto/

समाचारं

आमुख

मम सम्पर्कसूचना