किमर्थं विलम्बितपरस्परक्रियाप्रतिरूपं RAG इत्यस्य अग्रिमपीढीयाः कृते मानकम् अस्ति?

2024-08-05

AIxiv इति स्तम्भः एकः स्तम्भः अस्ति यत्र मशीन् हार्ट् शैक्षणिकं तकनीकीं च सामग्रीं प्रकाशयति । विगतकेषु वर्षेषु, हार्ट आफ् द मशीन् एआइक्सिव् स्तम्भे २००० तः अधिकानि प्रतिवेदनानि प्राप्तानि, येषु विश्वस्य प्रमुखविश्वविद्यालयानाम्, कम्पनीनां च शीर्षप्रयोगशालाः कवराः सन्ति, येन प्रभावीरूपेण शैक्षणिकविनिमयस्य प्रसारस्य च प्रचारः कृतः यदि भवतां कृते उत्तमं कार्यं अस्ति यत् भवान् साझां कर्तुम् इच्छति तर्हि कृपया निःशङ्कं योगदानं दातुं वा अस्माभिः सह सम्पर्कं कृत्वा प्रतिवेदनार्थम्। प्रस्तुति ईमेल: [email protected];

झाङ्ग यिंगफेङ्गः : इन्फ्रा इत्यस्य सहसंस्थापकः, अन्वेषणस्य, एआइ, इन्फ्रा आधारभूतसंरचनाविकासस्य च बहुवर्षीयः अनुभवः अस्ति, सः सम्प्रति RAG-कोर-उत्पादानाम् अग्रिम-पीढीयाः निर्माणे कार्यं कुर्वन् अस्ति

RAG प्रणाल्याः विकासे एकः उत्तमः Reranker मॉडलः एकः अनिवार्यः लिङ्कः अस्ति तथा च विभिन्नेषु मूल्याङ्कनेषु सदैव उपयोगः भवति एतस्य कारणं यत् सदिश अन्वेषणेन प्रतिनिधित्वं कृताः प्रश्नाः न्यूनहिट् दरस्य समस्यायाः सामना करिष्यन्ति, अतः तस्य निवारणाय उन्नत Reranker मॉडलस्य आवश्यकता भवति एतत्, एवं सदिश अन्वेषणं स्थूलपरीक्षणरूपेण तथा च Reranker मॉडलं सूक्ष्मक्रमणरूपेण उपयुज्य द्विचरणीयं क्रमणवास्तुकला निर्माति ।

सम्प्रति क्रमाङ्कनप्रतिमानानाम् कृते मुख्यतया द्वौ प्रकारौ आर्किटेक्चरौ स्तः ।

1. द्वयात्मकः एन्कोडरः। BERT मॉडल् उदाहरणरूपेण गृहीत्वा, एतत् प्रश्नान् दस्तावेजान् च पृथक् पृथक् एन्कोड् करोति, अन्ते च Pooling लेयर इत्यनेन गच्छति येन आउटपुट् मध्ये केवलम् एकः एव सदिशः भवति प्रश्नस्य Ranking चरणे भवद्भिः केवलं द्वयोः सदिशयोः समानतायाः गणना करणीयम्, यथा अधोलिखिते चित्रे दर्शितम् अस्ति । Ranking तथा Reranking इत्येतयोः चरणयोः कृते द्वय-एन्कोडर्-इत्यस्य उपयोगः कर्तुं शक्यते, तथा च सदिश-अन्वेषणं वस्तुतः एतत् रैङ्किंग्-प्रतिरूपम् अस्ति । यतः द्वयात्मकः एन्कोडरः प्रश्नं दस्तावेजं च पृथक् पृथक् संकेतयति, तस्मात् सः प्रश्नस्य दस्तावेजस्य च टोकनयोः मध्ये जटिलं अन्तरक्रियाशीलं सम्बन्धं गृहीतुं न शक्नोति, तथापि बहु अर्थहानिः भविष्यति तथापि, यतः क्रमणं पूर्णं कर्तुं केवलं सदिश अन्वेषणस्य आवश्यकता भवति स्कोरिंग गणना, निष्पादनदक्षता अतीव उच्चा उन्नता भवति।

2. क्रॉस एन्कोडर। क्रॉस्-एन्कोडरः प्रश्नानां दस्तावेजानां च एकत्रैव एन्कोड् कर्तुं एकस्य एन्कोडर-प्रतिरूपस्य उपयोगं करोति, एतत् प्रश्नानां दस्तावेजानां च मध्ये जटिलं अन्तरक्रियां गृहीतुं शक्नोति, अतः इदं अधिकं सटीकं अन्वेषण-क्रमाङ्कन-परिणामं दातुं शक्नोति । Cross-Encoder प्रश्नस्य दस्तावेजस्य च Token इत्यस्य अनुरूपं सदिशं न निर्गच्छति, परन्तु प्रश्नस्य दस्तावेजस्य च समानतास्कोरं प्रत्यक्षतया निर्गन्तुं वर्गीकारकं योजयति अस्य दोषः अस्ति यत् प्रश्नसमये प्रत्येकं दस्तावेजं प्रश्नं च एकत्र एन्कोड् कर्तुं आवश्यकतायाः कारणात्, यत् क्रमणं अतीव मन्दं करोति, Cross-Encoder इत्यस्य उपयोगः केवलं अन्तिमपरिणामानां पुनः क्रमीकरणाय एव कर्तुं शक्यते यथा, प्रारम्भिकपरीक्षणपरिणामानां Top 10 इत्यस्य पुनर्क्रमणं अद्यापि पूर्णतायै सेकेण्ड् यावत् समयः भवति ।

अस्मिन् वर्षे ColBERT [सन्दर्भः १] इत्यनेन प्रतिनिधित्वं कृतं अन्यं प्रकारं RAG विकाससमुदाये व्यापकं ध्यानं आकर्षितवान् यथा अधोलिखिते चित्रे दर्शितं, अस्य केचन लक्षणानि सन्ति ये उपर्युक्तयोः प्रकारयोः श्रेणीप्रतिमानयोः महत्त्वपूर्णतया भिन्नाः सन्ति

एकं यत् Cross Encoder इत्यस्य तुलने ColBERT इत्येतत् अद्यापि स्वतन्त्रान् एन्कोडर् इत्यस्य उपयोगेन प्रश्नान् दस्तावेजान् च एन्कोड् कर्तुं द्वय-एन्कोडर-रणनीतिं प्रयुङ्क्ते अतः एन्कोडिंग्-काले क्वेरी टोकन तथा दस्तावेज् टोकन परस्परं प्रभावं न कुर्वन्ति इदं अफलाइनरूपेण संसाधितुं शक्यते, तथा च प्रश्नं कुर्वन् केवलं Query एव एन्कोड् भवति, अतः प्रसंस्करणवेगः Cross Encoder इत्यस्मात् बहु अधिकः भवति;

द्वितीयं तु अस्ति यत् द्वय-एन्कोडरस्य तुलने ColBERT एकस्य सदिशस्य स्थाने बहुविधसदिशं निर्गच्छति, यत् प्रत्यक्षतया Transformer इत्यस्य अन्तिमनिर्गमस्तरात् प्राप्तं भवति, यदा तु द्वयसङ्केतकः Pooling स्तरस्य माध्यमेन बहुविधसदिशं एकस्मिन् सदिशे परिवर्तयति, एवं केचन शब्दार्थाः नष्टाः भवन्ति।

क्रमाङ्कनगणनायां ColBERT विलम्बितं अन्तरक्रियाशीलं गणनासादृश्यं कार्यं परिचययति तथा च अधिकतमसादृश्यं (MaxSim) इति नामकरणं करोति गणनाविधिः निम्नलिखितरूपेण भवति: प्रत्येकस्य प्रश्नस्य Token vector कृते, समानतायाः गणना सर्वेषां दस्तावेजानां Tokens तथा प्रत्येकस्य प्रश्नस्य टोकनस्य अधिकतमं स्कोरं पश्यन्तु । प्रश्नस्य दस्तावेजस्य च कुल-अङ्कः एतेषां अधिकतम-कोसाइन-अङ्कानां योगः भवति । यथा, ३२ टोकन् सदिशयुक्तस्य प्रश्नस्य (अधिकतमप्रश्नदीर्घता ३२) १२८ टोकनयुक्तस्य दस्तावेजस्य च कृते ३२*१२८ समानताक्रियाः कर्तव्याः, यथा अधोलिखिते चित्रे दर्शितम्

अतः तुलने Cross Encoder इति आह्वयितुं शक्यतेप्रारम्भिक अन्तरक्रिया प्रतिरूप, तथा च ColBERT द्वारा प्रतिनिधित्वं कृतं कार्यं आह्वयितुं शक्यतेविलम्बित अन्तरक्रिया प्रतिरूप।

निम्नलिखितचित्रे उपर्युक्तानां क्रमाङ्कनप्रतिमानानाम् तुलना कार्यप्रदर्शनस्य क्रमाङ्कनगुणवत्तायाश्च दृष्ट्या कृता अस्ति । यतो हि विलम्बितपरस्परक्रियाप्रतिरूपं क्रमणप्रक्रियायाः समये प्रश्नानां दस्तावेजानां च मध्ये जटिलपरस्परक्रियाणां ग्रहणक्षमतां सन्तुष्टं करोति, तथा च दस्तावेजटोकनसङ्केतीकरणस्य उपरिभारं परिहरति, अतः न केवलं उत्तमं क्रमणप्रभावं सुनिश्चितं कर्तुं शक्नोति, अपितु द्रुततरं क्रमणप्रदर्शनं अपि प्राप्तुं शक्नोति—— Under समाने आँकडा-मापने ColBERT इत्यस्य कार्यक्षमता Cross Encoder इत्यस्य १०० गुणाधिकं भवितुम् अर्हति । अतः विलम्बितपरस्परक्रियाप्रतिरूपः अतीव आशाजनकः क्रमणप्रतिरूपः अस्ति एकः स्वाभाविकः विचारः अस्ति यत् :किं विलम्बित-अन्तर्क्रिया-प्रतिरूपस्य प्रत्यक्षतया RAG-मध्ये उपयोगः सदिश-अन्वेषणस्य + सूक्ष्म-क्रमणस्य द्वि-चरणीय-क्रमण-आर्किटेक्चरस्य स्थाने भवितुं शक्यते?

एतदर्थं ColBERT अभियांत्रिकीयां केचन विषयाः विचारणीयाः सन्ति :

1. ColBERT इत्यस्य MaxSim इत्यस्य MaxSim इत्यस्य विलम्बितस्य अन्तरक्रियाशीलसादृश्यस्य कार्यस्य Cross Encoder इत्यस्य अपेक्षया बहु अधिका गणनादक्षता अस्ति, परन्तु साधारणसदिशसन्धानस्य तुलने कम्प्यूटेशनल् ओवरहेड् अद्यापि अतीव अधिकः अस्ति: यतः प्रश्नस्य दस्तावेजस्य च मध्ये समानता बहु-सदिश-गणना अस्ति, MaxSim इत्यस्य The overhead साधारणसदिशसादृश्यगणनायाः M * N गुणा भवति (M प्रश्ने टोकनसङ्ख्या, N दस्तावेजे टोकनसङ्ख्या अस्ति) । एतेषां प्रतिक्रियारूपेण ColBERT इत्यस्य लेखकेन 2021 तमे वर्षे ColBERT v2 [सन्दर्भः 2] प्रारब्धः, यत् Cross Encoder तथा model distillation इत्यस्य माध्यमेन उत्पन्नस्य Embedding इत्यस्य गुणवत्तां सुधरयति, तथा च उत्पन्नस्य document vector इत्यस्य मात्रां निर्धारयितुं संपीडनप्रौद्योगिक्याः उपयोगं करोति, तस्मात् गणनायां सुधारं करोति MaxSim प्रदर्शनम्। ColBERT v2 पैकेजिंग् इत्यस्य आधारेण परियोजना RAGAtouille [सन्दर्भः ३] उच्चगुणवत्तायुक्तस्य RAG क्रमणस्य समाधानं भवति । तथापि ColBERT v2 केवलं एल्गोरिदम् पुस्तकालयः अस्ति, अद्यापि उद्यमस्तरीय RAG प्रणालीषु अन्ततः अन्तः तस्य उपयोगः कठिनः अस्ति ।

2. यतः ColBERT पूर्वप्रशिक्षितं प्रतिरूपम् अस्ति, तथा च प्रशिक्षणदत्तांशः अन्वेषणयन्त्रप्रश्नात् प्रत्यागतपरिणामात् च आगच्छति, एते पाठदत्तांशः बृहत् नास्ति उदाहरणार्थं, प्रश्नस्य टोकनस्य संख्या 32, दस्तावेजस्य टोकनस्य संख्या च 128 अस्ति , ये विशिष्टाः दीर्घतासीमाः सन्ति । अतः यदा वास्तविकदत्तांशस्य कृते ColBERT इत्यस्य उपयोगः भवति तदा सीमां अतिक्रम्य दीर्घता कटिता भविष्यति, यत् दीर्घदस्तावेजपुनर्प्राप्त्यर्थं मैत्रीपूर्णं नास्ति ।

उपर्युक्तसमस्यानां आधारेण, मुक्तस्रोतः AI मूलदत्तांशकोशः Infinity नवीनतमसंस्करणे Tensor आँकडाप्रकारं प्रदाति तथा च देशीरूपेण अन्त्यतः अन्तः ColBERT समाधानं प्रदाति यदा Tensor इत्यस्य उपयोगः दत्तांशप्रकारस्य रूपेण भवति तदा ColBERT एन्कोडिंग् द्वारा बहुविधसदिशनिर्गमः प्रत्यक्षतया एकस्मिन् Tensor इत्यस्मिन् संग्रहीतुं शक्यते, अतः Tensors इत्यस्य मध्ये समानता प्रत्यक्षतया MaxSim स्कोरं व्युत्पन्नं कर्तुं शक्नोति MaxSim इत्यस्य बृहत् परिमाणस्य गणनायाः समस्यायाः प्रतिक्रियारूपेण Infinity इत्यनेन अनुकूलनार्थं द्वौ समाधानौ दत्तौ: एकं द्विचक्रीय-क्वाण्टीकरणम् अस्ति, यत् मूल-टेन्सरस्य स्थानं केवलं मूल-आकारस्य १/३२ भागं कर्तुं शक्नोति, परन्तु सापेक्ष-क्रमणं न परिवर्तयति of MaxSim गणनाओं के परिणाम। एतत् समाधानं मुख्यतया Reranker कृते उपयुज्यते, यतः स्थूलपरीक्षणस्य पूर्वचरणस्य परिणामाधारितं तत्सम्बद्धं Tensor निष्कासयितुं आवश्यकम् अस्ति अन्यः Tensor Index अस्ति ColBERTv2 वस्तुतः ColBERT इत्यस्य लेखकेन प्रारब्धः Tensor Index कार्यान्वयनम् अस्ति, यत् ColBERT v2 इत्यस्य सुधारः इति गणयितुं शक्यते, मुख्यतया क्वाण्टाइजेशन तथा पूर्व-छननप्रौद्योगिक्याः माध्यमेन, तथा च SIMD इति कार्यान्वयनस्य त्वरिततायै प्रमुखसञ्चालनेषु निर्देशाः प्रवर्तन्ते । Tensor Index इत्यस्य उपयोगः केवलं Reranker इत्यस्य अपेक्षया Ranker इत्यस्य सेवायै एव कर्तुं शक्यते । तदतिरिक्तं, Token सीमां अतिक्रम्य दीर्घपाठस्य कृते, Infinity Tensor Array प्रकारं परिचययति:

ColBERT इत्यस्य सीमां अतिक्रम्यमानं दस्तावेजं क्रमशः Tensors इत्यस्य एन्कोडिंग् कृत्वा जननस्य अनन्तरं ते मूलदस्तावेजस्य समानपङ्क्तौ रक्षिताः भविष्यन्ति । MaxSim इत्यस्य गणनायां प्रश्नस्य एते अनुच्छेदाः च पृथक् पृथक् गण्यन्ते, ततः अधिकतमं मूल्यं सम्पूर्णस्य दस्तावेजस्य स्कोररूपेण गृह्यते । यथा अधः दर्शितम् : १.

अतः इन्फिनिटी इत्यस्य उपयोगेन उच्चगुणवत्तायुक्तेन RAG इत्यस्य सेवायै अन्ततः अन्तः विलम्बितपरस्परक्रियाप्रतिरूपं प्रवर्तयितुं शक्यते । अतः, ColBERT इत्यस्य उपयोगः Ranker अथवा Reranker इति रूपेण कर्तव्यः वा? अधः वयं वास्तविकदत्तांशसमूहेषु मूल्याङ्कनं कर्तुं Infinity इत्यस्य उपयोगं कुर्मः । यतो हि इन्फिनिटी इत्यस्य नवीनतमं संस्करणं इतिहासे सर्वाधिकं व्यापकं संकर-अन्वेषण-समाधानं कार्यान्वितं करोति, स्मरण-विधिषु सदिश-अन्वेषणं, पूर्ण-पाठ-अन्वेषणं, विरल-सदिश-अन्वेषणं, उपरि उल्लिखितः Tensor, एतेषां पद्धतीनां कोऽपि संयोजनः च सन्ति, तथा च Reranker-विधिषु विविधाः प्रदाति , यथा RRF, तथा ColBERT Reranker, अतः वयं समीक्षायां संकरसन्धानस्य Reranker इत्यस्य च विविधसंयोजनानि समावेशयामः ।

मूल्याङ्कनार्थं वयं MLDR-दत्तांशसमूहस्य उपयोगं कुर्मः । MLDR एकः बेन्चमार्क सेट् अस्ति यस्य उपयोगः MTEB [Reference 5] द्वारा Embedding मॉडल् इत्यस्य गुणवत्तायाः मूल्याङ्कनार्थं भवति MLDR इति आँकडासमूहेषु अन्यतमः अस्ति, यस्य नाम Multi Long Document Retrieval इति अस्ति तथा च कुलम् 200,000 दीर्घपाठदत्तांशः अस्ति मूल्याङ्कनं Embedding model इत्यस्य रूपेण BGE-M3 [सन्दर्भः 6] इत्यस्य उपयोगं करोति, Tensor इत्यस्य जननार्थं Jina-ColBERT [Reference 7] इत्यस्य उपयोगं करोति, मूल्याङ्कनस्क्रिप्ट् अपि Infinity गोदामे स्थापिता भवति [सन्दर्भः 8

मूल्याङ्कनम् १: किं ColBERT पुनः क्रमाङ्कनकर्तारूपेण प्रभावी अस्ति? 200,000 MLDR आँकडाभ्यः सघनसदिशं विरलसदिशं च जनयितुं BGE-M3 इत्यस्य उपयोगं कुर्वन्तु, तथा च इन्फिनिटी आँकडाकोषे तान् सम्मिलितं कुर्वन्तु, दत्तांशकोशे 4 स्तम्भाः सन्ति, येषु मूलपाठः, सदिशः, विरलसदिशाः, Tensors च संगृह्यन्ते, तदनुरूपं पूर्णपाठसूचकाङ्कं च निर्मान्ति तथा सदिश क्रमशः अनुक्रमणिका, विरल सदिश अनुक्रमणिका। मूल्याङ्कने सर्वान् स्मरणसंयोजनानि समाविष्टानि सन्ति, यत्र एकदिशा-स्मरणं, द्वय-मार्ग-स्मरणं, त्रिमार्गीय-स्मरणं च सन्ति, यथा निम्नलिखितम् ।

मूल्याङ्कनसूचकाङ्कः nDCG@10 इति स्वीकुर्वति । अन्ये मापदण्डाः: RRF Reranker इत्यस्य उपयोगं कुर्वन्, मोटे स्क्रीनिंग् द्वारा प्रत्यागतं Top N = 1000, कुलप्रश्नसङ्ख्या 800 भवति, तथा च औसतप्रश्नदीर्घता प्रायः 10 टोकन भवति

यथा आकृतौ दृश्यते, सर्वेषां स्मरणसमाधानानाम् ColBERT Reranker इत्यस्य उपयोगानन्तरं परिणामेषु महत्त्वपूर्णः सुधारः अभवत् । विलम्बितपरस्परक्रियाप्रतिरूपरूपेण ColBERT MTEB इत्यस्य Reranker क्रमाङ्कनस्य शीर्षस्थाने स्थितानां तुलनीयं क्रमाङ्कनगुणवत्तां प्रदातुं शक्नोति, परन्तु प्रदर्शनं १०० गुणाधिकं भवति, अतः पुनःक्रमणं बृहत्तरेण स्तरेन कर्तुं शक्यते चित्रे दर्शिताः परिणामाः Top 100 Reranker इत्यस्य कृते सन्ति, तथा च Top 1000 इत्यस्य उपयोगः ColBERT पुनर्क्रमणार्थं भवति मूल्येषु महत्त्वपूर्णः परिवर्तनः न भवति, तथा च प्रदर्शनं महत्त्वपूर्णतया न्यूनीभवति, अतः एतत् अनुशंसितं नास्ति परम्परागतरूपेण, Cross Encoder इत्यस्य आधारेण बाह्य Reranker इत्यस्य उपयोगं कुर्वन्, Top 10 इत्यस्य द्वितीयस्तरीयं विलम्बं भविष्यति तथापि, Infinity उच्च-प्रदर्शनयुक्तं ColBERT Reranker इत्येतत् आन्तरिकरूपेण कार्यान्वितं करोति यद्यपि Top 100 अथवा Top 1000 इत्यस्य पुनः क्रमः भवति अनुभवः प्रभावितः न भविष्यति तथापि स्मरणस्य व्याप्तिः बहु वर्धिता अस्ति, अतः अन्तिमक्रमाङ्कनप्रभावे महत्त्वपूर्णः सुधारः कर्तुं शक्यते । तदतिरिक्तं, एतत् ColBERT Reranker गणना केवलं शुद्ध CPU आर्किटेक्चर इत्यत्र चालयितुं आवश्यकं भवति, यत् परिनियोजनस्य व्ययम् अपि बहुधा न्यूनीकरोति ।

मूल्याङ्कनम् २: तुलना ColBERT इत्यस्य आधारेण Reranker इत्यस्य अपेक्षया Ranker इत्यस्य रूपेण भवति । अतः Tensor स्तम्भदत्तांशस्य कृते Tensor Index इत्यस्य निर्माणं आवश्यकम् अस्ति । तस्मिन् एव काले टेन्सर सूचकाङ्केन प्रवर्तितायाः सटीकताहानिस्य मूल्याङ्कनार्थं क्रूरबलस्य अन्वेषणमपि कृतम् ।

द्रष्टुं शक्यते यत् Reranker इत्यस्य तुलने सटीकताहानिम् विना ब्रूट् फोर्स् अन्वेषणस्य उपयोगेन अपि महत्त्वपूर्णः सुधारः नास्ति, तथा च Tensor Index इत्यस्य आधारेण क्रमणस्य गुणवत्ता Reranker इत्यस्य उपयोगात् अपि न्यूना अस्ति परन्तु Ranker इत्यस्य रूपेण प्रश्नसमयः बहु मन्दः भवति: MLDR data set मध्ये 200,000 document data भवति, यत् Tensor data इत्यत्र परिवर्तयितुं Jina-ColBERT इत्यस्य उपयोगानन्तरं 320 G इत्येव उच्चः भवति Tensor data type इति दस्तावेजस्य प्रत्येकस्य Token इत्यस्य अनुरूपं सदिशः रक्षितः भवितुमर्हति , एतावत् दत्तांशं पृच्छितुं औसतेन 7 सेकेण्ड् यावत् समयः स्यात् प्रश्नं प्रत्यागच्छति परन्तु उत्तमं परिणामं न प्राप्नोति ।

अतः स्पष्टं यत् ColBERT रेङ्कर इत्यस्य अपेक्षया Reranker इत्यस्य रूपेण बहु अधिकं लाभप्रदः अस्ति। वर्तमानं सर्वोत्तमं RAG पुनर्प्राप्तिसमाधानं 3-मार्गीयसंकरसन्धानस्य (पूर्णपाठसन्धानं + सदिश + विरलसदिशस्य) आधारेण ColBERT Reranker योजयितुं भवति । केचन भागिनः पृच्छन्ति, ColBERT Reranker इत्यस्य उपयोगाय पृथक् Tensor स्तम्भं योजयितुं आवश्यकम्, तथा च स्तम्भः मूलदत्तांशसमूहस्य तुलने 2 क्रमेण विस्तारं करिष्यति वा? सर्वप्रथमम् : Infinity Tensor कृते Binary quantization विधिं प्रदाति Reranker इत्यस्य रूपेण, एतत् क्रमणस्य परिणामान् बहु प्रभावितं न करोति, परन्तु अन्तिमदत्तांशं केवलं मूल Tensor आकारस्य 1/32 कर्तुं शक्नोति । द्वितीयं, तदपि केचन जनाः चिन्तयिष्यन्ति यत् एतत् ओवरहेड् अतीव उच्चम् अस्ति। परन्तु उपयोक्तुः दृष्ट्या अद्यापि उच्चतर-क्रमण-गुणवत्तायाः, सस्ता-व्ययस्य च विनिमयरूपेण अधिक-भण्डारणस्य उपयोगः अतीव सार्थकः अस्ति (क्रमण-प्रक्रियायाः कृते GPU-इत्यस्य आवश्यकता नास्ति) अन्ते मम विश्वासः अस्ति यत् किञ्चित् न्यूनीकृतं प्रदर्शनं किन्तु बहु न्यूनीकृतं भण्डारण-ओवरहेड् युक्तं Late Interaction मॉडल् शीघ्रमेव प्रारम्भं भविष्यति Data Infra आधारभूतसंरचनारूपेण एतेषां परिवर्तनानां कृते पारदर्शी अस्ति तथा च एतान् Trade Off उपयोक्तृभ्यः समर्पयितुं बुद्धिमान् विकल्पः अस्ति।

उपर्युक्तं MLDR-दत्तांशसमूहे Infinity इत्यस्य बहु-चैनल-स्मरण-मूल्यांकनस्य आधारेण अस्ति अन्येषु आँकडा-समूहेषु मूल्याङ्कन-परिणामाः भिन्नाः भवितुम् अर्हन्ति, परन्तु समग्र-निष्कर्षः न परिवर्तते - 3-मार्गीय-संकर-अन्वेषणम् + Tensor-आधारित-पुनर्क्रमणम् अस्ति The current recall उच्चतमगुणवत्तायुक्तं अन्वेषणपरिणामयुक्तं पद्धतिः।

अस्मात् द्रष्टुं शक्यते यत् ColBERT तथा तस्य विलम्बितपरस्परक्रियाप्रतिरूपस्य RAG परिदृश्येषु महत् अनुप्रयोगमूल्यं वर्तते। इदं ColPali [Reference 9] अस्ति, यत् RAG इत्यस्य कार्यप्रवाहं परिवर्तयति, यथा निम्नलिखितचित्रे दर्शितम् अस्ति ।

यदा RAG जटिलस्वरूपदस्तावेजानां सम्मुखीभवति तदा वर्तमानः SOTA दस्तावेजस्य विन्यासस्य परिचयार्थं दस्तावेजपरिचयप्रतिरूपस्य उपयोगं करोति, ततः चिह्नितानां आंशिकसंरचनानां कृते तत्सम्बद्धं प्रतिरूपं आह्वयति, यथा चार्ट्स्, चित्राणि इत्यादीनां, तान् The corresponding इत्यत्र परिवर्तयितुं ततः पाठः विभिन्नस्वरूपेषु RAG समर्थकदत्तांशकोशे रक्षितः भवति । ColPali एतानि पदानि समाप्तं करोति तथा च Embedding सामग्रीं जनयितुं प्रत्यक्षतया बहु-मोडल मॉडल् इत्यस्य उपयोगं करोति । प्रश्नान् पृच्छन् दस्तावेजे विद्यमानानाम् चार्ट्स् इत्यस्य आधारेण प्रत्यक्षतया उत्तरं दातुं शक्नुवन्ति:

ColPali मॉडलस्य प्रशिक्षणं ColBERT इत्यस्य सदृशं भवति, अपि च प्रश्नस्य दस्तावेजस्य च बहु-मोडल-आँकडानां मध्ये शब्दार्थ-सम्बन्धं गृहीतुं प्रश्न-दस्तावेज-पृष्ठ-युग्मानां रूपस्य उपयोगः भवति, परन्तु बहु-मोडल-एम्बेडिंग् जनयितुं PaliGemma [सन्दर्भः 10] इत्यस्य उपयोगः भवति BiPali इत्यनेन सह तुलने, यत् Late Interaction तन्त्रस्य उपयोगं न करोति परन्तु Embedding जनयितुं PaliGemma इत्यस्य उपयोगं करोति, nDCG@5 इत्यस्य मूल्याङ्कनसूचकाङ्कतुलना 81.3 vs 58.8 अस्ति

अतः, यद्यपि ColBERT इत्यस्य प्रकटीकरणात् 4 वर्षाणि अभवन्, तथापि RAG इत्यस्मिन् Late Interaction model इत्यस्य अनुप्रयोगः अधुना एव आरब्धः अस्ति यत् एतत् RAG इत्यस्य उपयोगपरिदृश्यानां विस्तारं निश्चितरूपेण करिष्यति तथा च बहु-मोडालिटी सहितं जटिल RAG दृश्येषु उच्चगुणवत्तायुक्तं शब्दार्थ-स्मरणं प्रदास्यति Infinity पूर्वमेव स्वस्य अन्तः अन्तः अनुप्रयोगाय सज्जा अस्ति Star Infinity, https://github.com/infiniflow/infinity इत्यस्य अनुसरणं कर्तुं स्वागतम्, तथा च सर्वोत्तमः AI देशीयः आँकडाधारः भवितुम् प्रतिबद्धः अस्ति!

सन्दर्भाः

1. कोलबर्टः : bert, SIGIR 2020 इत्यस्य उपरि सन्दर्भयुक्तविलम्बितपरस्परक्रियायाः माध्यमेन कुशलं प्रभावी च मार्गसन्धानम्।

2. Colbertv2: हल्के विलम्बेन अन्तरक्रियायाः माध्यमेन प्रभावी तथा कुशलं पुनर्प्राप्तिः, arXiv:2112.01488, 2021.

3. रागाटौइले https://github.com/bclavie/RAGatouille

4. बिट सदिशैः सह कुशलं बहु-सदिश घनपुनर्प्राप्तिः, ECIR 2024.

5. https://huggingface.co/mteb इति ग्रन्थः

6. https://huggingface.co/BAAI/bge-m3 इति ग्रन्थः

7. https://huggingface.co/jinai/jina-colbert-v1-en

8. https://github.com/infiniflow/infinity/tree/main/python/benchmark/mldr_benchmark

9. ColPali: दृष्टिभाषाप्रतिरूपैः सह कुशलदस्तावेजपुनर्प्राप्तिः, arXiv:2407.01449, 2024.

10. https://github.com/google-research/बृहत्_दृष्टि/वृक्ष/मुख्य/बृहत्_दृष्टि/configs/proj/paligemma

समाचारं

किमर्थं विलम्बितपरस्परक्रियाप्रतिरूपं RAG इत्यस्य अग्रिमपीढीयाः कृते मानकम् अस्ति?

आमुख

मम सम्पर्कसूचना