2024-10-04
한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina
नवीन बुद्धि प्रतिवेदन
यदा प्रथमवारं बृहत्भाषाप्रतिरूपं विमोचितं तदा तस्य कार्येण, डोमेनबहुमुख्यतायाः, सुचारुपाठजननक्षमतायाः च सह सफलतया भग्नता अभवत् तथापि तस्मिन् समये प्रौद्योगिकी केवलं केषुचित् तुल्यकालिकरूपेण सरलकार्येषु एव प्रयोक्तुं शक्यते स्म
चिन्तनशृङ्खला इत्यादीनां शीघ्रप्रौद्योगिकीनां उद्भवेन सह, विशेषतः openai इत्यस्य नवविमोचितस्य o1 मॉडलस्य, एतत् प्रथमं सुदृढीकरणशिक्षणरणनीत्याः आन्तरिकचिन्तनशृङ्खलाप्रौद्योगिकीम् अङ्गीकृतवान्, यत् जटिलसमस्यानां समाधानार्थं बृहत्प्रतिमानानाम् क्षमतायां सुधारं करोति तथा च तर्कं कर्तुं एकः सम्पूर्णः नूतनः स्तरः।
यद्यपि o1 मॉडलेन विभिन्नेषु सामान्यभाषाकार्येषु आश्चर्यजनकरूपेण प्रबलक्षमता दर्शिता अस्ति तथापि चिकित्साशास्त्रादिव्यावसायिकक्षेत्रेषु तस्य प्रदर्शनं अद्यापि अज्ञातम् अस्ति
कैलिफोर्नियाविश्वविद्यालयस्य, सांताक्रूजस्य, एडिन्बर्गविश्वविद्यालयस्य, राष्ट्रियस्वास्थ्यसंस्थायाः च चीनीयदलेन संयुक्तरूपेण एकं प्रतिवेदनं प्रकाशितम्, यत्र विभिन्नेषु चिकित्सापरिदृश्येषु o1 इत्यस्य व्यापकं अन्वेषणं कृतम्, तथा च अवगमने तर्कशास्त्रे च आदर्शस्य कार्यप्रदर्शनस्य परीक्षणं कृतम् . ) बहुभाषिकता च क्षमता।
मूल्याङ्कने ३७ चिकित्सादत्तांशसमूहानां आँकडानां उपयोगेन षट् कार्याणि समाविष्टानि सन्ति, यत्र न्यू इङ्ग्लैण्ड् जर्नल् आफ् मेडिसिन् (nejm) तथा द लैन्सेट् प्रोफेशनल् मेडिकल टेस्ट् इत्येतयोः आधारेण द्वौ कठिनौ प्रश्नोत्तरकार्यौ अपि सन्ति
medqa इत्यादिभिः मानकचिकित्साप्रश्नोत्तरमापदण्डैः सह तुलने एते आँकडासंग्रहाः अधिकं नैदानिकरूपेण प्रासंगिकाः सन्ति तथा च वास्तविक-दुनिया-नैदानिक-परिदृश्येषु अधिक-प्रभावितेण प्रयोक्तुं शक्यन्ते
o1 मॉडलस्य विश्लेषणं दर्शयति यत् llms इत्यस्य तर्कक्षमतायाः वर्धनं विविधचिकित्सानिर्देशानां प्रतिरूपस्य अवगमनाय अधिकं अनुकूलं भवति, तथा च जटिलचिकित्सापरिदृश्येषु मॉडलस्य तर्कक्षमतायां सुधारं कर्तुं शक्नोति।
ज्ञातव्यं यत् १९ आँकडासमूहेषु तथा च द्वयोः जटिलप्रश्नोत्तरपरिदृश्ययोः o1 मॉडलस्य सटीकता पूर्ववर्ती gpt-4 इत्यस्मात् औसतेन ६.२% ६.६% च अतिक्रान्तवती
तस्मिन् एव काले शोधकर्तारः आदर्शक्षमतासु विद्यमानमूल्यांकनप्रोटोकॉलयोः च अनेकदोषाः ज्ञातवन्तः, यत्र मतिभ्रमः, असङ्गतबहुभाषिकक्षमता, असङ्गतमूल्यांकनमापः च सन्ति
बृहत् आदर्शानां चिकित्साक्षमतायाः व्यापकमूल्यांकनम्
प्रतिरूपस्य तर्कक्षमतायां सुधारस्य दृष्ट्या विचारशृङ्खला (cot) प्रेरणा सामान्यतया प्रयुक्ता प्रॉम्प्टरणनीतिः अस्ति, या जटिलकार्यसमाधानक्षमतां वर्धयितुं प्रतिरूपस्य अन्तः तर्कप्रतिमानानाम् उपयोगं करोति
o1 मॉडल् एकं पदं पुरतः गच्छति, cot प्रक्रियां आदर्शप्रशिक्षणे समाहितं करोति, सुदृढीकरणशिक्षणं एकीकृत्य, तथापि, o1 मॉडलस्य अद्यापि व्यावसायिकक्षेत्रेषु आँकडाभिः सह मूल्याङ्कनं न कृतम्, तथा च विशिष्टकार्येषु तस्य प्रदर्शनं अद्यापि अस्ति अज्ञात।
चिकित्साक्षेत्रे विद्यमानाः एलएलएम-मापदण्डाः सामान्यतया केवलं प्रतिरूपस्य विशिष्टक्षमतानां मूल्याङ्कनं कुर्वन्ति, यथा ज्ञानं तर्कं च, सुरक्षां बहुभाषा च परीक्षणं परस्परं तुल्यकालिकरूपेण पृथक्कृतं भवति तथा च o1 इत्यादीनां उन्नतप्रतिमानानाम् व्यापकरूपेण मूल्याङ्कनं कर्तुं न शक्नोति।
एकं व्यापकं मूल्याङ्कनं सुनिश्चित्य शोधकर्तारः उपर्युक्तपक्षं कवरयन्तः विविधानि चिकित्साकार्यं आँकडानि च एकत्रितवन्तः तथा च प्रक्रियायां त्रीणि प्रेरणारणनीतयः अन्वेषितवन्तः, येषु सन्ति-
1. प्रत्यक्षतया समस्यानां समाधानार्थं बृहत्भाषाप्रतिमानानाम् मार्गदर्शनार्थं प्रत्यक्षप्रोम्प्ट्
2. चिन्तनशृङ्खला, यस्मिन् अन्तिमम् उत्तरं जनयितुं पूर्वं प्रतिरूपस्य पदे पदे चिन्तनं करणीयम्।
3. अल्प-शॉट्-हिन्ट्-इत्यनेन मक्षिकायां इनपुट्-आउटपुट्-मानचित्रणं ज्ञातुं मॉडल्-इत्यस्य अनेकाः उदाहरणानि प्राप्यन्ते ।
अन्ते, उत्पन्नप्रतिसादानां वास्तविकउत्तराणां च मध्ये अन्तरं मापनार्थं समुचितस्य मेट्रिकस्य उपयोगं कुर्वन्तु ।
ध्यानं कार्याणि च
शोधकर्तारः ३५ विद्यमानदत्तांशसमूहानां उपयोगं कृत्वा मूल्याङ्कनार्थं अधिककठिनतायुक्ताः २ अतिरिक्तदत्तांशसमूहाः निर्मितवन्तः, ततः सर्वान् ३७ आँकडासंग्रहान् ३ पक्षेषु ६ कार्येषु च वर्गीकृत्य स्पष्टतरमूल्यांकनविश्लेषणार्थं च अवगन्तुं शक्नुवन्ति यत् विशिष्टक्षेत्रे प्रतिरूपं कथं कार्यं करोति इति।
अवगमनम्,चिकित्सासंकल्पनाः अवगन्तुं स्वस्य आन्तरिकचिकित्साज्ञानस्य उपयोगं कर्तुं आदर्शस्य क्षमतां निर्दिशति ।
उदाहरणार्थं, अवधारणापरिचयकार्येषु, आदर्शानां लेखेभ्यः अथवा निदानप्रतिवेदनेभ्यः चिकित्सासंकल्पनाः निष्कासयितुं वा विस्तृतं कर्तुं वा आवश्यकं भवति, आदर्शानां संक्षिप्तसारांशं जनयितुं जटिलग्रन्थेषु अवधारणाः अवगन्तुं आवश्यकाः सन्ति;
तर्कः,निष्कर्षं प्राप्तुं बहुपदार्थैः तार्किकरूपेण चिन्तनस्य आदर्शस्य क्षमतायाः परीक्षणं कुर्वन्तु।
प्रश्नोत्तरकार्ययोः प्रतिरूपस्य प्रश्ने प्रदत्तानां चिकित्सासूचनायाः आधारेण तर्कार्थं शीघ्रनिर्देशानां अनुसरणं करणीयम् अस्ति तथा च बहुविकल्पेभ्यः सम्यक् उत्तरं चयनं करणीयम्।
सामान्यप्रश्न-उत्तर-दत्तांशसमूहानां अतिरिक्तं, शोधकर्तारः एलएलएम-इत्यस्य नैदानिक-उपयोगितायाः उत्तममूल्यांकनार्थं द लैन्सेट्, द न्यू इङ्ग्लैण्ड् जर्नल् आफ् मेडिसिन् (nejm), मेडबुलेट् च इत्येतयोः वास्तविक-जगतः नैदानिक-प्रश्नान् अपि एकत्रितवन्तः
नैदानिक-अनुशंसा-कार्येषु, मॉडल्-मध्ये रोगी-सूचनायाः आधारेण चिकित्सा-अनुशंसाः अथवा निदान-निर्णयाः प्रदातुं आवश्यकाः सन्ति । एआइ हॉस्पिटल तथा एजेण्ट्क्लिनिक डाटासेट् मध्ये, मॉडल् मेडिकल एजेण्ट् इत्यस्य रूपेण कार्यं कर्तुं आवश्यकं भवति, मॉडल् गणितीयं तर्कं कर्तुं उत्तराणां गणनां कर्तुं च आवश्यकम् अस्ति;
बहुभाषिकता, निर्देशान् निवेशयितुं उत्तराणि निर्गन्तुं च भाषाः भिन्नाः सन्ति ।
xmedbench आँकडासमूहे llms कृते षट् भाषासु चिकित्साप्रश्नानां उत्तरं दातुं आवश्यकं भवति, यत्र चीनी, अरबी, हिन्दी, स्पैनिश, चीनी, आङ्ग्लभाषा च सन्ति, एआइ अस्पतालस्य आँकडासमूहे, मॉडलस्य प्रश्नोत्तराय चीनीभाषायाः उपयोगः आवश्यकः अस्ति।
मूल्याङ्कनसूचकाः
विशुद्धता, प्रतिरूपेण उत्पन्नानां उत्तराणां प्रतिशतस्य प्रत्यक्षमापः यत् यथार्थ उत्तरेण सह सम्यक् मेलति ।
मुख्यतया तदा उपयुज्यते यदा वास्तविकं उत्तरं शब्दं वा वाक्यं वा भवति, यत्र बहुविकल्पप्रश्नदत्तांशसमूहाः, medcalcbench आँकडासमूहाः, नैदानिकपरामर्शः अवधारणापरिचयदत्तांशसमूहाः च सन्ति
f1 स्कोरः, परिशुद्धतायाः स्मरणस्य च हार्मोनिक माध्यः, दत्तांशसमूहेषु उपयुज्यते यत्र प्रतिरूपस्य बहुविधसमीचीनउत्तराणां चयनस्य आवश्यकता भवति ।
bleu and rouge इति, एकः प्राकृतिकः भाषासंसाधनमेट्रिकः यः उत्पन्नप्रतिसादानां वास्तविकउत्तराणां च समानतां मापयति, मूल्याङ्कने सर्वेषां मुक्तरूपजननकार्यस्य कृते bleu-1 तथा rouge-1 इत्येतयोः उपयोगं करोति
alignscore, एकः मेट्रिकः यः उत्पन्नपाठतथ्यानां स्थिरतां मापयति, मॉडलभ्रमस्य डिग्री मूल्याङ्कनार्थं सर्वेषां अनिर्दिष्टस्वरूपजननकार्यस्य कृते alignscore इत्यस्य उपयोगं करोति ।
मौवे, एकः मेट्रिकः यः उत्पन्नपाठस्य मानवलिखितपाठस्य च वितरणस्य अन्तरं मापयति, तस्य उपयोगः सर्वेषां अनिर्दिष्टस्वरूपजननकार्यस्य कृते भवति, यत्र उच्चतरमूल्यानि प्रतिरूपस्य उच्चगुणवत्तां सूचयन्ति उत्पादनम् ।
प्रयोगात्मकाः परिणामाः
शीघ्र रणनीति
ज्ञानप्रश्नोत्तरकार्यं, एजेण्टकार्यं, चिकित्सागणनाकार्यं बहुभाषासम्बद्धकार्यं च प्रत्यक्षशीघ्रमूल्यांकनपद्धतीनां उपयोगं कुर्वन्तु;
meds-bench इत्यस्मात् अन्येषां कार्याणां कृते, benchmark setting इत्यस्मिन् त्रि-नमूना-प्रोम्प्टिंग्-रणनीतिः अनुसृता भवति ।
openai इत्यस्य वक्तव्यस्य अनुसारं, chain of thoughts (cot) तथा examples in context इत्यादीनि सामान्यप्रोम्प्टिंग्-प्रविधयः o1-प्रदर्शनस्य उन्नयनार्थं बहु सहायकाः न भवन्ति यतोहि मॉडल्-मध्ये पूर्वमेव अन्तर्निहितः cot निर्मितः अस्ति
अस्य दावस्य अग्रे परीक्षणार्थं शोधकर्तारः मूल्याङ्कने cot, self consistency, reflex इत्यादीनां अनेकानाम् उन्नतसंकेतानां प्रभावं योजितवन्तः
मूल्याङ्कनार्थं gpt-3.5, gpt-4, o1 मॉडल् चयनस्य अतिरिक्तं शोधकर्तारः द्वौ मुक्तस्रोतमाडलौ अपि चयनं कृतवन्तः: एकं चिकित्साकेन्द्रदत्तांशैः प्रशिक्षितं बृहत्भाषाप्रतिरूपं meditron-70b, तथा च नवीनतमं शक्तिशाली च मुक्तस्रोतम् model बृहत् भाषा मॉडल llama3-8b
मुख्य परिणाम
o1 इत्यस्य चिकित्साबोधने क्षमता वर्धिता अस्ति
यदा o1 मॉडल् मुक्तः अभवत् तदा openai मुख्यतया तस्य...गणितीयसमस्यानिराकरणं, कोडजननं च इत्यादिषु ज्ञानेषु तर्कक्षमतासु च महत्त्वपूर्णसुधाराः प्रयोगपरिणामात् अपि अवलोकयितुं शक्यन्ते, एषा क्षमता च विशिष्टचिकित्साज्ञानबोधाय अपि स्थानान्तरितुं शक्यते
दृश्यते यत् o1 अधिकांशस्य नैदानिककार्यस्य अवगमनस्य दृष्ट्या अन्येभ्यः आदर्शेभ्यः अधिकं प्रदर्शनं करोति उदाहरणार्थं, o1 gpt-4 तथा gpt-3.5 इत्येतयोः औसतेन f1 इत्यस्य उपयोगेन क्रमशः 7.6% तथा 26.6% इत्यस्य प्रदर्शनं करोति। अधिकं, सामान्यतया प्रयुक्ते bc4chem दत्तांशसमूहे २४.५% औसतसुधारेन सह ।
सारांशकार्यस्य विषये o1 इत्यनेन gpt-4 तथा gpt-3.5 इत्येतयोः तुलने क्रमशः 2.4% तथा 3.7% इत्येव स्वस्य rouge-1 स्कोरस्य सुधारः कृतः, येन वास्तविक-जगतः नैदानिक-अवगमने तस्य वर्धिता क्षमता सिद्धा अभवत् in सामान्ये प्राकृतिकभाषासंसाधनक्षमतायां उन्नतिः चिकित्साक्षेत्रे वर्धितायाः आदर्शबोधस्य प्रभावीरूपेण अनुवादं कर्तुं शक्नोति।
नैदानिकनिदानपरिदृश्येषु o1 मॉडलस्य शक्तिशाली तर्कक्षमता
तर्क-सम्बद्धेषु कार्येषु o1 मॉडलेन वास्तविक-जगतः निदान-स्थितौ अपि स्वस्य लाभाः प्रदर्शिताः सन्ति ।
नवनिर्मितेषु चुनौतीपूर्णेषु प्रश्नोत्तरकार्येषु nejmqa तथा lancetqa इत्येतयोः मध्ये gpt-4 (79.6%) तथा gpt-3.5 (61.5%) इत्येतयोः तुलने तत्तत्दत्तांशसमूहेषु o1 इत्यस्य औसतसटीकतायां क्रमशः 8.9% तथा 27.1% सुधारः भवति
o1 इत्यस्य गणितीयतर्कक्षमतायां अन्यः उल्लेखनीयः सुधारः अस्ति यत् एतत् medcalc-bench आधाररेखां 34.9% यावत् सुधारयति, यत् gpt-4 इत्यस्मात् महत्त्वपूर्णं 9.4% अधिकं भवति
अधिकजटिलतर्कपरिदृश्येषु संवादस्य पर्यावरणस्य अनुकरणस्य च बहुविधपरिक्रमेषु, o1 agentclinic बेन्चमार्के gpt-4 तथा gpt-3.5 इत्यस्मात् अधिकं प्रदर्शनं करोति, यत्र medqa तथा nejm उपसमूहेषु क्रमशः 15.5% तथा 10% लाभः अभवत् , क्रमशः ४५.५%, २०.०% च स्कोरैः सह ।
उच्चतरसटीकतायाः अतिरिक्तं o1 इत्यस्य उत्तराणि अपि अधिकं संक्षिप्तं प्रत्यक्षं च भवन्ति, यदा तु gpt-4 गलत् उत्तराणां पार्श्वे मतिभ्रमात्मकव्याख्यानानि जनयति ।
शोधकर्तारः मन्यन्ते यत् o1 इत्यस्य ज्ञाने तर्कशास्त्रे च सुधारः मुख्यतया प्रशिक्षणप्रक्रियायाः कालखण्डे वर्धितानां आँकडानां तथा अन्तर्निहितानाम् तकनीकानां (यथा cot आँकडानां तथा सुदृढीकरणशिक्षणप्रविधिनाम्) उपयोगस्य कारणं भवति
उपर्युक्तानां आशावादीपरिणामानां आधारेण शोधकर्तारः उत्साहेन पत्रे अवदन् यत् o1 मॉडलेन सह वयं पूर्णतया स्वचालितस्य एआइ-वैद्यस्य समीपं समीपं गच्छामः।