GPT-4o संस्करणं "Her" अन्ततः अत्र अस्ति! हास्यं कथयन् बिडालवत् म्याऊ च कृत्वा एआइ-सखी कथं कामुकः भवितुम् अर्हति?

2024-07-31

नवीन बुद्धि प्रतिवेदन

सम्पादकः - ताओजी एतावत् निद्रालुः अस्ति

[नव प्रज्ञायाः परिचयः] । GPT-4o स्वरकार्यं अन्ततः अपेक्षितरूपेण आगच्छति, तथा च Her इत्यस्य विज्ञान-कथा-संस्करणं वास्तविकतायां आगच्छति! केचन नेटिजनाः ये Grayscale इत्यस्य परीक्षणं कृतवन्तः ते उन्मत्ताः अभवन् तथापि OpenAI इत्यनेन सम्प्रति केवलं ४ पूर्वनिर्धारितानि स्वराणि एव प्रदाति । तदतिरिक्तं नूतनस्य GPT-4o मॉडलस्य आउटपुट् टोकन् अपि 16वारं वर्धमानं 64K यावत् अभवत् ।

अल्ट्रामैनस्य प्रतिज्ञा अन्ततः पूर्णा अभवत् ।

जुलैमासस्य अन्ते पूर्वं GPT-4o स्वरविधानेन अन्ततः ग्रेस्केलपरीक्षणं प्रारब्धम्, तथा च ChatGPT Plus उपयोक्तृणां अल्पसंख्याकाः पूर्वमेव पूर्वानुभवटिकटं प्राप्तवन्तः

यदि भवान् ChatGPT App उद्घाट्य निम्नलिखित-अन्तरफलकं पश्यति तर्हि प्रथमेषु भाग्यशालिषु अन्यतमः भवितुं अभिनन्दनम्।

OpenAI इत्यस्य अनुसारं उन्नतस्वरविधिः अधिकं स्वाभाविकं, वास्तविकसमये वार्तालापं प्रदाति, इच्छानुसारं बाधितुं शक्यते, अपि च भवतः भावनानां बोधं प्रतिक्रियां च कर्तुं शक्नोति

अपेक्षा अस्ति यत् सर्वे ChatGPT Plus उपयोक्तारः अस्मिन् शरदऋतौ एतत् विशेषतां उपयोक्तुं शक्नुवन्ति।

तदतिरिक्तं पश्चात् अधिकशक्तिशालिनः विडियो, स्क्रीनशेयरिंग् च प्रारभ्यते। अन्येषु शब्देषु, कॅमेरा चालू कृत्वा, भवान् ChatGPT इत्यनेन सह "साक्षात्कारं" गपशपं कर्तुं शक्नोति ।

ग्रेस्केलेन प्रभाविताः केचन नेटिजनाः एकस्य पश्चात् अन्यस्य परीक्षणं आरब्धवन्तः, GPT-4o स्वरविधानस्य बहवः उपयोगप्रकरणाः च आविष्कृतवन्तः ।

न, केचन जनाः स्वयमेव वक्तुं अभ्यासं कर्तुं शिक्षितुं "द्वितीयविदेशीयभाषाप्रशिक्षकरूपेण" कार्यं कर्तुं ददति ।

निम्नलिखितशिक्षणे ChatGPT इत्यनेन नेटिजनानाम् Croissant (croissant) तथा Baguette (French baguette) इत्येतयोः उच्चारणं सम्यक् कर्तुं साहाय्यं कृतम् ।

तस्मिन् एव काले GPT-4o इत्यस्य आउटपुट् टोकन्स् १६ वारं वर्धिताः, प्रारम्भिक ४,००० टोकन तः ६४,००० टोकन् यावत् ।

इदं नूतनं बीटा मॉडल् gpt-4o-64k-output-alpha यत् OpenAI इत्यनेन अद्यैव स्वस्य आधिकारिकजालस्थले चुपचापं प्रारब्धम्।

दीर्घतरस्य आउटपुट् टोकनस्य अर्थः अस्ति यत् एकस्मिन् समये प्रायः ४ सम्पूर्णाः फीचर-दीर्घताः चलच्चित्रलिप्याः प्राप्तुं शक्यन्ते ।

तस्याः आगता अस्ति

इदानीं GPT-4o voice function इत्यस्य विमोचनस्य कारणं अस्ति यत् OpenAI इत्यनेन विगतमासेषु तस्मिन् सुरक्षायाः गुणवत्तायाः च परीक्षणं कृतम् अस्ति ।

ते GPT-4o इत्यस्य स्वरक्षमतां 45 भाषासु 100+ लालदलस्य सदस्यैः सह परीक्षितवन्तः।

जनानां गोपनीयतायाः रक्षणार्थं दलेन केवलं ४ "पूर्वनिर्धारितस्वरस्य" उपयोगेन वक्तुं मॉडलं प्रशिक्षितम् ।

एतेषां चतुर्णां अतिरिक्तानां शब्दानां निर्गमं अवरुद्ध्य एकां तन्त्रमपि निर्मितवन्तः ।

तदतिरिक्तं सामग्री-छननम् अपि अत्यावश्यकम् अस्ति, तथा च हिंसक-प्रतिलिपिधर्म-सम्बद्धानां सामग्रीनां जननं निवारयितुं दलेन उपायाः अपि कृताः सन्ति ।

OpenAI इत्यनेन घोषितं यत् अगस्तमासस्य आरम्भे GPT-4o इत्यस्य क्षमतानां, सीमानां, सुरक्षामूल्यांकनस्य च विषये विस्तृतं प्रतिवेदनं प्रकाशयितुं योजना अस्ति ।

समग्रजालस्य उपरि वास्तविकं मापनम्

अधः नेटिजनैः साझाकृतस्य GPT-4o स्वरविधानस्य केचन प्रकरणाः सन्ति ।

ChatGPT beatboxing कर्तुं शक्नोति।

ChatGPT इत्यनेन लज्जालुः, क्रुद्धः, क्रुद्धतरः च स्वरः अपि बियर-हास्याः कथिताः ।

केचन नेटिजनाः विशेषतया ChatGPT कृते एकं विनोदं कृतवन्तः यत् "वैज्ञानिकाः एडम्-एटम् इत्यत्र किमर्थं न विश्वसन्ति, यतः ते सर्वं निर्मान्ति" इति ।

ChatGPT अटपटे हसति स्म।

किं अधिकं हास्यं यत् ChatGPT इत्यस्य अद्यापि म्याऊ-शिक्षणस्य मार्गः अस्ति ।

किञ्चित् परीक्षणानन्तरं कश्चन ज्ञातवान् यत् ChatGPT उन्नतस्वरविधिः अतीव द्रुतगतिः अस्ति तथा च उत्तरं दातुं प्रायः विलम्बः नास्ति ।

केषाञ्चन शब्दानां अनुकरणं कर्तुं पृष्टे सदा सः शब्दान् यथार्थतया पुनः प्रदर्शयति । तथा भिन्न-भिन्न-उच्चारणानि अपि अनुकरणं कर्तुं शक्यन्ते।

अधोलिखिते भिडियायां तत् दृश्यं दृश्यते यत्र एआइ फुटबॉलक्रीडायाः टिप्पणीकाररूपेण कार्यं करोति।

ChatGPT चीनीभाषायां कथाः कथयति, यत् अपि अतीव सजीवम् अस्ति।

यद्यपि OpenAI इत्यस्य दावानुसारं विडियो तथा स्क्रीनशेयरिंग् कार्याणि पश्चात् प्रारभ्यन्ते तथापि केचन नेटिजनाः प्रथमं पूर्वमेव तस्य उपयोगं कृतवन्तः ।

एकस्य नेटिजनस्य नूतनः पालतू बिडालः अस्ति सः तस्य कृते नीडं निर्मितवान्, तदर्थं भोजनं च सज्जीकृतवान्, परन्तु सः किं कर्तव्यमिति न जानाति स्म, अतः सः ChatGPT इति पृष्टवान्।

भिडियोमध्ये वार्तालापस्य समये नेटिजनः तत् दृष्ट्वा बिडालस्य गृहं दर्शितवान्, ततः परं ChatGPT इत्यनेन टिप्पणी कृता यत्, “अति आरामदायकं भवितुमर्हति” इति, बिडालस्य कथं वर्तते इति चिन्ता च अभवत् ।

नेटिजन्स् अवदन् यत् एतत् अद्यापि न खादितवान् किञ्चित् चिन्तितः अपि दृश्यते। ChatGPT सान्त्वनां दत्तवान्, "एतत् सामान्यम्। बिडालानां अनुकूलतायै समयः भवति।"

द्रष्टुं शक्यते यत् सम्पूर्णा प्रश्नोत्तरप्रक्रिया अतीव सुचारुरूपेण भवति, येन जनानां वास्तविकजनैः सह संवादस्य भावः भवति ।

नेटिजन्स् अपि गेम कन्सोल् इत्यस्य जापानीभाषां खनितवन्तः, परन्तु ते जापानीभाषां न वदन्ति ।

अस्मिन् समये सः ChatGPT इत्यस्मै क्रीडा-अन्तरफलकं दर्शयित्वा तस्य कृते अनुवादं कर्तुं पृष्टवान् अन्ते हू इत्यनेन मिलित्वा क्रीडां सम्पन्नम् ।

मया वक्तव्यं यत् visual + voice mode इत्यस्य आशीर्वादेन ChatGPT बहु बलवत्तरम् अस्ति।

GPT-4o Long Output शान्ततया ऑनलाइन अस्ति, यस्य आउटपुट् 64K पर्यन्तं भवति

तदतिरिक्तं बृहत्तरं टोकन-उत्पादनं समर्थयति इति GPT-4o अनुवर्तयिष्यति ।

अधुना एव OpenAI इत्यनेन आधिकारिकतया घोषितं यत् सः परीक्षकान् GPT-4o Alpha संस्करणं प्रदास्यति, यत् प्रति अनुरोधं 64K टोकनपर्यन्तं उत्पादनं समर्थयति, यत् 200 पृष्ठीयस्य उपन्यासस्य बराबरम् अस्ति

परन्तु नूतनस्य मॉडलस्य मूल्येन पुनः नूतनं छतम् निर्धारितम् अस्ति । अस्य मूल्यं प्रति मिलियनं इनपुट् टोकन्स् ६ डॉलर, प्रति मिलियन आउटपुट् टोकन्स् १८ डॉलर च अस्ति ।

यद्यपि आउटपुट् टोकन् GPT-4o इत्यस्य १६ गुणानि अस्ति तथापि मूल्ये अपि $३ वृद्धिः अभवत् ।

एतादृशी तुलनायाः अनन्तरं gpt-4o-mini खलु अधिकं किफायती अस्ति!

शोधकर्ता सिमोन विलिसनः अवदत् यत् दीर्घकालीननिर्गमस्य उपयोगः मुख्यतया आँकडारूपान्तरणस्य उपयोगप्रकरणानाम् कृते भवति।

यथा, दस्तावेजान् एकस्मात् भाषातः अन्यस्मिन् भाषायां अनुवादयितुं, अथवा दस्तावेजात् संरचितदत्तांशं निष्कासयितुं, प्रायः प्रत्येकं इनपुट् टोकनस्य उपयोगः आउटपुट् JSON मध्ये आवश्यकः भवति

अतः पूर्वं सः जानाति स्म यत् दीर्घतमं आउटपुट् मॉडल् GPT-4o mini इति आसीत्, यत् 16K टोकन आसीत् ।

दीर्घतरं उत्पादनं युक्तं मॉडलं किमर्थं प्रक्षेपणं करणीयम् ?

स्पष्टतया, दीर्घतरं उत्पादनं GPT-4o अधिकं व्यापकं विस्तृतं च प्रतिक्रियां दातुं शक्नोति, यत् केषाञ्चन परिदृश्यानां कृते अतीव सहायकं भवति ।

यथा - कोडलेखनं लेखनस्य उन्नयनं च ।

इदं उपयोक्तृप्रतिक्रियायाः आधारेण OpenAI द्वारा कृतं समायोजनं अपि अस्ति यत् उपयोगप्रकरणं पूरयितुं दीर्घकालं यावत् उत्पादनसामग्री आवश्यकी अस्ति ।

सन्दर्भस्य निर्गमस्य च भेदः

प्रारम्भात् आरभ्य GPT-4o इत्यनेन अधिकतमं सन्दर्भविण्डो 128K इति प्रदत्तम् अस्ति । GPT-4o Long Output कृते अधिकतमं सन्दर्भविण्डो अद्यापि 128K अस्ति ।

अतः, OpenAI कथं 128K इत्यस्य समग्रसन्दर्भविण्डो निर्वाहयन् आउटपुट् टोकनस्य संख्यां 4,000 तः 64,000 यावत् वर्धयति?

यतो हि OpenAI इत्यनेन प्रारम्भे आउटपुट् टोकनस्य संख्या अधिकतमं ४,००० टोकनपर्यन्तं सीमितं कृतम् ।

अस्य अर्थः अस्ति यत् उपयोक्तारः एकस्मिन् अन्तरक्रियायां 124,000 टोकनपर्यन्तं निवेशरूपेण उपयोक्तुं शक्नुवन्ति तथा च केवलं 4000 यावत् आउटपुट् टोकनपर्यन्तं प्राप्तुं शक्नुवन्ति ।

अवश्यं, भवान् अधिकानि टोकन्स् अपि निवेशयितुं शक्नोति, यस्य अर्थः अस्ति यत् न्यूनानि टोकन्स् आउटपुट् भवन्ति ।

अन्ततः, दीर्घसन्दर्भस्य (128K) दीर्घता तत्र नियतं भवति यद्यपि इनपुट् कथं अपि परिवर्तते, आउटपुट् टोकन 4000 अधिकं न भविष्यति ।

अधुना, OpenAI इत्यनेन आउटपुट् टोकन-दीर्घतां ६४,००० टोकन् यावत् सीमितं भवति, यस्य अर्थः अस्ति यत् भवान् पूर्वापेक्षया १६ गुणाधिकं टोकन्स् आउटपुट् कर्तुं शक्नोति ।

किन्तु उत्पादनं अधिकं गणनागहनं भवति मूल्यवृद्धिः च अधिका भवति ।

तथैव नवीनतमस्य GPT-4o mini इत्यस्य कृते सन्दर्भः अपि 128K अस्ति, परन्तु अधिकतमं उत्पादनं 16,000 टोकनपर्यन्तं वर्धितम् अस्ति ।

ततः, उपयोक्तारः ११२,००० पर्यन्तं टोकनपर्यन्तं निवेशरूपेण प्रदातुं शक्नुवन्ति अन्ते च १६,००० पर्यन्तं टोकनपर्यन्तं उत्पादनरूपेण प्राप्तुं शक्नुवन्ति ।

सामान्यतया, OpenAI अत्र समाधानं प्रदाति यत् LLM तः दीर्घतरं प्रतिक्रियां प्राप्तुं निवेशटोकनं सीमितं करोति, न तु प्रत्यक्षतया सन्दर्भदीर्घतां विस्तारयति ।

विपण्यां अन्येषां मॉडलानां विषये दीर्घः एकलक्षं (Gemini) अतिक्रान्तवान्, किञ्चित् लघुतरस्य 200K (Claude) अपि अस्ति, केषाञ्चन मॉडल् आउटपुट् अपि 200K यावत् अस्ति, OpenAI अद्यापि अत्र अस्ति

एतेन विकासकानां कृते कठिनसमस्या अपि क्षिप्यते यत् यदि भवान् अधिकं निवेशयितुम् इच्छति तर्हि न्यूनं उत्पादनं स्वीकुर्यात् यदि भवान् अधिकं उत्पादनं इच्छति तर्हि न्यूनं निवेशं कर्तव्यम्;

कथं तस्य मापनं करणीयम् इति अवलम्बते यत् भवन्तः कस्य त्यागं कर्तुं इच्छन्ति...

सन्दर्भाः : १.

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-लॉन्च-प्रयोगात्मक-gpt-4o-16x-टोकन-क्षमता-सह-दीर्घ-निर्गम-मॉडल/

समाचारं