"तस्याः" इत्यस्य प्रतिबिम्बम् अस्ति! प्रायः विलम्बं विना एआइ कृते विडियो कॉल् कुर्वन्तु, Sequoia YC invested

"तस्याः" इत्यस्य प्रतिबिम्बम् अस्ति! एआइ इत्यस्मै प्रायः विलम्बं विना विडियो-कॉलं कुर्वन्तु, Sequoia YC इत्यनेन तस्मिन् निवेशः कृतः

2024-08-16

इतिहासस्य द्रुततमः संभाषणात्मकः विडियो एआइ अत्र अस्ति!एकसेकेण्डात् न्यूनं विलम्बं कुर्वन्तु！

अन्ततः अन्ते भवन्तः श्रोतुं, द्रष्टुं, वक्तुं, चित्राणि च भवितुं शक्नुवन्ति ।

इदं उत्पादं OpenAI अथवा HeyGen इत्यादिभ्यः कम्पनीभ्यः न आगतं येषु पूर्वं पूर्वमेव स्वक्षमता प्रदर्शिता अस्ति, तस्य विशिष्टं नाम अपि नास्ति ।

यतः उद्यमशीलदलात् आगच्छतितवुस्, अतः तवुस् इत्यनेन Conversational Replicas इति अपि उच्यते ।

मुख्यं कार्यं विमर्शपूर्णं AI-जनितं विडियो अनुभवं निर्मातुं भवति ।

अद्य प्रक्षेपणानन्तरं अद्य Producthunt इत्यस्य उष्णनवीनउत्पादसूचौ शीर्षस्थानं प्राप्तवान्, अद्यापि च पसन्दस्य संख्या वर्धमाना अस्ति ।

Tavus official सर्वेषां कृते उत्पादविशेषतानां सारांशं ददाति:

एकसेकेण्डात् न्यूनं विलम्बं कुर्वन्तु
यथार्थवादी, बुद्धिमान् डिजिटल जुड़वाँ
प्लग-एण्ड्-प्ले अन्ततः अन्तः निर्माणखण्डाः
मॉड्यूलर, अनुकूलनीयघटकाः यथा एलएलएम भाषणसंश्लेषणम्

नेटिजनाः एतत् दृष्ट्वा उत्साहिताः आसन्-

ठीकम्, अधुना मम कृते ZOOM विडियो सम्मेलनं कर्तुं "कोऽपि" अस्ति हाहाहाहा!

अनेके नेटिजनाः अपि एतत् यथा मन्यन्तेदस्तावेजान् पठितुं वा गपशपं कर्तुं वा अपेक्षया उत्तमं मानव-सङ्गणक-अन्तरक्रिया-अन्तरफलकं。

इदं संभाषणात्मकं विडियो-अन्तरफलकं गेम-परिवर्तकं अस्ति!
विमर्शात्मकानुभवानाम् अनन्तसंभावनाः पूर्वमेव कल्पयितुं शक्नोमि।

भवन्तः २ निमेषान् यावत् जालपुटे तस्य प्रयोगं कर्तुं शक्नुवन्ति

एतत् सन्देशं दृष्ट्वा कुबिट् एकस्मिन् सेकेण्ड् मध्ये तवुस् इत्यस्य आधिकारिकजालस्थलं प्रति त्वरितवान् ।

आधिकारिकजालस्थले भवन्तः २ निमेषात्मकं "इतिहासस्य द्रुततमं वार्तालाप-वीडियो" ऑनलाइन-रूपेण अनुभवितुं शक्नुवन्ति ।

विद्यमानसेटिंग्स् अनुसारं .अनुभवस्य समये वार्तालापस्य भागीदारः कार्टर् आसीत्, यस्य निर्माणं तवुस् इत्यनेन कृतम्。

कार्टर् एआइ-वीडियो-शोध-कम्पनीयाः Tavus इत्यस्य कर्मचारीरूपेण स्थितः अस्ति, यः हास्येन प्रतिक्रियां ददाति, सहायकः च भवति ।

अयं अधोलिखितः पुरुषः- १.

यद्यपि कार्टर् अवतारः अस्ति तथापि तस्य सह विडियो चैटिङ्ग् इत्येतत् स्वमित्रैः सह विडियो चैट् इव भवति ।

अधिकारिणः अनुशंसन्ति यत् कॅमेरा माइक्रोफोन् च अधिकृत्य कार्टर् इत्यनेन सह गपशपं कुर्वन् शान्तकक्षे एव स्थातुं प्रयतध्वम्।

वार्तालापस्य समये कार्टर् इत्यनेन उक्तं यत् केचन विषयाः जनाः तस्य सह चर्चां कर्तुं सर्वाधिकं रोचन्ते, तावस् इत्यनेन प्रयुक्तस्य एआइ-प्रौद्योगिक्याः विषये पृच्छितुं अतिरिक्तं तेषां दैनन्दिनविचाराः साझाः, हास्यं च कथयन्ति

सः स्थले एव एकं हास्यं अवदत् यत् -

पृच्छतु, किमर्थं द्विचक्रिका केवलं स्वयमेव तत्र स्थातुं न शक्नोति?
उत्तरम् अस्ति, यतः अतीव श्रान्तम् अस्ति (Two tires)।

वक्तुं समाप्त्वा कार्टर् स्वयमेव स्वस्य कृते जयजयकारं कृत्वा द्विवारं हसितवान् ।

मया अपि वास्तवतः qubit इत्यस्य अनुभवः २ निमेषपर्यन्तं कृतः, मम समग्रः अनुभवः च निम्नलिखितरूपेण अस्ति ।

प्रथमं तवुस्प्रतिक्रियावेगः वस्तुतः द्रुतगतिः अस्ति, "एकसेकेण्ड् अन्तः" इति आधिकारिकदावस्य अनुरूपम् ।

यदि भवान् सहसा तस्य वार्तालापं कुर्वन् शब्दं करोति चेदपि कार्टर् तत्क्षणमेव स्थगित्वा भवतः नवीनतमं वचनं श्रोष्यति।

द्वितीयं यद्यपि आधिकारिकः दावाः अस्ति यत् एतत् ३० तः अधिकानां भाषाणां समर्थनं करोति तथापि भवान् चीनीभाषायां वा आङ्ग्लभाषायां वा प्रश्नान् पृच्छतु, सः सर्वदा प्रश्नानाम् उत्तरं ददाति।चीनीभाषां वक्तुं असमर्थः。

यदा वयं तं पृष्टवन्तः "किं वयं चीनीभाषां वक्तुं शक्नुमः" तदा कार्टर् उत्तरं ददाति स्म यत् "अहं आङ्ग्लभाषायां वक्तुं वरम्!"

तृतीयम्, तवुस्’ ऐभवन्तः खलु "चक्षुषा द्रष्टुं" शक्नुवन्ति।。

qubit परीक्षणस्य समये अहं एकस्मिन् समये लज्जितः अभवम्, किं पृच्छितव्यम् इति न जानामि स्म, अतः अहं केवलं खिन्नं कर्तुं शक्नोमि स्म।

कार्टरः तत्क्षणमेव उक्तवान् यत् -

अहो! त्वया स्मितं दर्शितं~

चतुर्थं, डेमो संस्करणे, Carter’sमुखस्य आकारः, उक्ताः शब्दाः च प्रायः सम्पूर्णतया समन्वयितुं शक्यन्ते。

न आश्चर्यं यत् केचन नेटिजनाः तस्य प्रयोगं कृत्वा किमर्थं अवदन् यत् -

इदं यथार्थतया प्रभावशाली अस्ति, द्रुतप्रतिसादसमयः उत्तमः विडियो-श्रव्य-जनन-क्षमता च अस्ति ।

अधुना, केवलं Tavus’ conversational video AI इत्यस्य उपयोगाय पञ्जीकरणं कुर्वन्तु।

आधिकारिकसंस्करणे .संवादार्थं उपलब्धः एकमात्रः एआइ-पात्रः कार्टर् नास्तितत्र स्त्रीपुरुषाः सन्ति, तादात्म्यसेटिंग्स् च विक्रयात् जीवनमार्गदर्शनपर्यन्तं भवति ।

गपशपस्य पृष्ठभूमिः अपि उपयोक्तुः विकल्पानुसारं परिवर्तयितुं शक्यते, न तु कार्यालयदृश्ये एव सीमितम् ।

तस्मिन् एव काले अपिसंभाषणसामग्रीणां कृते सन्दर्भं मैन्युअल् रूपेण प्रविष्टुं क्षमता。

व्यक्तिकरणस्य प्रमाणं तु अत्यन्तं उच्चम् इति वक्तुं शक्यते ।

सम्प्रति मुक्तसंस्करणं, सशुल्कसंस्करणं च अस्ति, यत् भिन्न-भिन्न-जनित-अधिकार-हितयोः अनुरूपम् अस्ति ।

स्वसंशोधनप्रतिरूपस्य आधारेण विकसितम्

Tavus conversational video AI इत्यस्य पृष्ठतः Tavus दलेन स्वयमेव विकसितं Phoenix-2 मॉडल् अस्ति ।

इदं श्रव्य- पाठ-सञ्चालित-3D मॉडल् तथा 2D GANs इत्येतयोः संयोजनम् अस्ति यत् 1-2 निमेषस्य यथार्थं लघु-वीडियो जनयितुं शक्नोति ।

जननप्रक्रिया मोटेन निम्नलिखितचतुर्षु सोपानेषु विभक्ता अस्ति ।

TTS (Text to Speech) – शिरस्य स्कन्धस्य च 3D पुनर्निर्माणम् – प्रॉम्प्ट् शब्दस्क्रिप्ट् चालितं फेशियल एनिमेशन – उच्चनिष्ठाप्रतिपादनम्।

△विभेदकप्रतिपादनस्य माध्यमेन मुखस्य ज्यामितीयविवरणानां सूक्ष्म-समायोजनम्

उपयोक्त्रेण सह वार्तालापं कुर्वन्तं AI चित्रं अधिकं यथार्थं कर्तुं यदा Tavus दलेन Phoenix-2 इत्यस्य video rendering pipeline निर्मितवती तदाGAN तथा 3D Gaussian splatter संयुक्तम्।

अस्य कारणं यत् पारम्परिकाः GANs प्रायः चित्रसंकल्पेन सीमिताः भवन्ति, यदा तु आयतनप्रतिरूपेषु सर्वदा कालगतसङ्गठनस्य अभावः भवति ।

अतः तवः तयोः संयोगं चिन्तितवान् ।

प्रशिक्षणार्थं GAN इत्यस्य कृते बृहत् आँकडा-समूहानां महत्-कम्प्यूटिंग-संसाधनानाम् आवश्यकता भवति, तथा च तस्य द्वि-आयामी-प्रकृतेः, काल-संगति-समस्यानां च कारणात् अनुमानसमयः, विडियो-गुणवत्ता च सामान्यतया सीमिताः भवन्ति

Tavus 100 FPS तः अधिकस्य रेण्डरिंग् प्राप्तुं तथा गतिशीलवस्तूनाम् परितः भौतिकबोधबाधायाः कारणात् नियन्त्रणक्षमता बहुमुख्यतां च प्राप्तुं "मध्यवर्ती" इति रूपेण 3D मॉडल् इत्यस्य उपयोगं करोति

△2D तथा 3D हेड स्पीकिंग् मॉडल् इत्येतयोः मध्ये भेदस्य तुलनां कुर्वन्तु

तदतिरिक्तं पूर्वश्रृङ्खलायाः तुलने फीनिक्स-२ मॉडलस्य सुधारः अस्ति यत् प्रथमपीढीयाः फीनिक्स मॉडलस्य NeRF इत्यस्य स्थाने एतत् भवति ।

3D Gaussian Splashing प्रति मुखं कृत्वा वयं 3D अन्तरिक्षे गतिशीलमुखविरूपणं कथं चालयितुं शक्यते इति परिचयं कर्तुं शिक्षेम तथा च अदृष्टश्रव्यस्य आधारेण दृश्यं प्रतिपादयितुं एतां सूचनां उपयुञ्ज्महे।

दलस्य सदस्याः अवदन् यत् NeRF इत्यस्य तुलने 3D Gaussian Splash इत्यनेन आँकडा, स्मृतिः, कम्प्यूटेशनल् जटिलता, प्रक्रिया, रेण्डरिंग् दक्षता च इत्येतयोः दृष्ट्या उत्तमं प्रदर्शनं भवति

3D Gaussian splashing इत्यस्य आधारेण Phoenix-2 मॉडलस्य पाइपलाइनं मूल मॉडल् इत्यस्मात् 70% शीघ्रं प्रशिक्षितुं शक्यते तथा च 60+ FPS इत्यत्र रेण्डर् कर्तुं शक्यते ।

तवुस उवाच .वार्तालापस्य समये वारान्तपरिचयः, व्यत्ययः च भवति, येन उपयोक्त्रे वार्तालापः अधिकं वास्तविकः इति अनुभूयते ।

तदतिरिक्तं मुखस्य सूचना अतीव संवेदनशीलः भवति इति कारणतः सूचनासुरक्षायाः रक्षणार्थं दलं सुरक्षापरीक्षां, सुरक्षाप्रोटोकॉलं, स्वचालितसामग्रीसंचालनं, मतिभ्रमविरोधीपरीक्षा च प्रदाति

ज्ञातव्यं यत् फीनिक्स श्रृङ्खलाया: मॉडल् अपि अन्यस्य Tavus उत्पादस्य समर्थनं करोति -

उपयोक्तृ-डिजिटल-युग्मानां वार्तालाप-वीडियो जनयन्तु ।

भवद्भिः केवलं २ निमेषपर्यन्तं सामग्रीं प्रदातुं आवश्यकं भवति तथा च विडियो सामग्रीं जनयितुं एपिआइ आह्वयितुं $१ (प्रारम्भः) व्ययितव्यम् ।

आधिकारिकं टिप् निम्नलिखितक्षमताभिः सह अन्त्यतः अन्तः समाधानं प्रदातुं शक्नोति:

सुरक्षितं वास्तविकं च डिजिटलमिथुनं वा एआइ एजेण्ट् निर्मातुं एपिआइ-इत्यस्य उपयोगं कुर्वन्तु
LLM, संवादपात्राणि पृष्ठभूमिं च अनुकूलितं कुर्वन्तु
एम्बेडेड् सम्मेलनकक्षेषु वार्तालापान् प्रवाहयन्तु
वार्तालापानां अभिलेखनं, प्रतिलेखनं, साझां च कुर्वन्तु
उत्पादन-श्रेणी-मापनीयतायाः सह उच्च-यातायातस्य सम्पादनं कुर्वन्तु

"यदि त्वं <1s न करोषि तर्हि त्वं पुनः मानवः नासि।"

तवुस् दलं लघुपरिमाणेन सह चतुर्वर्षीयं एआइ-वीडियो-स्टार्टअपम् अस्ति ।

अधिकांशः सदस्याः अमेजन, डिस्क्रिप्ट्, गूगल तथा एप्पल् इत्यादिभ्यः आगच्छन्ति ।

सार्वजनिकसूचनाः दर्शयन्ति यत् अस्मिन् वर्षे मार्चमासपर्यन्तं कम्पनी Sequoia, Scale VC, YC इत्येतयोः कृते Series A निवेशं प्राप्तवती अस्ति, यस्य वित्तपोषणराशिः प्रायः US$18 मिलियनं भवति

तवुस् इत्यस्य सहसंस्थापकः मुख्यकार्यकारी च नामाङ्कितः अस्तिहस्सन रजा。

गूगल-एप्पल्-संस्थायां कार्यं कृतवान् ।

कम्पनीयाः सहसंस्थापकः सीओओ च Producthunt इत्यत्र सन्देशं त्यक्तवान् यत् संभाषणात्मकस्य विडियो AI इत्यस्य निर्माणे दीर्घकालं यावत् समयः अभवत्, यत्र प्रायः सहस्राणि घण्टाः अनुसन्धानं, अभियांत्रिकी, निर्माणं च व्ययितवन्तः

यथा वयं किमर्थं १ सेकण्ड् वा न्यूनतरं वा विलम्बं अनुसरणं कर्तव्यम्?

आधिकारिकम् उत्तरम् अपि अत्र दत्तम् अस्तिमानव-मानव-वीडियो-वार्तालापस्य यथासम्भवं निकटतया अनुकरणं कुर्वन्तु：

यतः यदि प्रतिक्रियावेगः १ सेकण्डात् न्यूनः नास्ति तर्हि (परतः भवता सह गपशपं कुर्वन् व्यक्तिः) मानवः नास्ति।

सन्दर्भलिङ्कानि : १.
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/सम्भाषणात्मक-प्रतिकृतयः-द्वारा-तावुस

समाचारं

भवन्तः २ निमेषान् यावत् जालपुटे तस्य प्रयोगं कर्तुं शक्नुवन्ति

स्वसंशोधनप्रतिरूपस्य आधारेण विकसितम्

"यदि त्वं <1s न करोषि तर्हि त्वं पुनः मानवः नासि।"

आमुख

मम सम्पर्कसूचना

समाचारं

भवन्तः २ निमेषान् यावत् जालपुटे तस्य प्रयोगं कर्तुं शक्नुवन्ति

स्वसंशोधनप्रतिरूपस्य आधारेण विकसितम्

"यदि त्वं &lt;1s न करोषि तर्हि त्वं पुनः मानवः नासि।"

आमुख

मम सम्पर्कसूचना

"यदि त्वं <1s न करोषि तर्हि त्वं पुनः मानवः नासि।"