Kuaishou open source LivePortrait, GitHub 6.6K Star, अभिव्यक्तिनां तथा postures_news इत्यस्य अत्यन्तं द्रुतप्रवासं प्राप्तुं

Kuaishou open source LivePortrait, GitHub 6.6K Star, अभिव्यक्तिनां मुद्राणां च अत्यन्तं द्रुतप्रवासं प्राप्तुं

2024-07-17

यन्त्रस्य हृदयं मुक्तम्

मशीन हृदय सम्पादकीय विभाग

अधुना एव कुआइशौ केलिंग् बृहत् मॉडल् दलेन मुक्तस्रोतः इति परियोजना कृतालाइवपोर्ट्रेट एकः नियन्त्रणीयः चित्र-वीडियो-जनन-रूपरेखा यः अत्यन्तं अभिव्यञ्जक-वीडियो-परिणामान् जनयितुं विडियो-चालक-व्यञ्जन-मुद्रासु स्थिर-अथवा गतिशील-चित्र-वीडियो-मध्ये सटीकतया वास्तविक-समये च स्थानान्तरयितुं शक्नोति यथा निम्नलिखित-एनिमेशन-मध्ये दर्शितम् अस्ति :

LivePortrait इत्यस्य परीक्षणं कुर्वतां नेटिजनानां कृते

Kuaishou इत्यस्य मुक्तस्रोतस्य LivePortrait इत्यस्य तत्सम्बद्धं पत्रशीर्षकं अस्ति :

《 LivePortrait: सिलाई तथा पुनः लक्ष्यीकरण नियन्त्रणसहितं कुशलं चित्र एनिमेशन 》

LivePortrait कागज मुखपृष्ठ

अपि च, LivePortrait इत्येतत् मुक्तमात्रेण उपलभ्यते, Kuaishou शैल्याः अनुसरणं कृत्वा, एकेन क्लिकेण कागदानि, मुखपृष्ठानि, कोड् च संयोजयति । एकदा LivePortrait मुक्तस्रोतः अभवत् तदा तत् प्राप्तम्HuggingFace इत्यस्य मुख्यकार्यकारी Clément Delangueअनुसरणं कृत्वा पुनः ट्वीट् कुर्वन्तु,मुख्य रणनीति अधिकारी थॉमस वुल्फमया अपि व्यक्तिगतरूपेण कार्यस्य अनुभवः कृतः, अद्भुतम् अस्ति!

तथा च सम्पूर्णे विश्वे नेटिजनानाम् ध्यानं उत्तेजितवान्बृहत् स्तरीय मूल्याङ्कनम्：

विडियो क्लिप् सामग्रीः सर्वाणि X तः सन्ति

视频频链接:https://mp.weixin.qq.com/s?__biz=mza3mze4mzgmw=&mid= = 2650926594&idx=3&sn=7d4096c2d55580755807555807580755ए.एचआईटीएचआईटीएचआईटीएचआईटीएचआईटी-मंडल ) A36A0DA7B8D223F223F223F223F223F223F223F223F95E53A449E8E341DD5F71576595976C02109B6&TOKEN=1755124&Lang=ZH_CN#rd

तस्मिन् एव काले LivePotrait इत्यनेन मुक्तस्रोतसमुदायस्य व्यापकं ध्यानं प्राप्तम् एकसप्ताहस्य किञ्चित् अधिके काले अस्य कुलम्...6.4K तारा,550 हंस,140 मुद्दे&PRs, बहुप्रशंसितः अस्ति, अद्यापि तस्य ध्यानं वर्धमानम् अस्ति:

तदतिरिक्तं HuggingFace Space, Papers with code trend list इतिएकसप्ताहं यावत् प्रथमस्थानं प्राप्तवान्, अद्यैव HuggingFace सर्वविषय-क्रमाङ्कने शीर्षस्थाने अभवत्सूचीयां प्रथमं：

HuggingFace Space नम्बर १

कोडसूचीयुक्तानि पत्राणि 1

HuggingFace सर्वं विषयं श्रेणी एकम्

अधिकसंसाधनसूचनार्थं भवान् द्रष्टुं शक्नोति:

कोड पता: https://github.com/KwaiVGI/LivePortrait
पेपर लिङ्कः https://arxiv.org/abs/2407.03168
परियोजनायाः मुखपृष्ठम् : https://liveportrait.github.io/
HuggingFace Space एकक्लिक् ऑनलाइन अनुभवः: https://huggingface.co/spaces/KwaiVGI/LivePortrait

सम्पूर्णे अन्तर्जालस्य शीघ्रं लोकप्रियतां प्राप्तुं LivePortrait कीदृशं प्रौद्योगिक्याः उपयोगं करोति?

विधि परिचय

प्रसारणप्रतिमानानाम् आधारेण वर्तमानमुख्यधाराविधिभ्यः भिन्नं, LivePortrait अन्तर्निहितकुंजीबिन्दु-आधारितरूपरेखायाः क्षमताम् अन्वेषयति विस्तारयति च, तस्मात् प्रतिरूपगणनादक्षतायाः नियन्त्रणक्षमतायाश्च संतुलनं करोति LivePortrait उत्तमसामान्यीकरणं, नियन्त्रणक्षमता, व्यावहारिकदक्षता च केन्द्रीक्रियते । जनरेशनक्षमतां नियन्त्रणक्षमतां च सुधारयितुम् LivePortrait 69M उच्चगुणवत्तायुक्तप्रशिक्षणचतुष्कोणानां, विडियो-चित्रसंकरप्रशिक्षणरणनीत्याः उपयोगं करोति, संजालसंरचनायाः उन्नयनं कृतवान्, उत्तमक्रियाप्रतिरूपणं अनुकूलनं च डिजाइनं कृतवान् तदतिरिक्तं, LivePortrait अन्तर्निहितमुख्यबिन्दून् चेहरे मिश्रणविरूपणस्य (Blendshape) प्रभावी अन्तर्निहितप्रतिपादनरूपेण मन्यते, तथा च अस्य आधारेण मॉड्यूल्स् सिलाईं पुनः लक्ष्यीकरणं च सावधानीपूर्वकं प्रस्तावयति एतौ मॉड्यूलौ लघुभारयुक्तौ एमएलपीजालौ स्तः, अतः नियन्त्रणक्षमतां सुधारयन् गणनाव्ययस्य अवहेलना कर्तुं शक्यते । केषाञ्चन विद्यमानप्रसारप्रतिरूप-आधारितपद्धतीनां तुलने अपि LivePortrait अद्यापि अतीव प्रभावी अस्ति । तस्मिन् एव काले RTX4090 GPU इत्यस्मिन् LivePortrait इत्यस्य एकलफ्रेमजननवेगः 12.8ms यावत् प्राप्तुं शक्नोति यदि अधिकं अनुकूलितं भवति, यथा TensorRT, तर्हि 10ms इत्यस्मात् न्यूनं भवितुं शक्नोति!

LivePortrait इत्यस्य मॉडल् प्रशिक्षणं द्वयोः चरणयोः विभक्तम् अस्ति । प्रथमः चरणः मूलभूतः आदर्शप्रशिक्षणः, द्वितीयः चरणः च फिटिंग् तथा पुनर्निर्देशनमॉड्यूलप्रशिक्षणम् अस्ति ।

मूलभूतप्रतिरूपप्रशिक्षणस्य प्रथमः चरणः

मूलभूतप्रतिरूपप्रशिक्षणस्य प्रथमः चरणः

मॉडलप्रशिक्षणस्य प्रथमचरणस्य LivePortrait इत्यनेन अन्तर्निहितबिन्दु-आधारितरूपरेखासु सुधारस्य श्रृङ्खला कृता, यथा Face Vid2vid[1], यत्र सन्ति:

उच्चगुणवत्तायुक्तं प्रशिक्षणदत्तांशसंग्रहणम् : LivePortrait सार्वजनिकविडियोदत्तांशसमूहानां Voxceleb[2], MEAD[3], RAVDESS[4] तथा शैलीकृतचित्रदत्तांशसमूहस्य AAHQ[5] इत्यस्य उपयोगं करोति । तदतिरिक्तं बृहत्-परिमाणस्य 4K रिजोल्यूशन-चित्र-वीडियो-प्रयोगः भवति, यत्र भिन्नाः अभिव्यक्तिः मुद्राः च, 200 घण्टाभ्यः अधिकं यावत् वार्तालाप-चित्र-वीडियो, निजी-दत्तांशसमूहः LightStage [6], तथा च केचन शैलीकृताः भिडियाः चित्राणि च सन्ति LivePortrait दीर्घान् विडियो ३० सेकेण्ड् तः न्यूनानां खण्डेषु विभजति तथा च प्रत्येकस्मिन् खण्डे केवलं एकः व्यक्तिः एव भवति इति सुनिश्चितं करोति । प्रशिक्षणदत्तांशस्य गुणवत्तां सुनिश्चित्य LivePortrait Kuaishou इत्यस्य स्वविकसितस्य KVQ [7] (Kuaishou इत्यस्य स्वविकसितस्य विडियोगुणवत्तामूल्यांकनपद्धतेः, यस्याः गुणवत्ता, सामग्री, दृश्यं, सौन्दर्यशास्त्रं, एन्कोडिंग्, श्रव्यं अन्यलक्षणं च व्यापकरूपेण गृह्णाति the video to perform multi-dimensional evaluation ) न्यूनगुणवत्तायुक्तानि विडियोक्लिप्स् छानयितुं । कुलप्रशिक्षणदत्तांशेषु 69M विडियोः सन्ति, येषु 18.9K परिचयाः, 60K स्थिरशैलीकृतचित्रं च सन्ति ।

वीडियो-प्रतिबिम्ब संकर प्रशिक्षण : केवलं वास्तविकजनानाम् विडियो उपयुज्य प्रशिक्षितः मॉडलः वास्तविकजनानाम् कृते उत्तमं प्रदर्शनं करोति, परन्तु शैलीकृतजनानाम् (एनिमे इत्यादिषु) कृते उत्तमं सामान्यीकरणं न करोति । शैलीकृतानि चित्र-वीडियो दुर्लभानि सन्ति, यत्र LivePortrait 100 तः न्यून-परिचयात् केवलं प्रायः 1.3K-वीडियो-क्लिप्स् संग्रहयति । तस्य विपरीतम् उच्चगुणवत्तायुक्तानि शैलीकृतानि चित्रचित्राणि अधिकं प्रचुराणि सन्ति LivePortrait इत्यनेन विभिन्नपरिचययुक्तानि प्रायः 60K चित्राणि एकत्रितानि सन्ति, येन विविधाः परिचयसूचनाः प्राप्यन्ते । उभयदत्तांशप्रकारस्य लाभं ग्रहीतुं LivePortrait प्रत्येकं चित्रं विडियोक्लिप् इव व्यवहरति तथा च एकत्रैव विडियो तथा चित्रयोः मॉडल् प्रशिक्षयति । एतत् संकरप्रशिक्षणं प्रतिरूपस्य सामान्यीकरणक्षमतायां सुधारं करोति ।

उन्नतजालसंरचना : LivePortrait कैनोनिकल अन्तर्निहितकुंजीबिन्दु अनुमानजालं (L), शिरः मुद्रा अनुमानजालं (H) तथा अभिव्यक्तिविरूपणअनुमानजालं (Δ) एकस्मिन् मॉडले (M) एकीकृतं करोति, तथा च ConvNeXt-V2-Tiny[8] इत्यस्य उपयोगं करोति यथा इदं प्रत्यक्षतया कैनोनिकल अन्तर्निहित कीबिन्दून्, शिरः मुद्राः, इनपुट् इमेज् इत्यस्य अभिव्यक्तिविकृतिः च अनुमानयितुं संरचितः अस्ति । तदतिरिक्तं face vid2vid इत्यस्य सम्बन्धितकार्यात् प्रेरितम् LivePortrait इत्यनेन SPADE [9] इत्यस्य अधिकप्रभाविणः डिकोडरस्य उपयोगं जनरेटर् (G) इत्यस्य रूपेण भवति । सुप्तविशेषताः (fs) विरूपणानन्तरं SPADE डिकोडरमध्ये सावधानीपूर्वकं प्रविष्टाः भवन्ति, यत्र सुप्तविशेषतानां प्रत्येकं चैनलं चालितं चित्रं जनयितुं शब्दार्थमानचित्रस्य कार्यं करोति दक्षतां सुधारयितुम् LivePortrait इत्यनेन (G) इत्यस्य अन्तिमस्तररूपेण PixelShuffle[10] स्तरम् अपि सम्मिलितं भवति, अतः रिजोल्यूशनं 256 तः 512 यावत् वर्धते ।

अधिकं लचीलं क्रियारूपान्तरणप्रतिरूपणं : मूल-अन्तर्निहित-कुञ्जी-बिन्दु-गणना-प्रतिरूपण-विधिः स्केलिंग-गुणकस्य अवहेलनां करोति, येन स्केलिंग्-इत्येतत् अभिव्यक्ति-गुणकं सहजतया ज्ञातं भवति, येन प्रशिक्षणं अधिकं कठिनं भवति एतस्याः समस्यायाः समाधानार्थं LivePortrait मॉडलिंग् मध्ये स्केलिंग् कारकं प्रवर्तयति । LivePortrait इत्यनेन ज्ञातं यत् नियमितप्रक्षेपणानां स्केलिंग् अत्यधिकं लचीलं शिक्षणीयव्यञ्जनगुणकं जनयितुं शक्नोति, यत् परिचयेषु चालितस्य बनावटस्य आसंजनं जनयति अतः LivePortrait द्वारा स्वीकृतं परिवर्तनं लचीलतायाः चालनक्षमतायाः च मध्ये सम्झौता अस्ति ।

कीबिन्दु-निर्देशित अन्तर्निहित कीबिन्दु अनुकूलन : मूलनिहितबिन्दुरूपरेखायां निमिषं, नेत्रगतिम् इत्यादीनां मुखस्य भावानाम् सजीवरूपेण चालनस्य क्षमतायाः अभावः दृश्यते। विशेषतः, चालनपरिणामेषु चित्रस्य नेत्रगोलकस्य दिशा, शिरः अभिविन्यासः च समानान्तरे एव तिष्ठन्ति । LivePortrait एताः सीमाः सूक्ष्ममुखस्य भावानाम् अनिरीक्षितशिक्षणस्य कठिनतायाः कारणं वदति । एतस्याः समस्यायाः समाधानार्थं LivePortrait सूक्ष्म-अभिव्यक्तयः गृहीतुं 2D कीबिन्दून् परिचययति, अन्तर्निहित-कीबिन्दु-अनुकूलनस्य मार्गदर्शकरूपेण की-बिन्दु-निर्देशित-हानिः (Lguide) इत्यस्य उपयोगं करोति

झरना हानि कार्य : LivePortrait face vid2vid इत्यस्य अन्तर्निहितस्य कीपॉइण्ट् अपरिवर्तनीयहानिः (LE), कीपॉइण्ट् पूर्वहानिः (LL), शिरः मुद्राहानिः (LH) तथा विरूपणपूर्वहानिः (LΔ) इत्येतयोः उपयोगं करोति । बनावटस्य गुणवत्तां अधिकं सुधारयितुम् LivePortrait इत्यनेन बोधात्मकं तथा GAN हानिः उपयुज्यते, ये न केवलं निवेशप्रतिबिम्बस्य वैश्विकक्षेत्रे प्रयुक्ताः भवन्ति, अपितु मुखस्य मुखस्य च स्थानीयक्षेत्रे अपि प्रयुक्ताः भवन्ति, येषां अभिलेखः कैस्केड बोधात्मकहानिः (LP, cascade) इति भवति ) तथा झरना GAN. मुखस्य मुखस्य च प्रदेशाः 2D शब्दार्थकीबिन्दुभिः परिभाषिताः भवन्ति । LivePortrait इत्यनेन सन्दर्भप्रतिबिम्बस्य परिचयं रक्षितुं face identity loss (Lfaceid) इत्यस्य उपयोगः अपि भवति ।

प्रथमचरणस्य सर्वे मॉड्यूलाः आद्यतः प्रशिक्षिताः भवन्ति, तथा च समग्रप्रशिक्षण अनुकूलनकार्यं (Lbase) उपर्युक्तहानिपदानां भारितयोगः भवति

द्वितीयचरणस्य फिट् एण्ड् रिडायरेक्ट् मॉड्यूल् प्रशिक्षणम्

LivePortrait अन्तर्निहितमुख्यबिन्दून् अन्तर्निहितसंकरविरूपणरूपेण व्यवहरति, तथा च पश्यति यत् एतत् संयोजनं हल्केन MLP इत्यस्य साहाय्येन उत्तमं ज्ञातुं शक्यते, तथा च गणनाव्ययः नगण्यः अस्ति वास्तविक आवश्यकतां विचार्य LivePortrait इत्यनेन फिट् मॉड्यूल्, नेत्रपुनर्निर्देशनमॉड्यूल्, मुखपुनर्निर्देशनमॉड्यूल् च डिजाइनं कृतम् । यदा सन्दर्भचित्रं क्रॉप् भवति तदा चालितं चित्रं सस्यस्थानात् मूलप्रतिबिम्बस्थाने पुनः चिनोति भविष्यति फलतः, LivePortrait बृहत्तरचित्र-आकारस्य अथवा समूह-चित्रस्य कृते क्रिया-सञ्चालितं भवितुम् अर्हति । नेत्रपुनर्लक्ष्यीकरणमॉड्यूलः परिचयानां पारं वाहनचालनकाले अपूर्णनेत्रनिमीलनस्य समस्यायाः समाधानार्थं विनिर्मितः अस्ति, विशेषतः यदा लघुनेत्रयुक्तं चित्रं बृहत्नेत्रयुक्तं चित्रं चालयति मुखपुनर्निर्देशनमॉड्यूलस्य डिजाइनविचारः नेत्रपुनर्निर्देशनमॉड्यूलस्य सदृशः भवति यत् उत्तमवाहनचालनार्थं सन्दर्भचित्रस्य मुखं बन्दस्थितौ चालयित्वा निवेशं सामान्यीकरोति

आदर्शप्रशिक्षणस्य द्वितीयः चरणः : फिटिंग् तथा पुनर्निर्देशनमॉड्यूलप्रशिक्षणम्

फिट मॉड्यूल : प्रशिक्षणप्रक्रियायाः कालखण्डे फिटिंग् मॉड्यूलस्य (S) निवेशाः सन्दर्भप्रतिबिम्बस्य अन्तर्निहिताः मुख्यबिन्दवः (xs) तथा अन्यस्य परिचय-सञ्चालित-चतुष्कोणस्य अन्तर्निहित-कुंजीबिन्दवः (xd), तथा च चालन-अन्तर्निहित-कुंजीबिन्दवः (xd) भवन्ति ) अनुमानिताः भवन्ति अभिव्यक्तिपरिवर्तनस्य परिमाणं (Δst)। द्रष्टुं शक्यते यत्, प्रथमचरणस्य विपरीतम्, LivePortrait प्रशिक्षणस्य कठिनतां वर्धयितुं समान-परिचय-क्रियाणां स्थाने पार-परिचय-क्रियाणां उपयोगं करोति, यस्य उद्देश्यं भवति यत् फिटिंग्-मॉड्यूल्-मध्ये उत्तमं सामान्यीकरणं भवति तदनन्तरं चालकस्य अन्तर्निहितं कीबिन्दुः (xd) अद्यतनं भवति, तत्सम्बद्धं चालकनिर्गमं च (Ip,st) भवति । LivePortrait इत्यनेन अस्मिन् स्तरे स्वयमेव पुनर्निर्मितानि चित्राणि (Ip,recon) अपि निर्गच्छति । अन्ते फिटिंग् मॉड्यूलस्य हानिकार्यं (Lst) स्कन्धक्षेत्रद्वयस्य पिक्सेल-संगतिहानिः फिटिंग्-विविधतायाः नियमितीकरणहानिः च गणयति

नेत्रं मुखं च पुनर्निर्देशनमॉड्यूलम् : नेत्रपुनर्अभिमुखीकरणमॉड्यूलस्य (Reyes) निवेशः सन्दर्भप्रतिबिम्बस्य अन्तर्निहितकुंजीबिन्दुः (xs), सन्दर्भप्रतिबिम्बनेत्र उद्घाटनस्थिति ट्युपलः तथा च यादृच्छिकं चालननेत्र उद्घाटनगुणकं भवति, अतः चालनकुंजीबिन्दुपरिवर्तनस्य राशिः (Δeyes) विरूपणस्य अनुमानं भवति ). नेत्र-उद्घाटन-स्थितेः ट्युपलः नेत्र-उद्घाटन-अनुपातं प्रतिनिधियति, तथा च यथा यथा बृहत् भवति तथा तथा नेत्र-उद्घाटनस्य प्रमाणं अधिकं भवति । तथैव मुखपुनर्निर्देशनमॉड्यूलस्य (Rlip) निवेशाः सन्दर्भप्रतिबिम्बस्य अन्तर्निहितकुंजीबिन्दवः (xs), सन्दर्भप्रतिबिम्बस्य मुखस्य उद्घाटनस्थितिगुणकं तथा च यादृच्छिकं चालनमुख उद्घाटनगुणकं भवन्ति, ततः चालनकुंजीबिन्दवः अनुमानिताः भवन्ति this परिवर्तनस्य परिमाणं (Δlip) । तदनन्तरं, चालनकुंजीबिन्दवः (xd) क्रमशः नेत्रयोः मुखयोः तदनुरूपविकृतिपरिवर्तनेन अद्यतनं भवन्ति, तदनुरूपाः चालननिर्गमाः (Ip, नेत्राणि) तथा (Ip, ओष्ठं) भवन्ति अन्ते नेत्रस्य मुखस्य च पुनः लक्ष्यीकरणमॉड्यूलस्य उद्देश्यकार्यं क्रमशः (Leyes) तथा (Llip) भवति, ये नेत्रस्य मुखस्य च क्षेत्रस्य पिक्सेलसङ्गतिहानिः, नेत्रस्य मुखस्य च विविधतायाः नियमितीकरणहानिः, यादृच्छिकहानिः च गणयन्ति चालनगुणकस्य चालननिर्गमस्य उद्घाटनस्थितिगुणकस्य च मध्ये हानिः । नेत्रस्य मुखस्य च परिवर्तनं (Δनेत्रं) (Δlip) च परस्परं स्वतन्त्रं भवति, अतः अनुमानचरणस्य समये तेषां रेखीयरूपेण योजितुं अद्यतनं च कर्तुं शक्यते यत् अन्तर्निहितकुंजीबिन्दून् चालयितुं शक्यते

प्रयोगात्मक तुलना

समान तादात्म्य चालित : एकस्यैव परिचयचालकस्य उपर्युक्ततुलनापरिणामात् द्रष्टुं शक्यते यत् विद्यमानस्य गैर-प्रसार-प्रतिरूप-पद्धत्याः प्रसार-प्रतिरूप-आधारित-पद्धत्या च तुलनायां LivePortrait-इत्यस्य उत्तम-जनन-गुणवत्ता, चालन-सटीकता च अस्ति, तथा च, तस्य सूक्ष्म-विवरणं गृहीतुं शक्नोति सन्दर्भप्रतिबिम्बस्य बनावटं परिचयं च संरक्षित्वा चालनचतुष्कोणस्य नेत्राणि मुखं च। बृहत्तरेषु शिरःमुद्रासु अपि LivePortrait इत्यस्य प्रदर्शनं अधिकं स्थिरं भवति ।

पार-परिचय चालित : उपर्युक्तेभ्यः पार-परिचय-चालक-तुलना-परिणामेभ्यः द्रष्टुं शक्यते यत् विद्यमान-विधिभिः सह तुलने LivePortrait चालकस्य विडियो-मध्ये सूक्ष्म-नेत्र-मुख-गतिम् सटीकरूपेण उत्तराधिकारं प्राप्तुं शक्नोति, तथा च यदा मुद्रा विशाला भवति तदा अपि तुल्यकालिकरूपेण स्थिरः भवति LivePortrait प्रसारणप्रतिरूप-आधारितपद्धत्याः AniPortrait [11] इत्यस्मात् किञ्चित् दुर्बलम् अस्ति, परन्तु उत्तरस्य तुलने LivePortrait इत्यस्य अत्यन्तं द्रुतगतिः अनुमानदक्षता अस्ति तथा च न्यूनानि FLOPs आवश्यकानि सन्ति

आतन्

बहुक्रीडकः चालितः: LivePortrait इत्यस्य फिटिंग् मॉड्यूलस्य धन्यवादेन, समूह-फोटो-कृते, LivePortrait निर्दिष्ट-मुखानाम् चालनार्थं निर्दिष्ट-ड्राइवर-वीडियो-उपयोगं कर्तुं शक्नोति, तस्मात् बहु-व्यक्ति-फोटो-ड्राइवस्य साक्षात्कारं करोति तथा च LivePortrait इत्यस्य व्यावहारिक-अनुप्रयोगं विस्तृतं करोति

पशु चालनम्: LivePortrait इत्यत्र न केवलं चित्राणां कृते उत्तमं सामान्यीकरणं भवति, अपितु पशुदत्तांशसमूहेषु सूक्ष्म-समायोजनानन्तरं पशुचित्रस्य कृते अपि सटीकरूपेण चालयितुं शक्यते ।

चित्र विडियो सम्पादन : चित्रचित्रस्य अतिरिक्तं, चित्रस्य विडियो, यथा नृत्यस्य विडियो दत्तः, LivePortrait शिरःक्षेत्रे गतिसम्पादनं कर्तुं चालनविडियोस्य उपयोगं कर्तुं शक्नोति। फिटिंग् मॉड्यूलस्य धन्यवादेन LivePortrait शिरःक्षेत्रे गतिं, यथा अभिव्यक्तिः, मुद्राः इत्यादीनि, अ-शिरः क्षेत्रेषु चित्राणि प्रभावितं विना सटीकरूपेण सम्पादयितुं शक्नोति

कार्यान्वयनम् सम्भावनाश्च

LivePortrait इत्यस्य सम्बद्धाः तकनीकीबिन्दवः Kuaishou इत्यस्य अनेकव्यापारेषु कार्यान्विताः सन्ति, यत्र...कुआइशौ जादूघटिका, कुआइशौ निजीसन्देशः, कुआइशौ इत्यस्य एआइ इमोटिकॉन् गेमप्ले, कुआइशौ लाइव प्रसारणं, युवानां कृते कुआइशौ द्वारा इन्क्यूबेट् कृतं पुजी एपीपी च इत्यादिषु, तथा च उपयोक्तृणां कृते मूल्यं निरन्तरं निर्मातुं नूतनानां कार्यान्वयनविधीनां अन्वेषणं करिष्यति । तदतिरिक्तं, LivePortrait उच्चगुणवत्तायुक्तप्रभावानाम् अनुसरणं कर्तुं केलिंग् मूलभूतप्रतिरूपस्य आधारेण बहु-मोडल-सञ्चालितं चित्र-वीडियो-जननं अधिकं अन्वेषयिष्यति ।

सन्दर्भाः

[1] तिङ्ग-चुन् वाङ्ग, अरुण माल्या, मिंग-यू लियू च । विडियो सम्मेलनस्य कृते एकशॉट् मुक्त-दृश्यं तंत्रिका-वाक्-शिरः संश्लेषणम्। सीवीपीआर, २०२१ इत्यस्मिन् ।

[२] आर्षा नाग्रानी, जून सोन् चुङ्ग्, एण्ड्रयू जिस्सरमैन् च । Voxceleb: एकः बृहत्-परिमाणस्य स्पीकर-परिचय-दत्तांशसमूहः । अन्तरभाषणे, २०१७.

[3] कैसियुआन् वाङ्ग, किअन्यी वू, लिन्सेन् सोङ्ग, झूओकियन याङ्ग, वेन वू, चेन् कियान्, रन हे, यू किआओ, चेन् चेज लोय च । मीड् : भावनात्मकं वार्तालाप-मुख-जननार्थं बृहत्-परिमाणस्य श्रव्य-दृश्य-दत्तांशसमूहः । ईसीसीवी, २०२० इत्यस्मिन् ।

[४] स्टीवेन् आर लिविङ्ग्स्टोन् तथा फ्रैङ्क् ए रूसो । भावनात्मकभाषणस्य गीतस्य च रायर्सन् श्रव्य-दृश्यदत्तांशकोशः (ravdess): उत्तर-अमेरिकन-अङ्ग्रेजीभाषायां चेहरे-स्वर-अभिव्यक्तीनां गतिशीलः, बहुविधः समुच्चयः। PloS one, 2018 इत्यस्मिन्

[5] मिंगकोङ्ग लियू, कियाङ्ग ली, जेकुई किन्, गुओक्सिन् झाङ्ग, पेंगफेई वान, वेन् झेङ्ग च । ब्लेण्डगनः मनमाना शैलीकृतमुखजननस्य कृते अन्तर्निहितरूपेण गन् मिश्रणम्। NeurIPS, 2021 इत्यस्मिन् ।

[6] हाओटियन याङ्ग, मिंगवु झेंग, वांकुआन् फेङ्ग, हैबिन् हुआंग, यू-कुन् लाई, पेङ्गफेई वान, झोंगयुआन वांग, चोंगयाङ्ग मा च । उच्च-निष्ठा-प्रलोभनीय-अवतारानाम् व्यावहारिक-ग्रहणं प्रति। सिग्ग्राफ एशिया, २०२३ इत्यस्मिन् ।

[७] काई झाओ, कुन् युआन्, मिंग सन, मडिङ्ग् ली, ज़िंग् वेन् च । अन्धप्रतिबिम्बगुणवत्तायाः कृते गुणवत्ता-जागरूकाः पूर्वप्रशिक्षिताः आदर्शाः

निर्धारणम्‌। सीवीपीआर, २०२३ इत्यस्मिन् ।

[८] संघ्युन् वु, शौभिक् देबनाथ, रोङ्गहाङ्ग हू, सिन्लेई चेन्, झुआङ्ग लियू, इन् सो क्वेओन्, सैनिङ्ग ज़ी च । कन्- ९.

vnext v2: मास्क्ड् ऑटोएन्कोडर्स् इत्यनेन सह convnets इत्यस्य सह-डिजाइनं स्केलिंग् च । सीवीपीआर, २०२३ इत्यस्मिन् ।

[९] ताएसुङ्ग पार्क, मिंग-यू लियू, टिङ्ग्-चुन् वाङ्ग, जुन्-यान झू च । स्थानिक-अनुकूल-सामान्यीकरणेन सह शब्दार्थ-प्रतिबिम्ब-संश्लेषणम्। सीवीपीआर, २०१९ इत्यस्मिन् ।

[१०] वेन्झे शी, जोस कबालेरो, फेरेन्क् हुस्ज ́आर, जोहानेस् टोट्ज्, एण्ड्रयू पी ऐट्केन्, रोब बिशप्, डैनियल रुएकेर्ट्, ज़ेहान वाङ्ग च । एकस्य कुशलस्य उप-पिक्सेल-कन्वोल्यूशनल् न्यूरल-जालस्य उपयोगेन वास्तविक-समय-एकल-प्रतिबिम्बं तथा च विडियो-सुपर-रिजोल्यूशनम् । सीवीपीआर, २०१६ इत्यस्मिन् ।

[११] हुवावे वी, जेजुन् याङ्ग, झीशेङ्ग वाङ्ग च । Aniportrait: प्रकाशयथार्थवादी चित्र एनिमेशनस्य श्रव्य-सञ्चालितसंश्लेषणम्। arXiv पूर्वमुद्रण:2403.17694, 2024.

समाचारं

Kuaishou open source LivePortrait, GitHub 6.6K Star, अभिव्यक्तिनां मुद्राणां च अत्यन्तं द्रुतप्रवासं प्राप्तुं

आमुख

मम सम्पर्कसूचना