Kuaishou fons apertus LivePortrait, GitHub 6.6K Sidus, ut migrationem vocum ac positiones

Kuaishou fons apertus LivePortrait, GitHub 6.6K Sidus, ut migrationem vocum et habituum valde celerem consequi.

2024-07-17

Cordis Machina dimisit

Machina Cordis Editorial Department

Nuper, Kuaishou Keling magnum exemplar team apertum in project nomineLivePortrait Effigies moderatrix video generationis compages quae accurate ac reale tempus transferre potest expressiones et positiones agitantes ad videos static vel dynamicas effigies ad generandum valde expressivum eventus video. Sicut patet in sequentibus animationem;

Ex netizes probatio LivePortrait

In charta respondens titulus fons aperti Kuaishou's LivePortrait est:

LivePortrait: Efficens Effigies Animation cum suturis et Retargeting Imperium

LivePortrait charta paginam

Praeterea, LivePortrait praesto est quam primum dimittitur, stilo Kuaishou adhaerens, chartis, homepages et codicibus cum uno clic annexo. Cum LivePortrait aperta radix, obtinuitClément Delangue, CEO de HuggingFaceSequere et retweet;Thomas Wolf dux Strategy OfficerIpse munus expertus sum, mirabile est!

Et attentionem retiaculorum in toto orbe terrarum excitavitMagnum pondus iudicium：

Video clip materiae sunt omnia ex X

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650926594&idx=3&sn=7d44eac3409c6c2d5587ef80d7575a69&chksm=84e42a7cb393a36a0da7b5e5d3a3a3a0da7b5e5d5a3a3a0a7b5e8d5a3a3a0a7b8d5b5a3a3a0a7c5b5c5a3a3a0a7b5e8d5a6c2d5587ef80d7575a69 95776c02109b6&token=1755385124&lang=zh_CN#rd

Eodem tempore, LivePotrait, pervulgatum animum a fonte aperto communitatis accepit6.4K Stars，550 Caudinas，140 Exitus & PRslaudato et animo invalescit;

In addition, HuggingFace Space, Papers with code trend listPraeferebantur primo hebdomadam in a row, nuper cumulum HuggingFace all-theme rankingsPrimum in indice：

HuggingFace Space No. 1

Papers cum codice album 1

HuggingFace all theme ranking one

Ad informationem maiorem resource, inspicere potes:

Codicis inscriptio: https://github.com/KwaiVGI/LivePortrait
Paper link: https://arxiv.org/abs/2407.03168
Project homepage: https://liveportrait.github.io/
HuggingFace Space one-click online experience: https://huggingface.co/spaces/KwaiVGI/LivePortrait

Qualis technologiae technologiae usus LivePortrait ut cito in totum interreti popularetur?

Methodus introductio

Diversae ab hodiernae methodi amet, quae in exemplorum diffusione nituntur, LivePortrait explorat et dilatat potentiam clausulae implicatae, quae substructio compage fundatur, exemplar calculi efficientiam et moderabilitatem aequans. LivePortrait melior generalisation, moderabilitas et efficacia practica. Ad meliorem generationis capacitatem et moderabilitatem, LivePortrait utitur 69M summus qualitas institutionis tabularum, formarum formatio video-imago hybridarum, retis structuram upgraded structuram, et melioris actionis exemplandi et optimizationis modos designabat. Praeterea, LivePortrait respicit cardines implicatos tanquam effectivum repraesentationem implicitam deformationis faciei mixtionis (Blendshape), et sedulo proponit modulorum suturam et retargetationem in hoc fundatam. Hi duo moduli leves retiaculorum MLP sunt, ut, dum moderatior melius corrigatur, sumptus computational negligi potest. Etiam cum aliqua diffusione exsistente modorum exemplarium fundato comparata, LivePortrait adhuc efficacissima est. Eodem tempore, in RTX4090 GPU, LivePortrait celeritas generationis unius corporis potest 12.8ms pervenire. Si ulterior optimized, ut TensorRT, expectatur ad minus quam 10ms!

Exemplar disciplinae LivePortrait in duos gradus dividitur. Primus gradus est fundamentalis exemplar disciplinae, secundus gradus est convenientia et redirectionis moduli institutio.

Primus gradus est basic exemplar disciplinae

Primus gradus est basic exemplar disciplinae

In primo stadio exemplaris disciplinae, LivePortrait fecit seriem emendationum ad puncta implicata implicata, sicut Face Vid2vid[1], inter:

Qualis disciplina notitia summus collectio : LivePortrait utitur in publica video datasets Voxceleb[2], MEAD[3], RAVDESS[4] et imago dataset styli AAHQ[5]. Praeterea magnarum 4K imaginum solutionis imagines adhibentur, incluso variae locutiones et positiones, plus quam 200 horarum imaginum imagines loquentium, notitia privata LightStage [6] apposita, et nonnullae cinematographicae et picturae. LivePortrait scindit videos longas in segmenta minorum quam 30 secundarum et efficit quodlibet segmentum tantum unam personam continet. Ut notitiarum disciplinarum qualitas provideatur, LivePortrait utitur Kuaishou auto-evoluta KVQ [7] (Kuaishou auto-exculta modum taxationis qualitatis video, quae comprehendere potest qualitatem, contentum, scaenam, aestheticam, modum descriptam, auditionem et alias notas percipere. video ad multi-dimensiva aestimationem praestare ) ut humilis qualitas video clips colum. Tota disciplina notitiarum 69M videos includit, identitates 18.9K et 60K imagines statice stylisatas.

Video-imago disciplina hybrid : Exemplar exercitatum utentes tantum imagines realium hominum bene pro realibus hominibus exercet, sed non bene generatim homines stylizatos (sicut anime). Effigies stylatae rariora sunt, cum LivePortrait colligendis tantum de 1.3K clips video ex minus quam 100 identitatum. E contra, imagines excellentes stylizatae picturae abundantiores sunt. LivePortrait de 60K picturas cum diversis identitatibus collegit, varias identitatis notitias praebens. Ut utilitas utriusque speciei data, LivePortrait tractat de unaquaque imagine sicut clipeum video et exemplum docet in utraque simul et in imaginibus. Haec hybrida institutio generalem facultatem exemplaris melioris habet.

Upgraded network compages : LivePortrait unificat retis estimationis canonicae implicitae cardinis (L), caput estimationis retis (H), et expressio deformationis retis aestimationis (Δ), in exemplar unum (M), et utitur ConvNeXt-V2-Tiny[8]. Exstructa est ad recta aestimationem canonicam cardinis implicationem implicitam, caput ponunt et expressionem deformationum imaginum inputium. Praeterea afflatus ab opere vultus vid2vid, LivePortrait efficacius utitur decoder spade [9] ut generans (G). Latentes lineamenta (fs) adamussim in fossura decoder post deformationem pascuntur, ubi quaeque canalis latentis linearum inservit tabula semantica ad imaginem impulsum generandam. Ut efficientiam meliorem efficiant, LivePortrait etiam pixelShuffle inserit[10] tabulatum ut ultimum tabulatum (G), ita resolutionem ab 256 ad 512 augens.

Flexibilis actio transmutationis modeling : Calculus et modus sculpturae originalis cardinis implicitae negligit scalam coefficientem, faciens scalam ut facile discatur in expressionem coefficientem, ac difficiliorem efficiens disciplinam. Ad hanc quaestionem solvendam, LivePortrait factores scalas in sculpturas introducit. LivePortrait invenit scalas projectiones regulares posse ducere ad coefficientes discibiles expressiones nimis flexibiles, adhaesionem efficiens textura cum trans identitates eiectas. Transmutatio igitur, quae a LivePortrait adoptata est, compromissum est inter flexibilitatem et driveability.

Keypoint-duxit implicita keypoint ipsum : Punctum implicitum originalis compagis videtur deesse facultatem ad graphice depellendi expressiones vultus, ut ictuum motus oculique. Speciatim directio oculi et capitis orientatio imaginis in pulsis eventibus tendunt ad parallelas manere. Has limitationes difficultas invisitatae eruditionis subtilium vultus attribuit LivePortrait. Ad hanc problema solvendam, LivePortrait puncta 2D inducit ad capiendas voces parvas, utens cardinis amissionis (Lguide) tamquam dux optimiizationis cardinis implicitae.

Caesar munus damnum : LivePortrait utitur facie vid2vid implicitae keypunctum invariatum damnum (LE), punctum ante damnum (LL), caput ponunt damnum (LH) et deformatio ante damnum (LΔ). Ut ad meliorem textura qualitatis, LivePortrait utitur damnis sensibilibus et GAN, quae non solum ad global regione imaginis inputationis applicantur, sed etiam ad loci oris orisque dominium, ut casus perceptualis iacturae (LP, cascades memorantur. ) and cascade GAN. Facies et os regiones ab 2D cardibus semanticis definiuntur. LivePortrait etiam utitur faciei detrimentum identitatis (Lfaceid) ad identitatem relationis imaginis servandam.

Omnes moduli in primo gradu de integro exercitati sunt, et altiore optimizationis disciplina functio (Lbase) est summa ponderata superiorum terminorum dispendii.

Secundum tempus idoneum et redirect moduli disciplina

LivePortrait tractat puncta implicata sicut deformatio hybrida implicita, et invenit hanc coniunctionem melius cognosci posse ope levis ponderis MLP et sumptus computational neglegendus est. Considerans necessitates actuales, LivePortrait designatus aptus modulus, redirectio oculi moduli et oris redirectio moduli. Cum relatio effigies decerpta est, imago eiectae conglutinabitur ad spatium imaginis originalis a segete spatio. Quam ob rem, LivePortrait actio agitatae potest pro amplioribus magnitudinis picturae vel globi imagines. Oculus retargetationis moduli ordinatur ad solvendam problema clausurae incompletae oculi cum trans identitates impellit, praesertim cum effigies parva oculis magnis oculis imaginem agit. Consilium ideae moduli oris redirectionis similis est cum moduli redirectionis oculi. Initus normalizet emittentes os imaginis in statu clauso ad meliorem gubernationem.

Secundus gradus disciplinae exemplaris: decens et redirectio moduli disciplina

fit modulus In disciplina processus, initibus moduli congruentis (S) sunt cardines implicati (x) imaginis relativae et cardinis identitatis alterius compaginis identitatis agitatae (xd) et impulsus cardinis implicati (xd. ) Quantitas expressionis mutatio aestimatur (Δst). Ex his constare potest quod, dissimilis primae scaenae, LivePortrait utitur actionibus transversis identitatis, ut actiones eiusdem identitatis reponere possint ad difficultatem disciplinae augendam, intentum ut convenienti moduli rationem habeant melioris generalisationi. Deinceps auriga cardui (xd) implicatus renovatur, et respondens exactoris output est (Ip, st). LivePortrait etiam imagines auto-reconstructae (Ip, recondunt) in hac scaena. Denique munus amissum (Lst) moduli convenientis computat pixel constantiam amissionem duorum arearum humeri et regularizationis amissionem convenientis variationis.

Oculus et os Amicus moduli : Initus oculi moduli reorientationis (Reyes) est relatio imaginis implicitae punctus clavis (xs), relatio imaginis oculi aperturae conditionis tuple et oculus foramen coefficiens temere incessus, ita deformatio aestimans quantitatis clavem incessus (Δoculi ). Aperiens autem tuplum oculum, rationem aperit oculi, et quo major est, eo majorem aperit oculum. Similiter initus oris redirectionis moduli (Rlip) sunt puncta implicata (xs) relationis imaginis, conditio oris aperti coëfficiens relationis imaginis et os foramen coefficiens temere impellens, et cardinis impulsus aestimantur e haec Moles mutationis (Δlip). Deinde incessus cardinis (xd) renovantur per deformationem correspondentium oculorum et oris respective mutationibus, et emissiones cinematographicas correspondentes sunt (Ip, oculi) et (Ip, labium). Denique functiones obiectivas modulorum oculi et oris retargetationis sunt (Leyes) et (Llip) respective, quae pixel calculant constantiam deminutio oculi et oris areae, de iactura regularizationis oculi et oris variatio, et temere detrimentum. Damnum inter coegi coefficientem et condicionem aperientem coefficiens output coegi. Oculus et os mutantur (oculi) et (Δlip) inter se independentes, ideo in consequenti periodo linealiter addi et renovari possunt ad cardines implicatos impellendos.

Comparatio experimentalis

eadem identitate deiectus : Ex supra comparatione eventus eiusdem rectoris identitatis, videri potest quod comparata cum methodo et diffusione exemplaris methodi et diffusionis exemplaris fundati, LivePortrait melius generationis qualitatem et accurationem agens, et subtilia singularia capere potest. oculi autem et os infixi sunt. Etiam in capitis habitu amplioribus, LivePortrait stabiliorem effectum habet.

Crucem-identitatem eiectus : Ex supra crucis identitate coegi comparationem consequitur, videri potest quod comparatio cum methodis existentibus, LivePortrait subtilis oculi et motus oris in video aurigantis accurate possidere potest, et etiam relative stabilis cum magna positione est. LivePortrait paulo infirmior est quam diffusio exemplaris methodi AniPortrait 11 in terminis generationis qualitatis, sed cum posteriori comparata, LivePortrait habet efficaciam maxime velocissimam et pauciores FLOPs requirit.

expand

Multiplayer repulsi: Gratias congruo modulo LivePortrait, pro globorum imaginibus, LivePortrait uti potest certa coegi videos ut facies certas ejicere, ita animadvertens multi-personam pellere photo et dilatare applicationem LivePortrait.

animalis coegi: LivePortrait non solum bonum generale pro imaginibus habet, sed etiam ad imagines animalium accurate impelli potest postquam subtiliter-tuning in notitias animalium ponit.

Effigies video edendis : Praeter imagines photographicas, quae imago video posita est, ut video choreas, LivePortrait uti potest cinematographicum motum ad perficiendum motum in capite area editum. Pro modulo congruo, LivePortrait accurate motus in area capitis recensere potest, ut expressiones, habitus, etc., sine imaginibus afficiens in locis non-capitis.

Exsequendam ac spe

Puncta technica vivePortrait cognata in multis negotiis Kuaishou's effecta sunt, in quibusKuaishou vigilia magica, Kuaishou nuntius privatus, Kuaishou's AI ludus emoticon, Kuaishou passim vivunt, et Puji APP incubatis pro iuvenibus Kuaishou etc., et novas exsecutionis rationes explorabit ut valorem pro usoribus faciendis perseveret. Praeterea, LivePortrait ulterius explorabit multi-modales imagines videndi eiectis generationis in Keling exemplar fundamentalibus innixum, ut effectus altiores qualitates persequantur.

references

[1] Ting-Chun Wang, Arun Mallya, et Ming-Yu Liu. Unum iactum liberum visum neuralis colloquentis capitis synthesis pro collatione video. IN CVPR, MMXXI.

[2] Arsha Nagrani, Joannes Chung Filius, et Andreas Zisseman. Voxceleb: permagna loquentis identificatio dataset. In Conloquio, MMXVII.

[III] Kaisiyuan Wang, Qianyi Wu, Linsen Song, Zhuoqian Yang, Wayne Wu, Chen Qian, Ran ipse, Yu Qiao, et Chen Muta Loy. Mead: Magna-scalae dataset audio-visualis ad motus loquentes faciei generationis. Anno ECCV, MMXX.

[4] Stephanus R Livingstone et Francus A Russo. In ryerson soni audio-visualis datorum motus loquelae et cantus (ravdess): dynamica, multimodalia locutionum faciei et vocalium in Anglico Americano septentrionali. In PloS unus, 2018

[V] Mingcong Liu, Qiang Li, Zekui Qin, Guoxin Zhang, Pengfei Wan, et Wen Zheng. Blendgan: Implicite sil mixtura pro arbitrario stylised faciem generationis. Apud NeurIPS, MMXXI.

[VI] Haotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang, et Chongyang Ma. Ad captationem practicam summus avatars fidelitas probabilis. IN SIGGRAPH ASIA, MMXXIII.

[VII] Kai Zhao, Kun Yuan, Ming sol, Mading Li, et Xing Wen. Qualitas conscius praeexercitatus exemplaria ad imaginem caecam qualitatis

taxationem. IN CVPR, MMXXIII.

[VIII] Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In Ita Kweon, et Saining Xie. Con-

vnext v2: Co-signans et scalas convnetes cum autoencoders personatus. IN CVPR, MMXXIII.

[9] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, et Iun-Yan Zhu. Semantica imaginis synthesis cum ordinatione localiter adaptiva. In CVPR, MMXIX.

[10] Wenzhe Shi, Iosephus Caballero, Ferenc Husz ´ar, Johannes Totz, Andreas P Aitken, Rob Episcopi, Daniel Rueckert, Zehan Wang. Real-time una imago et video super-resolutio utens retis neuralis convolutionis sub-pixelis efficientis. IN CVPR, MMXVI.

[XI] Huawei Wei, Zejun Yang, et Zhisheng Wang. Aniportrait: Audio-acti synthesis imaginis photorealisticae animationis. arXiv preprint:2403.17694,2024.

nuntium

Kuaishou fons apertus LivePortrait, GitHub 6.6K Sidus, ut migrationem vocum et habituum valde celerem consequi.

Introductio

mihi contactus notitia