notizia

L'ultimo progetto open source del team Kuaishou Keling è popolare: lo zio si trasforma in una ragazza, GitHub si accaparra 7.5K stelle

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Fuori classifica! ! Chi avrebbe mai saputo che la bellissima ragazza era in realtà uno zio senza guardare la versione completa del video.

[Il video non può essere inserito qui, purtroppo...puoi verificarlo sull'account ufficiale di Qubit~]

Ok, a quanto pare è stato fatto utilizzando il team Kuaishou Keling.Framework di generazione video con ritratto controllabile——Ritratto dal vivo.

LivePortrait è diventato un successo immediato come open source ed è stato ampiamente utilizzato su GitHub in un breve periodo di tempo.7.5KMarchio della stella.

Ha attirato anche Thomas Wolf, Chief Strategy Officer di HuggingFace, a sperimentarlo di persona:



Attualmente è addirittura classificato tra tutte le app HuggingFace.Prima la tendenza



Allora perché LivePortrait attira così tanta attenzione?

Cominciamo con le sue prestazioni accattivanti...

Sia l'espressione "trasferimento"

LivePortrait è open source del Kuaishou Keling Big Model Team e richiede solo1 immagine originalePuoi generare video dinamici.



Diamo prima un’occhiata a una serie di risultati ufficiali.

dapiù semplicePer iniziare, inserisci un'immagine statica e LivePortrait può far battere le palpebre, sorridere o girare la testa.

Può ancora essere utilizzato"corruzione", cioè copiare espressioni, dinamiche, ecc. ad altre persone, o non limitarsi allo stile (realismo, pittura a olio, scultura, rendering 3D) e alle dimensioni~



Naturalmente, questa "magia"Non limitato a una sola persona , non è impossibile avere un ritratto di famiglia. [doge]



Oltre a passare dall'immagine statica al video, possiamo anche realizzareuno o più videoRealizzare la "tecnica di potenziamento del sorriso".

Ad esempio, se forniamo un video di un bambino senza espressione (all'estrema destra), possiamo lasciare che il bambino faccia l'occhiolino o sorrida in base al video di riferimento.



A proposito, non si limita solo ai ritratti di persone, cani e gatti possono anche iniziare ad agire in modo civettuolo e carino.



In breve, LivePortrait può raggiungereControllo preciso delle espressioni dei caratteri, come la curvatura verso l'alto degli angoli della bocca e il grado di ingrandimento degli occhi, possono essere attivati ​​e selezionati.

Dare un esempioCastagnafiglio, i seguenti due sono i cambiamenti nella dimensione degli occhi dei personaggi in base alle diverse impostazioni dei parametri:





Sembra che le "tre parti di freddezza, tre parti di ridicolo e quattro parti di spensieratezza" nel romanzo non siano impossibili da raggiungere. [doge]

Non so se sei commosso dopo aver letto questo. Comunque, i netizen non riescono a fermare il loro entusiasmo.

Ad esempio, aggiungi un trucco luminoso per creare delle facce, come in un film horror:



Un altro esempio è trasformarsi in una scimmia a due spine in tempo reale:



Dopo aver letto questi esempi, approfondiamo i principi tecnici alla base.

Framework open source caldo

Diversamente dagli attuali metodi mainstream basati su modelli di diffusione, LivePortrait esplora ed espandeQuadro basato su punti chiave implicitipotenziale.

Nello specifico, LivePortrait non si basa su indicatori o punti caratteristici esplicitamente visibili nell'immagine, ma deduce invece implicitamente la posizione dei punti chiave apprendendo modelli nel set di dati.

Su questa base, adotta LivePortraitdue fasiAddestra il modello da zero.

Parliamo prima della prima fase. LivePortrait ha apportato una serie di miglioramenti ai framework basati su punti impliciti (come Face Vid2vid).



Questi miglioramenti includonoOrdinamento dei dati di alta qualità, formazione mista di immagini e video, architettura di rete aggiornata, trasformazione del movimento scalabile, ottimizzazione dei punti chiave impliciti guidata dai punti di riferimento e applicazione di termini di perdita in cascata, ecc.

Con questi, la capacità di generalizzazione, la capacità di espressione e la qualità della trama del modello possono essere ulteriormente migliorate.

Parliamo della seconda fase. Attraverso l'addestramento del modulo di adattamento e del modulo di reindirizzamento, il modello può gestire i dettagli delle espressioni facciali in modo più accurato.



Adatta il moduloMigliora la generalizzazione attraverso l'addestramento all'azione di identità incrociate, stima i cambiamenti di espressione e ottimizza i punti chiave.

Modulo di reindirizzamento degli occhi e della boccaI cambiamenti di deformazione degli occhi e della bocca vengono elaborati separatamente e la consistenza dei pixel e la perdita di regolarizzazione vengono calcolate attraverso funzioni obiettivo indipendenti per migliorare la flessibilità e l'accuratezza del modello nell'elaborazione di espressioni complesse.

Quindi, come si comporta nello specifico LivePortrait?

La ricerca lo dimostraStessi risultati di confronto basati sull'identità, Rispetto ai metodi esistenti, LivePortrait offre una migliore qualità di generazione e precisione di guida e può catturare le sottili espressioni degli occhi e della bocca del fotogramma di guida preservando la trama e l'identità dell'immagine di riferimento.





e dentroRisultati del confronto basato su identità incrociate Funziona bene, anche se la qualità della sua generazione è leggermente inferiore rispetto al metodo AniPortrait basato sul modello di diffusione. Ma rispetto a quest'ultimo, LivePortrait ha un'efficienza di inferenza estremamente rapida e richiede meno FLOP.





Nel complesso, sulla GPU RTX 4090, LivePortrait ha generato velocità di12,8 millisecondi per fotogramma, significativamente più alto rispetto ai metodi del modello di diffusione esistenti.

Un'altra cosa

Aggiungi un ultimo avviso ufficiale: Keling AI sta per farloa livello globalelanciare i suoi servizi.

Sora non è ancora arrivata, ma questa volta Ke Ling è uscito per primo~