notizia

La clonazione della voce raggiunge il livello umano, il nuovo modello VALL-E 2 di Microsoft rende DeepFake paragonabile ai doppiatori

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Editore: Qiao Yang

[Introduzione alla Nuova Saggezza]Dopo il modello VALL-E di prima generazione all'inizio dello scorso anno, Microsoft ha recentemente lanciato il nuovo modello VALL-E 2, segnando il primo modello di sintesi vocale che raggiunge livelli umani in termini di robustezza, somiglianza e naturalezza del discorso sintetizzato .

Recentemente, Microsoft ha rilasciato il modello di sintesi vocale (TTS) a campione zero VALLE-2, che ha raggiunto per la prima volta lo stesso livello degli esseri umani. Si può dire che sia una pietra miliare nel campo del TTS.


Indirizzo del documento: https://arxiv.org/pdf/2406.05370

Con il rapido progresso del deep learning negli ultimi anni, i modelli di addestramento che utilizzano il parlato pulito di una sola persona in uno studio di registrazione hanno raggiunto lo stesso livello di qualità degli esseri umani, ma il TTS a campione zero è ancora un problema impegnativo.

"Campione zero" significa che durante il processo di inferenza, il modello può fare riferimento solo a un breve campione vocale non familiare e pronunciare il contenuto del testo con la stessa voce, proprio come un ventriloquo che può imitare in tempo reale.

Dopo aver sentito questo, mi chiedo se verrai improvvisamente avvisato: un modello con questa capacità è lo strumento migliore per Deepfake!

È gratificante che MSRA abbia preso in considerazione questo aspetto. Attualmente utilizza la serie VALL-E solo come progetto di ricerca e non ha intenzione di incorporarla nei prodotti o di espanderne l'uso.

Sebbene VALL-E 2 abbia forti capacità di apprendimento a campione zero e possa imitare le voci come un doppiatore, la somiglianza e la naturalezza dipendono dalla lunghezza e dalla qualità del messaggio vocale, dal rumore di fondo e da altri fattori.

Nella pagina del progetto e nell'articolo, l'autore ha fatto una dichiarazione etica: se vuoi promuovere VALL-E nelle applicazioni del mondo reale, hai bisogno almeno di un potente modello sintetico di rilevamento del parlato e di progettare un meccanismo di autorizzazione per garantire che il modello può sintetizzare il parlato Previamente approvato dal proprietario del suono.

Alcuni cittadini della rete hanno espresso grande disappunto per la pratica di Microsoft di pubblicare solo documenti ma non prodotti.


Del resto il recente ribaltamento di vari prodotti ci ha fatto comprendere profondamente che il solo guardare la demo è del tutto inaffidabile, e non c'è modo di provarla di persona = niente.


Ma alcune persone su Reddit hanno ipotizzato che Microsoft semplicemente non volesse essere "la prima a mangiare i granchi" e che non avesse rilasciato il modello perché temeva possibili critiche e un'opinione pubblica negativa.

Una volta che ci sarà un modo per trasformare VALL-E in un prodotto, o quando altri prodotti concorrenti appariranno sul mercato, ti preoccuperai ancora se Microsoft guadagnerà soldi?



In effetti, come hanno detto gli utenti della rete, a giudicare dalla demo attualmente pubblicata sulla pagina del progetto, è difficile giudicare il vero livello di VALL-E.


Pagina del progetto: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

Un totale di 5 testi sono brevi frasi inglesi di non più di 10 parole. Le voci dei comandi vocali sono molto simili e gli accenti inglesi non sono abbastanza diversi.

Anche se non ci sono molte demo, puoi vagamente avere la sensazione che il modello sia molto bravo nell'imitare gli accenti britannici e americani. Tuttavia, se il messaggio ha un leggero accento indiano o scozzese, sarà difficile raggiungere il livello di autenticità.

metodo

Il predecessore del modello, VALL-E, è stato rilasciato all'inizio del 2023 e rappresenta già un importante passo avanti per TTS a zero campioni. VALL-E è in grado di sintetizzare un parlato personalizzato da registrazioni di 3 secondi preservando la voce, le emozioni e l'ambiente acustico di chi parla.

Tuttavia, VALL-E presenta due limitazioni principali:

1) Stabilità: il campionamento casuale utilizzato nel processo di inferenza può rendere l'output instabile e il campionamento del kernel con un valore top-p piccolo può causare problemi di loop infinito. Sebbene possa essere alleviato dal campionamento multiplo e dal successivo ordinamento, ciò aumenterà il costo computazionale.

2) Efficienza: l'architettura autoregressiva di VALL-E è vincolata agli stessi frame rate elevati dei modelli di codec audio standard e non può essere regolata, con conseguente inferenza più lenta.

Sebbene siano stati condotti numerosi studi volti a migliorare questi problemi di VALL-E, essi spesso complicano l’architettura complessiva del modello e aumentano l’onere di aumentare la dimensione dei dati.

Basandosi su questo lavoro precedente, VALL-E 2 contiene due innovazioni chiave: campionamento consapevole della ripetizione e modellazione del codice raggruppato.

Il campionamento consapevole della ripetizione rappresenta un miglioramento del campionamento casuale in VALL-E. Può adottare in modo adattivo il campionamento casuale o il campionamento nucleare. La selezione si basa sulle ripetizioni dei token precedenti, alleviando così efficacemente il problema del ciclo infinito di VALL-E stabilità.


Descrizione algoritmica del campionamento percettivo ripetuto

La modellazione del codice raggruppato divide il codice del codec in più gruppi e ciascun gruppo è modellato su un singolo fotogramma durante l'autoregressione. Non solo riduce la lunghezza della sequenza e accelera l'inferenza, ma migliora anche le prestazioni alleviando i problemi di modellazione del contesto lungo.

Vale la pena notare che VALL-E 2 richiede solo semplici dati di testo trascritto a voce per l'addestramento e non richiede dati complessi aggiuntivi, il che semplifica notevolmente il processo di raccolta ed elaborazione dei dati e migliora la potenziale scalabilità.

Nello specifico, per ogni porzione di dati di testo vocale nel set di dati, vengono utilizzati un codificatore di codec audio e un tokenizzatore di testo per rappresentarlo come codice codec = [0,1,…,(−1 )] e sequenza di testo = [0 ,1,…,(−1)] per l'addestramento di modelli autoregressivi (AR) e non autoregressivi (NAR).


Entrambi i modelli AR e NAR utilizzano l'architettura Transformer e sono state progettate quattro varianti per successivi esperimenti di valutazione per il confronto. Condividono lo stesso modello NAR, ma le dimensioni dei gruppi dei modelli AR sono rispettivamente 1, 2, 4, 8.

Anche il processo di ragionamento è una combinazione di modelli AR e NAR. In base alla sequenza di testo e al suggerimento del codice <′,0, viene generata la prima sequenza di codice con il codice di destinazione ≥′,0, quindi viene generato il codice di destinazione di ciascun gruppo utilizzando il metodo autoregressivo.


Data la sequenza ≥′,0, il modello NAR può essere dedotto utilizzando condizioni testuali e condizioni acustiche 〈′ per generare le restanti sequenze di codice target ≥′,≥1.

La formazione del modello utilizza i dati del corpus Libriheavy, che contiene 50.000 ore di discorso di 7.000 persone che leggono audiolibri inglesi. La segmentazione delle parole del testo e del parlato utilizza rispettivamente BPE e il modello pre-addestrato open source EnCodec.

Inoltre, il modello pre-addestrato open source Vocos viene utilizzato anche come decodificatore audio per la generazione del parlato.

Valutare

Per verificare se l'effetto di sintesi vocale del modello può raggiungere lo stesso livello di quello umano, la valutazione utilizza due indicatori soggettivi, SMOS e CMOS, e utilizza il parlato umano reale come verità fondamentale.

SMOS (Similarity Mean Opinion Score) viene utilizzato per valutare la somiglianza tra il discorso e il suggerimento originale. L'intervallo di punteggio va da 1 a 5, con un incremento di 0,5 punti.

CMOS (Comparative Mean Opinion Score) viene utilizzato per valutare la naturalezza del discorso sintetizzato rispetto a un dato discorso di riferimento. L'intervallo di scala è -3~3, con un incremento di 1.


Secondo i risultati nella Tabella 2, il punteggio soggettivo di VALL-E 2 non solo supera quello del VALL-E di prima generazione, ma ha anche prestazioni migliori rispetto al parlato umano reale.

Inoltre, il documento utilizza anche indicatori oggettivi come SIM, WER e DNSMOS per valutare la somiglianza, la robustezza e la qualità percettiva complessiva del parlato sintetizzato.


In questi tre indicatori oggettivi, indipendentemente da come viene impostata la dimensione del gruppo di VALL-E 2, c'è un miglioramento a tutto tondo rispetto a VALL-E. Anche i punteggi WER e DNSMOS sono migliori del vero linguaggio umano, ma c'è ancora un certo divario nel punteggio SIM.

Inoltre, dai risultati nella Tabella 3 si può anche scoprire che quando la dimensione del gruppo di modelli AR di VALL-E 2 è 2, è possibile ottenere l'effetto ottimale.

Conclusioni simili possono essere ottenute dalla valutazione del set di dati VCTK. Quando la lunghezza del prompt aumenta, il metodo di modellazione del codice raggruppato può ridurre la lunghezza della sequenza e alleviare gli errori di generazione causati dal meccanismo di attenzione errato nell'architettura Transformer, migliorando così il punteggio WER.


Circa l'autore

Il primo autore di questo articolo, Chen Sanyuan, è un dottorato di ricerca formato congiuntamente dall'Harbin Institute of Technology e da Microsoft Research Asia. Dal 2020 lavora come ricercatore stagista presso il MSRA Natural Language Computing Group. I suoi interessi di ricerca sono principalmente pre-qualificati. modelli linguistici per l'elaborazione del parlato e dell'audio.


Riferimenti:

https://arxiv.org/abs/2406.05370