nouvelles

Le clonage vocal atteint le niveau humain, le nouveau modèle VALL-E 2 de Microsoft rend DeepFake comparable aux doubleurs

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nouveau rapport de sagesse

Editeur : Qiao Yang

[Introduction à la nouvelle sagesse]Après le modèle VALL-E de première génération au début de l'année dernière, Microsoft a récemment lancé le nouveau modèle VALL-E 2, marquant la première synthèse vocale qui atteint les niveaux humains en termes de robustesse, de similarité et de naturel du modèle de synthèse vocale. .

Récemment, Microsoft a publié le modèle de synthèse vocale (TTS) sans échantillon VALLE-2, qui a atteint pour la première fois le même niveau que les humains. Cela peut être considéré comme une étape importante dans le domaine de la TTS.


Adresse papier : https://arxiv.org/pdf/2406.05370

Avec les progrès rapides de l'apprentissage profond ces dernières années, les modèles de formation utilisant la parole claire d'une seule personne dans un environnement de studio d'enregistrement ont atteint le même niveau de qualité que celui des humains, mais le TTS à échantillon nul reste un problème difficile.

« Échantillon zéro » signifie que pendant le processus d'inférence, le modèle ne peut se référer qu'à un court échantillon de parole inconnu et prononcer le contenu du texte avec la même voix, tout comme un ventriloque qui peut imiter en temps réel.

Après avoir entendu cela, je me demande si vous serez soudainement alerté : un modèle doté de cette capacité est le meilleur outil pour Deepfake !

Il est gratifiant que MSRA ait pris cela en considération. Ils n'utilisent actuellement la série VALL-E qu'à titre de projet de recherche et n'ont pas l'intention de l'incorporer dans des produits ou d'étendre son utilisation.

Bien que VALL-E 2 ait de fortes capacités d'apprentissage sans échantillon et puisse imiter les voix comme un doubleur, la similarité et le naturel dépendent de la longueur et de la qualité de l'invite vocale, du bruit de fond et d'autres facteurs.

Sur la page du projet et dans l'article, l'auteur a fait une déclaration éthique : si vous souhaitez promouvoir VALL-E auprès d'applications du monde réel, vous avez besoin d'au moins un puissant modèle de détection de parole synthétique et concevez un mécanisme d'autorisation pour garantir que le modèle peut synthétiser la parole. Pré-approuvé par le propriétaire du son.

Certains internautes ont exprimé leur grande déception face à la pratique de Microsoft consistant à publier uniquement des articles mais pas de produits.


Après tout, le récent renversement de divers produits nous a profondément fait comprendre que le simple fait de regarder la démo n'est absolument pas fiable et qu'il n'y a aucun moyen de l'essayer vous-même = rien.


Mais certaines personnes sur Reddit ont émis l'hypothèse que Microsoft ne voulait tout simplement pas être "le premier à manger des crabes" et qu'il n'avait pas publié le modèle parce qu'il s'inquiétait d'éventuelles critiques et d'une opinion publique négative.

Une fois qu'il existera un moyen de transformer VALL-E en un produit, ou que d'autres produits concurrents apparaîtront sur le marché, vous demanderez-vous toujours si Microsoft gagnera de l'argent ?



En effet, comme l'ont dit les internautes, à en juger par la démo actuellement diffusée sur la page du projet, il est difficile de juger du véritable niveau de VALL-E.


Page du projet : https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

Au total, 5 textes sont de courtes phrases anglaises de 10 mots maximum. Les voix des invites vocales sont très similaires et les accents anglais ne sont pas suffisamment diversifiés.

Bien qu'il n'y ait pas beaucoup de démos, on sent vaguement que le modèle imite très bien les accents britanniques et américains. Cependant, si l'invite a un léger accent indien ou écossais, il sera difficile d'atteindre le niveau d'authenticité.

méthode

Le prédécesseur du modèle, VALL-E, est sorti début 2023 et constitue déjà une avancée majeure pour le TTS sans échantillon. VALL-E est capable de synthétiser une parole personnalisée à partir d'enregistrements de 3 secondes tout en préservant la voix, l'émotion et l'environnement acoustique de l'orateur.

Cependant, VALL-E présente deux limitations principales :

1) Stabilité : l'échantillonnage aléatoire utilisé dans le processus d'inférence peut rendre la sortie instable, et l'échantillonnage du noyau avec une petite valeur top-p peut entraîner des problèmes de boucle infinie. Bien que cela puisse être atténué par un échantillonnage multiple et un tri ultérieur, cela augmentera le coût de calcul.

2) Efficacité : l'architecture autorégressive de VALL-E est liée aux mêmes fréquences d'images élevées que les modèles de codecs audio disponibles dans le commerce et ne peut pas être ajustée, ce qui entraîne une inférence plus lente.

Bien que de nombreuses études aient été réalisées pour améliorer ces problèmes de VALL-E, elles compliquent souvent l'architecture globale du modèle et augmentent la charge de mise à l'échelle de la taille des données.

Basé sur ces travaux antérieurs, VALL-E 2 contient deux innovations clés : l'échantillonnage sensible à la répétition et la modélisation de code groupé.

L'échantillonnage sensible à la répétition est une amélioration par rapport à l'échantillonnage aléatoire dans VALL-E. Il peut adopter de manière adaptative un échantillonnage aléatoire ou un échantillonnage nucléaire. La sélection est basée sur des répétitions de jetons passées, atténuant ainsi efficacement le problème de boucle infinie de VALL-E. la stabilité.


Description algorithmique de l'échantillonnage perceptuel répété

La modélisation de code groupé divise le code du codec en plusieurs groupes, et chaque groupe est modélisé sur une seule image lors de l'autorégression. Non seulement cela réduit la longueur des séquences et accélère l’inférence, mais il améliore également les performances en atténuant les longs problèmes de modélisation de contexte.

Il convient de noter que VALL-E 2 ne nécessite que de simples données textuelles transcrites pour la formation et ne nécessite pas de données complexes supplémentaires, ce qui simplifie grandement le processus de collecte et de traitement des données et améliore l'évolutivité potentielle.

Plus précisément, pour chaque élément de données de texte vocal de l'ensemble de données, un encodeur de codec audio et un tokeniseur de texte sont utilisés pour le représenter sous la forme d'un code de codec = [0,1,…,(−1 )] et d'une séquence de texte = [0 ,1,…,(−1)] pour la formation de modèles autorégressifs (AR) et non autorégressifs (NAR).


Les modèles AR et NAR utilisent l'architecture Transformer, et quatre variantes ont été conçues pour des expériences d'évaluation ultérieures à des fins de comparaison. Ils partagent le même modèle NAR, mais les tailles de groupe des modèles AR sont respectivement de 1, 2, 4 et 8.

Le processus de raisonnement est également une combinaison de modèles AR et NAR. Sur la base de la séquence de texte et de l'indice de code <′,0, la première séquence de code avec le code cible ≥′,0 est générée, puis le code cible de chaque groupe est généré à l'aide d'une méthode autorégressive.


Étant donné la séquence ≥′,0, le modèle NAR peut être déduit en utilisant des conditions textuelles et acoustiques 〈′ pour générer les séquences de codes cibles restantes ≥′,≥1.

La formation des modèles utilise les données du corpus Libriheavy, qui contient 50 000 heures de discours de 7 000 personnes lisant des livres audio en anglais. La segmentation des mots du texte et de la parole utilise respectivement BPE et le modèle open source pré-entraîné EnCodec.

De plus, le modèle open source pré-entraîné Vocos est également utilisé comme décodeur audio pour la génération vocale.

Évaluer

Afin de vérifier si l'effet de synthèse vocale du modèle peut atteindre le même niveau que celui des humains, l'évaluation utilise deux indicateurs subjectifs, SMOS et CMOS, et utilise la parole humaine réelle comme vérité terrain.

SMOS (Similarity Mean Opinion Score) est utilisé pour évaluer la similarité entre la parole et l'invite d'origine. La plage de scores est de 1 à 5, avec un incrément de 0,5 point.

Le CMOS (Comparative Mean Opinion Score) est utilisé pour évaluer le caractère naturel de la parole synthétisée par rapport à une parole de référence donnée. La plage d'échelle est de -3 à 3, avec un incrément de 1.


Selon les résultats du tableau 2, le score subjectif du VALL-E 2 dépasse non seulement celui du VALL-E de première génération, mais est même plus performant que la parole humaine réelle.

En outre, l'article utilise également des indicateurs objectifs tels que SIM, WER et DNSMOS pour évaluer la similarité, la robustesse et la qualité perceptuelle globale de la parole synthétisée.


Dans ces trois indicateurs objectifs, quelle que soit la taille du groupe VALL-E 2, il y a une amélioration globale par rapport à VALL-E. Les scores WER et DNSMOS sont également meilleurs que la vraie parole humaine, mais il y a quand même. un certain écart dans le score SIM.

De plus, les résultats du tableau 3 montrent également que lorsque la taille du groupe de modèles AR de VALL-E 2 est de 2, l'effet optimal peut être obtenu.

Des conclusions similaires peuvent être obtenues à partir de l’évaluation de l’ensemble de données VCTK. Lorsque la longueur de l'invite augmente, la méthode de modélisation de code groupé peut réduire la longueur de la séquence et atténuer les erreurs de génération provoquées par le mécanisme d'attention incorrect dans l'architecture Transformer, améliorant ainsi le score WER.


A propos de l'auteur

Le premier auteur de cet article, Chen Sanyuan, est titulaire d'un doctorat formé conjointement par le Harbin Institute of Technology et Microsoft Research Asia. Il est chercheur stagiaire au sein du MSRA Natural Language Computing Group depuis 2020. Ses intérêts de recherche sont principalement pré-formés. modèles de langage pour le traitement de la parole et de l’audio.


Les références:

https://arxiv.org/abs/2406.05370