Nachricht

Das Klonen von Stimmen erreicht menschliches Niveau, Microsofts neues VALL-E 2-Modell macht DeepFake mit Synchronsprechern vergleichbar

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Qiao Yang

[Einführung in die neue Weisheit]Nach dem VALL-E-Modell der ersten Generation Anfang letzten Jahres brachte Microsoft kürzlich das neue VALL-E 2-Modell auf den Markt und markierte damit das erste Text-to-Speech-Modell, das in Bezug auf Robustheit, Ähnlichkeit und Natürlichkeit synthetisierter Sprache menschliches Niveau erreicht .

Kürzlich hat Microsoft das Zero-Sample-Text-to-Speech-Modell (TTS) VALLE-2 veröffentlicht, das erstmals das gleiche Niveau wie Menschen erreicht. Man kann sagen, dass es sich um einen Meilenstein auf dem Gebiet der TTS handelt.


Papieradresse: https://arxiv.org/pdf/2406.05370

Mit den rasanten Fortschritten des Deep Learning in den letzten Jahren haben Trainingsmodelle mit sauberer Ein-Personen-Sprache in einer Aufnahmestudioumgebung das gleiche Qualitätsniveau wie Menschen erreicht, aber Zero-Sample-TTS ist immer noch ein herausforderndes Problem.

„Nullprobe“ bedeutet, dass sich das Modell während des Inferenzprozesses nur auf eine kurze, unbekannte Sprachprobe beziehen und den Textinhalt mit derselben Stimme sprechen kann, genau wie ein Bauchredner, der in Echtzeit nachahmen kann.

Nachdem ich das gehört habe, frage ich mich, ob Sie plötzlich alarmiert werden – ein Modell mit dieser Fähigkeit ist das beste Werkzeug für Deepfake!

Es ist erfreulich, dass MSRA dies berücksichtigt hat. Sie nutzen die VALL-E-Serie derzeit nur als Forschungsprojekt und haben keine Pläne, sie in Produkte zu integrieren oder ihre Verwendung auszuweiten.

Obwohl VALL-E 2 über starke Zero-Sample-Lernfähigkeiten verfügt und Stimmen wie ein Synchronsprecher imitieren kann, hängen die Ähnlichkeit und Natürlichkeit von der Länge und Qualität der Sprachaufforderung, Hintergrundgeräuschen und anderen Faktoren ab.

Auf der Projektseite und im Papier hat der Autor eine ethische Erklärung abgegeben: Wenn Sie VALL-E für reale Anwendungen fördern möchten, benötigen Sie mindestens ein leistungsstarkes Erkennungsmodell für synthetische Sprache und entwerfen einen Autorisierungsmechanismus, um dies sicherzustellen Das Modell kann Sprache synthetisieren. Vorher vom Toneigentümer genehmigt.

Einige Internetnutzer äußerten ihre große Enttäuschung über die Praxis von Microsoft, nur Papiere, aber keine Produkte zu veröffentlichen.


Schließlich hat uns der jüngste Umsturz verschiedener Produkte zutiefst klar gemacht, dass es völlig unzuverlässig ist, sich nur die Demo anzuschauen, und dass es keine Möglichkeit gibt, es selbst auszuprobieren = nichts.


Aber einige Leute auf Reddit spekulierten, dass Microsoft einfach nicht „der Erste sein wollte, der Krabben isst“ und dass es das Modell nicht veröffentlichte, weil es Angst vor möglicher Kritik und negativer öffentlicher Meinung hatte.

Wenn es eine Möglichkeit gibt, VALL-E in ein Produkt umzuwandeln, oder andere Konkurrenzprodukte auf den Markt kommen, werden Sie sich dann immer noch Sorgen darüber machen, ob Microsoft Geld verdienen wird?



Wie Internetnutzer sagten, ist es angesichts der derzeit auf der Projektseite veröffentlichten Demo schwierig, das wahre Niveau von VALL-E zu beurteilen.


Projektseite: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

Bei den insgesamt 5 Texten handelt es sich um kurze englische Sätze mit maximal 10 Wörtern. Die Stimmen der Sprachansagen sind sehr ähnlich und die englischen Akzente sind nicht vielfältig genug.

Obwohl es nicht viele Demos gibt, kann man vage spüren, dass das Modell sehr gut darin ist, britische und amerikanische Akzente zu imitieren. Wenn die Ansage jedoch einen leichten indischen oder schottischen Akzent hat, wird es schwierig sein, das Maß an Authentizität zu erreichen.

Methode

Der Vorgänger des Modells, VALL-E, wurde Anfang 2023 veröffentlicht und stellt bereits in Nullproben einen großen Durchbruch für TTS dar. VALL-E ist in der Lage, personalisierte Sprache aus 3-Sekunden-Aufnahmen zu synthetisieren und dabei die Stimme, Emotionen und akustische Umgebung des Sprechers zu bewahren.

Allerdings weist VALL-E zwei wesentliche Einschränkungen auf:

1) Stabilität: Zufällige Stichproben, die im Inferenzprozess verwendet werden, können dazu führen, dass die Ausgabe instabil wird, und Kernel-Stichproben mit einem kleinen Top-P-Wert können zu Endlosschleifenproblemen führen. Obwohl dies durch mehrfache Stichprobenentnahme und anschließende Sortierung gemildert werden kann, erhöht sich dadurch der Rechenaufwand.

2) Effizienz: Die autoregressive Architektur von VALL-E ist an die gleichen hohen Bildraten gebunden wie handelsübliche Audio-Codec-Modelle und kann nicht angepasst werden, was zu einer langsameren Inferenz führt.

Obwohl es viele Studien zur Verbesserung dieser Probleme von VALL-E gibt, verkomplizieren sie häufig die Gesamtarchitektur des Modells und erhöhen den Aufwand bei der Skalierung der Datengröße.

Basierend auf dieser früheren Arbeit enthält VALL-E 2 zwei wichtige Neuerungen: wiederholungsbewusstes Sampling und gruppierte Codemodellierung.

Die wiederholungsbewusste Stichprobe ist eine Verbesserung gegenüber der Zufallsstichprobe in VALL-E. Die Auswahl basiert auf früheren Token-Wiederholungen, wodurch das Endlosschleifenproblem von VALL-E erheblich verbessert wird Stabilität.


Algorithmische Beschreibung wiederholter Wahrnehmungsproben

Bei der gruppierten Codemodellierung wird der Codec-Code in mehrere Gruppen unterteilt, und jede Gruppe wird während der Autoregression auf einem einzelnen Frame modelliert. Es reduziert nicht nur die Sequenzlänge und beschleunigt die Inferenz, sondern verbessert auch die Leistung, indem es Probleme bei der Modellierung langer Kontexte lindert.

Es ist erwähnenswert, dass VALL-E 2 für das Training nur einfache sprachtranskribierte Textdaten und keine zusätzlichen komplexen Daten erfordert, was den Datenerfassungs- und -verarbeitungsprozess erheblich vereinfacht und die potenzielle Skalierbarkeit verbessert.

Insbesondere werden für jedes Sprachtextdatenstück im Datensatz ein Audio-Codec-Encoder und ein Text-Tokenizer verwendet, um es als Codec-Code = [0,1,…,(−1 )] und Textsequenz = [0 ,1,…,(−1)] für das Training autoregressiver (AR) und nicht-autoregressiver (NAR) Modelle.


Sowohl AR- als auch NAR-Modelle nutzen die Transformer-Architektur, und zum Vergleich wurden vier Varianten für nachfolgende Evaluierungsexperimente entworfen. Sie nutzen das gleiche NAR-Modell, aber die Gruppengrößen der AR-Modelle betragen jeweils 1, 2, 4 und 8.

Der Argumentationsprozess ist ebenfalls eine Kombination aus AR- und NAR-Modellen. Basierend auf der Textsequenz und dem Codehinweis <′,0 wird die erste Codesequenz mit dem Zielcode ≥′,0 generiert, und dann wird der Zielcode jeder Gruppe mithilfe der autoregressiven Methode generiert.


Bei gegebener Sequenz ≥′,0 kann das NAR-Modell unter Verwendung von Textbedingungen und akustischen Bedingungen 〈′ abgeleitet werden, um die verbleibenden Zielcodesequenzen ≥′,≥1 zu generieren.

Beim Modelltraining werden Daten aus dem Libriheavy-Korpus verwendet, der 50.000 Sprachstunden von 7.000 Personen enthält, die englische Hörbücher lesen. Die Wortsegmentierung von Text und Sprache verwendet BPE bzw. das vorab trainierte Open-Source-Modell EnCodec.

Darüber hinaus wird das vorab trainierte Open-Source-Modell Vocos auch als Audio-Decoder für die Spracherzeugung verwendet.

Auswerten

Um zu überprüfen, ob der Sprachsyntheseeffekt des Modells das gleiche Niveau wie beim Menschen erreichen kann, verwendet die Bewertung zwei subjektive Indikatoren, SMOS und CMOS, und verwendet echte menschliche Sprache als Grundwahrheit.

SMOS (Similarity Mean Opinion Score) wird verwendet, um die Ähnlichkeit zwischen Sprache und der ursprünglichen Aufforderung zu bewerten. Der Bewertungsbereich liegt zwischen 1 und 5 mit einer Erhöhung von 0,5 Punkten.

CMOS (Comparative Mean Opinion Score) wird verwendet, um die Natürlichkeit synthetisierter Sprache im Vergleich zu einer bestimmten Referenzsprache zu bewerten. Der Skalenbereich beträgt -3 bis 3 mit einer Schrittweite von 1.


Den Ergebnissen in Tabelle 2 zufolge übertrifft der subjektive Wert von VALL-E 2 nicht nur den des VALL-E der ersten Generation, sondern schneidet sogar besser ab als echte menschliche Sprache.

Darüber hinaus verwendet das Papier auch objektive Indikatoren wie SIM, WER und DNSMOS, um die Ähnlichkeit, Robustheit und allgemeine Wahrnehmungsqualität synthetisierter Sprache zu bewerten.


Bei diesen drei objektiven Indikatoren gibt es unabhängig von der Gruppengröße von VALL-E 2 eine umfassende Verbesserung im Vergleich zu VALL-E. Die WER- und DNSMOS-Werte sind ebenfalls besser als bei echter menschlicher Sprache, aber es gibt immer noch eine gewisse Lücke im SIM-Score.

Darüber hinaus geht aus den Ergebnissen in Tabelle 3 hervor, dass der optimale Effekt erzielt werden kann, wenn die AR-Modellgruppengröße von VALL-E 2 2 beträgt.

Ähnliche Schlussfolgerungen lassen sich aus der Auswertung des VCTK-Datensatzes ziehen. Wenn die Eingabeaufforderungslänge zunimmt, kann die gruppierte Code-Modellierungsmethode die Sequenzlänge reduzieren und die durch den falschen Aufmerksamkeitsmechanismus in der Transformer-Architektur verursachten Generierungsfehler lindern, wodurch der WER-Score verbessert wird.


Über den Autor

Der Erstautor dieses Artikels, Chen Sanyuan, ist ein gemeinsam am Harbin Institute of Technology und Microsoft Research Asia ausgebildeter Doktorand. Seit 2020 ist er als Praktikant in der MSRA Natural Language Computing Group tätig. Seine Forschungsinteressen liegen hauptsächlich vor der Ausbildung Sprachmodelle für die Sprach- und Audioverarbeitung.


Verweise:

https://arxiv.org/abs/2406.05370