Новости

Клонирование голоса достигает человеческого уровня: новая модель VALL-E 2 от Microsoft делает DeepFake сравнимым с актерами озвучивания

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Монтажер: Цяо Ян

[Введение в новую мудрость]Вслед за моделью VALL-E первого поколения в начале прошлого года Microsoft недавно выпустила новую модель VALL-E 2, ознаменовав первую модель преобразования текста в речь, которая достигает человеческого уровня с точки зрения надежности, сходства и естественности синтезированной речи. .

Недавно Microsoft выпустила модель преобразования текста в речь (TTS) с нулевой выборкой, которая впервые достигла того же уровня, что и люди. Это можно назвать важной вехой в области TTS.


Адрес статьи: https://arxiv.org/pdf/2406.05370.

Благодаря быстрому прогрессу глубокого обучения в последние годы модели обучения с использованием чистой речи одного человека в среде студии звукозаписи достигли того же уровня качества, что и люди, но TTS с нулевой выборкой по-прежнему остается сложной проблемой.

«Нулевая выборка» означает, что в процессе вывода модель может ссылаться только на короткий незнакомый образец речи и произносить текстовое содержимое тем же голосом, как чревовещатель, который может имитировать в реальном времени.

Услышав это, мне интересно, насторожитесь ли вы вдруг: модель с такой способностью — лучший инструмент для Deepfake!

Отрадно, что MSRA приняла это во внимание. В настоящее время они используют серию VALL-E только в качестве исследовательского проекта и не планируют включать ее в свою продукцию или расширять ее использование.

Хотя VALL-E 2 обладает мощными возможностями обучения с нулевой выборкой и может имитировать голоса, как актер озвучивания, сходство и естественность зависят от длины и качества голосовой подсказки, фонового шума и других факторов.

На странице проекта и в статье автор сделал этическое заявление: если вы хотите продвигать VALL-E в реальных приложениях, вам нужна как минимум мощная модель синтетического обнаружения речи и разработать механизм авторизации, чтобы гарантировать, что модель умеет синтезировать речь. Предварительно одобрено владельцем звука.

Некоторые пользователи сети выразили большое разочарование по поводу практики Microsoft публиковать только статьи, но не продукты.


Ведь недавнее опрокидывание различных продуктов заставило нас глубоко понять, что просто смотреть на демо совершенно ненадежно, а попробовать самому нет возможности = ничего.


Но некоторые люди на Reddit предположили, что Microsoft просто не хотела быть «первой, кто съест крабов» и что она не выпустила модель, потому что опасалась возможной критики и негативного общественного мнения.

Как только появится способ превратить VALL-E в продукт или на рынке появятся другие конкурирующие продукты, будете ли вы по-прежнему беспокоиться о том, будет ли Microsoft зарабатывать деньги?



Действительно, как сказали пользователи сети, судя по демо, опубликованному сейчас на странице проекта, сложно судить об истинном уровне ВАЛЛ-И.


Страница проекта: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

Всего 5 текстов представляют собой короткие английские предложения длиной не более 10 слов. Голоса голосовых подсказок очень похожи, а английские акценты недостаточно разнообразны.

Хотя демоверсий не так много, смутно чувствуется, что модель очень хорошо имитирует британский и американский акцент. Однако, если в подсказке присутствует небольшой индийский или шотландский акцент, добиться уровня аутентичности будет сложно.

метод

Предшественник модели, VALL-E, был выпущен в начале 2023 года и уже является крупным прорывом для TTS в нулевых образцах. VALL-E способен синтезировать персонализированную речь из 3-секундных записей, сохраняя при этом голос, эмоции и акустическую среду говорящего.

Однако у VALL-E есть два ключевых ограничения:

1) Стабильность. Случайная выборка, используемая в процессе вывода, может привести к нестабильности выходных данных, а выборка ядра с небольшим значением top-p может вызвать проблемы с бесконечным циклом. Хотя эту проблему можно облегчить путем многократной выборки и последующей сортировки, это приведет к увеличению вычислительных затрат.

2) Эффективность: авторегрессионная архитектура VALL-E привязана к той же высокой частоте кадров, что и стандартные модели аудиокодеков, и ее нельзя настроить, что приводит к более медленному выводу.

Хотя было проведено множество исследований по улучшению этих проблем VALL-E, они часто усложняют общую архитектуру модели и увеличивают нагрузку по увеличению размера данных.

Основываясь на этой предыдущей работе, VALL-E 2 содержит две ключевые инновации: выборку с учетом повторений и моделирование группового кода.

Выборка с учетом повторений является улучшением случайной выборки в VALL-E. Она может адаптивно использовать случайную выборку или ядерную выборку. Выбор основан на прошлых повторениях токенов, что значительно облегчает проблему бесконечного цикла VALL-E. стабильность.


Алгоритмическое описание повторяющейся перцептивной выборки

Моделирование группового кода делит код кодека на несколько групп, и каждая группа моделируется на основе одного кадра во время авторегрессии. Это не только уменьшает длину последовательности и ускоряет вывод, но также повышает производительность, устраняя проблемы моделирования длительного контекста.

Стоит отметить, что VALL-E 2 требует для обучения только простых текстовых данных, расшифрованных речью, и не требует дополнительных сложных данных, что значительно упрощает процесс сбора и обработки данных и улучшает потенциальную масштабируемость.

В частности, для каждого фрагмента речевых текстовых данных в наборе данных используется кодер аудиокодека и токенизатор текста, чтобы представить его как код кодека = [0,1,…,(-1)] и текстовую последовательность = [0 ,1,…,(−1)] для обучения авторегрессионных (AR) и неавторегрессионных (NAR) моделей.


Обе модели AR и NAR используют архитектуру Transformer, и четыре варианта были разработаны для последующих оценочных экспериментов для сравнения. Они используют одну и ту же модель NAR, но размеры групп моделей AR составляют 1, 2, 4, 8 соответственно.

Процесс рассуждения также представляет собой комбинацию моделей AR и NAR. На основе текстовой последовательности и подсказки кода <',0 генерируется первая кодовая последовательность с целевым кодом ≥',0, а затем целевой код каждой группы генерируется с использованием метода авторегрессии.


Учитывая последовательность ≥′,0, модель NAR можно вывести с использованием текстовых условий и акустических условий 〈′ для генерации остальных целевых кодовых последовательностей ≥′,≥1.

Для обучения модели используются данные корпуса Libriheavy, который содержит 50 000 часов речи 7 000 человек, читающих английские аудиокниги. Для словесной сегментации текста и речи используются BPE и предварительно обученная модель EnCodec с открытым исходным кодом соответственно.

Кроме того, предварительно обученная модель Vocos с открытым исходным кодом также используется в качестве аудиодекодера для генерации речи.

Оценивать

Чтобы проверить, может ли эффект синтеза речи модели достичь того же уровня, что и у людей, в оценке используются два субъективных индикатора, SMOS и CMOS, и в качестве базовой истины используется реальная человеческая речь.

SMOS (средняя оценка сходства) используется для оценки сходства речи и исходного запроса. Диапазон оценок составляет от 1 до 5 с шагом 0,5 балла.

CMOS (Сравнительный средний балл мнения) используется для оценки естественности синтезированной речи по сравнению с заданной эталонной речью. Диапазон шкалы составляет -3 ~ 3 с шагом 1.


Согласно результатам, представленным в Таблице 2, субъективная оценка VALL-E 2 не только превосходит таковую у VALL-E первого поколения, но даже работает лучше, чем реальная человеческая речь.

Кроме того, в документе также используются объективные индикаторы, такие как SIM, WER и DNSMOS, для оценки сходства, надежности и общего качества восприятия синтезированной речи.


По этим трем объективным показателям, независимо от того, как установлен размер группы VALL-E 2, наблюдается общее улучшение по сравнению с VALL-E. Показатели WER и DNSMOS также лучше, чем реальная человеческая речь, но все же есть. определенный разрыв в балле SIM.

Кроме того, из результатов в Таблице 3 также можно обнаружить, что, когда размер группы модели AR VALL-E 2 равен 2, оптимальный эффект может быть достигнут.

Аналогичные выводы можно получить из оценки набора данных VCTK. Когда длина подсказки увеличивается, метод моделирования сгруппированного кода может уменьшить длину последовательности и уменьшить ошибки генерации, вызванные неправильным механизмом внимания в архитектуре Transformer, тем самым улучшая оценку WER.


об авторе

Первый автор этой статьи, Чэнь Саньюань, является доктором наук, получившим совместное образование в Харбинском технологическом институте и Microsoft Research Asia. С 2020 года он работал стажером-исследователем в группе вычислений на естественном языке MSRA. Его исследовательские интересы в основном связаны с предварительной подготовкой. языковые модели для обработки речи и звука.


Использованная литература:

https://arxiv.org/abs/2406.05370