новости

Первая крупномасштабная модель TTS, поддерживающая смешанное общение на мандаринском языке и диалектах: свободно владеют хэнаньский диалект и шанхайский диалект.

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Колонка AIxiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет рубрика Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected]; [email protected];

С момента появления GPT-4o в 2024 году компании отрасли вложили огромные ресурсы в исследования и разработку крупных моделей TTS. В последние месяцы появились крупные модели синтеза китайской речи, такие как чатттс, седттс, косиголос и т. д.

Хотя текущая модель крупномасштабного синтеза речи имеет почти такой же эффект, как и реальные люди на китайском языке, учитывая сложные диалекты Китая, крупномасштабные модели TTS редко использовались для обучения единой крупномасштабной модели синтеза китайской речи. различные диалекты — сложная задача. Чрезвычайно сложная миссия.

Болевые точки и технические узкие места отрасли

В настоящее время технология больших моделей синтеза речи достигла значительного прогресса в области мандаринского языка, но ее развитие в области диалектов идет очень медленно. В Китае существуют десятки основных диалектов, каждый из которых имеет уникальные фонетические характеристики и грамматические структуры, что делает обучение большой модели TTS, охватывающей различные диалекты, чрезвычайно сложной задачей.

Большинство существующих крупных моделей TTS ориентированы на китайский язык и не могут удовлетворить разнообразные потребности синтеза речи. Кроме того, нехватка диалектных корпусов и отсутствие высококачественных аннотаций еще больше усложняют техническую задачу.

Технологические инновации и прорывы Giant Network AI Lab

Чтобы решить вышеуказанные проблемы, эксперты по алгоритмам и лингвисты из команды Giant Network AI Lab вместе работали над созданием набора данных китайского языка и диалектов, охватывающего 20 диалектов и более 200 000 часов, на основе системы китайских диалектов. Используя этот огромный набор данных, мы обучилиПервая крупномасштабная модель TTS, поддерживающая несколько диалектов китайского языка — Bailing-TTS.. Bailing-TTS может не только генерировать высококачественную мандаринскую речь, но также генерировать различные диалекты речи, включая хэнаньский, шанхайский, кантонский диалект и т. д.



ArXiv: https://arxiv.org/pdf/2408.00284

Домашняя страница: https://giantailab.github.io/bailingtts_tech_report/index.html

Название статьи: Bailing-TTS: Синтез китайской диалектной речи на пути к спонтанному представлению, подобному человеческому

Следующая ссылка для прослушивания аудио: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366bd4b9d5f&chksm=84e43f29b393b63f434ae60d 46 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&token=2010422951⟨=zh_CN#rd

Ниже приводится эффект синтеза Bailing-TTS на диалекте провинции Хэнань:



Позвольте мне послушать эффект клонирования с нулевой выборкой на китайском языке:





Для достижения этой цели мы внедрили ряд инновационных технологий:

1.Спецификация токена единого диалекта: мы унифицировали спецификации токенов различных диалектов и частично перекрыли токены мандаринского языка и различных диалектов, чтобы использовать мандаринский язык для обеспечения базовых возможностей произношения. Это позволяет добиться качественного синтеза диалектной речи в условиях ограниченности данных.

2.Усовершенствованная технология выравнивания токенов: Мы предлагаем усовершенствованную технологию выравнивания токенов, основанную на крупномасштабном мультимодальном предварительном обучении.

3.Иерархическая гибридная экспертная структура: Мы разрабатываем иерархическую гибридную экспертную архитектуру для изучения унифицированных представлений для нескольких китайских диалектов и конкретных представлений для каждого диалекта.

4.Стратегия улучшения иерархического обучения с подкреплением: Мы предложили иерархическую стратегию обучения с подкреплением для дальнейшего повышения способности модели TTS выражать диалекты путем объединения базовых стратегий обучения и стратегий повышения квалификации.

Детали реализации



Рис. 1. Общая архитектура Bailing-TTS

1. Усовершенствованное согласование токенов на основе крупномасштабного мультимодального предварительного обучения.

Чтобы добиться точного согласования текстовых и речевых токенов, мы предлагаем многоэтапную, мультимодальную структуру предварительного обучения.

На первом этапе мы используем стратегию неконтролируемой выборки для грубого обучения крупномасштабного набора данных. На втором этапе мы применяем усовершенствованную стратегию выборки для проведения детального обучения на высококачественных наборах данных по диалектам. Этот метод может эффективно выявить детальную корреляцию между текстом и речью и способствовать согласованию двух модальностей.

2. На основе иерархической гибридной экспертной структуры трансформаторной сети.

Чтобы обучить единую модель TTS, подходящую для нескольких диалектов китайского языка, мы разработали иерархическую гибридную структуру экспертной сети и многоэтапную стратегию обучения токенов на нескольких диалектах.

Во-первых, мы предлагаем гибридную экспертную архитектуру, специально предназначенную для изучения унифицированных представлений для нескольких китайских диалектов и конкретных представлений для каждого диалекта. Затем мы вводим диалектные токены на разные уровни модели TTS с помощью механизма слияния, основанного на перекрестном внимании, чтобы улучшить возможности многодиалектного выражения модели.

3. Стратегия улучшения иерархического обучения с подкреплением

Мы предлагаем иерархическую стратегию обучения с подкреплением для дальнейшего повышения способности модели TTS выражать диалекты путем объединения базового стратегического обучения и стратегий повышения квалификации. Стратегия базового обучения поддерживает изучение высококачественных диалектных речевых выражений, а стратегия повышения квалификации на этой основе усиливает речевые характеристики различных диалектов, тем самым достигая высококачественного синтеза речи на нескольких диалектах.



Рисунок 2 Диалектная структура МО

Результаты экспериментов

Bailing-TTS достиг уровня, более близкого к реальным людям с точки зрения надежности, качества генерации и естественности мандаринского языка и нескольких диалектов.



Таблица 1. Результаты тестирования Bailing-TTS на китайском китайском языке и его диалектах.

При оценке реальных сценариев применения Baling-TTS добилась хороших результатов.



Таблица 2. Результаты испытаний Bailing-TTS по точной настройке динамиков и клонированию с нулевой выборкой на китайском китайском языке и диалектах

Внедрение технологий и перспективы на будущее

В настоящее время эта большая многодиалектная модель TTS применяется во многих практических сценариях. Например, озвучка НПС в играх, озвучка диалектов при создании видео и т.д. Благодаря этой технологии игровой и видеоконтент может быть ближе к региональной культуре, улучшая у пользователей ощущение погружения и опыта.

В будущем, с дальнейшим развитием крупных моделей сквозного голосового взаимодействия, эта технология покажет больший потенциал в таких областях, как защита диалектной культуры и взаимодействие диалектов игрового AI NPC. В сценарии защиты диалектов, поддерживая голосовое взаимодействие на нескольких диалектах, следующее поколение сможет легко изучать, наследовать и защищать китайские диалекты, позволяя китайской диалектной культуре иметь долгую историю. На игровой сцене интеллектуальные NPC, говорящие на диалектах и ​​способные взаимодействовать голосом, еще больше повысят выразительность игрового контента.

Giant Network AI Lab продолжит продвигать инновации и применять эту технологию, чтобы предоставить пользователям более интеллектуальный и удобный опыт голосового взаимодействия.

Представление команды

Giant AI Laboratory, основанная в 2022 году, представляет собой научно-исследовательское учреждение, занимающееся разработкой технологий искусственного интеллекта и связанное с Giant Network. Занимается созданием контента AIGC (изображений/текста/аудио/видео/3D-моделей и т. д.), реализуя комплексное производство и создание интеллектуального контента, а также продвигая инновации в игровом процессе. В настоящее время лаборатория построила полноценный конвейер промышленного производства искусственного интеллекта в рамках Giant. В то же время она завершила регистрацию первой большой вертикальной модели (GiantGPT) в игровой индустрии и стала первой, которая будет запущена в коммерческую эксплуатацию. приложение.