소식

표준 중국어와 방언의 혼합 말하기를 지원하는 최초의 대규모 TTS 모델: 허난 방언과 상하이 방언이 유창함

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



AIxiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

2024년 GPT-4o가 등장한 이후 업계 기업들은 TTS 대형 모델의 연구 개발에 막대한 자원을 투자해 왔습니다. 최근 몇 달 동안 chattts, seetts, cosyvoice 등과 같은 대규모 중국어 음성 합성 모델이 생겨났습니다.

현재의 대규모 음성 합성 모델은 중국어 북경어의 실제 사람과 거의 동일한 효과를 갖고 있지만, 중국의 복잡한 방언에 직면하여 TTS 대규모 모델은 통합된 대규모 중국어 음성 합성 모델을 훈련시키는 경우가 거의 없습니다. 다양한 방언은 매우 어려운 임무입니다.

업계의 문제점과 기술적 병목 현상

현재 음성합성 대형모델 기술은 표준 중국어 분야에서 상당한 진전을 이루었지만, 방언 분야에서는 그 발전이 매우 더디다. 중국에는 각각 고유한 음성 특성과 문법 구조를 가진 수십 개의 주요 방언이 있으므로 다양한 방언을 포괄하는 대규모 TTS 모델을 훈련하는 것이 매우 복잡합니다.

기존 대형 TTS 모델의 대부분은 중국어에 중점을 두고 있어 다양한 음성 합성 요구를 충족할 수 없습니다. 또한, 방언 말뭉치의 부족과 고품질 주석 데이터의 부족으로 인해 기술적 어려움이 더욱 가중됩니다.

Giant Network AI Lab의 기술 혁신과 혁신

위의 문제를 해결하기 위해 Giant Network AI Lab 팀의 알고리즘 전문가와 언어학자가 협력하여 중국어 방언 시스템을 기반으로 20개 방언과 200,000시간 이상을 포괄하는 표준 중국어 및 방언 데이터 세트를 구축했습니다. 이 거대한 데이터 세트를 사용하여 우리는 훈련했습니다.여러 중국어 방언을 지원하는 최초의 대규모 TTS 모델 - Bailing-TTS. Bailing-TTS는 고품질의 표준 중국어 음성을 생성할 수 있을 뿐만 아니라 허난어, 상하이어, 광둥어 등을 포함한 다양한 방언 음성도 생성할 수 있습니다.



ArXiv: https://arxiv.org/pdf/2408.00284

홈페이지: https://giantailab.github.io/bailingtts_tech_report/index.html

논문 제목: Bailing-TTS: 인간과 유사한 자발적 표현을 위한 중국어 방언 음성 합성

다음 오디오 듣기 링크: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366bd4b9d5f&chksm=84e43f29b393b63f434ae60d4 6 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&token=2010422951⟨=zh_CN#rd

다음은 허난 방언에서 Bailing-TTS의 합성 효과입니다.



중국어로 제로 샘플 복제의 효과를 들어보겠습니다.





우리는 이 목표를 달성하기 위해 여러 가지 혁신적인 기술을 채택했습니다.

1.통합 방언 토큰 사양: 기본 발음 기능을 제공하기 위해 다양한 방언의 토큰 사양을 통일하고, 중국어와 다양한 방언의 토큰을 부분적으로 겹쳐서 중국어를 사용하도록 하였습니다. 이를 통해 제한된 데이터 조건에서 고품질 방언 음성 합성을 달성할 수 있습니다.

2.정제된 토큰 정렬 기술: 대규모 다중 모달 사전 학습을 기반으로 개선된 토큰별 정렬 기술을 제안합니다.

3.계층적 하이브리드 전문가 구조: 여러 중국어 방언에 대한 통합 표현과 각 방언에 대한 특정 표현을 학습하기 위한 계층적 하이브리드 전문가 아키텍처를 설계합니다.

4.계층적 강화 학습 강화 전략: 기본 훈련 전략과 고급 훈련 전략을 결합하여 TTS 모델의 방언 표현 능력을 더욱 향상시키기 위한 계층적 강화 학습 전략을 제안했습니다.

구현 세부정보



그림 1 Bailing-TTS 전체 아키텍처

1. 대규모 다중 모드 사전 학습을 기반으로 한 정제된 토큰 정렬

텍스트와 음성 토큰의 세련된 정렬을 달성하기 위해 다단계, 다중 모드 사전 학습 학습 프레임워크를 제안합니다.

첫 번째 단계에서는 감독되지 않은 샘플링 전략을 사용하여 대규모 데이터 세트에 대해 대략적인 교육을 수행합니다. 두 번째 단계에서는 고품질 방언 데이터 세트에 대해 세분화된 교육을 수행하기 위해 세련된 샘플링 전략을 채택합니다. 이 방법은 텍스트와 음성 간의 세밀한 상관관계를 효과적으로 포착하고 두 양식의 정렬을 촉진할 수 있습니다.

2. 계층적 하이브리드 전문가 Transformer 네트워크 구조 기반

여러 중국어 방언에 적합한 통합 TTS 모델을 훈련하기 위해 계층적 하이브리드 전문가 네트워크 구조와 다단계 다방언 토큰 학습 전략을 설계했습니다.

첫째, 우리는 여러 중국어 방언에 대한 통합 표현과 각 방언에 대한 특정 표현을 학습하도록 특별히 설계된 하이브리드 전문가 아키텍처를 제안합니다. 그런 다음 모델의 다중 방언 표현 기능을 향상시키기 위해 Cross-Attention 기반의 융합 메커니즘을 통해 TTS 모델의 다양한 수준에 방언 토큰을 주입합니다.

3. 계층적 강화학습 강화 전략

기본 전략 훈련과 고급 훈련 전략을 결합하여 TTS 모델의 방언 표현 능력을 더욱 향상시키기 위한 계층적 강화 학습 전략을 제안합니다. 기본 훈련 전략은 고품질 방언 음성 표현 탐색을 지원하고, 고급 훈련 전략은 이를 기반으로 다양한 방언의 발화 특성을 강화함으로써 다방언에서 고품질 음성 합성을 달성합니다.



그림 2 방언 MoE 구조

실험 결과

Bailing-TTS는 중국어와 다양한 방언의 견고성, 생성 품질, 자연스러움 측면에서 실제 사람과 더 가까운 수준에 도달했습니다.



표 1 중국어 북경어 및 방언에 대한 Bailing-TTS 테스트 결과

실제 애플리케이션 시나리오 평가에서 Baling-TTS는 좋은 결과를 얻었습니다.



표 2 중국어 북경어 및 방언에 대한 스피커 미세 조정 및 제로 샘플 복제에 대한 Bailing-TTS 테스트 결과

기술 구현 및 향후 전망

현재 이 대규모 다중 방언 TTS 모델은 여러 실제 시나리오에 적용되었습니다. 예를 들어 게임에서 NPC를 더빙하거나, 영상 제작에서 사투리를 더빙하는 등의 작업이 가능합니다. 이 기술을 통해 게임과 영상 콘텐츠가 지역 문화에 더 가까워지고 사용자의 몰입감과 경험이 향상될 수 있습니다.

향후 엔드투엔드 음성 상호 작용 대형 모델이 더욱 발전함에 따라 이 기술은 방언 문화 보호, 게임 AI NPC 방언 상호 작용 등의 영역에서 더 큰 잠재력을 보여줄 것입니다. 방언 보호 시나리오에서는 여러 방언의 음성 상호 작용을 지원함으로써 차세대가 쉽게 중국어 방언을 학습하고 계승하며 보호할 수 있어 중국어 방언 문화가 오랜 역사를 가질 수 있도록 합니다. 게임 현장에서는 사투리를 구사하고 음성으로 상호 작용할 수 있는 지능형 NPC가 게임 콘텐츠의 표현력을 더욱 높여줄 것입니다.

Giant Network AI Lab은 사용자에게 더욱 스마트하고 편리한 음성 ​​상호 작용 경험을 제공하기 위해 이 기술의 혁신과 적용을 촉진하는 데 계속해서 전념할 것입니다.

팀 소개

2022년 설립된 Giant AI Laboratory는 Giant Network 산하 인공지능 기술 응용 및 연구 기관입니다. AIGC 콘텐츠(이미지/텍스트/오디오/비디오/3D 모델 등) 생성 분야에 전념하여 포괄적인 지능형 콘텐츠 제작 및 생성을 실현하고 게임 플레이 혁신을 촉진합니다. 현재 연구소는 Giant 내에 풀링크 AI 산업 생산 파이프라인을 구축함과 동시에 게임 업계 최초의 대형 수직형 모델(GiantGPT) 등록을 완료했으며 최초로 상용화에 돌입했습니다. 애플리케이션.