berita

Model TTS skala besar pertama yang mendukung bahasa Mandarin dan dialek campuran: dialek Henan dan dialek Shanghai fasih

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

Sejak kemunculan GPT-4o pada tahun 2024, perusahaan-perusahaan di industri ini telah menginvestasikan sumber daya yang besar dalam penelitian dan pengembangan model besar TTS. Dalam beberapa bulan terakhir, model sintesis ucapan Tiongkok yang besar telah bermunculan, seperti chattts, seedtts, cosyvoice, dll.

Meskipun model sintesis ucapan skala besar saat ini memiliki efek yang hampir sama dengan orang-orang nyata dalam bahasa Mandarin, dalam menghadapi dialek Tiongkok yang rumit, model skala besar TTS jarang dilibatkan. Melatih model sintesis ucapan bahasa Mandarin skala besar yang terpadu berbagai dialek adalah tugas yang sulit.

Masalah industri dan hambatan teknis

Saat ini teknologi model besar sintesis ucapan telah mengalami kemajuan yang signifikan di bidang bahasa Mandarin, namun perkembangannya di bidang dialek sangat lambat. Tiongkok memiliki lusinan dialek utama, masing-masing dengan karakteristik fonetik dan struktur tata bahasa yang unik, sehingga pelatihan model TTS besar yang mencakup berbagai dialek menjadi sangat rumit.

Sebagian besar model TTS besar yang ada berfokus pada bahasa Mandarin dan tidak dapat memenuhi kebutuhan sintesis ucapan yang beragam. Selain itu, kelangkaan corpora dialek dan kurangnya data anotasi berkualitas tinggi semakin menambah kesulitan teknis.

Inovasi dan terobosan teknologi dari Giant Network AI Lab

Untuk mengatasi masalah di atas, pakar algoritma dan ahli bahasa di tim Giant Network AI Lab bekerja sama untuk membangun kumpulan data Mandarin dan dialek yang mencakup 20 dialek dan lebih dari 200.000 jam berdasarkan sistem dialek Tiongkok. Dengan kumpulan data yang sangat besar ini, kami berlatihModel TTS skala besar pertama yang mendukung banyak dialek Mandarin—Bailing-TTS. Bailing-TTS tidak hanya dapat menghasilkan pidato Mandarin berkualitas tinggi, tetapi juga menghasilkan berbagai dialek termasuk bahasa Henan, Shanghai, Kanton, dll.



Sumber: ArXiv: https://arxiv.org/pdf/2408.00284

Beranda: https://giantailab.github.io/bailingtts_tech_report/index.html

Judul makalah: Bailing-TTS: Sintesis Pidato Dialek Tiongkok Menuju Representasi Spontan Mirip Manusia

Tautan mendengarkan audio berikut: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366bd4b9d5f&chksm=84e43f29b393b63f434ae60d 46 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&token=2010422951⟨=zh_CN#rd

Berikut efek sintesis Bailing-TTS dalam dialek Henan:



Izinkan saya mendengarkan efek kloning tanpa sampel dalam bahasa Mandarin:





Kami telah mengadopsi sejumlah teknologi inovatif untuk mencapai tujuan ini:

1.Spesifikasi Token Dialek Terpadu: Kami telah menyatukan spesifikasi token dari berbagai dialek dan sebagian tumpang tindih dengan token Mandarin dan berbagai dialek untuk menggunakan bahasa Mandarin guna memberikan kemampuan pengucapan dasar. Hal ini memungkinkan kami mencapai sintesis ucapan dialek berkualitas tinggi dalam kondisi data yang terbatas.

2.Teknologi Penyelarasan Token yang Disempurnakan: Kami mengusulkan teknologi penyelarasan token yang disempurnakan berdasarkan pra-pelatihan multi-modal skala besar.

3.Struktur pakar hibrid hierarkis: Kami merancang arsitektur ahli hibrid hierarkis untuk mempelajari representasi terpadu untuk berbagai dialek Tiongkok dan representasi spesifik untuk setiap dialek.

4.Strategi peningkatan pembelajaran penguatan hierarki: Kami mengusulkan strategi pembelajaran penguatan hierarki untuk lebih meningkatkan kemampuan ekspresi dialek model TTS dengan menggabungkan strategi pelatihan dasar dan strategi pelatihan lanjutan.

Detail implementasi



Gambar 1 Arsitektur keseluruhan Bailing-TTS

1. Penyelarasan Token yang disempurnakan berdasarkan pra-pelatihan multi-modal skala besar

Untuk mencapai keselarasan teks dan token ucapan yang lebih baik, kami mengusulkan kerangka pembelajaran pra-pelatihan multi-tahap dan multi-modal.

Pada tahap pertama, kami menggunakan strategi pengambilan sampel tanpa pengawasan untuk melakukan pelatihan kasar pada kumpulan data berskala besar. Pada tahap kedua, kami mengadopsi strategi pengambilan sampel yang disempurnakan untuk melakukan pelatihan menyeluruh tentang kumpulan data dialek berkualitas tinggi. Metode ini dapat secara efektif menangkap korelasi mendalam antara teks dan ucapan serta mendorong keselarasan kedua modalitas tersebut.

2. Berdasarkan struktur jaringan Transformer ahli hibrid hierarkis

Untuk melatih model TTS terpadu yang cocok untuk berbagai dialek Tiongkok, kami merancang struktur jaringan ahli hibrid hierarkis dan strategi pembelajaran token multi-dialek multi-tahap.

Pertama, kami mengusulkan arsitektur ahli hibrid yang dirancang khusus untuk mempelajari representasi terpadu untuk berbagai dialek Tiongkok dan representasi spesifik untuk setiap dialek. Kemudian, kami memasukkan token dialek ke berbagai level model TTS melalui mekanisme fusi berdasarkan perhatian silang untuk meningkatkan kemampuan ekspresi multi-dialek model tersebut.

3. Strategi peningkatan pembelajaran penguatan hierarki

Kami mengusulkan strategi pembelajaran penguatan hierarki untuk lebih meningkatkan kemampuan ekspresi dialek model TTS dengan menggabungkan pelatihan strategi dasar dan strategi pelatihan lanjutan. Strategi pelatihan dasar mendukung eksplorasi ekspresi tuturan dialek berkualitas tinggi, dan strategi pelatihan lanjutan memperkuat karakteristik tuturan berbagai dialek berdasarkan hal ini, sehingga mencapai sintesis tuturan berkualitas tinggi dalam berbagai dialek.



Gambar 2 Struktur Dialek MoE

Hasil percobaan

Bailing-TTS telah mencapai tingkat yang lebih dekat dengan manusia nyata dalam hal ketahanan, kualitas generasi, dan kealamian dalam bahasa Mandarin dan berbagai dialek.



Tabel 1 Hasil Tes Bailing-TTS Bahasa Mandarin dan Dialek Mandarin

Dalam evaluasi skenario penerapan sebenarnya, Baling-TTS telah mencapai hasil yang baik.



Tabel 2 Hasil pengujian Bailing-TTS pada speaker fine-tuning dan zero-sample clone pada Mandarin dan dialek Mandarin

Implementasi teknologi dan prospek masa depan

Saat ini, model TTS multidialek besar ini telah diterapkan dalam berbagai skenario praktis. Misalnya saja melakukan dubbing pada NPC pada game, melakukan dubbing dialek pada pembuatan video, dan lain sebagainya. Melalui teknologi ini, konten game dan video dapat lebih dekat dengan budaya daerah, sehingga meningkatkan sense of imersi dan pengalaman pengguna.

Di masa depan, dengan pengembangan lebih lanjut model besar interaksi suara ujung ke ujung, teknologi ini akan menunjukkan potensi yang lebih besar di berbagai bidang seperti perlindungan budaya dialek dan interaksi dialek AI NPC game. Dalam skenario perlindungan dialek, dengan mendukung interaksi suara dalam berbagai dialek, generasi berikutnya dapat dengan mudah mempelajari, mewarisi, dan melindungi dialek Tiongkok, sehingga budaya dialek Tiongkok memiliki sejarah yang panjang. Dalam dunia game, NPC cerdas yang dapat berbicara dengan dialek dan berinteraksi dengan suara akan semakin meningkatkan ekspresi konten game.

Giant Network AI Lab akan terus berkomitmen untuk mempromosikan inovasi dan penerapan teknologi ini untuk menghadirkan pengalaman interaksi suara yang lebih cerdas dan nyaman bagi pengguna.

Pengenalan tim

Didirikan pada tahun 2022, Giant AI Laboratory adalah lembaga penelitian dan aplikasi teknologi kecerdasan buatan yang terafiliasi dengan Giant Network. Berkomitmen pada bidang pembuatan konten AIGC (gambar/teks/audio/video/model 3D, dll.), mewujudkan produksi dan pembuatan konten cerdas yang komprehensif, dan mempromosikan inovasi permainan. Saat ini, laboratorium tersebut telah membangun jalur produksi industri AI full-link di dalam Giant. Pada saat yang sama, laboratorium tersebut juga telah menyelesaikan pendaftaran model vertikal besar pertama (GiantGPT) di industri game dan merupakan yang pertama dimasukkan ke dalam komersial. aplikasi.