berita

Kloning suara mencapai tingkat manusia, model VALL-E 2 baru dari Microsoft menjadikan DeepFake sebanding dengan aktor suara

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Qiao Yang

[Pengantar Kebijaksanaan Baru]Mengikuti model VALL-E generasi pertama awal tahun lalu, Microsoft baru-baru ini meluncurkan model VALL-E 2 baru, menandai text-to-speech pertama yang mencapai tingkat manusia dalam hal ketahanan, kesamaan, dan kealamian Model ucapan yang disintesis .

Baru-baru ini, Microsoft merilis model zero-sample text-to-speech (TTS) VALLE-2, yang untuk pertama kalinya mencapai level yang sama dengan manusia. Hal ini dapat dikatakan sebagai tonggak sejarah di bidang TTS.


Alamat makalah: https://arxiv.org/pdf/2406.05370

Dengan kemajuan pesat pembelajaran mendalam dalam beberapa tahun terakhir, model pelatihan yang menggunakan ucapan satu orang yang bersih di lingkungan studio rekaman telah mencapai tingkat kualitas yang sama dengan manusia, namun TTS tanpa sampel masih menjadi masalah yang menantang.

"Sampel nol" berarti bahwa selama proses inferensi, model hanya dapat merujuk ke sampel ucapan pendek yang tidak dikenal dan mengucapkan isi teks dengan suara yang sama, seperti ahli bicara perut yang dapat meniru secara real time.

Setelah mendengar ini, saya ingin tahu apakah Anda tiba-tiba diberi tahu - model dengan kemampuan ini adalah alat terbaik untuk Deepfake!

Sangat menggembirakan bahwa MSRA telah mempertimbangkan hal ini. Mereka saat ini hanya menggunakan seri VALL-E sebagai proyek penelitian dan tidak memiliki rencana untuk memasukkannya ke dalam produk atau memperluas penggunaannya.

Meskipun VALL-E 2 memiliki kemampuan pembelajaran tanpa sampel yang kuat dan dapat meniru suara seperti pengisi suara, kemiripan dan kealamiannya bergantung pada panjang dan kualitas perintah suara, kebisingan latar belakang, dan faktor lainnya.

Di halaman proyek dan di makalah, penulis telah membuat pernyataan etis: Jika Anda ingin mempromosikan VALL-E ke aplikasi dunia nyata, Anda memerlukan setidaknya model deteksi ucapan sintetik yang kuat, dan merancang mekanisme otorisasi untuk memastikan bahwa model dapat mensintesis ucapan yang sebelumnya disetujui oleh pemilik suara.

Beberapa netizen mengungkapkan kekecewaan besar terhadap praktik Microsoft yang hanya menerbitkan makalah, bukan produk.


Lagi pula, pembalikan berbagai produk baru-baru ini telah membuat kami sangat memahami bahwa hanya dengan melihat demonya sama sekali tidak dapat diandalkan, dan tidak ada cara untuk mencobanya sendiri = tidak ada.


Namun beberapa orang di Reddit berspekulasi bahwa Microsoft tidak ingin menjadi "yang pertama memakan kepiting" dan tidak merilis model tersebut karena khawatir dengan kemungkinan kritik dan opini publik yang negatif.

Setelah ada cara untuk mengubah VALL-E menjadi sebuah produk, atau produk pesaing lainnya muncul di pasar, apakah Anda masih khawatir apakah Microsoft akan menghasilkan uang?



Memang benar, seperti yang dikatakan netizen, menilai dari demo yang saat ini dirilis di halaman proyek, sulit untuk menilai level VALL-E yang sebenarnya.


Halaman proyek: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

Sebanyak 5 teks merupakan kalimat bahasa Inggris pendek yang tidak lebih dari 10 kata. Suara petunjuk suaranya sangat mirip, dan aksen bahasa Inggrisnya kurang beragam.

Meskipun demonya tidak banyak, samar-samar Anda dapat merasakan bahwa model tersebut sangat pandai meniru aksen Inggris dan Amerika, namun jika promptnya memiliki sedikit aksen India atau Skotlandia, akan sulit untuk mencapai tingkat keasliannya.

metode

Model pendahulunya, VALL-E, dirilis pada awal tahun 2023 dan sudah menjadi terobosan besar bagi TTS dalam sampel nol. VALL-E mampu mensintesis ucapan yang dipersonalisasi dari rekaman 3 detik sambil mempertahankan suara, emosi, dan lingkungan akustik pembicara.

Namun, VALL-E memiliki dua keterbatasan utama:

1) Stabilitas: Pengambilan sampel acak yang digunakan dalam proses inferensi dapat menyebabkan keluaran menjadi tidak stabil, dan pengambilan sampel kernel dengan nilai p teratas yang kecil dapat menyebabkan masalah loop tak terbatas. Meskipun hal ini dapat diatasi dengan pengambilan sampel berulang kali dan penyortiran berikutnya, hal ini akan meningkatkan biaya komputasi.

2) Efisiensi: Arsitektur autoregresif VALL-E terikat pada frame rate tinggi yang sama dengan model codec audio yang tersedia dan tidak dapat disesuaikan, sehingga menghasilkan inferensi yang lebih lambat.

Meskipun sudah banyak penelitian yang dilakukan untuk memperbaiki masalah VALL-E ini, penelitian tersebut sering kali mempersulit arsitektur model secara keseluruhan dan menambah beban peningkatan ukuran data.

Berdasarkan karya sebelumnya, VALL-E 2 berisi dua inovasi utama: pengambilan sampel sadar pengulangan dan pemodelan kode berkelompok.

Pengambilan sampel yang sadar akan pengulangan merupakan peningkatan dari pengambilan sampel acak di VALL-E. Ini dapat secara adaptif mengadopsi pengambilan sampel acak atau pengambilan sampel nuklir. Pemilihan didasarkan pada pengulangan token di masa lalu, sehingga secara efektif mengurangi masalah loop tak terbatas di VALL-E stabilitas.


Deskripsi algoritma pengambilan sampel persepsi berulang

Pemodelan kode yang dikelompokkan membagi kode codec menjadi beberapa grup, dan setiap grup dimodelkan pada satu frame selama autoregresi. Tidak hanya mengurangi panjang urutan dan mempercepat inferensi, hal ini juga meningkatkan kinerja dengan mengurangi masalah pemodelan konteks yang panjang.

Perlu dicatat bahwa VALL-E 2 hanya memerlukan data teks transkripsi ucapan sederhana untuk pelatihan dan tidak memerlukan data kompleks tambahan, yang sangat menyederhanakan proses pengumpulan dan pemrosesan data serta meningkatkan potensi skalabilitas.

Khususnya, untuk setiap bagian data teks ucapan dalam kumpulan data, encoder codec audio dan tokenizer teks digunakan untuk mewakilinya sebagai kode codec = [0,1,…,(−1 )] dan urutan teks = [0 ,1,…,(−1)] untuk pelatihan model autoregresif (AR) dan non-autoregresif (NAR).


Model AR dan NAR menggunakan arsitektur Transformer, dan empat varian dirancang untuk eksperimen evaluasi selanjutnya sebagai perbandingan. Mereka berbagi model NAR yang sama, namun ukuran grup model AR masing-masing adalah 1, 2, 4, 8.

Proses penalarannya juga merupakan kombinasi model AR dan NAR. Berdasarkan urutan teks dan petunjuk kode <′,0, dihasilkan urutan kode pertama dengan kode target ≥′,0, kemudian kode target setiap kelompok dihasilkan dengan menggunakan metode autoregresif.


Mengingat urutan ≥′,0, model NAR dapat disimpulkan menggunakan kondisi tekstual dan kondisi akustik 〈′ untuk menghasilkan sisa urutan kode target ≥′,≥1.

Pelatihan model menggunakan data dari Libriheavy corpus, yang berisi 50.000 jam pidato dari 7.000 orang yang membaca buku audio berbahasa Inggris. Segmentasi kata dalam teks dan ucapan masing-masing menggunakan BPE dan model EnCodec sumber terbuka yang telah dilatih sebelumnya.

Selain itu, model Vocos yang telah dilatih sebelumnya dan bersumber terbuka juga digunakan sebagai dekoder audio untuk menghasilkan ucapan.

Evaluasi

Untuk memverifikasi apakah efek sintesis ucapan model dapat mencapai tingkat yang sama dengan manusia, evaluasi menggunakan dua indikator subjektif, SMOS dan CMOS, dan menggunakan ucapan manusia nyata sebagai kebenaran dasar.

SMOS (Similarity Mean Opinion Score) digunakan untuk mengevaluasi kemiripan antara ucapan dan prompt aslinya. Kisaran skornya adalah 1 hingga 5, dengan kenaikan 0,5 poin.

CMOS (Comparative Mean Opinion Score) digunakan untuk mengevaluasi kealamian ucapan yang disintesis dibandingkan dengan pidato referensi tertentu. Rentang skalanya adalah -3~3, dengan kenaikan 1.


Berdasarkan hasil pada Tabel 2, skor subjektif VALL-E 2 tidak hanya melebihi skor VALL-E generasi pertama, namun bahkan performanya lebih baik daripada ucapan manusia sebenarnya.

Selain itu, makalah ini juga menggunakan indikator objektif seperti SIM, WER, dan DNSMOS untuk mengevaluasi kesamaan, ketahanan, dan kualitas persepsi keseluruhan dari ucapan yang disintesis.


Dalam ketiga indikator obyektif ini, tidak peduli bagaimana ukuran kelompok VALL-E 2 ditetapkan, terdapat peningkatan menyeluruh dibandingkan dengan VALL-E. Skor WER dan DNSMOS juga lebih baik daripada ucapan manusia sebenarnya, namun masih ada kesenjangan tertentu dalam skor SIM.

Selain itu, dapat diketahui juga dari hasil pada Tabel 3 bahwa ketika ukuran kelompok model AR VALL-E 2 adalah 2 maka efek optimal dapat dicapai.

Kesimpulan serupa dapat diperoleh dari evaluasi kumpulan data VCTK. Ketika panjang prompt bertambah, metode pemodelan kode yang dikelompokkan dapat mengurangi panjang urutan dan mengurangi kesalahan pembangkitan yang disebabkan oleh mekanisme perhatian yang salah dalam arsitektur Transformer, sehingga meningkatkan skor WER.


tentang Penulis

Penulis pertama artikel ini, Chen Sanyuan, adalah seorang PhD yang dilatih bersama oleh Harbin Institute of Technology dan Microsoft Research Asia. Dia telah menjabat sebagai peneliti magang di MSRA Natural Language Computing Group sejak tahun 2020. Minat penelitiannya sebagian besar sudah dilatih sebelumnya. model bahasa untuk pemrosesan ucapan dan audio.


Referensi:

https://arxiv.org/abs/2406.05370