berita

model generasi audio skala besar pertama di tiongkok lolos pengajuan

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

berita teknologi ifeng.com, 20 september, baru-baru ini, administrasi ruang siber shanghai tiongkok merilis daftar terbaru daftar persetujuan pendaftaran model besar generatif shanghai. model audio besar himalaya bergabung dengan model teks seperti mihoyo dan china literature's dream island model bersama-sama melewati proses pendaftaran dan menjadi model generasi audio berskala besar pertama di negara tersebut yang menerima layanan kecerdasan buatan generatif dari administrasi ruang siber tiongkok.

model audio himalaya adalah model generasi audio generasi keempat pertama di dunia dengan interpretasi multi-emosional dan ekspresi supernatural.model ini akan memimpin evolusi aigc di seluruh industri audio dari model generasi audio generasi ketiga hingga model besar generasi audio generasi keempat.

model audio himalaya adalah kerangka kerja llm berdasarkan pemodelan gabungan teks dan audio yang dikembangkan sendiri oleh tim ai everest. model ini mewujudkan pelatihan pemodelan gabungan audio dan teks di bawah representasi vektor spasial yang sama.metode pemodelan gabungan ini sepenuhnya memberikan tugas pembuatan audio dengan informasi semantik yang kuat dan memanfaatkan sepenuhnya koneksi bawaan dan informasi pelengkap di antara keduanya., sangat meningkatkan kinerja dan kemampuan generalisasi model. ini juga merupakan terobosan teknologi inti untuk model audio besar generasi keempat untuk melampaui generasi sebelumnya.

selama proses pelatihan, himalayan everest ai pertama-tama memproses data audio dan data teks terlebih dahulu, mengubahnya menjadi bentuk token yang sesuai untuk input model, dan memetakan token audio dan token teks ke dalam representasi vektor spasial yang sama sehingga model dapat lebih memahami dan memproses data tersebut. hubungan antara audio dan teks. proses pelatihan secara keseluruhan mencakup beberapa proses utama: pra-pelatihan (pretraining), penyempurnaan yang diawasi (sft), penyempurnaan yang diawasi domain (domain sft), penyempurnaan yang diawasi pembicara (speaker sft), dan pembelajaran penguatan (rl). melalui pelatihan proses ini,model ini memiliki beberapa fitur berikut: (1) kemampuan kloning nada 15 detik dan kemampuan konversi suara. (2) generasi ucapan yang hiper-antropomorfik, multi-emosional, dan selaras dengan preferensi manusia. (3) gaya yang sangat terkendali dan kemampuan paralinguistik.

tim r&d ai himalayan everest mengevaluasi model yang dilatih dan menemukan bahwa dalam konteks konten audio panjang seperti audio novel, kemampuan kontrol gaya interpretasi karakter, stabilitas performa fonem, dan kealamian aliran ucapan serta jeda ritme sangat signifikan. lebih tinggi model generasi audio generasi ketiga di dalam dan luar negeri.

model audio besar himalaya menerapkan paradigma "kombinasi produksi dan model", menggabungkan industri dengan model untuk membentuk lingkaran umpan balik positif antara bisnis, data, dan algoritme. ini banyak digunakan dalam skenario bisnis seperti buku audio aigc dan interaksi percakapan obrolan. misalnya, buku audio yang baru-baru ini populer "my altay" dihasilkan oleh model audio besar himalaya. himalaya everest ai menyatakan bahwa kemampuan audio model besar dapat dirasakan langsung di situs resmi everest ai, dan pengguna dapat langsung membuat konten audio sendiri.