berita

Model audio AI terpanas di dunia, detail teknis terbaru terungkap

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


hal-hal cerdas
Disusun oleh Meng Qiang
Editor Yunpeng

Menurut Zhixixi News pada tanggal 24 Juli, Satbility AI membagikan makalah penelitian Stable Audio Open di Arxiv pada tanggal 19 Juli, mengungkapkan detail teknis di balik model tersebut.

Stable Audio Open adalah model teks-ke-audio open source yang diluncurkan oleh StabilityAI pada bulan Juni tahun ini. Model ini dapat menghasilkan sampel dan efek suara hingga 47 detik secara gratis. Model ini juga dapat menghasilkan audio stereo berkualitas tinggi 44,1kHz dan dapat dijalankan GPU tingkat konsumen. Selain gratis dan open source, model ini juga memperhatikan perlindungan hak cipta pencipta dan berusaha semaksimal mungkin untuk menghindari masalah etika dan moral selama pelatihan data.

Makalah tersebut mengungkapkan bahwa Stable Audio Open adalah model varian dari Stable Audio 2 komersial yang diluncurkan oleh StabilityAI pada bulan Maret tahun ini. Arsitektur keseluruhannya tetap sama, tetapi penyesuaian telah dilakukan dalam penggunaan data pelatihan dan bagian dari arsitektur tersebut arsitektur kunci terdiri dari autoencoder, berdasarkan model penyematan dan difusi teks (DiT) T5.

Alamat makalah: https://arxiv.org/html/2407.14358v1

1. 3 arsitektur utama memberikan dukungan untuk menghasilkan audio pendek stereo berkualitas tinggi 44.1kHz secara gratis

Stable Audio Open memperkenalkan model text-to-audio dengan 3 arsitektur utama:

  1. Autoencoder: memampatkan data bentuk gelombang ke panjang urutan yang dapat diatur;
  2. Penyematan teks berdasarkan T5;
  3. Model difusi berbasis transformator (DiT): beroperasi di ruang laten autoencoder.

Autoencoder adalah arsitektur jaringan saraf yang terdiri dari encoder dan decoder. Encoder mengompresi data masukan menjadi representasi ruang laten yang lebih kecil, dan decoder mendekompresi dan memulihkan representasi laten. Autoencoder di Stable Audio Open memampatkan bentuk gelombang audio menjadi urutan yang lebih pendek untuk pemrosesan selanjutnya.


T5 (Text-to-Text Transfer Transformer) adalah model pemrosesan bahasa alami yang dikembangkan oleh Google yang dapat mengubah teks masukan menjadi representasi teks lain. Dalam Stable Audio Open, model T5 mengubah teks yang dimasukkan pengguna menjadi penyematan teks untuk memfasilitasi integrasi informasi teks ke dalam proses pembuatan audio.

DiT (Diffusion Transformer) adalah model difusi yang beroperasi di ruang laten autoencoder untuk memproses dan mengoptimalkan data yang dikompresi oleh encoder guna memastikan bahwa decoder dapat memulihkan audio yang koheren dan berkualitas tinggi.


Sebagai model varian dari Stable Audio 2, Stable Audio Open telah disesuaikan dalam penggunaan data pelatihan dan bagian arsitekturnya. Kumpulan data yang benar-benar berbeda diambil, dan T5 digunakan sebagai pengganti CLAP (Contrastive Language-Audio Pretraining). Yang pertama dikembangkan oleh Google dan berfokus pada data teks untuk menyelesaikan berbagai tugas pemrosesan bahasa alami, sedangkan yang kedua dikembangkan oleh OpenAI dan dapat memproses data bahasa dan data audio.

Sebagai model sumber terbuka dan gratis, Stable Audio Open tidak menghasilkan trek yang koheren dan lengkap, juga tidak dioptimalkan untuk trek, melodi, atau vokal yang lengkap.

Stability AI mengatakan bahwa Stable Audio Open berfokus pada demo audio dan produksi efek suara dan dapat menghasilkan audio stereo berkualitas tinggi 44,1kHz hingga 47 detik secara gratis. Jika dilatih secara profesional, model ini ideal untuk membuat ketukan drum, riff instrumental, suara sekitar, rekaman foley, dan sampel audio lainnya untuk digunakan dalam produksi musik dan desain suara.

Keuntungan utama dari versi sumber terbuka ini adalah pengguna dapat menyempurnakan model berdasarkan data audio kustom mereka sendiri. Dengan cara ini, pengguna dapat menggunakan rekaman drum mereka sendiri untuk melatih model dan menghasilkan ritme unik dalam gaya mereka sendiri.

2. Proses pelatihan berfokus pada perlindungan hak cipta

Dengan latar belakang pesatnya perkembangan AI generatif, terdapat perdebatan yang semakin sengit mengenai penggunaan kecerdasan buatan dalam industri musik, terutama terkait masalah hak cipta. Ed Newton-Rex, mantan wakil presiden audio Stability AI, mengundurkan diri pada akhir tahun 2023 karena dia tidak setuju dengan penggunaan audio berhak cipta oleh Stability AI saat melatih model, karena percaya bahwa hal ini melanggar etika. Dia terlibat dalam pengembangan Audio Stabil.

Pelatihan data AI generatif seperti kotak hitam. Tidak seorang pun kecuali pengembang yang mengetahui apakah data yang digunakan untuk pelatihan dilindungi hak cipta. “Banyak perusahaan teknologi bernilai miliaran dolar menggunakan karya pencipta untuk melatih model AI generatif tanpa izin dan kemudian menggunakan model tersebut untuk menghasilkan konten baru,” kata Newton-Rex, yang mengundurkan diri dalam surat publiknya tidak menerima perilaku seperti ini yang mengandalkan pelanggaran hak cipta pencipta untuk mendapatkan keuntungan.

Stability AI menyatakan bahwa untuk menghormati hak cipta pencipta, kumpulan data yang digunakan oleh Stable Audio Open berasal dari Freesound dan Free Music Archive (FMA), dan semua rekaman yang digunakan adalah rekaman audio yang dirilis di bawah lisensi CC (Creative Commons). CC adalah mekanisme lisensi hak cipta yang memungkinkan pencipta untuk membagikan karya mereka dan mengatur bagaimana orang lain dapat menggunakannya.


Untuk memastikannya menghindari penggunaan materi berhak cipta, Stability AI mengatakan pihaknya mengidentifikasi sampel musik di Freesound menggunakan penanda audio, dan sampel yang diidentifikasi dikirim ke perusahaan pendeteksi konten Audible Magic untuk memastikan konten potensial dihapus dari kumpulan data.

“Hal ini memungkinkan kami membuat model audio terbuka dengan tetap menghormati hak pencipta,” kata Stability AI.

Kesimpulan: Model open source dan gratis membuat Vincent Audio lebih populer

Peluncuran Stable Audio Open menunjukkan inovasi dan kemajuan Stability AI di bidang model teks-ke-audio. Meskipun model ini memiliki keterbatasan tertentu dalam menghasilkan panjang dan koherensi audio, kelebihannya juga terlihat jelas. Ini dapat menghasilkan audio stereo 44,1kHz berkualitas tinggi secara gratis, dan dapat berjalan pada GPU tingkat konsumen, sehingga menurunkan ambang batas penggunaan Vincent Audio.

Pada saat yang sama, Stable Audio Open membuka teknologi pembuatan audio sekaligus menetapkan tolok ukur baru untuk perlindungan hak cipta. Di masa depan, dengan kemajuan teknologi yang berkelanjutan dan peningkatan etika, Stable Audio Open diharapkan dapat mengerahkan potensinya dalam lebih banyak skenario aplikasi dan mendorong pengembangan dan mempopulerkan teknologi generasi audio.

Saat ini, bobot model Stable Audio Open tersedia di platform model pembelajaran mesin Hugging Face. Stability AI mendorong desainer suara, musisi, pengembang, dan siapa pun yang tertarik dengan audio untuk mengeksplorasi kemampuan model dan memberikan masukan.

Sumber: Stabilitas AI