notizia

Il modello audio AI più popolare al mondo, rivelati gli ultimi dettagli tecnici

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


cose intelligenti
Compilato da Meng Qiang
Redattore Yunpeng

Secondo Zhixixi News del 24 luglio, Satbility AI ha condiviso il documento di ricerca Stable Audio Open su Arxiv il 19 luglio, rivelando i dettagli tecnici dietro il modello.

Stable Audio Open è un modello di testo in audio open source lanciato da StabilityAI nel giugno di quest'anno. Può generare campioni ed effetti sonori fino a 47 secondi gratuitamente. Può anche generare audio stereo di alta qualità a 44,1 kHz e può essere eseguito GPU di livello consumer. Oltre ad essere gratuito e open source, questo modello presta attenzione anche alla protezione del diritto d'autore dei creatori e fa del suo meglio per evitare problemi etici e morali durante la formazione dei dati.

Il documento ha rivelato che Stable Audio Open è una variante del modello commerciale Stable Audio 2 lanciato da StabilityAI nel marzo di quest'anno. L'architettura complessiva rimane la stessa, ma sono state apportate modifiche all'uso dei dati di addestramento e di parte dell'architettura l'architettura chiave è costituita da un codificatore automatico, basato sul modello di incorporamento e diffusione del testo (DiT) di T5.

Indirizzo del documento: https://arxiv.org/html/2407.14358v1

1. 3 architetture chiave forniscono supporto per generare gratuitamente brevi audio stereo di alta qualità a 44,1 kHz

Stable Audio Open introduce un modello da testo ad audio con 3 architetture principali:

  1. Codificatori automatici: comprimono i dati della forma d'onda in sequenze di lunghezze gestibili;
  2. Incorporamento del testo basato su T5;
  3. Modello di diffusione basato su trasformatore (DiT): opera nello spazio latente degli autoencoder.

Un autocodificatore è un'architettura di rete neurale composta da un codificatore e un decodificatore. Il codificatore comprime i dati di input in una rappresentazione dello spazio latente più piccola e il decodificatore decomprime e ripristina la rappresentazione latente. Il codificatore automatico in Stable Audio Open comprime la forma d'onda audio in una sequenza più breve per la successiva elaborazione.


T5 (Text-to-Text Transfer Transformer) è un modello di elaborazione del linguaggio naturale sviluppato da Google in grado di convertire il testo immesso in un'altra rappresentazione testuale. In Stable Audio Open, il modello T5 converte il testo inserito dall'utente in incorporamento di testo per facilitare l'integrazione delle informazioni di testo nel processo di generazione dell'audio.

DiT (Diffusion Transformer) è un modello di diffusione che opera nello spazio latente dell'autoencoder per elaborare e ottimizzare i dati compressi dall'encoder per garantire che il decoder possa ripristinare un audio coerente e di alta qualità.


Come modello variante di Stable Audio 2, Stable Audio Open è stato adattato nell'uso dei dati di training e in parte dell'architettura. È stato preso un set di dati completamente diverso ed è stato utilizzato T5 al posto di CLAP (Contrastive Language-Audio Pretraining). Il primo è stato sviluppato da Google e si concentra sui dati di testo per completare varie attività di elaborazione del linguaggio naturale, mentre il secondo è stato sviluppato da OpenAI e può elaborare sia dati linguistici che dati audio.

Essendo un modello open source e gratuito, Stable Audio Open non genera tracce coerenti e complete, né è ottimizzato per tracce, melodie o voci complete.

Stability AI ha affermato che Stable Audio Open si concentra sulla demo audio e sulla produzione di effetti sonori e può generare gratuitamente audio stereo di alta qualità a 44,1 kHz fino a 47 secondi. Se addestrato professionalmente, il modello è ideale per creare ritmi di batteria, riff strumentali, suoni ambientali, registrazioni di foley e altri campioni audio da utilizzare nella produzione musicale e nel sound design.

Un vantaggio chiave di questa versione open source è che gli utenti possono mettere a punto il modello in base ai propri dati audio personalizzati. In questo modo, gli utenti possono utilizzare le proprie registrazioni di batteria per addestrare il modello e generare ritmi unici nel proprio stile.

2. Il processo di formazione si concentra sulla protezione del diritto d'autore

Sullo sfondo del rapido sviluppo dell’intelligenza artificiale generativa, è in corso un dibattito sempre più acceso sull’uso dell’intelligenza artificiale nell’industria musicale, in particolare per quanto riguarda le questioni relative al diritto d’autore. Ed Newton-Rex, ex vicepresidente dell'audio di Stability AI, si è dimesso alla fine del 2023 perché non era d'accordo con l'uso di audio protetto da copyright da parte di Stability AI durante l'addestramento dei modelli, ritenendo che ciò fosse contrario all'etica. È stato coinvolto nello sviluppo di Stable Audio.

L’addestramento dei dati dell’IA generativa è come una scatola nera Nessuno, tranne lo sviluppatore, sa se i dati utilizzati per l’addestramento sono protetti da copyright. "Molte aziende tecnologiche multimiliardarie utilizzano il lavoro dei creatori per addestrare modelli di intelligenza artificiale generativa senza permesso e quindi utilizzano tali modelli per generare nuovi contenuti", ha affermato Newton-Rex, che si è dimesso in una lettera pubblica Non accetteremo questo tipo di comportamento che si basa sulla violazione del diritto d'autore dei creatori per realizzare profitti.

Stability AI ha dichiarato che, al fine di rispettare il copyright dei creatori, i set di dati utilizzati da Stable Audio Open provengono da Freesound e Free Music Archive (FMA) e tutte le registrazioni utilizzate sono registrazioni audio rilasciate sotto la licenza CC (Creative Commons). CC è un meccanismo di licenza sul copyright che consente ai creatori di condividere le proprie opere e regolare il modo in cui altri possono utilizzarle.


Per garantire di evitare l'utilizzo di materiale protetto da copyright, Stability AI afferma di identificare i campioni musicali in Freesound utilizzando un tagger audio e i campioni identificati vengono inviati alla società di rilevamento dei contenuti di Audible Magic per garantire che il potenziale contenuto venga rimosso dal set di dati.

"Questo ci consente di creare un modello audio aperto nel pieno rispetto dei diritti dei creatori", ha affermato Stability AI.

Conclusione: i modelli open source e gratuiti rendono Vincent Audio più popolare

Il lancio di Stable Audio Open dimostra l’innovazione e il progresso di Stability AI nel campo dei modelli da testo ad audio. Sebbene questo modello presenti alcune limitazioni nella generazione della lunghezza e della coerenza dell'audio, anche i suoi vantaggi sono evidenti. Può generare audio stereo di alta qualità a 44,1kHz gratuitamente e può funzionare su GPU di livello consumer, abbassando la soglia per l'utilizzo di Vincent Audio.

Allo stesso tempo, Stable Audio Open apre la strada alla tecnologia di generazione audio e stabilisce anche un nuovo punto di riferimento per la protezione del copyright. In futuro, con il continuo progresso della tecnologia e il miglioramento dell'etica, si prevede che Stable Audio Open eserciterà il suo potenziale in più scenari applicativi e promuoverà lo sviluppo e la divulgazione della tecnologia di generazione audio.

Attualmente, i pesi del modello Stable Audio Open sono disponibili sulla piattaforma del modello di machine learning Hugging Face. Stability AI incoraggia i sound designer, i musicisti, gli sviluppatori e chiunque sia interessato all'audio a esplorare le capacità del modello e fornire feedback.

Fonte: Stabilità AI