nouvelles

Le modèle audio IA le plus populaire au monde, les derniers détails techniques révélés

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


des choses intelligentes
Compilé par Meng Qiang
Éditeur Yunpeng

Selon Zhixixi News du 24 juillet, Satbility AI a partagé le document de recherche Stable Audio Open sur Arxiv le 19 juillet, révélant les détails techniques du modèle.

Stable Audio Open est un modèle texte-audio open source lancé par StabilityAI en juin de cette année. Il peut générer gratuitement des échantillons et des effets sonores jusqu'à 47 secondes. Il peut également générer un son stéréo de haute qualité à 44,1 kHz et peut fonctionner. GPU grand public. En plus d'être gratuit et open source, ce modèle veille également à la protection des droits d'auteur des créateurs et fait de son mieux pour éviter les problèmes éthiques et moraux lors de la formation des données.

Le document a révélé que Stable Audio Open est une variante du modèle commercial Stable Audio 2 lancé par StabilityAI en mars de cette année. L'architecture globale reste la même, mais des ajustements ont été apportés à l'utilisation des données de formation et d'une partie de l'architecture. L'architecture clé se compose d'un encodeur automatique, basé sur le modèle d'intégration et de diffusion de texte (DiT) de T5.

Adresse papier : https://arxiv.org/html/2407.14358v1

1. 3 architectures clés permettent de générer gratuitement un son court stéréo de haute qualité à 44,1 kHz.

Stable Audio Open introduit un modèle texte-audio avec 3 architectures principales :

  1. Encodeurs automatiques : compressez les données de forme d'onde en longueurs de séquence gérables ;
  2. Intégration de texte basée sur T5 ;
  3. Modèle de diffusion basé sur transformateur (DiT) : fonctionne dans l'espace latent des auto-encodeurs.

Un auto-encodeur est une architecture de réseau neuronal composée d'un encodeur et d'un décodeur. L'encodeur compresse les données d'entrée dans une représentation d'espace latent plus petite, et le décodeur décompresse et restaure la représentation latente. L'encodeur automatique de Stable Audio Open compresse la forme d'onde audio en une séquence plus courte pour un traitement ultérieur.


T5 (Text-to-Text Transfer Transformer) est un modèle de traitement du langage naturel développé par Google qui peut convertir le texte saisi en une autre représentation textuelle. Dans Stable Audio Open, le modèle T5 convertit le texte saisi par l'utilisateur en intégration de texte pour faciliter l'intégration des informations textuelles dans le processus de génération audio.

DiT (Diffusion Transformer) est un modèle de diffusion qui fonctionne dans l'espace latent de l'auto-encodeur pour traiter et optimiser les données compressées par l'encodeur afin de garantir que le décodeur puisse restaurer un son cohérent et de haute qualité.


En tant que modèle variante de Stable Audio 2, Stable Audio Open a été ajusté dans l'utilisation des données de formation et d'une partie de l'architecture. Un ensemble de données complètement différent a été pris et T5 a été utilisé à la place du CLAP (Contrastive Language-Audio Pretraining). Le premier a été développé par Google et se concentre sur les données textuelles pour effectuer diverses tâches de traitement du langage naturel, tandis que le second a été développé par OpenAI et peut traiter à la fois les données linguistiques et les données audio.

En tant que modèle open source et gratuit, Stable Audio Open ne génère pas de pistes cohérentes et complètes, ni optimisé pour des pistes, mélodies ou voix complètes.

Stability AI a déclaré que Stable Audio Open se concentre sur la production de démonstrations audio et d'effets sonores et peut générer gratuitement un son stéréo de haute qualité à 44,1 kHz jusqu'à 47 secondes. Lorsqu'il est formé professionnellement, le modèle est idéal pour créer des rythmes de batterie, des riffs instrumentaux, des sons ambiants, des enregistrements de bruitage et d'autres échantillons audio destinés à être utilisés dans la production musicale et la conception sonore.

Un avantage clé de cette version open source est que les utilisateurs peuvent affiner le modèle en fonction de leurs propres données audio personnalisées. De cette façon, les utilisateurs peuvent utiliser leurs propres enregistrements de batterie pour entraîner le modèle et générer des rythmes uniques dans leur propre style.

2. Le processus de formation se concentre sur la protection des droits d'auteur

Dans le contexte du développement rapide de l’IA générative, l’utilisation de l’intelligence artificielle dans l’industrie musicale fait l’objet d’un débat de plus en plus féroce, notamment en ce qui concerne les questions de droits d’auteur. Ed Newton-Rex, ancien vice-président de l'audio de Stability AI, a démissionné fin 2023 parce qu'il n'était pas d'accord avec l'utilisation par Stability AI d'audio protégé par le droit d'auteur lors de la formation de modèles, estimant que cela était contraire à l'éthique. Il a participé au développement de Stable Audio.

La formation des données de l'IA générative est comme une boîte noire. Personne, à l'exception du développeur, ne sait si les données utilisées pour la formation sont protégées par le droit d'auteur. "De nombreuses entreprises technologiques multimilliardaires utilisent le travail des créateurs pour former des modèles d'IA génératives sans autorisation, puis utilisent ces modèles pour générer du nouveau contenu", a déclaré Newton-Rex, qui a démissionné dans une lettre publique. Je n'accepte pas ce genre de comportement qui repose sur la violation des droits d'auteur des créateurs pour réaliser des profits.

Stability AI a déclaré qu'afin de respecter les droits d'auteur des créateurs, les ensembles de données utilisés par Stable Audio Open proviennent de Freesound et de Free Music Archive (FMA), et que tous les enregistrements utilisés sont des enregistrements audio publiés sous la licence CC (Creative Commons). CC est un mécanisme de licence de droits d'auteur qui permet aux créateurs de partager leurs œuvres et de réglementer la manière dont les autres peuvent les utiliser.


Pour garantir qu'il évite d'utiliser tout matériel protégé par le droit d'auteur, Stability AI indique qu'il identifie les échantillons de musique dans Freesound à l'aide d'un marqueur audio, et les échantillons identifiés sont envoyés à la société de détection de contenu d'Audible Magic pour garantir que le contenu potentiel est supprimé de l'ensemble de données.

"Cela nous permet de créer un modèle audio ouvert tout en respectant pleinement les droits des créateurs", a déclaré Stability AI.

Conclusion : les modèles open source et gratuits rendent Vincent Audio plus populaire

Le lancement de Stable Audio Open démontre l’innovation et les progrès de Stability AI dans le domaine des modèles texte-audio. Bien que ce modèle présente certaines limites dans la génération de longueur et de cohérence audio, ses avantages sont également évidents. Il peut générer gratuitement un son stéréo de haute qualité à 44,1 kHz et peut fonctionner sur des GPU grand public, abaissant ainsi le seuil d'utilisation de Vincent Audio.

Dans le même temps, Stable Audio Open ouvre la technologie de génération audio tout en établissant une nouvelle référence en matière de protection des droits d'auteur. À l'avenir, avec les progrès continus de la technologie et l'amélioration de l'éthique, Stable Audio Open devrait exercer son potentiel dans davantage de scénarios d'application et promouvoir le développement et la vulgarisation de la technologie de génération audio.

Actuellement, les poids des modèles Stable Audio Open sont disponibles sur la plate-forme de modèles d'apprentissage automatique Hugging Face. Stability AI encourage les concepteurs sonores, les musiciens, les développeurs et toute personne intéressée par l’audio à explorer les capacités du modèle et à fournir des commentaires.

Source : IA de stabilité