Nachricht

Das weltweit heißeste KI-Audiomodell, die neuesten technischen Details enthüllt

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


kluge Dinge
Zusammengestellt von Meng Qiang
Herausgeber Yunpeng

Laut Zhixixi News vom 24. Juli hat Satbility AI am 19. Juli das Stable Audio Open-Forschungspapier auf Arxiv geteilt und die technischen Details hinter dem Modell offengelegt.

Stable Audio Open ist ein Open-Source-Text-to-Audio-Modell, das im Juni dieses Jahres von StabilityAI eingeführt wurde. Es kann bis zu 47 Sekunden lang kostenlos Samples und Soundeffekte erzeugen. Außerdem kann es hochwertiges Stereo-Audio mit 44,1 kHz erzeugen GPUs der Verbraucherklasse. Dieses Modell ist nicht nur kostenlos und Open Source, sondern achtet auch auf den Schutz des Urheberrechts der Urheber und versucht sein Bestes, ethische und moralische Probleme beim Datentraining zu vermeiden.

Das Papier enthüllte, dass Stable Audio Open ein Variantenmodell des kommerziellen Stable Audio 2 ist, das im März dieses Jahres eingeführt wurde. Die Gesamtarchitektur bleibt gleich, es wurden jedoch Anpassungen bei der Verwendung von Trainingsdaten und einem Teil der Architektur vorgenommen Die Schlüsselarchitektur besteht aus einem Autoencoder, der auf dem Texteinbettungs- und Diffusionsmodell (DiT) von T5 basiert.

Papieradresse: https://arxiv.org/html/2407.14358v1

1. 3 Schlüsselarchitekturen bieten Unterstützung für die kostenlose Erzeugung hochwertiger Stereo-Kurzaudios mit 44,1 kHz

Stable Audio Open führt ein Text-to-Audio-Modell mit drei Hauptarchitekturen ein:

  1. Autoencoder: Komprimieren Sie Wellenformdaten auf überschaubare Sequenzlängen.
  2. Texteinbettung basierend auf T5;
  3. Transformer-basiertes Diffusionsmodell (DiT): arbeitet im latenten Raum von Autoencodern.

Ein Autoencoder ist eine neuronale Netzwerkarchitektur, die aus einem Encoder und einem Decoder besteht. Der Encoder komprimiert die Eingabedaten in eine kleinere latente Raumdarstellung, und der Decoder dekomprimiert die latente Darstellung und stellt sie wieder her. Der Autoencoder in Stable Audio Open komprimiert die Audiowellenform in eine kürzere Sequenz für die anschließende Verarbeitung.


T5 (Text-to-Text Transfer Transformer) ist ein von Google entwickeltes Verarbeitungsmodell für natürliche Sprache, das Eingabetext in eine andere Textdarstellung umwandeln kann. In Stable Audio Open wandelt das T5-Modell vom Benutzer eingegebenen Text in Texteinbettung um, um die Integration von Textinformationen in den Audiogenerierungsprozess zu erleichtern.

DiT (Diffusion Transformer) ist ein Diffusionsmodell, das im latenten Raum des Autoencoders arbeitet, um die vom Encoder komprimierten Daten zu verarbeiten und zu optimieren, um sicherzustellen, dass der Decoder kohärentes, hochwertiges Audio wiederherstellen kann.


Als Variantenmodell von Stable Audio 2 wurde Stable Audio Open in der Nutzung von Trainingsdaten und einem Teil der Architektur angepasst. Es wurde ein völlig anderer Datensatz erstellt und T5 anstelle von CLAP (Contrastive Language-Audio Pretraining) verwendet. Ersteres wurde von Google entwickelt und konzentriert sich auf Textdaten, um verschiedene Aufgaben der Verarbeitung natürlicher Sprache zu erledigen, während letzteres von OpenAI entwickelt wurde und sowohl Sprachdaten als auch Audiodaten verarbeiten kann.

Als Open-Source- und kostenloses Modell generiert Stable Audio Open weder zusammenhängende und vollständige Tracks, noch ist es für komplette Tracks, Melodien oder Gesang optimiert.

Laut Stability AI konzentriert sich Stable Audio Open auf die Produktion von Audiodemos und Soundeffekten und kann kostenlos hochwertiges 44,1-kHz-Stereo-Audio von bis zu 47 Sekunden erzeugen. Bei professioneller Schulung eignet sich das Modell ideal zum Erstellen von Drumbeats, Instrumentalriffs, Umgebungsgeräuschen, Foley-Aufnahmen und anderen Audio-Samples für die Verwendung in der Musikproduktion und im Sounddesign.

Ein wesentlicher Vorteil dieser Open-Source-Version besteht darin, dass Benutzer das Modell auf der Grundlage ihrer eigenen benutzerdefinierten Audiodaten verfeinern können. Auf diese Weise können Benutzer ihre eigenen Schlagzeugaufnahmen verwenden, um das Modell zu trainieren und einzigartige Rhythmen in ihrem eigenen Stil zu erzeugen.

2. Der Schulungsprozess konzentriert sich auf den Urheberrechtsschutz

Vor dem Hintergrund der rasanten Entwicklung der generativen KI wird der Einsatz künstlicher Intelligenz in der Musikindustrie immer heftiger diskutiert, insbesondere im Hinblick auf Urheberrechtsfragen. Ed Newton-Rex, ehemaliger Vizepräsident für Audio bei Stability AI, trat Ende 2023 zurück, weil er mit der Verwendung von urheberrechtlich geschütztem Audio durch Stability AI beim Training von Modellen nicht einverstanden war und glaubte, dass dies gegen die Ethik verstoße. Er war an der Entwicklung von Stable Audio beteiligt.

Das Datentraining der generativen KI ist wie eine Blackbox. Niemand außer dem Entwickler weiß, ob die für das Training verwendeten Daten urheberrechtlich geschützt sind. „Viele milliardenschwere Technologieunternehmen nutzen die Arbeit von Entwicklern, um generative KI-Modelle ohne Erlaubnis zu trainieren und diese Modelle dann zur Generierung neuer Inhalte zu verwenden“, sagte Newton-Rex, der in einem öffentlichen Brief zurücktrat Akzeptieren Sie kein solches Verhalten, das auf der Verletzung des Urheberrechts der Urheber beruht, um Gewinne zu erzielen.

Stability AI gab an, dass zur Wahrung des Urheberrechts der Urheber die von Stable Audio Open verwendeten Datensätze von Freesound und dem Free Music Archive (FMA) stammen und alle verwendeten Aufnahmen Audioaufnahmen sind, die unter der CC-Lizenz (Creative Commons) veröffentlicht wurden. CC ist ein Mechanismus zur Urheberrechtslizenzierung, der es Urhebern ermöglicht, ihre Werke zu teilen und zu regeln, wie andere sie nutzen dürfen.


Um sicherzustellen, dass kein urheberrechtlich geschütztes Material verwendet wird, identifiziert Stability AI Musikbeispiele in Freesound mithilfe eines Audio-Taggers und sendet die identifizierten Beispiele an das Inhaltserkennungsunternehmen von Audible Magic, um sicherzustellen, dass potenzielle Inhalte aus dem Datensatz entfernt werden.

„Dadurch können wir ein offenes Audiomodell erstellen und dabei die Rechte der Urheber vollständig respektieren“, sagte Stability AI.

Fazit: Open Source und kostenlose Modelle machen Vincent Audio immer beliebter

Die Einführung von Stable Audio Open demonstriert die Innovation und den Fortschritt von Stability AI im Bereich der Text-to-Audio-Modelle. Obwohl dieses Modell gewisse Einschränkungen bei der Erzeugung von Audiolänge und -kohärenz aufweist, liegen seine Vorteile ebenfalls auf der Hand. Es kann kostenlos hochwertiges 44,1-kHz-Stereo-Audio erzeugen und kann auf Verbraucher-GPUs ausgeführt werden, wodurch die Schwelle für die Verwendung von Vincent Audio gesenkt wird.

Gleichzeitig öffnet Stable Audio Open die Audioerzeugungstechnologie und setzt gleichzeitig neue Maßstäbe für den Urheberrechtsschutz. Mit der kontinuierlichen Weiterentwicklung der Technologie und der Verbesserung der Ethik wird erwartet, dass Stable Audio Open in Zukunft sein Potenzial in mehr Anwendungsszenarien entfalten und die Entwicklung und Popularisierung der Audioerzeugungstechnologie vorantreiben wird.

Derzeit sind Stable Audio Open-Modellgewichte auf der Modellplattform für maschinelles Lernen Hugging Face verfügbar. Stability AI ermutigt Sounddesigner, Musiker, Entwickler und alle, die sich für Audio interessieren, die Fähigkeiten des Modells zu erkunden und Feedback zu geben.

Quelle: Stabilitäts-KI