noticias

El modelo de audio con IA más popular del mundo, se revelan los últimos detalles técnicos

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


cosas inteligentes
Compilado por Meng Qiang
Editor Yunpeng

Según Zhixixi News el 24 de julio, Satbility AI compartió el artículo de investigación Stable Audio Open en Arxiv el 19 de julio, revelando los detalles técnicos detrás del modelo.

Stable Audio Open es un modelo de texto a audio de código abierto lanzado por StabilityAI en junio de este año. Puede generar muestras y efectos de sonido de hasta 47 segundos de forma gratuita. También puede generar audio estéreo de alta calidad de 44,1 kHz y puede ejecutarse. GPU de consumo. Además de ser gratuito y de código abierto, este modelo también presta atención a proteger los derechos de autor de los creadores y hace todo lo posible para evitar problemas éticos y morales durante el entrenamiento de datos.

El documento reveló que Stable Audio Open es un modelo variante del Stable Audio 2 comercial lanzado por StabilityAI en marzo de este año. La arquitectura general sigue siendo la misma, pero se han realizado ajustes en el uso de datos de entrenamiento y parte de la arquitectura. La arquitectura clave consta de un codificador automático, basado en el modelo de difusión e incrustación de texto (DiT) de T5.

Dirección del artículo: https://arxiv.org/html/2407.14358v1

1. 3 arquitecturas clave brindan soporte para generar audio corto estéreo de alta calidad de 44,1 kHz de forma gratuita

Stable Audio Open presenta un modelo de texto a audio con 3 arquitecturas principales:

  1. Codificadores automáticos: comprimen datos de formas de onda en longitudes de secuencia manejables;
  2. Incrustación de texto basada en T5;
  3. Modelo de difusión basado en transformadores (DiT): opera en el espacio latente de los codificadores automáticos.

Un codificador automático es una arquitectura de red neuronal que consta de un codificador y un decodificador. El codificador comprime los datos de entrada en una representación de espacio latente más pequeña y el decodificador descomprime y restaura la representación latente. El codificador automático en Stable Audio Open comprime la forma de onda de audio en una secuencia más corta para su posterior procesamiento.


T5 (Transformador de transferencia de texto a texto) es un modelo de procesamiento de lenguaje natural desarrollado por Google que puede convertir el texto de entrada en otra representación de texto. En Stable Audio Open, el modelo T5 convierte el texto ingresado por el usuario en incrustación de texto para facilitar la integración de información de texto en el proceso de generación de audio.

DiT (Transformador de difusión) es un modelo de difusión que opera en el espacio latente del codificador automático para procesar y optimizar los datos comprimidos por el codificador para garantizar que el decodificador pueda restaurar audio coherente y de alta calidad.


Como modelo variante de Stable Audio 2, Stable Audio Open se ha ajustado en el uso de datos de entrenamiento y parte de la arquitectura. Se tomó un conjunto de datos completamente diferente y se utilizó T5 en lugar de CLAP (Preentrenamiento de audio y lenguaje contrastivo). El primero fue desarrollado por Google y se centra en datos de texto para completar diversas tareas de procesamiento del lenguaje natural, mientras que el segundo fue desarrollado por OpenAI y puede procesar tanto datos de idioma como de audio.

Como modelo gratuito y de código abierto, Stable Audio Open no genera pistas coherentes y completas, ni está optimizado para pistas, melodías o voces completas.

Stability AI dijo que Stable Audio Open se enfoca en demostraciones de audio y producción de efectos de sonido y puede generar audio estéreo de alta calidad de 44,1 kHz de hasta 47 segundos de forma gratuita. Cuando se capacita profesionalmente, el modelo es ideal para crear ritmos de batería, riffs instrumentales, sonidos ambientales, grabaciones de foley y otras muestras de audio para su uso en producción musical y diseño de sonido.

Una ventaja clave de esta versión de código abierto es que los usuarios pueden ajustar el modelo basándose en sus propios datos de audio personalizados. De esta manera, pueden usar sus propias grabaciones de batería para entrenar el modelo y generar ritmos únicos en su propio estilo.

2. El proceso de formación se centra en la protección de los derechos de autor.

En el contexto del rápido desarrollo de la IA generativa, existe un debate cada vez más intenso sobre el uso de la inteligencia artificial en la industria musical, especialmente en lo que respecta a las cuestiones de derechos de autor. Ed Newton-Rex, ex vicepresidente de audio de Stability AI, renunció a fines de 2023 porque no estaba de acuerdo con el uso de audio con derechos de autor por parte de Stability AI al entrenar modelos, creyendo que esto iba en contra de la ética. Estuvo involucrado en el desarrollo de Stable Audio.

El entrenamiento de datos de la IA generativa es como una caja negra. Nadie, excepto el desarrollador, sabe si los datos utilizados para el entrenamiento están protegidos por derechos de autor. "Muchas empresas tecnológicas multimillonarias están utilizando el trabajo de los creadores para entrenar modelos de IA generativa sin permiso y luego usan esos modelos para generar contenido nuevo", dijo Newton-Rex, quien renunció en una carta pública afirmando que sí. No aceptaremos este tipo de comportamiento que se basa en infringir los derechos de autor de los creadores para obtener beneficios.

Stability AI declaró que para respetar los derechos de autor de los creadores, los conjuntos de datos utilizados por Stable Audio Open provienen de Freesound y Free Music Archive (FMA), y todas las grabaciones utilizadas son grabaciones de audio publicadas bajo la licencia CC (Creative Commons). CC es un mecanismo de licencia de derechos de autor que permite a los creadores compartir sus obras y regular cómo otros pueden usarlas.


Para garantizar que evita el uso de material con derechos de autor, Stability AI dice que identifica muestras de música en Freesound mediante un etiquetador de audio, y las muestras identificadas se envían a la empresa de detección de contenido de Audible Magic para garantizar que el contenido potencial se elimine del conjunto de datos.

"Esto nos permite crear un modelo de audio abierto respetando plenamente los derechos de los creadores", dijo Stability AI.

Conclusión: El código abierto y los modelos gratuitos hacen que Vincent Audio sea más popular

El lanzamiento de Stable Audio Open demuestra la innovación y el progreso de Stability AI en el campo de los modelos de conversión de texto a audio. Aunque este modelo tiene ciertas limitaciones a la hora de generar longitud y coherencia del audio, sus ventajas también son obvias. Puede generar audio estéreo de 44,1 kHz de alta calidad de forma gratuita y puede ejecutarse en GPU de consumo, lo que reduce el umbral para usar Vincent Audio.

Al mismo tiempo, Stable Audio Open abre la tecnología de generación de audio y al mismo tiempo establece un nuevo punto de referencia para la protección de los derechos de autor. En el futuro, con el avance continuo de la tecnología y la mejora de la ética, se espera que Stable Audio Open ejerza su potencial en más escenarios de aplicación y promueva el desarrollo y popularización de la tecnología de generación de audio.

Actualmente, los pesos del modelo Stable Audio Open están disponibles en la plataforma del modelo de aprendizaje automático Hugging Face. Stability AI alienta a los diseñadores de sonido, músicos, desarrolladores y cualquier persona interesada en el audio a explorar las capacidades del modelo y brindar comentarios.

Fuente: Estabilidad AI