notícias

O modelo de áudio AI mais quente do mundo, os últimos detalhes técnicos revelados

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


coisas inteligentes
Compilado por Meng Qiang
Editor Yunpeng

De acordo com o Zhixixi News em 24 de julho, a Satbility AI compartilhou o artigo de pesquisa Stable Audio Open no Arxiv em 19 de julho, revelando os detalhes técnicos por trás do modelo.

Stable Audio Open é um modelo de texto para áudio de código aberto lançado pela StabilityAI em junho deste ano. Ele pode gerar amostras e efeitos sonoros de até 47 segundos gratuitamente. Ele também pode gerar áudio estéreo de alta qualidade de 44,1 kHz e pode ser executado. GPUs para consumidores. Além de ser gratuito e de código aberto, esse modelo também se preocupa em proteger os direitos autorais dos criadores e faz o possível para evitar questões éticas e morais durante o treinamento de dados.

O artigo revelou que Stable Audio Open é um modelo variante do StabilityAI comercial 2 lançado em março deste ano. A arquitetura geral permanece a mesma, mas ajustes foram feitos no uso de dados de treinamento e em parte da arquitetura. A arquitetura principal consiste em um autoencoder, baseado no modelo de incorporação e difusão de texto (DiT) do T5.

Endereço do artigo: https://arxiv.org/html/2407.14358v1

1. 3 arquiteturas principais fornecem suporte para gerar áudio curto estéreo de alta qualidade de 44,1 kHz gratuitamente

Stable Audio Open apresenta um modelo de texto para áudio com 3 arquiteturas principais:

  1. Autoencoders: compactam dados de forma de onda em comprimentos de sequência gerenciáveis;
  2. Incorporação de texto baseada em T5;
  3. Modelo de difusão baseado em transformador (DiT): opera no espaço latente dos autoencoders.

Um autoencoder é uma arquitetura de rede neural que consiste em um codificador e um decodificador. O codificador compacta os dados de entrada em uma representação de espaço latente menor e o decodificador descompacta e restaura a representação latente. O autoencoder em Stable Audio Open compacta a forma de onda de áudio em uma sequência mais curta para processamento subsequente.


T5 (Text-to-Text Transfer Transformer) é um modelo de processamento de linguagem natural desenvolvido pelo Google que pode converter texto de entrada em outra representação de texto. No Stable Audio Open, o modelo T5 converte texto inserido pelo usuário em incorporação de texto para facilitar a integração de informações de texto no processo de geração de áudio.

DiT (Diffusion Transformer) é um modelo de difusão que opera no espaço latente do autoencoder para processar e otimizar os dados compactados pelo codificador para garantir que o decodificador possa restaurar áudio coerente e de alta qualidade.


Como modelo variante do Stable Audio 2, o Stable Audio Open foi ajustado no uso de dados de treinamento e parte da arquitetura. Um conjunto de dados completamente diferente foi obtido e T5 foi usado em vez de CLAP (Contrastive Language-Audio Pretraining). O primeiro foi desenvolvido pelo Google e concentra-se em dados de texto para completar várias tarefas de processamento de linguagem natural, enquanto o último foi desenvolvido pela OpenAI e pode processar dados de idioma e dados de áudio.

Por ser um modelo de código aberto e gratuito, Stable Audio Open não gera faixas coerentes e completas, nem é otimizado para faixas, melodias ou vocais completos.

Stability AI disse que Stable Audio Open se concentra na demonstração de áudio e na produção de efeitos sonoros e pode gerar áudio estéreo de alta qualidade de 44,1 kHz por até 47 segundos gratuitamente. Quando treinado profissionalmente, o modelo é ideal para criar batidas de bateria, riffs instrumentais, sons ambientes, gravações de foley e outras amostras de áudio para uso em produção musical e design de som.

Uma vantagem importante desta versão de código aberto é que os usuários podem ajustar o modelo com base em seus próprios dados de áudio personalizados. Dessa forma, os usuários podem usar suas próprias gravações de bateria para treinar o modelo e gerar ritmos únicos em seu próprio estilo.

2. O processo de formação centra-se na proteção dos direitos de autor

Tendo como pano de fundo o rápido desenvolvimento da IA ​​generativa, há um debate cada vez mais acirrado sobre a utilização da inteligência artificial na indústria musical, especialmente no que diz respeito a questões de direitos de autor. Ed Newton-Rex, ex-vice-presidente de áudio da Stability AI, renunciou no final de 2023 porque discordava do uso de áudio protegido por direitos autorais pela Stability AI ao treinar modelos, acreditando que isso era contra a ética. Ele esteve envolvido no desenvolvimento do Stable Audio.

O treinamento de dados da IA ​​generativa é como uma caixa preta. Ninguém, exceto o desenvolvedor, sabe se os dados usados ​​para treinamento estão protegidos por direitos autorais. “Muitas empresas de tecnologia multibilionárias estão usando o trabalho dos criadores para treinar modelos generativos de IA sem permissão e depois usando esses modelos para gerar novos conteúdos”, disse Newton-Rex, que renunciou em uma carta pública. não aceitar esse tipo de comportamento que depende da violação dos direitos autorais dos criadores para obter lucros.

A Stability AI afirmou que, para respeitar os direitos autorais dos criadores, os conjuntos de dados usados ​​pelo Stable Audio Open vêm do Freesound e do Free Music Archive (FMA), e todas as gravações utilizadas são gravações de áudio lançadas sob a licença CC (Creative Commons). CC é um mecanismo de licenciamento de direitos autorais que permite aos criadores compartilhar seus trabalhos e regular como outros podem usá-los.


Para garantir que evita o uso de qualquer material protegido por direitos autorais, a Stability AI afirma que identifica amostras de música no Freesound usando um etiquetador de áudio, e as amostras identificadas são enviadas para a empresa de detecção de conteúdo da Audible Magic para garantir que o conteúdo potencial seja removido do conjunto de dados.

“Isso nos permite criar um modelo de áudio aberto, respeitando totalmente os direitos dos criadores”, disse Stability AI.

Conclusão: modelos de código aberto e gratuitos tornam Vincent Audio mais popular

O lançamento do Stable Audio Open demonstra a inovação e o progresso da Stability AI na área de modelos de texto para áudio. Embora este modelo tenha certas limitações na geração de comprimento e coerência de áudio, suas vantagens também são óbvias. Ele pode gerar áudio estéreo de 44,1 kHz de alta qualidade gratuitamente e pode ser executado em GPUs de consumo, reduzindo o limite para o uso do Vincent Audio.

Ao mesmo tempo, Stable Audio Open abre a tecnologia de geração de áudio e, ao mesmo tempo, estabelece um novo padrão para proteção de direitos autorais. No futuro, com o avanço contínuo da tecnologia e o aprimoramento da ética, espera-se que o Stable Audio Open exerça seu potencial em mais cenários de aplicação e promova o desenvolvimento e a popularização da tecnologia de geração de áudio.

Atualmente, os pesos do modelo Stable Audio Open estão disponíveis na plataforma de modelo de aprendizado de máquina Hugging Face. Stability AI incentiva designers de som, músicos, desenvolvedores e qualquer pessoa interessada em áudio a explorar os recursos do modelo e fornecer feedback.

Fonte: Estabilidade AI