Самая популярная в мире аудиомодель с искусственным интеллектом, раскрыты последние технические подробности

2024-07-24

умные вещи
Составлено Мэн Цян
Редактор Юнпэн

По сообщению Zhixixi News от 24 июля, Satbility AI 19 июля поделилась исследовательской работой Stable Audio Open по Arxiv, раскрыв технические детали модели.

Stable Audio Open — это модель преобразования текста в аудио с открытым исходным кодом, запущенная StabilityAI в июне этого года. Она может бесплатно генерировать сэмплы и звуковые эффекты продолжительностью до 47 секунд. Она также может генерировать высококачественный стереозвук с частотой 44,1 кГц и может работать. Графические процессоры потребительского уровня. Помимо того, что эта модель бесплатна и имеет открытый исходный код, она также уделяет внимание защите авторских прав создателей и изо всех сил старается избежать этических и моральных проблем во время обучения данных.

В документе показано, что Stable Audio Open — это вариант коммерческой версии Stable Audio 2, выпущенной StabilityAI в марте этого года. Общая архитектура осталась прежней, но были внесены изменения в использование обучающих данных и части архитектуры. Ключевая архитектура состоит из автокодировщика, основанного на модели встраивания и распространения текста (DiT) T5.

Адрес статьи: https://arxiv.org/html/2407.14358v1.

1. 3 ключевые архитектуры обеспечивают бесплатную поддержку высококачественного короткого стереозвука с частотой 44,1 кГц.

Stable Audio Open представляет модель преобразования текста в аудио с тремя основными архитектурами:

Автоэнкодеры: сжимают данные сигналов до управляемой длины последовательности;
Встраивание текста на основе T5;
Модель диффузии на основе трансформатора (DiT): работает в скрытом пространстве автоэнкодеров.

Автоэнкодер — это архитектура нейронной сети, состоящая из кодера и декодера. Кодер сжимает входные данные в меньшее представление скрытого пространства, а декодер распаковывает и восстанавливает скрытое представление. Автоэнкодер в Stable Audio Open сжимает аудиосигнал в более короткую последовательность для последующей обработки.

T5 (преобразователь преобразования текста в текст) — это модель обработки естественного языка, разработанная Google, которая может преобразовывать входной текст в другое текстовое представление. В Stable Audio Open модель T5 преобразует введенный пользователем текст во встраивание текста, чтобы облегчить интеграцию текстовой информации в процесс создания звука.

DiT (диффузионный преобразователь) — это диффузионная модель, которая работает в скрытом пространстве автокодировщика для обработки и оптимизации данных, сжатых кодером, чтобы гарантировать, что декодер может восстановить когерентный высококачественный звук.

В качестве варианта модели Stable Audio 2 Stable Audio Open был скорректирован с точки зрения использования обучающих данных и части архитектуры. Был взят совершенно другой набор данных, и вместо CLAP (Contrastive Language-Audio Pretraining) использовался T5. Первый был разработан Google и ориентирован на текстовые данные для выполнения различных задач по обработке естественного языка, а второй был разработан OpenAI и может обрабатывать как языковые данные, так и аудиоданные.

Будучи бесплатной моделью с открытым исходным кодом, Stable Audio Open не создает связных и полных треков и не оптимизирован для полных треков, мелодий или вокала.

Stability AI заявила, что Stable Audio Open фокусируется на демонстрации аудио и создании звуковых эффектов и может бесплатно генерировать высококачественный стереозвук с частотой 44,1 кГц продолжительностью до 47 секунд. При профессиональном обучении модель идеально подходит для создания барабанных битов, инструментальных риффов, окружающих звуков, записей фоли и других аудиосэмплов для использования в производстве музыки и звуковом дизайне.

Ключевым преимуществом этой версии с открытым исходным кодом является то, что пользователи могут точно настраивать модель на основе своих собственных аудиоданных. Таким образом, пользователи могут использовать свои собственные записи ударных для обучения модели и создания уникальных ритмов в своем собственном стиле.

2. В процессе обучения основное внимание уделяется защите авторских прав.

На фоне стремительного развития генеративного искусственного интеллекта все более ожесточенно ведутся споры по поводу использования искусственного интеллекта в музыкальной индустрии, особенно относительно вопросов авторского права. Эд Ньютон-Рекс, бывший вице-президент Stability AI по аудио, подал в отставку в конце 2023 года, поскольку не согласился с использованием Stability AI аудио, защищенного авторским правом, при обучении моделей, полагая, что это противоречит этике. Он участвовал в разработке Stable Audio.

Обучение данных генеративного ИИ похоже на черный ящик. Никто, кроме разработчика, не знает, защищены ли данные, используемые для обучения, авторским правом. «Многие технологические компании с оборотом в несколько миллиардов долларов используют работу создателей для обучения генеративных моделей искусственного интеллекта без разрешения, а затем используют эти модели для создания нового контента», — сказал Ньютон-Рекс, который подал в отставку в публичном письме. В письме говорится, что он это делает. не приемлем такого рода поведение, основанное на нарушении авторских прав авторов с целью получения прибыли.

Stability AI заявила, что в целях соблюдения авторских прав создателей наборы данных, используемые Stable Audio Open, взяты из Freesound и Free Music Archive (FMA), а все используемые записи представляют собой аудиозаписи, выпущенные по лицензии CC (Creative Commons). CC — это механизм лицензирования авторских прав, который позволяет авторам делиться своими произведениями и регулировать, как их могут использовать другие.

Чтобы избежать использования каких-либо материалов, защищенных авторским правом, Stability AI заявляет, что идентифицирует музыкальные образцы в Freesound с помощью аудио-тегера, и идентифицированные образцы отправляются в компанию Audible Magic по обнаружению контента, чтобы гарантировать удаление потенциального контента из набора данных.

«Это позволяет нам создавать открытую аудиомодель, полностью соблюдая права создателей», — заявили в Stability AI.

Вывод: модели с открытым исходным кодом и бесплатные модели делают Vincent Audio более популярным.

Запуск Stable Audio Open демонстрирует инновации и прогресс Stability AI в области моделей преобразования текста в аудио. Хотя эта модель имеет определенные ограничения в создании длины и когерентности звука, ее преимущества также очевидны. Он может бесплатно генерировать высококачественный стереозвук с частотой 44,1 кГц и работать на графических процессорах потребительского уровня, что снижает порог использования Vincent Audio.

В то же время Stable Audio Open открывает технологию генерации звука, а также устанавливает новый стандарт защиты авторских прав. Ожидается, что в будущем, благодаря постоянному развитию технологий и совершенствованию этики, Stable Audio Open будет использовать свой потенциал в большем количестве сценариев применения и будет способствовать развитию и популяризации технологий генерации звука.

В настоящее время веса моделей Stable Audio Open доступны на платформе моделей машинного обучения Hugging Face. Stability AI призывает звукорежиссеров, музыкантов, разработчиков и всех, кто интересуется звуком, изучать возможности модели и оставлять отзывы.

Источник: Стабильность ИИ

Новости

Самая популярная в мире аудиомодель с искусственным интеллектом, раскрыты последние технические подробности

Введение

моя контактная информация