소식

세계에서 가장 핫한 AI 오디오 모델, 최신 기술 디테일 공개

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


똑똑한 것들
Meng Qiang이 편집함
편집자 윤펑

24일 Zhixixi News에 따르면 Satbility AI는 7월 19일 Arxiv에 Stable Audio Open 연구 논문을 공유하고 모델의 기술적 세부 사항을 공개했습니다.

Stable Audio Open은 StabilityAI가 올해 6월 출시한 오픈 소스 텍스트-오디오 모델로 최대 47초까지 무료로 샘플과 음향 효과를 생성할 수 있으며 44.1kHz의 고품질 스테레오 오디오도 생성할 수 있습니다. 소비자급 GPU. 이 모델은 무료 오픈 소스일 뿐만 아니라 창작자의 저작권 보호에도 주의를 기울이고 데이터 훈련 시 윤리적, 도덕적 문제를 피하기 위해 최선을 다합니다.

논문에서는 Stable Audio Open이 StabilityAI가 올해 3월 출시한 상용 Stable Audio 2의 변형 모델이라고 밝혔습니다. 전체 아키텍처는 동일하지만 훈련 데이터 사용 및 아키텍처 일부가 조정되었습니다. 주요 아키텍처는 T5의 DiT(텍스트 임베딩 및 확산 모델)를 기반으로 하는 자동 인코더로 구성됩니다.

논문 주소: https://arxiv.org/html/2407.14358v1

1. 3가지 주요 아키텍처는 44.1kHz 고품질 스테레오 짧은 오디오를 무료로 생성할 수 있도록 지원합니다.

Stable Audio Open은 3가지 주요 아키텍처를 갖춘 텍스트-오디오 모델을 도입합니다.

  1. 오토인코더: 파형 데이터를 관리 가능한 시퀀스 길이로 압축합니다.
  2. T5 기반의 텍스트 임베딩;
  3. DiT(변압기 기반 확산 모델): 오토인코더의 잠재 공간에서 작동합니다.

오토인코더는 인코더와 디코더로 구성된 신경망 아키텍처입니다. 인코더는 입력 데이터를 더 작은 잠재 공간 표현으로 압축하고 디코더는 잠재 표현을 압축 해제하여 복원합니다. Stable Audio Open의 자동 인코더는 후속 처리를 위해 오디오 파형을 더 짧은 시퀀스로 압축합니다.


T5(Text-to-Text Transfer Transformer)는 입력 텍스트를 다른 텍스트 표현으로 변환할 수 있는 Google에서 개발한 자연어 처리 모델입니다. Stable Audio Open에서 T5 모델은 사용자가 입력한 텍스트를 텍스트 임베딩으로 변환하여 텍스트 정보를 오디오 생성 프로세스에 쉽게 통합합니다.

DiT(확산 변환기)는 디코더가 일관된 고품질 오디오를 복원할 수 있도록 오토인코더의 잠재 공간에서 작동하여 인코더에서 압축된 데이터를 처리하고 최적화하는 확산 모델입니다.


Stable Audio 2의 변형 모델인 Stable Audio Open은 훈련 데이터 사용 및 아키텍처의 일부에서 조정되었습니다. 전혀 다른 데이터 세트를 취하여 CLAP(Contrastive Language-Audio Pretraining) 대신 T5를 사용했습니다. 전자는 Google이 개발했으며 텍스트 데이터에 중점을 두고 다양한 자연어 처리 작업을 완료하는 반면, 후자는 OpenAI가 개발했으며 언어 데이터와 오디오 데이터를 모두 처리할 수 있습니다.

오픈 소스 및 무료 모델인 Stable Audio Open은 일관되고 완전한 트랙을 생성하지 않으며 완전한 트랙, 멜로디 또는 보컬에 최적화되지도 않습니다.

Stability AI는 Stable Audio Open이 오디오 데모 및 음향 효과 제작에 중점을 두고 있으며 최대 47초의 44.1kHz 고품질 스테레오 오디오를 무료로 생성할 수 있다고 밝혔습니다. 전문적으로 교육을 받은 이 모델은 음악 제작 및 사운드 디자인에 사용할 드럼 비트, 악기 리프, 주변 소리, 폴리 녹음 및 기타 오디오 샘플을 만드는 데 이상적입니다.

이 오픈 소스 버전의 주요 장점은 사용자가 자신의 맞춤형 오디오 데이터를 기반으로 모델을 미세 조정할 수 있다는 것입니다. 이러한 방식으로 사용자는 자신의 드럼 녹음을 사용하여 모델을 훈련하고 자신만의 스타일로 독특한 리듬을 생성할 수 있습니다.

2. 교육 과정은 저작권 보호에 중점을 둡니다.

생성적 AI의 급속한 발전을 배경으로 음악산업, 특히 저작권 문제를 중심으로 인공지능 활용을 둘러싼 논의가 점점 치열해지고 있다. Stability AI의 전 오디오 부사장인 Ed Newton-Rex는 Stability AI가 모델을 훈련할 때 저작권이 있는 오디오를 사용하는 것에 동의하지 않고 이것이 윤리에 어긋난다고 믿고 2023년 말 사임했습니다. 그는 Stable Audio 개발에 참여했습니다.

제너레이티브 AI의 데이터 트레이닝은 블랙박스와도 같습니다. 트레이닝에 사용되는 데이터가 저작권으로 보호되는지 여부는 개발자 외에는 누구도 알 수 없습니다. 공개 서한에서 사임한 Newton-Rex는 "수십억 달러 규모의 많은 기술 회사가 제작자의 작업을 사용하여 허가 없이 생성 AI 모델을 훈련한 다음 해당 모델을 사용하여 새로운 콘텐츠를 생성하고 있습니다"라고 밝혔습니다. 수익 창출을 위해 창작자의 저작권을 침해하는 이런 행위를 용납하지 마세요.

Stability AI는 창작자의 저작권을 존중하기 위해 Stable Audio Open에서 사용하는 데이터 세트는 Freesound 및 Free Music Archive(FMA)에서 가져왔으며 사용된 모든 녹음은 CC(Creative Commons) 라이선스에 따라 공개된 오디오 녹음임을 밝혔습니다. CC는 창작자가 자신의 작품을 공유하고 다른 사람이 해당 작품을 사용하는 방법을 규제할 수 있는 저작권 라이선스 메커니즘입니다.


저작권이 있는 자료의 사용을 방지하기 위해 Stability AI는 오디오 태거를 사용하여 Freesound에서 음악 샘플을 식별하고 식별된 샘플을 Audible Magic의 콘텐츠 감지 회사로 전송하여 저작권이 있는 음악에서 잠재적인 콘텐츠가 제거되도록 합니다.

Stability AI는 "이를 통해 제작자의 권리를 완전히 존중하면서 개방형 오디오 모델을 만들 수 있습니다."라고 말했습니다.

결론: 오픈 소스 및 무료 모델로 인해 Vincent Audio가 더욱 대중화되었습니다.

Stable Audio Open의 출시는 텍스트-오디오 모델 분야에서 Stability AI의 혁신과 발전을 보여줍니다. 이 모델은 오디오 길이와 일관성을 생성하는 데 특정 제한이 있지만 장점도 분명합니다. 고품질 44.1kHz 스테레오 오디오를 무료로 생성할 수 있으며 소비자급 GPU에서 실행될 수 있어 Vincent Audio 사용에 대한 임계값이 낮아집니다.

동시에 Stable Audio Open은 오디오 생성 기술을 개척하는 동시에 저작권 보호에 대한 새로운 기준을 설정합니다. 앞으로 지속적인 기술 발전과 윤리 개선을 통해 Stable Audio Open은 더 많은 응용 시나리오에서 잠재력을 발휘하고 오디오 생성 기술의 개발 및 대중화를 촉진할 것으로 예상됩니다.

현재 Stable Audio Open 모델 가중치는 기계 학습 모델 플랫폼 Hugging Face에서 사용할 수 있습니다. Stability AI는 사운드 디자이너, 음악가, 개발자 및 오디오에 관심이 있는 모든 사람이 모델의 기능을 탐색하고 피드백을 제공하도록 권장합니다.

출처: 안정성 AI