소식

음성 복제가 인간 수준에 도달하고 Microsoft의 새로운 VALL-E 2 모델로 DeepFake가 성우와 비슷해졌습니다.

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 양차오

[새로운 지혜 소개]마이크로소프트는 지난해 초 1세대 VALL-E 모델에 이어 최근 새로운 VALL-E 2 모델을 출시해 합성 음성 모델의 견고성, 유사성, 자연성 측면에서 인간 수준에 도달한 최초의 텍스트 음성 변환 모델을 선보였습니다. .

최근 마이크로소프트는 최초로 인간과 동일한 수준을 달성한 제로 샘플 텍스트 음성 변환(TTS) 모델 VALLE-2를 출시했다.


논문 주소: https://arxiv.org/pdf/2406.05370

최근 딥러닝의 급속한 발전으로 녹음실 환경에서 깔끔한 한 사람의 음성을 이용한 훈련 모델은 인간과 동일한 수준에 도달했지만, 제로 샘플 TTS는 여전히 어려운 문제입니다.

"제로 샘플"은 추론 과정에서 모델이 실시간으로 모방할 수 있는 복화술사처럼 짧고 익숙하지 않은 음성 샘플만 참조하고 동일한 음성으로 텍스트 내용을 말할 수 있음을 의미합니다.

이 말을 듣고 갑자기 경고를 받게 될지 궁금합니다. 이 능력을 갖춘 모델은 Deepfake를 위한 최고의 도구입니다!

MSRA가 이 점을 고려한 것은 다행스러운 일입니다. 현재 VALL-E 시리즈를 연구 프로젝트로만 사용하고 있으며 이를 제품에 통합하거나 용도를 확대할 계획은 없습니다.

VALL-E 2는 강력한 제로 샘플 학습 기능을 갖추고 성우처럼 목소리를 모방할 수 있지만 유사성과 자연스러움은 음성 프롬프트의 길이와 품질, 배경 소음 및 기타 요인에 따라 달라집니다.

프로젝트 페이지와 논문에서 저자는 다음과 같은 윤리적 성명을 발표했습니다. VALL-E를 실제 애플리케이션으로 승격시키려면 최소한 강력한 합성 음성 감지 모델이 필요하고 이를 보장하는 인증 메커니즘을 설계해야 합니다. 모델은 음성을 합성할 수 있습니다. 이전에 사운드 소유자의 승인을 받았습니다.

일부 네티즌들은 논문만 출판하고 제품은 출판하지 않는 마이크로소프트의 관행에 큰 실망감을 표시했다.


결국, 최근 다양한 제품의 전복으로 인해 우리는 데모를 보는 것만으로는 완전히 신뢰할 수 없으며 직접 시도 할 방법이 없다는 것을 깊이 이해하게되었습니다.


그러나 Reddit의 일부 사람들은 Microsoft가 "가장 먼저 게를 먹는 것"이 ​​되기를 원하지 않았으며 잠재적인 비판과 부정적인 여론이 걱정되어 모델을 출시하지 않았다고 추측했습니다.

VALL-E를 제품으로 만들 수 있는 방법이 있거나 다른 경쟁 제품이 시장에 등장하더라도 Microsoft가 돈을 벌 수 있을지 걱정할 것입니까?



실제로 네티즌들의 말처럼 현재 프로젝트 페이지에 공개된 데모로 볼 때 VALL-E의 진정한 수준을 판단하기는 어렵다.


프로젝트 페이지: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

총 5개의 텍스트는 10단어 이내의 짧은 영어 문장으로, 음성안내의 목소리가 매우 유사하고, 영어 억양도 다양하지 않습니다.

데모가 많지는 않지만 모델이 영국식, 미국식 억양을 매우 잘 따라한다는 것을 어렴풋이 느낄 수 있지만 프롬프트에 약간의 인도식 또는 스코틀랜드식 액센트가 있으면 진정성 수준을 달성하기 어려울 것입니다.

방법

모델의 전신인 VALL-E는 2023년 초에 출시되었으며 이미 제로 샘플에서 TTS의 주요 혁신입니다. VALL-E는 화자의 음성, 감정 및 음향 환경을 보존하면서 3초 녹음에서 개인화된 음성을 합성할 수 있습니다.

그러나 VALL-E에는 두 가지 주요 제한 사항이 있습니다.

1) 안정성: 추론 과정에서 사용되는 무작위 샘플링으로 인해 출력이 불안정해질 수 있으며, top-p 값이 작은 커널 샘플링은 무한 루프 문제가 발생할 수 있습니다. 다중 샘플링과 후속 정렬을 통해 완화될 수 있지만 이로 인해 계산 비용이 증가합니다.

2) 효율성: VALL-E의 자동 회귀 아키텍처는 상용 오디오 코덱 모델과 동일한 높은 프레임 속도로 제한되며 조정할 수 없으므로 추론 속도가 느려집니다.

VALL-E의 이러한 문제점을 개선하기 위한 많은 연구가 있었지만, 이는 모델의 전체 아키텍처를 복잡하게 만들고 데이터 크기를 확장해야 하는 부담을 증가시키는 경우가 많습니다.

이전 작업을 기반으로 VALL-E 2에는 반복 인식 샘플링과 그룹화된 코드 모델링이라는 두 가지 주요 혁신이 포함되어 있습니다.

반복 인식 샘플링은 VALL-E의 무작위 샘플링을 개선한 것입니다. 무작위 샘플링 또는 핵 샘플링을 적응적으로 채택할 수 있습니다. 선택은 VALL-E의 무한 루프 문제를 효과적으로 완화합니다. 안정.


반복되는 지각 샘플링의 알고리즘 설명

그룹화된 코드 모델링은 코덱 코드를 여러 그룹으로 나누고 각 그룹은 자동 회귀 중에 단일 프레임에서 모델링됩니다. 시퀀스 길이를 줄이고 추론 속도를 높일 뿐만 아니라 긴 컨텍스트 모델링 문제를 완화하여 성능도 향상시킵니다.

VALL-E 2는 훈련을 위해 간단한 음성으로 변환된 텍스트 데이터만 필요하고 추가적인 복잡한 데이터가 필요하지 않으므로 데이터 수집 및 처리 프로세스가 크게 단순화되고 잠재적인 확장성이 향상된다는 점은 주목할 가치가 있습니다.

구체적으로, 데이터 세트의 각 음성 텍스트 데이터에 대해 오디오 코덱 인코더와 텍스트 토크나이저를 사용하여 이를 코덱 코드 = [0,1,…,(−1 )] 및 텍스트 시퀀스 = [0]으로 표현합니다. ,1,…,(−1)] 자기회귀(AR) 모델과 비자기회귀(NAR) 모델 훈련용.


AR과 NAR 모델 모두 Transformer 아키텍처를 사용하며, 비교를 위한 후속 평가 실험을 위해 4가지 변형이 설계되었습니다. 그들은 동일한 NAR 모델을 공유하지만 AR 모델의 그룹 크기는 각각 1, 2, 4, 8입니다.

추론 과정은 AR 모델과 NAR 모델의 조합이기도 합니다. 텍스트 시퀀스와 코드 힌트 <',0을 기반으로 대상 코드가 ≥',0인 첫 번째 코드 시퀀스를 생성한 후 자동 회귀 방법을 사용하여 각 그룹의 대상 코드를 생성합니다.


시퀀스 ≥',0이 주어지면 텍스트 조건과 음향 조건〈′을 사용하여 NAR 모델을 추론하여 나머지 대상 코드 시퀀스 ≥',≥1을 생성할 수 있습니다.

모델 훈련은 영어 오디오북을 읽는 7,000명의 사람들의 50,000시간 분량의 음성이 포함된 Libriheavy 코퍼스의 데이터를 사용합니다. 텍스트와 음성의 단어 분할은 각각 BPE와 오픈 소스 사전 학습 모델 EnCodec을 사용합니다.

또한 오픈 소스 사전 훈련 모델인 Vocos는 음성 생성을 위한 오디오 디코더로도 사용됩니다.

평가하다

모델의 음성 합성 효과가 인간과 동일한 수준에 도달할 수 있는지 검증하기 위해 평가에서는 SMS와 CMOS라는 두 가지 주관적 지표를 사용하고 실제 인간의 음성을 Ground Truth로 사용합니다.

SMOS(유사성 평균 의견 점수)는 음성과 원래 프롬프트 간의 유사성을 평가하는 데 사용됩니다. 점수 범위는 1~5점이며 0.5점 단위입니다.

CMOS(Comparative Mean Opinion Score)는 주어진 기준 음성과 비교하여 합성된 음성의 자연성을 평가하는 데 사용됩니다. 스케일 범위는 1씩 증가합니다.


표 2의 결과에 따르면 VALL-E 2의 주관적 점수는 1세대 VALL-E의 주관적 점수를 능가할 뿐만 아니라 실제 인간의 음성보다 더 나은 성능을 발휘합니다.

또한 이 논문에서는 SIM, WER 및 DNSMOS와 같은 객관적인 지표를 사용하여 합성 음성의 유사성, 견고성 및 전반적인 인식 품질을 평가합니다.


이 세 가지 객관적인 지표에서는 VALL-E 2의 그룹 크기가 어떻게 설정되든 VALL-E에 비해 전반적인 개선이 있습니다. WER 및 DNSMOS 점수도 실제 인간의 음성보다 우수하지만 여전히 그렇습니다. SIM 점수의 특정 격차.

또한, VALL-E 2의 AR 모델 그룹 크기가 2일 때 최적의 효과를 얻을 수 있음을 표 3의 결과에서도 알 수 있다.

VCTK 데이터 세트에 대한 평가에서도 유사한 결론을 얻을 수 있습니다. 프롬프트 길이가 증가하면 그룹화된 코드 모델링 방법은 시퀀스 길이를 줄이고 Transformer 아키텍처의 잘못된 주의 메커니즘으로 인한 생성 오류를 완화하여 WER 점수를 향상시킬 수 있습니다.


저자 소개

이 기사의 첫 번째 저자인 Chen Sanyuan은 하얼빈 공과대학과 Microsoft Research Asia에서 공동 교육을 받은 박사 학위입니다. 그는 2020년부터 MSRA 자연어 컴퓨팅 그룹에서 인턴 연구원으로 근무했습니다. 그의 연구 관심 분야는 주로 사전 교육을 받은 것입니다. 음성 및 오디오 처리를 위한 언어 모델.


참고자료:

https://arxiv.org/abs/2406.05370