notícias

A clonagem de voz atinge o nível humano, o novo modelo VALL-E 2 da Microsoft torna o DeepFake comparável aos dubladores

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Qiao Yang

[Introdução à Nova Sabedoria]Seguindo o modelo VALL-E de primeira geração no início do ano passado, a Microsoft lançou recentemente o novo modelo VALL-E 2, marcando a primeira conversão de texto em fala que atinge níveis humanos em termos de robustez, similaridade e naturalidade do modelo de fala sintetizada. .

Recentemente, a Microsoft lançou o modelo VALLE-2 de conversão de texto em fala (TTS) de amostra zero, que pela primeira vez atingiu o mesmo nível dos humanos. Pode-se dizer que é um marco no campo do TTS.


Endereço do artigo: https://arxiv.org/pdf/2406.05370

Com o rápido progresso do aprendizado profundo nos últimos anos, os modelos de treinamento que usam fala limpa de uma única pessoa em um ambiente de estúdio de gravação atingiram o mesmo nível de qualidade que os humanos, mas o TTS de amostra zero ainda é um problema desafiador.

"Amostra zero" significa que durante o processo de inferência, o modelo só pode referir-se a uma pequena amostra de fala desconhecida e falar o conteúdo do texto na mesma voz, como um ventríloquo que pode imitar em tempo real.

Depois de ouvir isso, me pergunto se você será alertado de repente - um modelo com essa habilidade é a melhor ferramenta para Deepfake!

É gratificante que a MSRA tenha levado isso em consideração. Atualmente, eles usam a série VALL-E apenas como um projeto de pesquisa e não têm planos de incorporá-la em produtos ou expandir seu uso.

Embora o VALL-E 2 tenha fortes capacidades de aprendizagem de amostra zero e possa imitar vozes como um dublador, a semelhança e a naturalidade dependem da duração e da qualidade do prompt de voz, do ruído de fundo e de outros fatores.

Na página do projeto e no artigo, o autor fez uma declaração ética: Se você deseja promover o VALL-E para aplicações do mundo real, você precisa de pelo menos um modelo poderoso de detecção de fala sintética e projetar um mecanismo de autorização para garantir que o modelo pode sintetizar fala previamente aprovada pelo proprietário do som.

Alguns internautas expressaram grande decepção com a prática da Microsoft de publicar apenas artigos, mas não produtos.


Afinal, a recente derrubada de vários produtos nos fez compreender profundamente que apenas olhar a demonstração não é totalmente confiável e não há como tentar você mesmo = nada.


Mas algumas pessoas no Reddit especularam que a Microsoft simplesmente não queria ser “a primeira a comer caranguejos” e que não lançou o modelo porque estava preocupada com possíveis críticas e opinião pública negativa.

Quando houver uma maneira de transformar o VALL-E em um produto, ou quando outros produtos concorrentes aparecerem no mercado, você ainda se preocupará se a Microsoft ganhará dinheiro?



Na verdade, como disseram os internautas, a julgar pela demonstração atualmente divulgada na página do projeto, é difícil avaliar o verdadeiro nível do VALL-E.


Página do projeto: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

Um total de 5 textos são frases curtas em inglês com no máximo 10 palavras. As vozes dos comandos de voz são muito semelhantes e os sotaques em inglês não são suficientemente diversos.

Embora não haja muitas demonstrações, você pode sentir vagamente que o modelo é muito bom em imitar sotaques britânicos e americanos. No entanto, se a sugestão tiver um leve sotaque indiano ou escocês, será difícil atingir o nível de autenticidade.

método

O antecessor do modelo, VALL-E, foi lançado no início de 2023 e já é um grande avanço para o TTS em zero amostras. VALL-E é capaz de sintetizar fala personalizada a partir de gravações de 3 segundos, preservando a voz, a emoção e o ambiente acústico do locutor.

No entanto, VALL-E tem duas limitações principais:

1) Estabilidade: A amostragem aleatória usada no processo de inferência pode fazer com que a saída seja instável, e a amostragem do kernel com um pequeno valor de p superior pode causar problemas de loop infinito. Embora possa ser aliviado por amostragem múltipla e classificação subsequente, isso aumentará o custo computacional.

2) Eficiência: A arquitetura autoregressiva do VALL-E está vinculada às mesmas altas taxas de quadros dos modelos de codec de áudio disponíveis no mercado e não pode ser ajustada, resultando em inferência mais lenta.

Embora tenham havido muitos estudos sobre como melhorar estes problemas do VALL-E, eles muitas vezes complicam a arquitetura geral do modelo e aumentam a carga de aumento do tamanho dos dados.

Com base neste trabalho anterior, VALL-E 2 contém duas inovações principais: amostragem com reconhecimento de repetição e modelagem de código agrupado.

A amostragem com reconhecimento de repetição é uma melhoria na amostragem aleatória no VALL-E. Ele pode adotar de forma adaptativa a amostragem aleatória ou a amostragem nuclear. A seleção é baseada em repetições de tokens anteriores, aliviando efetivamente o problema do loop infinito do VALL-E. estabilidade.


Descrição algorítmica de amostragem perceptiva repetida

A modelagem de código agrupado divide o código do codec em vários grupos, e cada grupo é modelado em um único quadro durante a autorregressão. Isso não apenas reduz o comprimento da sequência e acelera a inferência, mas também melhora o desempenho, aliviando longos problemas de modelagem de contexto.

É importante notar que o VALL-E 2 requer apenas dados simples de texto transcrito por fala para treinamento e não requer dados complexos adicionais, o que simplifica muito o processo de coleta e processamento de dados e melhora a escalabilidade potencial.

Especificamente, para cada pedaço de dados de texto de fala no conjunto de dados, um codificador de codec de áudio e um tokenizador de texto são usados ​​para representá-lo como código de codec = [0,1,…,(−1 )] e sequência de texto = [0 ,1,…,(−1)] para treinamento de modelos autorregressivos (AR) e não autorregressivos (NAR).


Ambos os modelos AR e NAR usam a arquitetura Transformer, e quatro variantes foram projetadas para experimentos de avaliação subsequentes para comparação. Eles compartilham o mesmo modelo NAR, mas os tamanhos dos grupos dos modelos AR são 1, 2, 4, 8 respectivamente.

O processo de raciocínio também é uma combinação dos modelos AR e NAR. Com base na sequência de texto e na dica de código <′,0, a primeira sequência de código com código alvo ≥′,0 é gerada e, em seguida, o código alvo de cada grupo é gerado usando o método autoregressivo.


Dada a sequência ≥′,0, o modelo NAR pode ser inferido usando condições textuais e condições acústicas 〈′ para gerar as sequências de código alvo restantes ≥′,≥1.

O treinamento do modelo usa dados do corpus Libriheavy, que contém 50 mil horas de fala de 7 mil pessoas lendo audiolivros em inglês. A segmentação de palavras de texto e fala usa BPE e o modelo pré-treinado de código aberto EnCodec, respectivamente.

Além disso, o modelo pré-treinado de código aberto Vocos também é usado como decodificador de áudio para geração de fala.

Avalie

Para verificar se o efeito de síntese de fala do modelo pode atingir o mesmo nível dos humanos, a avaliação utiliza dois indicadores subjetivos, SMOS e CMOS, e utiliza a fala humana real como verdade fundamental.

O SMOS (Similarity Mean Opinion Score) é utilizado para avaliar a semelhança entre a fala e a solicitação original. A faixa de pontuação é de 1 a 5, com incremento de 0,5 pontos.

CMOS (Comparative Mean Opinion Score) é usado para avaliar a naturalidade da fala sintetizada em comparação com uma determinada fala de referência. O intervalo da escala é de -3 a 3, com um incremento de 1.


De acordo com os resultados da Tabela 2, a pontuação subjetiva do VALL-E 2 não apenas excede a da primeira geração do VALL-E, mas também tem um desempenho melhor do que a fala humana real.

Além disso, o artigo também utiliza indicadores objetivos como SIM, WER e DNSMOS para avaliar a similaridade, robustez e qualidade perceptual geral da fala sintetizada.


Nestes três indicadores objetivos, não importa como o tamanho do grupo do VALL-E 2 seja definido, há uma melhoria geral em comparação com o VALL-E. As pontuações WER e DNSMOS também são melhores do que a fala humana real, mas ainda há. uma certa lacuna na pontuação do SIM.

Além disso, também pode ser verificado a partir dos resultados da Tabela 3 que quando o tamanho do grupo do modelo AR do VALL-E 2 é 2, o efeito ideal pode ser alcançado.

Conclusões semelhantes podem ser obtidas a partir da avaliação do conjunto de dados VCTK. Quando o comprimento do prompt aumenta, o método de modelagem de código agrupado pode reduzir o comprimento da sequência e aliviar os erros de geração causados ​​pelo mecanismo de atenção incorreto na arquitetura do Transformer, melhorando assim a pontuação WER.


Sobre o autor

O primeiro autor deste artigo, Chen Sanyuan, é PhD formado em conjunto pelo Harbin Institute of Technology e pela Microsoft Research Asia. Ele atua como pesquisador estagiário no MSRA Natural Language Computing Group desde 2020. Seus interesses de pesquisa são principalmente pré-treinados. modelos de linguagem para processamento de fala e áudio.


Referências:

https://arxiv.org/abs/2406.05370