noticias

La clonación de voz alcanza el nivel humano, el nuevo modelo VALL-E 2 de Microsoft hace que DeepFake sea comparable a los actores de voz

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuevo informe de sabiduría

Editor: Qiao Yang

[Introducción a la Nueva Sabiduría]Tras el modelo VALL-E de primera generación a principios del año pasado, Microsoft lanzó recientemente el nuevo modelo VALL-E 2, que marca el primer modelo de conversión de texto a voz que alcanza niveles humanos en términos de robustez, similitud y naturalidad del habla sintetizada. .

Recientemente, Microsoft lanzó el modelo de texto a voz (TTS) de muestra cero VALLE-2, que alcanzó el mismo nivel que los humanos por primera vez. Se puede decir que es un hito en el campo de TTS.


Dirección del artículo: https://arxiv.org/pdf/2406.05370

Con el rápido progreso del aprendizaje profundo en los últimos años, los modelos de entrenamiento que utilizan el habla limpia de una sola persona en un entorno de estudio de grabación han alcanzado el mismo nivel de calidad que los humanos, pero el TTS de muestra cero sigue siendo un problema desafiante.

"Muestra cero" significa que durante el proceso de inferencia, el modelo solo puede hacer referencia a una breve muestra de habla desconocida y pronunciar el contenido del texto con la misma voz, como un ventrílocuo que puede imitar en tiempo real.

Después de escuchar esto, me pregunto si de repente recibirás una alerta: ¡un modelo con esta habilidad es la mejor herramienta para Deepfake!

Es gratificante que MSRA haya tenido esto en cuenta. Actualmente solo utilizan la serie VALL-E como proyecto de investigación y no tienen planes de incorporarla a productos ni ampliar su uso.

Aunque VALL-E 2 tiene fuertes capacidades de aprendizaje de muestra cero y puede imitar voces como un actor de doblaje, la similitud y naturalidad dependen de la duración y la calidad de la indicación de voz, el ruido de fondo y otros factores.

En la página del proyecto y en el artículo, el autor ha hecho una declaración ética: si desea promover VALL-E en aplicaciones del mundo real, necesita al menos un potente modelo sintético de detección de voz y diseñar un mecanismo de autorización para garantizar que el modelo puede sintetizar el habla Previamente aprobado por el propietario del sonido.

Algunos internautas expresaron su gran decepción con la práctica de Microsoft de publicar sólo artículos pero no productos.


Después de todo, la reciente anulación de varios productos nos ha hecho comprender profundamente que simplemente mirar la demostración no es completamente confiable y que no hay forma de probarlo usted mismo = nada.


Pero algunas personas en Reddit especularon que Microsoft simplemente no quería ser "el primero en comer cangrejos" y que no lanzó el modelo porque estaba preocupado por posibles críticas y opinión pública negativa.

Una vez que haya una manera de convertir VALL-E en un producto, o que aparezcan en el mercado otros productos de la competencia, ¿seguirá preocupándose por si Microsoft ganará dinero?



De hecho, como dijeron los internautas, a juzgar por la demostración publicada actualmente en la página del proyecto, es difícil juzgar el verdadero nivel de VALL-E.


Página del proyecto: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

Un total de 5 textos son oraciones cortas en inglés de no más de 10 palabras. Las voces de las indicaciones de voz son muy similares y los acentos en inglés no son lo suficientemente diversos.

Aunque no hay muchas demostraciones, se puede sentir vagamente que el modelo es muy bueno imitando los acentos británicos y estadounidenses. Sin embargo, si el mensaje tiene un ligero acento indio o escocés, será difícil alcanzar el nivel de autenticidad.

método

El predecesor del modelo, VALL-E, se lanzó a principios de 2023 y ya representa un gran avance para TTS en muestras cero. VALL-E es capaz de sintetizar voz personalizada a partir de grabaciones de 3 segundos preservando al mismo tiempo la voz, las emociones y el entorno acústico del hablante.

Sin embargo, VALL-E tiene dos limitaciones clave:

1) Estabilidad: el muestreo aleatorio utilizado en el proceso de inferencia puede hacer que la salida sea inestable, y el muestreo del kernel con un valor p superior pequeño puede causar problemas de bucle infinito. Aunque puede aliviarse mediante muestreos múltiples y clasificación posterior, esto aumentará el costo computacional.

2) Eficiencia: la arquitectura autorregresiva de VALL-E está limitada a las mismas velocidades de cuadro altas que los modelos de códec de audio disponibles en el mercado y no se puede ajustar, lo que resulta en una inferencia más lenta.

Aunque se han realizado muchos estudios para mejorar estos problemas de VALL-E, a menudo complican la arquitectura general del modelo y aumentan la carga de ampliar el tamaño de los datos.

Basado en este trabajo previo, VALL-E 2 contiene dos innovaciones clave: muestreo consciente de la repetición y modelado de código agrupado.

El muestreo consciente de la repetición es una mejora del muestreo aleatorio en VALL-E. Puede adoptar de forma adaptativa muestreo aleatorio o muestreo nuclear. La selección se basa en repeticiones de tokens pasadas, lo que alivia efectivamente el problema del bucle infinito de VALL-E. estabilidad.


Descripción algorítmica del muestreo perceptual repetido.

El modelado de código agrupado divide el código del códec en varios grupos y cada grupo se modela en un solo cuadro durante la autorregresión. No solo reduce la longitud de la secuencia y acelera la inferencia, sino que también mejora el rendimiento al aliviar los problemas de modelado de contexto prolongado.

Vale la pena señalar que VALL-E 2 solo requiere datos de texto simples transcritos por voz para el entrenamiento y no requiere datos complejos adicionales, lo que simplifica enormemente el proceso de recopilación y procesamiento de datos y mejora la escalabilidad potencial.

Específicamente, para cada fragmento de datos de texto de voz en el conjunto de datos, se utilizan un codificador de códec de audio y un tokenizador de texto para representarlo como código de códec = [0,1,…,(−1)] y secuencia de texto = [0 ,1,…,(−1)] para el entrenamiento de modelos autorregresivos (AR) y no autorregresivos (NAR).


Tanto el modelo AR como el NAR utilizan la arquitectura Transformer y se diseñaron cuatro variantes para experimentos de evaluación posteriores a modo de comparación. Comparten el mismo modelo NAR, pero los tamaños de grupo de los modelos AR son 1, 2, 4, 8 respectivamente.

El proceso de razonamiento también es una combinación de modelos AR y NAR. Según la secuencia de texto y la sugerencia de código <′,0, se genera la primera secuencia de código con código de destino ≥′,0 y luego se genera el código de destino de cada grupo utilizando el método autorregresivo.


Dada la secuencia ≥′,0, el modelo NAR se puede inferir utilizando condiciones textuales y condiciones acústicas 〈′ para generar las secuencias de código objetivo restantes ≥′,≥1.

El entrenamiento del modelo utiliza datos del corpus Libriheavy, que contiene 50.000 horas de habla de 7.000 personas que leen audiolibros en inglés. La segmentación de palabras de texto y voz utiliza BPE y el modelo previamente entrenado de código abierto EnCodec, respectivamente.

Además, el modelo Vocos previamente entrenado de código abierto también se utiliza como decodificador de audio para la generación de voz.

Evaluar

Para verificar si el efecto de síntesis de voz del modelo puede alcanzar el mismo nivel que el de los humanos, la evaluación utiliza dos indicadores subjetivos, SMOS y CMOS, y utiliza el habla humana real como verdad fundamental.

SMOS (Puntuación de opinión media de similitud) se utiliza para evaluar la similitud entre el habla y la indicación original. El rango de puntuación es de 1 a 5, con un incremento de 0,5 puntos.

CMOS (Puntuación de opinión media comparativa) se utiliza para evaluar la naturalidad del habla sintetizada en comparación con un discurso de referencia determinado. El rango de escala es -3~3, con un incremento de 1.


Según los resultados de la Tabla 2, la puntuación subjetiva de VALL-E 2 no sólo supera la de la primera generación de VALL-E, sino que incluso funciona mejor que el habla humana real.

Además, el artículo también utiliza indicadores objetivos como SIM, WER y DNSMOS para evaluar la similitud, solidez y calidad de percepción general del habla sintetizada.


En estos tres indicadores objetivos, no importa cómo se establezca el tamaño del grupo de VALL-E 2, hay una mejora general en comparación con VALL-E. Los puntajes WER y DNSMOS también son mejores que el habla humana real, pero aún así. una cierta brecha en la puntuación SIM.

Además, también se puede encontrar en los resultados de la Tabla 3 que cuando el tamaño del grupo del modelo AR de VALL-E 2 es 2, se puede lograr el efecto óptimo.

Se pueden obtener conclusiones similares de la evaluación del conjunto de datos VCTK. Cuando aumenta la longitud del mensaje, el método de modelado de código agrupado puede reducir la longitud de la secuencia y aliviar los errores de generación causados ​​por el mecanismo de atención incorrecto en la arquitectura Transformer, mejorando así la puntuación WER.


Sobre el Autor

El primer autor de este artículo, Chen Sanyuan, es un doctorado formado conjuntamente por el Instituto de Tecnología de Harbin y Microsoft Research Asia. Ha trabajado como investigador interno en el Grupo de Computación del Lenguaje Natural de MSRA desde 2020. Sus intereses de investigación son principalmente formación previa. Modelos de lenguaje para procesamiento de voz y audio.


Referencias:

https://arxiv.org/abs/2406.05370