Mi información de contacto
Correo[email protected]
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
La columna AIxiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informar. Correo electrónico de envío: [email protected]; [email protected];
Desde la aparición de GPT-4o en 2024, las empresas de la industria han invertido enormes recursos en la investigación y el desarrollo de modelos grandes de TTS. En los últimos meses han surgido grandes modelos chinos de síntesis de voz como chattts, seedtts, cosyvoice, etc.
Aunque el modelo actual de síntesis de voz a gran escala tiene casi el mismo efecto que el de las personas reales en chino mandarín, frente a los complicados dialectos de China, los modelos TTS a gran escala rara vez se han involucrado en la capacitación de un modelo unificado de síntesis de voz en chino a gran escala. varios dialectos es una tarea difícil.
Puntos débiles y cuellos de botella técnicos de la industria
Actualmente, la tecnología de modelos grandes de síntesis de voz ha logrado avances significativos en el campo del mandarín, pero su desarrollo en el campo de los dialectos es muy lento. China tiene docenas de dialectos principales, cada uno con características fonéticas y estructuras gramaticales únicas, lo que hace que el entrenamiento de un gran modelo TTS que abarque varios dialectos sea extremadamente complejo.
La mayoría de los grandes modelos TTS existentes se centran en mandarín y no pueden satisfacer las diversas necesidades de síntesis de voz. Además, la escasez de corpus dialectales y la falta de datos de anotaciones de alta calidad aumentan aún más la dificultad técnica.
Innovación tecnológica y avances del Giant Network AI Lab
Para resolver los problemas anteriores, los expertos en algoritmos y lingüistas del equipo de Giant Network AI Lab trabajaron juntos para construir un conjunto de datos de mandarín y dialecto que cubra 20 dialectos y más de 200.000 horas basado en el sistema de dialecto chino. Con este enorme conjunto de datos, entrenamosEl primer modelo TTS a gran escala que admite el habla mixta de múltiples dialectos mandarín - Bailing-TTS. Bailing-TTS no solo puede generar habla mandarín de alta calidad, sino que también genera una variedad de habla dialectal, incluidos henanés, shanghainés, cantonés, etc.
ArXiv: https://arxiv.org/pdf/2408.00284
Página de inicio: https://giantailab.github.io/bailingtts_tech_report/index.html
Título del artículo: Bailing-TTS: Síntesis del habla dialectal china hacia una representación espontánea similar a la humana
El siguiente enlace para escuchar audio: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366bd4b9d5f&chksm=84e43f29b393b63f434ae60d46 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&token=2010422951⟨=zh_CN#rd
El siguiente es el efecto de síntesis de Bailing-TTS en el dialecto de Henan:
Permítanme escuchar el efecto de la clonación de muestra cero en mandarín:
Hemos adoptado una serie de tecnologías innovadoras para lograr este objetivo:
1.Especificación del token de dialecto unificado: Hemos unificado las especificaciones de los tokens de varios dialectos y hemos superpuesto parcialmente los tokens del mandarín y varios dialectos para usar el mandarín y proporcionar capacidades de pronunciación básicas. Esto nos permite lograr una síntesis de voz en dialecto de alta calidad en condiciones de datos limitados.
2.Tecnología refinada de alineación de tokens: Proponemos una tecnología refinada de alineación de tokens basada en un preentrenamiento multimodal a gran escala.
3.Estructura jerárquica híbrida de expertos: Diseñamos una arquitectura experta híbrida jerárquica para aprender representaciones unificadas para múltiples dialectos chinos y representaciones específicas para cada dialecto.
4.Estrategia de mejora del aprendizaje por refuerzo jerárquico: Propusimos una estrategia de aprendizaje por refuerzo jerárquico para mejorar aún más la capacidad de expresión dialectal del modelo TTS mediante la combinación de estrategias de entrenamiento básicas y estrategias de entrenamiento avanzadas.
Detalles de implementación
Figura 1 Arquitectura general de Bailing-TTS
1. Alineación de tokens refinada basada en preentrenamiento multimodal a gran escala
Para lograr una alineación refinada de los tokens de texto y voz, proponemos un marco de aprendizaje previo al entrenamiento multimodal y de múltiples etapas.
En la primera etapa, utilizamos una estrategia de muestreo no supervisada para realizar un entrenamiento aproximado en un conjunto de datos a gran escala. En la segunda etapa, adoptamos una estrategia de muestreo refinada para realizar una capacitación detallada en conjuntos de datos de dialectos de alta calidad. Este método puede capturar eficazmente la correlación detallada entre texto y voz y promover la alineación de las dos modalidades.
2. Basado en una estructura de red de transformadores experta híbrida jerárquica
Para entrenar un modelo TTS unificado adecuado para múltiples dialectos chinos, diseñamos una estructura de red de expertos híbrida jerárquica y una estrategia de aprendizaje de tokens de múltiples dialectos y etapas.
Primero, proponemos una arquitectura experta híbrida diseñada específicamente para aprender representaciones unificadas para múltiples dialectos chinos y representaciones específicas para cada dialecto. Luego, inyectamos tokens de dialecto en diferentes niveles del modelo TTS a través de un mecanismo de fusión basado en atención cruzada para mejorar las capacidades de expresión multidialectal del modelo.
3. Estrategia de mejora del aprendizaje por refuerzo jerárquico
Proponemos una estrategia de aprendizaje por refuerzo jerárquico para mejorar aún más la capacidad de expresión dialectal del modelo TTS mediante la combinación de entrenamiento de estrategias básicas y estrategias de entrenamiento avanzadas. La estrategia de capacitación básica respalda la exploración de expresiones de habla dialectal de alta calidad, y la estrategia de capacitación avanzada fortalece las características del habla de diferentes dialectos sobre esta base, logrando así una síntesis de voz de alta calidad en múltiples dialectos.
Figura 2 Estructura del MoE del dialecto
Resultados experimentales
Bailing-TTS ha alcanzado un nivel más cercano a las personas reales en términos de solidez, calidad de generación y naturalidad en mandarín y múltiples dialectos.
Tabla 1 Resultados de la prueba de Bailing-TTS en chino mandarín y dialectos
En la evaluación de escenarios de aplicación reales, Baling-TTS ha logrado buenos resultados.
Tabla 2 Resultados de la prueba de Bailing-TTS sobre ajuste fino de hablantes y clonación de muestra cero en chino mandarín y dialectos
Implementación de tecnología y perspectivas de futuro.
Actualmente, este gran modelo TTS multidialecto se ha aplicado en múltiples escenarios prácticos. Por ejemplo, doblar NPC en juegos, doblar dialectos en la creación de videos, etc. A través de esta tecnología, el contenido de juegos y vídeos puede acercarse más a la cultura regional, mejorando la sensación de inmersión y experiencia de los usuarios.
En el futuro, con el mayor desarrollo de modelos grandes de interacción de voz de extremo a extremo, esta tecnología mostrará un mayor potencial en áreas como la protección de la cultura dialectal y la interacción dialectal de NPC con IA en juegos. En el escenario de protección de dialectos, al admitir la interacción de voz en múltiples dialectos, la próxima generación puede aprender, heredar y proteger fácilmente los dialectos chinos, permitiendo que la cultura dialectal china tenga una larga historia. En la escena del juego, los NPC inteligentes que pueden hablar dialectos e interactuar con la voz mejorarán aún más la expresividad del contenido del juego.
Giant Network AI Lab seguirá comprometido a promover la innovación y la aplicación de esta tecnología para brindar a los usuarios una experiencia de interacción de voz más inteligente y conveniente.
Introducción del equipo
Fundado en 2022, Giant AI Laboratory es una institución de investigación y aplicaciones de tecnología de inteligencia artificial afiliada a Giant Network. Comprometidos con el campo de la generación de contenido AIGC (imagen/texto/audio/video/modelo 3D, etc.), realizando la producción y creación integral de contenido inteligente y promoviendo la innovación en los juegos. En la actualidad, el laboratorio ha construido un canal de producción industrial de IA de enlace completo dentro de Giant. También ha completado el registro del primer modelo vertical grande (GiantGPT) en la industria del juego y es el primero en implementarse comercialmente.