Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-13
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];
Desde o surgimento do GPT-4o em 2024, as empresas do setor investiram enormes recursos na pesquisa e desenvolvimento de grandes modelos TTS. Nos últimos meses, surgiram grandes modelos de síntese de fala chinesa, como chattts, seedtts, cosyvoice, etc.
Embora o atual modelo de síntese de fala em grande escala tenha quase o mesmo efeito que pessoas reais em mandarim chinês, em face dos dialetos complicados da China, os modelos TTS em grande escala raramente foram envolvidos no treinamento de um modelo unificado de síntese de fala chinesa em grande escala. vários dialetos é uma missão extremamente desafiadora.
Pontos problemáticos da indústria e gargalos técnicos
Atualmente, a tecnologia de grandes modelos de síntese de fala fez progressos significativos no campo do mandarim, mas seu desenvolvimento no campo dos dialetos é muito lento. A China tem dezenas de dialetos principais, cada um com características fonéticas e estruturas gramaticais únicas, o que torna extremamente complexo o treinamento de um grande modelo TTS que abrange vários dialetos.
A maioria dos grandes modelos TTS existentes concentra-se no mandarim e não consegue atender às diversas necessidades de síntese de fala. Além disso, a escassez de corpora dialetais e a falta de dados de anotação de alta qualidade aumentam ainda mais a dificuldade técnica.
Inovação tecnológica e avanços do Giant Network AI Lab
Para resolver os problemas acima, especialistas em algoritmos e linguistas da equipe do Giant Network AI Lab trabalharam juntos para construir um conjunto de dados de mandarim e dialeto cobrindo 20 dialetos e mais de 200.000 horas com base no sistema de dialeto chinês. Com esse enorme conjunto de dados, treinamosO primeiro modelo TTS em grande escala que suporta a fala mista de vários dialetos mandarim - Bailing-TTS. O Bailing-TTS pode não apenas gerar fala mandarim de alta qualidade, mas também gerar uma variedade de falas dialetais, incluindo henanês, xangaiense, cantonês, etc.
ArXiv: https://arxiv.org/pdf/2408.00284
Página inicial: https://giantailab.github.io/bailingtts_tech_report/index.html
Título do artigo: Bailing-TTS: Síntese da fala dialetal chinesa em direção à representação espontânea semelhante à humana
O seguinte link de escuta de áudio: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366bd4b9d5f&chksm=84e43f29b393b63f434ae60d46 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&token=2010422951⟨=zh_CN#rd
A seguir está o efeito de síntese do Bailing-TTS no dialeto Henan:
Deixe-me ouvir o efeito da clonagem de amostra zero em mandarim:
Adotamos uma série de tecnologias inovadoras para atingir esse objetivo:
1.Especificação de token de dialeto unificado: unificamos as especificações de token de vários dialetos e sobrepusemos parcialmente os tokens do mandarim e de vários dialetos para usar o mandarim e fornecer recursos básicos de pronúncia. Isso nos permite obter síntese de fala em dialeto de alta qualidade sob condições de dados limitadas.
2.Tecnologia refinada de alinhamento de token: Propomos uma tecnologia de alinhamento de token refinada baseada em pré-treinamento multimodal em grande escala.
3.Estrutura hierárquica híbrida de especialistas: Projetamos uma arquitetura especializada híbrida hierárquica para aprender representações unificadas para vários dialetos chineses e representações específicas para cada dialeto.
4.Estratégia de aprimoramento de aprendizagem por reforço hierárquico: Propusemos uma estratégia hierárquica de aprendizagem por reforço para melhorar ainda mais a capacidade de expressão dialetal do modelo TTS, combinando estratégias de treinamento básico e estratégias de treinamento avançadas.
Detalhes de implementação
Figura 1 Arquitetura geral do Bailing-TTS
1. Alinhamento de token refinado com base em pré-treinamento multimodal em grande escala
A fim de alcançar um alinhamento refinado de tokens de texto e fala, propomos uma estrutura de aprendizagem pré-treinamento multimodal e de vários estágios.
No primeiro estágio, usamos uma estratégia de amostragem não supervisionada para realizar um treinamento aproximado em um conjunto de dados de grande escala. No segundo estágio, adotamos uma estratégia de amostragem refinada para conduzir um treinamento refinado em conjuntos de dados de dialetos de alta qualidade. Este método pode capturar efetivamente a correlação refinada entre texto e fala e promover o alinhamento das duas modalidades.
2. Com base na estrutura de rede hierárquica híbrida do Transformer especialista
A fim de treinar um modelo TTS unificado adequado para vários dialetos chineses, projetamos uma estrutura hierárquica de rede especializada híbrida e uma estratégia de aprendizagem de tokens multi-dialetos em vários estágios.
Primeiro, propomos uma arquitetura híbrida especializada projetada especificamente para aprender representações unificadas para vários dialetos chineses e representações específicas para cada dialeto. Em seguida, injetamos tokens de dialeto em diferentes níveis do modelo TTS por meio de um mecanismo de fusão baseado na atenção cruzada para melhorar as capacidades de expressão multidialeto do modelo.
3. Estratégia de aprimoramento de aprendizagem por reforço hierárquico
Propomos uma estratégia hierárquica de aprendizagem por reforço para melhorar ainda mais a capacidade de expressão dialetal do modelo TTS, combinando treinamento estratégico básico e estratégias de treinamento avançadas. A estratégia de treinamento básico apoia a exploração de expressões de fala dialetal de alta qualidade, e a estratégia de treinamento avançado fortalece as características de fala de diferentes dialetos nesta base, alcançando assim uma síntese de fala de alta qualidade em vários dialetos.
Figura 2 Estrutura do Dialeto MoE
Resultados experimentais
Bailing-TTS atingiu um nível mais próximo de pessoas reais em termos de robustez, qualidade de geração e naturalidade em mandarim e em vários dialetos.
Tabela 1 Resultados do teste Bailing-TTS em mandarim chinês e dialetos
Na avaliação do cenário de aplicação real, o Baling-TTS obteve bons resultados.
Tabela 2 Resultados do teste Bailing-TTS no ajuste fino do falante e clonagem de amostra zero em mandarim chinês e dialetos
Implementação de tecnologia e perspectivas futuras
Atualmente, este grande modelo TTS multidialeto tem sido aplicado em vários cenários práticos. Por exemplo, dublar NPCs em jogos, dublar dialetos na criação de vídeos, etc. Através desta tecnologia, o conteúdo de jogos e vídeos pode estar mais próximo da cultura regional, melhorando a sensação de imersão e experiência dos usuários.
No futuro, com o desenvolvimento de grandes modelos de interação de voz ponta a ponta, esta tecnologia mostrará maior potencial em áreas como proteção da cultura dialetal e interação dialeto NPC de IA de jogos. No cenário de proteção de dialetos, ao apoiar a interação de voz em vários dialetos, a próxima geração pode facilmente aprender, herdar e proteger os dialetos chineses, permitindo que a cultura dialetal chinesa tenha uma longa história. No cenário do jogo, NPCs inteligentes que falam dialetos e podem interagir por voz aumentarão ainda mais a expressividade do conteúdo do jogo.
O Giant Network AI Lab continuará comprometido em promover a inovação e a aplicação desta tecnologia para oferecer aos usuários uma experiência de interação de voz mais inteligente e conveniente.
Apresentação da equipe
Fundado em 2022, o Giant AI Laboratory é uma instituição de pesquisa e aplicação de tecnologia de inteligência artificial afiliada à Giant Network. Comprometido com o campo de geração de conteúdo AIGC (imagem/texto/áudio/vídeo/modelo 3D, etc.), realizando produção e criação abrangente de conteúdo inteligente e promovendo a inovação em jogos. Atualmente, o laboratório construiu um pipeline de produção industrial de IA de link completo dentro da Giant. Também concluiu o registro do primeiro grande modelo vertical (GiantGPT) na indústria de jogos e é o primeiro a ser colocado em aplicação comercial.