notícias

o primeiro modelo de geração de áudio em grande escala da china foi aprovado no processo

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ifeng.com technology news, 20 de setembro, recentemente, a administração do ciberespaço de xangai da china lançou a lista mais recente de listas de aprovação de registro de grandes modelos generativos de xangai. o grande modelo de áudio do himalaia foi acompanhado por modelos de texto como mihoyo e dream island da china literature. o modelo passou em conjunto no processo de registro e se tornou o primeiro modelo de geração de áudio em grande escala no país a receber serviços generativos de inteligência artificial da administração do ciberespaço da china.

o modelo de áudio do himalaia é o primeiro modelo de geração de áudio de quarta geração do mundo com interpretação multiemocional e expressão sobrenatural.este modelo liderará a evolução do aigc em toda a indústria de áudio, desde o modelo de geração de áudio de terceira geração até o modelo grande de geração de áudio de quarta geração.

o modelo de áudio do himalaia é uma estrutura llm baseada na modelagem conjunta de texto e áudio desenvolvida pela equipe de ia do everest. ele realiza treinamento de modelagem conjunta de áudio e texto sob a mesma representação vetorial espacial.este método de modelagem conjunta dota totalmente a tarefa de geração de áudio com informações semânticas poderosas e faz pleno uso das conexões inerentes e informações complementares entre elas., melhorando significativamente o desempenho e as capacidades de generalização do modelo. este também é o principal avanço tecnológico para que a quarta geração de grandes modelos de áudio supere a geração anterior.

durante o processo de treinamento, o himalayan everest ai primeiro pré-processa dados de áudio e dados de texto, respectivamente, converte-os em formas de token adequadas para entrada do modelo e mapeia tokens de áudio e tokens de texto na mesma representação vetorial espacial para que o modelo possa compreender e processar melhor o relação entre áudio e texto. o processo geral de treinamento inclui vários processos principais: pré-treinamento (pré-treinamento), ajuste fino supervisionado (sft), ajuste fino supervisionado de domínio (sft de domínio), ajuste fino supervisionado de locutor (sft de alto-falante) e aprendizagem por reforço (rl). através do treinamento desses processos, oo modelo possui os seguintes recursos: (1) capacidade de clonagem de tom de 15s e capacidade de conversão de som. (2) geração de fala hiperantropomórfica, multiemocional e alinhada às preferências humanas. (3) estilo altamente controlável e habilidade paralinguística.

a equipe de p&d da himalayan everest ai avaliou o modelo treinado e descobriu que, no contexto de conteúdo de áudio longo, como novelas de áudio, a controlabilidade do estilo de interpretação do personagem, a estabilidade do desempenho do fonema e a naturalidade do fluxo da fala e das pausas rítmicas foram significativamente superior o modelo de geração de áudio de terceira geração no país e no exterior.

o grande modelo de áudio do himalaia implementa o paradigma de "combinação de produção e modelo", combinando a indústria com o modelo para formar um ciclo de feedback positivo de negócios, dados e algoritmos. é amplamente utilizado em cenários de negócios, como audiolivros aigc e interação de conversação por bate-papo. por exemplo, o recentemente popular audiolivro "my altay" foi gerado pelo grande modelo de áudio do himalaia. himalaya everest ai afirmou que a capacidade do modelo de áudio grande pode ser experimentada diretamente no site oficial do everest ai, e os usuários podem criar diretamente seu próprio conteúdo de áudio.