notícias

"O primeiro modelo da China capaz de alcançar os recursos de voz GPT-4o", o modelo de IA de voz Xinchen Lingo está aberto para reservas de testes internos

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A IT House informou em 24 de agosto que Xihu Xinchen, investido por Jinke Tomcat, lançou o modelo grande de voz Xinchen Lingo em agosto deste ano. É o primeiro modelo grande de voz ponta a ponta. Foi lançado hoje (24 de agosto). Consulta de teste beta aberta.

No anúncio divulgado em 21 de agosto, a introdução oficial afirmava que, comparado ao TTS tradicional, o grande modelo de voz ponta a ponta é uma tecnologia mais abrangente.Ele não apenas oferece suporte ao reconhecimento de fala, mas também integra vários links, como processamento de linguagem natural, reconhecimento de intenção, gerenciamento de diálogo e síntese de fala, realizando um processo de interação completo, desde a entrada de fala até o feedback de fala, o que enriquece muito a profundidade e a amplitude do ser humano. interação computacional.

Citando um comunicado de imprensa oficial, a IT Home afirmou que o modelo de voz Xinchen Lingo é o primeiro modelo na China que pode alcançar os recursos de voz GPT-4o. Possui os seguintes três recursos significativos em termos de capacidades técnicas:

Compreensão da fala nativa:Como um modelo ponta a ponta, o Xinchen Lingo pode não apenas reconhecer informações textuais na fala, mas também capturar com precisão outras características importantes, como emoção, tom, tom e até mesmo sons ambientais, ajudando o modelo a compreender o conteúdo da fala de forma mais abrangente. , proporcionando assim uma experiência interativa mais natural e vívida.

Várias expressões de estilo de voz:Xinchen Lingo pode ajustar de forma adaptativa a velocidade, altura e intensidade de ruído da fala de acordo com o contexto e as instruções do usuário, e pode gerar respostas de fala em vários estilos, como diálogo, canto, crosstalk, etc., melhorando efetivamente a flexibilidade do modelo em diferentes cenários de aplicação e adaptabilidade.

Supercompressão modal de fala:O Xinchen Lingo usa um codec de voz com taxa de compressão centenas de vezes maior, que pode comprimir a fala em um comprimento extremamente curto, reduzindo significativamente os custos de computação e armazenamento, ao mesmo tempo que ajuda o modelo a gerar conteúdo de fala de alta qualidade.