Comparando com o GPT-4o, a versão Her do iFlytek Spark está aqui e estará totalmente aberta para uso no final de agosto

Comparando com o GPT-4o, a versão iFlytek Spark do Her está aqui e estará totalmente aberta para uso no final de agosto.

2024-08-19

Notícias em 19 de agosto, HKUSTiFlytekAnunciarfagulhaGrande atualização do modelo de voz, lançada oficialmente no SparkVelocidade extremaultrapassarpersonificaçãointeragir e aplicar suas capacidades à função "XiaoXing Chat" do APP iFlytek Spark, que estará aberto ao público no final de agosto.

A julgar pelos resultados oficiais da exibição, Spark Extreme Super Anthropomorphic Interaction alcançou avanços em quatro aspectos: velocidade de resposta e interrupção, percepção de emoção e ressonância emocional, expressão controlável por voz e representação humana.

Em termos de velocidade de resposta, Spark Extremely Fast Super Anthropomorphic Interaction suporta múltiplas rodadas de interação, e a velocidade de resposta é tão rápida quantoGPT-4oBastante, quase consistente com o ritmo normal de bate-papo dos humanos. Os usuários podem interromper ou intervir a qualquer momento durante a conversa, e o sistema pode responder rapidamente, proporcionando uma experiência de conversação verdadeiramente perfeita.

Em termos de percepção emocional e ressonância emocional, Xinghuo Extreme Super Anthropomorphic Interaction pode reconhecer as diversas emoções do usuário, como alegria, raiva, tristeza, alegria, etc., não apenas a julgar pelo conteúdo do som, mas também respondendo com emoções apropriadas. Além disso, o sistema também pode reconhecer sons não-verbais, como tosse e sons de animais de estimação, e dar respostas correspondentes.

Em termos de expressão controlável por voz, em comparação com a situação anterior em que a voz da máquina não podia ser ajustada na interação de voz, agora, desde que a voz emita instruções, o superantropomórfico pode ser controlado para fazer mudanças em expressões como emoção, estilo, dialeto, intensidade, etc.

Em termos de “role play”, suporta uma variedade de simulações de papéis e pode mudar de papéis de acordo com as necessidades do usuário, tornando a conversa mais interessante e interativa.

É relatado que a iFlytek usa uma rede neural unificada para implementar modelagem de fala para fala de ponta a ponta, simplificando a interação de voz tradicional fala-para-texto, resposta de geração de modelo grande e processos de síntese de fala, encurtando significativamente a resposta tempo e melhorando a personificação e fluência da interação. Além disso, por meio do treinamento de representação de dissociação de atributos de voz multidimensional, o sistema pode controlar com mais flexibilidade o conteúdo, o timbre, a emoção e outros elementos para atender a diferentes cenários e necessidades.

A iFlytek disse que o Spark Extreme Super Anthropomorphic Interaction estará totalmente aberto para uso até o final de agosto e planeja continuar a expandir funções e modos interativos no futuro para fornecer aos usuários serviços de voz inteligentes mais ricos e práticos. À medida que a tecnologia continua a amadurecer e os cenários de aplicação se expandem, espera-se que a tecnologia de voz inteligente dê início a um crescimento explosivo em muitos campos, como smartphones e carros inteligentes. De acordo com as previsões da IDC, até 2030, o mercado global de serviços de voz inteligentes atingirá aproximadamente 73,16 mil milhões de dólares, com uma taxa composta de crescimento anual de 27%. (salgado)

Este artigo vem do NetEase Technology Report. Para obter mais informações e conteúdo aprofundado, siga-nos.

notícias

Comparando com o GPT-4o, a versão iFlytek Spark do Her está aqui e estará totalmente aberta para uso no final de agosto.

Introdução

Minhas informações de contato