noticias

"El primer modelo de China con las capacidades de voz de GPT-4o", el modelo de voz AI de Xinchen Lingo está abierto para reservas de pruebas internas

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House informó el 24 de agosto que Xihu Xinchen, invertido por Jinke Tomcat, lanzó el modelo de voz grande Xinchen Lingo en agosto de este año. Es el primer modelo grande de voz de extremo a extremo en China. Cita de prueba beta abierta.

En el anuncio publicado el 21 de agosto, la introducción oficial decía que, en comparación con el TTS tradicional, el modelo grande de voz de extremo a extremo es una tecnología más completa.No solo admite el reconocimiento de voz, sino que también integra múltiples enlaces, como el procesamiento del lenguaje natural, el reconocimiento de intenciones, la gestión del diálogo y la síntesis del habla, logrando un proceso de interacción completo desde la entrada del habla hasta la retroalimentación del habla, lo que enriquece enormemente la profundidad y amplitud de la interacción humana. interacción informática.

Citando un comunicado de prensa oficial, IT Home afirmó que el modelo de voz Xinchen Lingo es el primer modelo en China que puede alcanzar las capacidades de voz GPT-4o. Tiene las siguientes tres características importantes en términos de capacidades técnicas:

Comprensión del habla nativa:Como modelo integral, Xinchen Lingo no solo puede reconocer información textual en el habla, sino que también puede capturar con precisión otras características importantes, como emociones, tono e incluso sonidos ambientales, lo que ayuda al modelo a comprender el contenido del habla de manera más integral. , proporcionando así una experiencia interactiva más natural y vívida.

Múltiples expresiones de estilo de voz:Xinchen Lingo puede ajustar de forma adaptativa la velocidad, la altura y la intensidad del ruido del habla según el contexto y las instrucciones del usuario, y puede generar respuestas de voz en varios estilos, como diálogo, canto, diafonía, etc., mejorando efectivamente la flexibilidad del modelo en diferentes Escenarios de aplicación y adaptabilidad.

Supercompresión modal de voz:Xinchen Lingo utiliza un códec de voz con una tasa de compresión cientos de veces mayor, que puede comprimir la voz a una longitud extremadamente corta, lo que reduce significativamente los costos de computación y almacenamiento y, al mismo tiempo, ayuda al modelo a generar contenido de voz de alta calidad.