notizia

"Il primo modello cinese con le funzionalità vocali di GPT-4o", il modello di intelligenza artificiale vocale di Xinchen Lingo è aperto per prenotazioni di test interni

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House ha riferito il 24 agosto che Xihu Xinchen, investito da Jinke Tomcat, ha lanciato il modello vocale di grandi dimensioni Xinchen Lingo nell'agosto di quest'anno. È il primo modello vocale di grandi dimensioni end-to-end in Cina. È stato lanciato oggi (24 agosto). Appuntamento per il beta testing aperto.

Nell'annuncio pubblicato il 21 agosto, l'introduzione ufficiale affermava che, rispetto al tradizionale TTS, il modello vocale end-to-end di grandi dimensioni è una tecnologia più completa.Non solo supporta il riconoscimento vocale, ma integra anche molteplici collegamenti come l'elaborazione del linguaggio naturale, il riconoscimento delle intenzioni, la gestione del dialogo e la sintesi vocale, realizzando un processo di interazione completo dall'input vocale al feedback vocale, che arricchisce notevolmente la profondità e l'ampiezza delle capacità umane. interazione informatica.

Citando un comunicato stampa ufficiale, IT Home ha affermato che il modello vocale Xinchen Lingo è il primo modello in Cina in grado di raggiungere le capacità vocali GPT-4o. Presenta le seguenti tre caratteristiche significative in termini di capacità tecniche:

Comprensione del parlato nativo:Essendo un modello end-to-end, Xinchen Lingo non solo è in grado di riconoscere le informazioni testuali nel parlato, ma anche di catturare accuratamente altre caratteristiche importanti, come le emozioni, il tono, l'intonazione e persino i suoni ambientali, aiutando il modello a comprendere il contenuto del parlato in modo più completo. , fornendo così un'esperienza interattiva più naturale e vivida.

Espressioni di stili vocali multipli:Xinchen Lingo può regolare in modo adattivo la velocità, l'altezza e l'intensità del rumore del parlato in base al contesto e alle istruzioni dell'utente e può generare risposte vocali in vari stili come dialogo, canto, diafonia, ecc., migliorando efficacemente la flessibilità del modello in diversi scenari applicativi e adattabilità.

Super compressione modale vocale:Xinchen Lingo utilizza un codec vocale con un tasso di compressione centinaia di volte superiore, che può comprimere il parlato a una lunghezza estremamente breve, riducendo significativamente i costi di elaborazione e archiviazione e aiutando il modello a generare contenuti vocali di alta qualità.