Rispetto a GPT-4o, la versione Her di iFlytek Spark è qui e sarà completamente operativa a fine agosto

Rispetto a GPT-4o, la versione iFlytek Spark di Her è qui e sarà completamente aperta all'uso alla fine di agosto.

2024-08-19

Notizie il 19 agosto, HKUSTiFlytekAnnunciarescintillaAggiornamento del modello vocale di grandi dimensioni, lanciato ufficialmente su SparkVelocità estremasorpassarepersonificazioneinteragire e applicare le sue capacità alla funzione “XiaoXing Chat” dell'APP iFlytek Spark, che sarà aperta al pubblico a fine agosto.

A giudicare dai risultati ufficiali della visualizzazione, Spark Extreme Super Anthropomorphic Interaction ha raggiunto progressi in quattro aspetti: velocità di risposta e interruzione, percezione delle emozioni e risonanza emotiva, espressione controllabile dalla voce e gioco di ruolo umano.

In termini di velocità di risposta, Spark Extremely Fast Super Anthropomorphic Interaction supporta più cicli di interazione e la velocità di risposta è veloce quantoGPT-4oAbbastanza, quasi coerente con il normale ritmo di chat degli umani. Gli utenti possono interrompere o intervenire in qualsiasi momento durante la conversazione e il sistema può rispondere rapidamente, ottenendo un'esperienza di conversazione davvero fluida.

In termini di percezione delle emozioni e risonanza emotiva, Xinghuo Extreme Super Anthropomorphic Interaction è in grado di riconoscere le varie emozioni dell'utente come gioia, rabbia, tristezza, gioia, ecc., non solo giudicando dal contenuto del suono, ma anche rispondendo con emozioni appropriate. Inoltre, il sistema è in grado di riconoscere anche suoni non verbali, come colpi di tosse e suoni di animali domestici, e di fornire risposte corrispondenti.

In termini di espressione controllabile dalla voce, rispetto alla situazione precedente in cui la voce della macchina non poteva essere regolata nell'interazione vocale, ora finché la voce impartisce istruzioni, il super-antropomorfo può essere controllato per apportare cambiamenti in espressioni come emozione, stile, dialetto, intensità, ecc.

In termini di "gioco di ruolo", supporta una varietà di simulazioni di ruolo e può cambiare ruolo in base alle esigenze dell'utente, rendendo la conversazione più interessante e interattiva.

È stato riferito che iFlytek utilizza una rete neurale unificata per implementare la modellazione end-to-end da parlato a parlato, semplificando la tradizionale interazione vocale da parlato a testo, la risposta di generazione di modelli di grandi dimensioni e i processi di sintesi vocale, abbreviando così in modo significativo la risposta tempo e migliorare la personificazione e la fluidità dell'interazione. Inoltre, attraverso la formazione sulla rappresentazione del disaccoppiamento degli attributi vocali multidimensionali, il sistema può controllare in modo più flessibile il contenuto, il timbro, le emozioni e altri elementi per soddisfare diversi scenari ed esigenze.

iFlytek ha affermato che Spark Extreme Super Anthropomorphic Interaction sarà completamente utilizzabile entro la fine di agosto e prevede di continuare ad espandere le funzioni e le modalità interattive in futuro per fornire agli utenti servizi vocali intelligenti più ricchi e pratici. Poiché la tecnologia continua a maturare e gli scenari applicativi si espandono, si prevede che la tecnologia vocale intelligente introdurrà una crescita esplosiva in molti campi come gli smartphone e le auto intelligenti. Secondo le previsioni di IDC, entro il 2030, il mercato globale dei servizi vocali intelligenti raggiungerà circa 73,16 miliardi di dollari, con un tasso di crescita annuo composto del 27%. (salato)

Questo articolo proviene da NetEase Technology Report Per ulteriori informazioni e contenuti approfonditi, seguici.

notizia

Rispetto a GPT-4o, la versione iFlytek Spark di Her è qui e sarà completamente aperta all'uso alla fine di agosto.

Introduzione

Le mie informazioni di contatto