Bandingkan dengan GPT-4o, iFlytek Spark versinya telah hadir dan akan dibuka penuh untuk digunakan pada akhir Agustus

Dibandingkan dengan GPT-4o, versi iFlytek Spark Her telah hadir dan akan sepenuhnya terbuka untuk digunakan pada akhir Agustus.

2024-08-19

Berita pada 19 Agustus, HKUSTiFlytekMengumumkanpercikanPembaruan model suara besar, diluncurkan secara resmi di SparkKecepatan ekstrimmenyusulpengejawantahanberinteraksi, dan menerapkan kemampuannya pada fungsi "XiaoXing Chat" pada iFlytek Spark APP, yang akan dibuka untuk umum pada akhir Agustus.

Dilihat dari hasil tampilan resminya, Spark Extreme Super Anthropomorphic Interaction telah mencapai terobosan dalam empat aspek: kecepatan respon dan interupsi, persepsi emosi dan resonansi emosional, ekspresi suara yang dapat dikontrol, dan permainan peran manusia.

Dalam hal kecepatan respons, Interaksi Super Antropomorfik Xinghuo Sangat Cepat mendukung banyak putaran interaksi, dan kecepatan responsnya sama cepatnya denganGPT-4o Cukup, hampir konsisten dengan ritme obrolan normal manusia. Pengguna dapat menyela atau menyela kapan saja selama percakapan, dan sistem dapat merespons dengan cepat, sehingga menghasilkan pengalaman percakapan yang benar-benar lancar.

Dalam hal persepsi emosi dan resonansi emosional, Interaksi Super Antropomorfik Ekstrim Xinghuo dapat mengenali berbagai emosi pengguna seperti kegembiraan, kemarahan, kesedihan, kegembiraan, dll., tidak hanya dilihat dari isi suaranya, tetapi juga merespons dengan emosi yang sesuai. Selain itu, sistem juga dapat mengenali suara non-verbal, seperti suara batuk dan hewan peliharaan, serta memberikan respons yang sesuai.

Dalam hal ekspresi yang dapat dikontrol oleh suara, dibandingkan dengan situasi sebelumnya di mana suara mesin tidak dapat diatur dalam interaksi suara, kini selama suara tersebut mengeluarkan instruksi, super-antropomorfik dapat dikontrol untuk membuat perubahan ekspresi seperti emosi, gaya, dialek, intensitas, dll.

Dari segi "bermain peran", mendukung berbagai simulasi peran dan dapat berganti peran sesuai kebutuhan pengguna, membuat percakapan lebih menarik dan interaktif.

Dilaporkan bahwa iFlytek menggunakan jaringan saraf terpadu untuk menerapkan pemodelan ucapan-ke-ucapan ujung ke ujung, menyederhanakan interaksi suara tradisional ucapan-ke-teks, balasan pembuatan model besar, dan proses sintesis ucapan, sehingga secara signifikan memperpendek respons. waktu dan meningkatkan personifikasi dan kelancaran interaksi. Selain itu, melalui pelatihan representasi pemisahan atribut suara multidimensi, sistem dapat lebih fleksibel mengontrol konten, timbre, emosi, dan elemen lainnya untuk memenuhi berbagai skenario dan kebutuhan.

iFlytek mengatakan bahwa Spark Extreme Super Human Interaction akan sepenuhnya terbuka untuk digunakan pada akhir Agustus, dan berencana untuk terus memperluas fungsi dan mode interaktif di masa depan untuk memberikan layanan suara cerdas yang lebih kaya dan praktis kepada pengguna. Seiring dengan semakin matangnya teknologi dan skenario penerapan yang semakin luas, teknologi suara cerdas diperkirakan akan mengantarkan pertumbuhan eksplosif di banyak bidang seperti telepon pintar dan mobil pintar. Menurut prediksi IDC, pada tahun 2030, pasar layanan suara cerdas global akan mencapai sekitar US$73,16 miliar, dengan tingkat pertumbuhan tahunan gabungan sebesar 27%. (asin)

Artikel ini berasal dari NetEase Technology Report.

berita

Dibandingkan dengan GPT-4o, versi iFlytek Spark Her telah hadir dan akan sepenuhnya terbuka untuk digunakan pada akhir Agustus.

Perkenalan

Informasi kontak saya