νέα

Σε σύγκριση με το GPT-4o, η έκδοση iFlytek Spark του Her είναι εδώ και θα είναι πλήρως ανοιχτή για χρήση στα τέλη Αυγούστου.

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Νέα στις 19 Αυγούστου, HKUSTiFlytekΑναγγέλλωσπίθαΜεγάλη ενημέρωση φωνητικού μοντέλου, που κυκλοφόρησε επίσημα στο SparkΕξαιρετική ταχύτηταπροσπερνώπροσωποποίησηαλληλεπιδρούν και εφαρμόζουν τις δυνατότητές του στη λειτουργία "XiaoXing Chat" της εφαρμογής iFlytek Spark, η οποία θα είναι ανοιχτή στο κοινό στα τέλη Αυγούστου.


Κρίνοντας από τα επίσημα αποτελέσματα της οθόνης, το Spark Extreme Super Anthropomorphic Interaction έχει επιτύχει καινοτομίες σε τέσσερις πτυχές: ταχύτητα απόκρισης και διακοπής, αντίληψη συναισθήματος και συναισθηματική αντήχηση, έκφραση με δυνατότητα ελέγχου φωνής και ανθρώπινο παιχνίδι ρόλων.

Όσον αφορά την ταχύτητα απόκρισης, το Xinghuo Extremely Fast Super Anthropomorphic Interaction υποστηρίζει πολλαπλούς γύρους αλληλεπίδρασης και η ταχύτητα απόκρισης είναι τόσο γρήγορη όσοGPT-4o Αρκετά, σχεδόν συνεπής με τον κανονικό ρυθμό συνομιλίας των ανθρώπων. Οι χρήστες μπορούν να διακόψουν ή να παρεμβάλουν οποιαδήποτε στιγμή κατά τη διάρκεια της συνομιλίας και το σύστημα μπορεί να ανταποκριθεί γρήγορα, επιτυγχάνοντας μια πραγματικά απρόσκοπτη εμπειρία συνομιλίας.

Όσον αφορά την αντίληψη του συναισθήματος και τον συναισθηματικό συντονισμό, το Xinghuo Extreme Super Anthropomorphic Interaction μπορεί να αναγνωρίσει τα διάφορα συναισθήματα του χρήστη, όπως χαρά, θυμό, λύπη, χαρά κ.λπ., όχι μόνο κρίνοντας από το περιεχόμενο του ήχου, αλλά και ανταποκρινόμενη με τα κατάλληλα συναισθήματα. Επιπλέον, το σύστημα μπορεί επίσης να αναγνωρίσει μη λεκτικούς ήχους, όπως βήχα και ήχους κατοικίδιων, και να δώσει αντίστοιχες απαντήσεις.

Όσον αφορά την ελεγχόμενη από τη φωνή έκφραση, σε σύγκριση με την προηγούμενη κατάσταση όπου η φωνή της μηχανής δεν μπορούσε να προσαρμοστεί στη φωνητική αλληλεπίδραση, τώρα εφόσον η φωνή εκδίδει οδηγίες, η υπερ-ανθρωπόμορφη μπορεί να ελεγχθεί για να κάνει αλλαγές σε εκφράσεις όπως το συναίσθημα, ύφος, διάλεκτος, ένταση κ.λπ.

Όσον αφορά το «role playing», υποστηρίζει μια ποικιλία από προσομοιώσεις ρόλων και μπορεί να αλλάξει ρόλους ανάλογα με τις ανάγκες των χρηστών, κάνοντας τη συζήτηση πιο ενδιαφέρουσα και διαδραστική.

Αναφέρεται ότι το iFlytek χρησιμοποιεί ένα ενοποιημένο νευρωνικό δίκτυο για την υλοποίηση μοντελοποίησης ομιλίας σε ομιλία από άκρο σε άκρο, απλοποιώντας την παραδοσιακή φωνητική αλληλεπίδραση ομιλίας σε κείμενο, απάντησης παραγωγής μεγάλων μοντέλων και σύνθεσης ομιλίας, μειώνοντας έτσι σημαντικά την απόκριση χρόνο και βελτίωση της προσωποποίησης και της ευχέρειας της αλληλεπίδρασης. Επιπλέον, μέσω της εκπαίδευσης αναπαράστασης πολυδιάστατης αποσύνδεσης φωνητικών χαρακτηριστικών, το σύστημα μπορεί να ελέγχει πιο ευέλικτα το περιεχόμενο, τη χροιά, τα συναισθήματα και άλλα στοιχεία για να ανταποκρίνεται σε διαφορετικά σενάρια και ανάγκες.

Η iFlytek είπε ότι το Spark Extreme Super Human Interaction θα είναι πλήρως ανοιχτό για χρήση μέχρι τα τέλη Αυγούστου και σχεδιάζει να συνεχίσει να επεκτείνει τις διαδραστικές λειτουργίες και λειτουργίες στο μέλλον για να παρέχει στους χρήστες πλουσιότερες και πιο πρακτικές έξυπνες υπηρεσίες φωνής. Καθώς η τεχνολογία συνεχίζει να ωριμάζει και τα σενάρια εφαρμογών επεκτείνονται, η έξυπνη τεχνολογία φωνής αναμένεται να οδηγήσει σε εκρηκτική ανάπτυξη σε πολλούς τομείς, όπως τα smartphone και τα έξυπνα αυτοκίνητα. Σύμφωνα με τις προβλέψεις της IDC, έως το 2030, η παγκόσμια αγορά ευφυών φωνητικών υπηρεσιών θα φτάσει περίπου τα 73,16 δισεκατομμύρια δολάρια ΗΠΑ, με σύνθετο ετήσιο ρυθμό ανάπτυξης 27%. (αλμυρός)

Αυτό το άρθρο προέρχεται από την Αναφορά τεχνολογίας NetEase Για περισσότερες πληροφορίες και εμπεριστατωμένο περιεχόμενο, ακολουθήστε μας.