νέα

"Το πρώτο μοντέλο της Κίνας ικανό να καλύψει τη διαφορά με τις δυνατότητες φωνής GPT-4o", το μοντέλο φωνής AI Xinchen Lingo είναι ανοιχτό για κρατήσεις εσωτερικών δοκιμών

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Η IT House ανέφερε στις 24 Αυγούστου ότι η Xihu Xinchen, που επένδυσε η Jinke Tomcat, παρουσίασε το μεγάλο μοντέλο φωνής Xinchen Lingo τον Αύγουστο του τρέχοντος έτους. Ανοίξτε ραντεβού δοκιμής beta.

Στην ανακοίνωση που κυκλοφόρησε στις 21 Αυγούστου, η επίσημη εισαγωγή ανέφερε ότι σε σύγκριση με το παραδοσιακό TTS, το μεγάλο μοντέλο φωνής από άκρο σε άκρο είναι μια πιο ολοκληρωμένη τεχνολογία.Δεν υποστηρίζει μόνο την αναγνώριση ομιλίας, αλλά επίσης ενσωματώνει πολλαπλούς συνδέσμους όπως επεξεργασία φυσικής γλώσσας, αναγνώριση πρόθεσης, διαχείριση διαλόγου και σύνθεση ομιλίας, πραγματοποιώντας μια πλήρη διαδικασία αλληλεπίδρασης από την εισαγωγή ομιλίας έως την ανάδραση ομιλίας, η οποία εμπλουτίζει σημαντικά το βάθος και το εύρος της ανθρώπινης αλληλεπίδραση με υπολογιστή.

Επικαλούμενο ένα επίσημο δελτίο τύπου, η IT Home δήλωσε ότι το μοντέλο φωνής Xinchen Lingo είναι το πρώτο μοντέλο στην Κίνα που μπορεί να καλύψει τις δυνατότητες φωνής GPT-4o. Διαθέτει τα ακόλουθα τρία σημαντικά χαρακτηριστικά όσον αφορά τις τεχνικές δυνατότητες:

Κατανόηση της μητρικής ομιλίας:Ως μοντέλο από άκρο σε άκρο, το Xinchen Lingo όχι μόνο μπορεί να αναγνωρίσει πληροφορίες κειμένου στην ομιλία, αλλά και να καταγράψει με ακρίβεια άλλα σημαντικά χαρακτηριστικά, όπως συναισθήματα, τόνος, τόνος, ακόμη και περιβαλλοντικοί ήχοι, βοηθώντας το μοντέλο να κατανοήσει το περιεχόμενο της ομιλίας πιο ολοκληρωμένα , παρέχοντας έτσι πιο φυσική και ζωντανή διαδραστική εμπειρία.

Πολλαπλές εκφράσεις στυλ φωνής:Το Xinchen Lingo μπορεί να προσαρμόσει προσαρμοστικά την ταχύτητα, το ύψος και την ένταση του θορύβου της ομιλίας σύμφωνα με το πλαίσιο και τις οδηγίες χρήστη και μπορεί να δημιουργήσει απαντήσεις ομιλίας σε διάφορα στυλ, όπως διάλογος, τραγούδι, crosstalk κ.λπ., βελτιώνοντας αποτελεσματικά την ευελιξία του μοντέλου σε διαφορετικά σενάρια εφαρμογής και προσαρμοστικότητας.

Τροπική υπερσυμπίεση ομιλίας:Το Xinchen Lingo χρησιμοποιεί έναν κωδικοποιητή ομιλίας με εκατοντάδες φορές τον ρυθμό συμπίεσης, ο οποίος μπορεί να συμπιέσει την ομιλία σε εξαιρετικά μικρό μήκος, μειώνοντας σημαντικά το κόστος υπολογιστών και αποθήκευσης ενώ βοηθά το μοντέλο να δημιουργήσει περιεχόμενο ομιλίας υψηλής ποιότητας.