νέα

Το πρώτο μοντέλο TTS μεγάλης κλίμακας που υποστηρίζει μικτή ομιλία μανδαρινικών και διαλέκτων: η διάλεκτος Henan και η διάλεκτος της Σαγκάης είναι άπταιστα

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Από την εμφάνιση του GPT-4o το 2024, οι εταιρείες του κλάδου έχουν επενδύσει τεράστιους πόρους στην έρευνα και ανάπτυξη μεγάλων μοντέλων TTS. Τους τελευταίους μήνες έχουν εμφανιστεί μεγάλα κινεζικά μοντέλα σύνθεσης ομιλίας, όπως chattts, seedtts, cosyvoice κ.λπ.

Παρόλο που το τρέχον μοντέλο σύνθεσης ομιλίας μεγάλης κλίμακας έχει σχεδόν το ίδιο αποτέλεσμα με τους πραγματικούς ανθρώπους στα κινέζικα μανδαρίνια, εν όψει των περίπλοκων διαλέκτων της Κίνας, τα μοντέλα μεγάλης κλίμακας TTS έχουν σπάνια εμπλακεί στην εκπαίδευση ενός ενοποιημένου μοντέλου σύνθεσης ομιλίας μεγάλης κλίμακας διάφορες διαλέκτους είναι μια εξαιρετικά δύσκολη αποστολή.

Σημεία πόνου στον κλάδο και τεχνικά σημεία συμφόρησης

Επί του παρόντος, η τεχνολογία μεγάλων μοντέλων σύνθεσης ομιλίας έχει σημειώσει σημαντική πρόοδο στον τομέα των Μανδαρινικών, αλλά η ανάπτυξή της στον τομέα των διαλέκτων είναι πολύ αργή. Η Κίνα έχει δεκάδες κύριες διαλέκτους, η καθεμία με μοναδικά φωνητικά χαρακτηριστικά και γραμματικές δομές, γεγονός που καθιστά την εκπαίδευση ένα μεγάλο μοντέλο TTS που καλύπτει διάφορες διαλέκτους εξαιρετικά περίπλοκο.

Τα περισσότερα από τα υπάρχοντα μεγάλα μοντέλα TTS επικεντρώνονται στο Mandarin και δεν μπορούν να καλύψουν τις διαφορετικές ανάγκες σύνθεσης ομιλίας. Επιπλέον, η σπανιότητα των διαλεκτικών σωμάτων και η έλλειψη υψηλής ποιότητας δεδομένων σχολιασμού αυξάνουν περαιτέρω την τεχνική δυσκολία.

Τεχνολογική καινοτομία και ανακαλύψεις του Giant Network AI Lab

Για την επίλυση των παραπάνω προβλημάτων, ειδικοί αλγορίθμων και γλωσσολόγοι στην ομάδα Giant Network AI Lab συνεργάστηκαν για να δημιουργήσουν ένα σύνολο δεδομένων Mandarin και διαλέκτων που καλύπτει 20 διαλέκτους και περισσότερες από 200.000 ώρες με βάση το σύστημα κινεζικών διαλέκτων. Με αυτό το τεράστιο σύνολο δεδομένων, εκπαιδευτήκαμεΤο πρώτο μοντέλο TTS μεγάλης κλίμακας που υποστηρίζει μικτή ομιλία πολλαπλών μανδαρινικών διαλέκτων - Bailing-TTS. Το Bailing-TTS δεν μπορεί μόνο να δημιουργήσει υψηλής ποιότητας ομιλία στα Μανδαρινικά, αλλά και να δημιουργήσει μια ποικιλία διαλεκτικών ομιλιών, συμπεριλαμβανομένων των Henanese, της Σαγκάης, της Καντονέζικης κ.λπ.



ArXiv: https://arxiv.org/pdf/2408.00284

Αρχική σελίδα: https://giantailab.github.io/bailingtts_tech_report/index.html

Τίτλος εργασίας: Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation

Ο ακόλουθος σύνδεσμος ακρόασης ήχου: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930007&idx=5&sn=383cf581d916b0802b940366bd3439m e60d46 33694cd0362cec7590badfae2b0b683a5bd0c112e725c1f80d&token=2010422951⟨=zh_CN#rd

Το παρακάτω είναι το αποτέλεσμα σύνθεσης του Bailing-TTS στη διάλεκτο Χενάν:



Επιτρέψτε μου να ακούσω την επίδραση της κλωνοποίησης μηδενικού δείγματος στα Mandarin:





Έχουμε υιοθετήσει μια σειρά από καινοτόμες τεχνολογίες για την επίτευξη αυτού του στόχου:

1.Προδιαγραφές ενιαίου διακριτικού διαλέκτου: Έχουμε ενοποιήσει τις προδιαγραφές διακριτικών διαφόρων διαλέκτων και επικαλύπτουμε εν μέρει τις μάρκες των Μανδαρινικών και διαφόρων διαλέκτων για να χρησιμοποιήσουμε το Mandarin για να παρέχουμε βασικές δυνατότητες προφοράς. Αυτό μας δίνει τη δυνατότητα να επιτύχουμε σύνθεση ομιλίας διαλεκτών υψηλής ποιότητας υπό περιορισμένες συνθήκες δεδομένων.

2.Βελτιωμένη τεχνολογία ευθυγράμμισης διακριτικών: Προτείνουμε μια εκλεπτυσμένη τεχνολογία ευθυγράμμισης, βασισμένη σε μεγάλης κλίμακας πολυτροπική προεκπαίδευση.

3.Ιεραρχική υβριδική δομή εμπειρογνωμόνων: Σχεδιάζουμε μια ιεραρχική υβριδική αρχιτεκτονική ειδικών για την εκμάθηση ενοποιημένων αναπαραστάσεων για πολλές κινεζικές διαλέκτους και συγκεκριμένες αναπαραστάσεις για κάθε διάλεκτο.

4.Στρατηγική ενίσχυσης ιεραρχικής ενίσχυσης μάθησης: Προτείναμε μια ιεραρχική στρατηγική ενίσχυσης μάθησης για να ενισχύσουμε περαιτέρω την ικανότητα έκφρασης διαλέκτου του μοντέλου TTS συνδυάζοντας βασικές στρατηγικές εκπαίδευσης και προηγμένες στρατηγικές εκπαίδευσης.

Λεπτομέρειες υλοποίησης



Σχήμα 1 Συνολική αρχιτεκτονική Bailing-TTS

1. Βελτιωμένη ευθυγράμμιση Token που βασίζεται σε μεγάλης κλίμακας πολυτροπική προεκπαίδευση

Προκειμένου να επιτευχθεί εκλεπτυσμένη ευθυγράμμιση των διακριτικών κειμένου και ομιλίας, προτείνουμε ένα πολυσταδιακό, πολυτροπικό πλαίσιο εκμάθησης προεκπαίδευσης.

Στο πρώτο στάδιο, χρησιμοποιούμε μια στρατηγική δειγματοληψίας χωρίς επίβλεψη για να εκτελέσουμε πρόχειρη εκπαίδευση σε ένα σύνολο δεδομένων μεγάλης κλίμακας. Στο δεύτερο στάδιο, υιοθετούμε μια εκλεπτυσμένη στρατηγική δειγματοληψίας για τη διεξαγωγή λεπτομερούς εκπαίδευσης σε σύνολα δεδομένων διαλέκτων υψηλής ποιότητας. Αυτή η μέθοδος μπορεί να συλλάβει αποτελεσματικά τη λεπτή συσχέτιση μεταξύ κειμένου και ομιλίας και να προωθήσει την ευθυγράμμιση των δύο τρόπων.

2. Βασίζεται σε ιεραρχική υβριδική δομή δικτύου μετασχηματιστών ειδικών

Προκειμένου να εκπαιδεύσουμε ένα ενοποιημένο μοντέλο TTS κατάλληλο για πολλαπλές κινεζικές διαλέκτους, σχεδιάσαμε μια ιεραρχική υβριδική δομή δικτύου ειδικών και μια στρατηγική εκμάθησης διακριτικών πολλαπλών διαλέκτων πολλαπλών σταδίων.

Πρώτον, προτείνουμε μια υβριδική αρχιτεκτονική ειδικών σχεδιασμένη ειδικά για την εκμάθηση ενοποιημένων αναπαραστάσεων για πολλές κινεζικές διαλέκτους και συγκεκριμένες αναπαραστάσεις για κάθε διάλεκτο. Στη συνέχεια, εισάγουμε διακριτικά διαλέκτου σε διαφορετικά επίπεδα του μοντέλου TTS μέσω ενός μηχανισμού σύντηξης που βασίζεται στη διασταυρούμενη προσοχή για τη βελτίωση των δυνατοτήτων έκφρασης πολλαπλών διαλέκτων του μοντέλου.

3. Στρατηγική ενίσχυσης ιεραρχικής ενίσχυσης μάθησης

Προτείνουμε μια ιεραρχική ενισχυτική στρατηγική εκμάθησης για να ενισχύσουμε περαιτέρω την ικανότητα έκφρασης διαλέκτου του μοντέλου TTS συνδυάζοντας βασική εκπαίδευση στρατηγικής και προηγμένες στρατηγικές εκπαίδευσης. Η βασική στρατηγική εκπαίδευσης υποστηρίζει την εξερεύνηση υψηλής ποιότητας εκφράσεων διαλέκτου και η προηγμένη στρατηγική εκπαίδευσης ενισχύει τα χαρακτηριστικά ομιλίας διαφορετικών διαλέκτων σε αυτή τη βάση, επιτυγχάνοντας έτσι σύνθεση ομιλίας υψηλής ποιότητας σε πολλαπλές διαλέκτους.



Σχήμα 2 Διαλεκτική δομή MoE

Πειραματικά αποτελέσματα

Το Bailing-TTS έχει φτάσει σε ένα επίπεδο πιο κοντά στους πραγματικούς ανθρώπους όσον αφορά την ευρωστία, την ποιότητα παραγωγής και τη φυσικότητα στα Μανδαρινικά και σε πολλαπλές διαλέκτους.



Πίνακας 1 Αποτελέσματα δοκιμών του Bailing-TTS σε κινέζικα Mandarin και διαλέκτους

Στην πραγματική αξιολόγηση σεναρίου εφαρμογής, το Baling-TTS έχει επιτύχει καλά αποτελέσματα.



Πίνακας 2 Αποτελέσματα δοκιμών του Bailing-TTS στη λεπτομέρεια των ηχείων και στην κλωνοποίηση μηδενικού δείγματος σε κινέζικα μανδαρίνικα και διαλέκτους

Εφαρμογή τεχνολογίας και μελλοντικές προοπτικές

Επί του παρόντος, αυτό το μεγάλο πολυδιάλεκτο μοντέλο TTS έχει εφαρμοστεί σε πολλά πρακτικά σενάρια. Για παράδειγμα, μεταγλώττιση NPC σε παιχνίδια, μεταγλώττιση διαλέκτων στη δημιουργία βίντεο κ.λπ. Μέσω αυτής της τεχνολογίας, το περιεχόμενο παιχνιδιών και βίντεο μπορεί να είναι πιο κοντά στην τοπική κουλτούρα, βελτιώνοντας την αίσθηση της εμβάπτισης και της εμπειρίας των χρηστών.

Στο μέλλον, με την περαιτέρω ανάπτυξη μεγάλων μοντέλων φωνητικής αλληλεπίδρασης από άκρο σε άκρο, αυτή η τεχνολογία θα δείξει μεγαλύτερες δυνατότητες σε τομείς όπως η προστασία του πολιτισμού της διαλέκτου και η αλληλεπίδραση διαλέκτου AI NPC του παιχνιδιού. Στο σενάριο προστασίας της διαλέκτου, υποστηρίζοντας τη φωνητική αλληλεπίδραση σε πολλές διαλέκτους, η επόμενη γενιά μπορεί εύκολα να μάθει, να κληρονομήσει και να προστατεύσει τις κινεζικές διαλέκτους, επιτρέποντας στον πολιτισμό της κινεζικής διαλέκτου να έχει μακρά ιστορία. Στη σκηνή του παιχνιδιού, τα έξυπνα NPC που μπορούν να μιλούν διαλέκτους και να αλληλεπιδρούν με τη φωνή θα ενισχύσουν περαιτέρω την εκφραστικότητα του περιεχομένου του παιχνιδιού.

Το Giant Network AI Lab θα συνεχίσει να δεσμεύεται στην προώθηση της καινοτομίας και της εφαρμογής αυτής της τεχνολογίας για να προσφέρει στους χρήστες μια εξυπνότερη και πιο βολική εμπειρία φωνητικής αλληλεπίδρασης.

Εισαγωγή ομάδας

Το Giant AI Laboratory, το οποίο ιδρύθηκε το 2022, είναι μια εφαρμογή τεχνολογίας τεχνητής νοημοσύνης και ερευνητικό ίδρυμα που συνδέεται με το Giant Network. Δεσμευόμαστε στον τομέα της δημιουργίας περιεχομένου AIGC (εικόνα/κείμενο/ήχος/βίντεο/3D μοντέλο κ.λπ.), πραγματοποιώντας ολοκληρωμένη παραγωγή και δημιουργία έξυπνου περιεχομένου και προωθώντας την καινοτομία του παιχνιδιού. Προς το παρόν, το εργαστήριο έχει κατασκευάσει έναν αγωγό βιομηχανικής παραγωγής πλήρους σύνδεσης AI εντός της Giant. Ολοκλήρωσε επίσης την καταχώριση του πρώτου μεγάλου κάθετου μοντέλου (GiantGPT) στη βιομηχανία τυχερών παιχνιδιών και είναι το πρώτο που τίθεται σε εμπορική εφαρμογή.