Νέα

Η κλωνοποίηση φωνής φτάνει σε ανθρώπινο επίπεδο, το νέο μοντέλο VALL-E 2 της Microsoft κάνει το DeepFake συγκρίσιμο με τους φωνητικούς ηθοποιούς

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Qiao Yang

[Εισαγωγή στη Νέα Σοφία]Μετά το μοντέλο VALL-E πρώτης γενιάς στις αρχές του περασμένου έτους, η Microsoft παρουσίασε πρόσφατα το νέο μοντέλο VALL-E 2, σηματοδοτώντας την πρώτη μετατροπή κειμένου σε ομιλία που αγγίζει τα ανθρώπινα επίπεδα όσον αφορά την ευρωστία, την ομοιότητα και τη φυσικότητα του συνθετικού μοντέλου .

Πρόσφατα, η Microsoft κυκλοφόρησε το μηδενικό δείγμα κειμένου σε ομιλία (TTS) μοντέλο VALLE-2, το οποίο πέτυχε το ίδιο επίπεδο με τον άνθρωπο για πρώτη φορά.


Διεύθυνση χαρτιού: https://arxiv.org/pdf/2406.05370

Με την ταχεία πρόοδο της βαθιάς μάθησης τα τελευταία χρόνια, τα μοντέλα εκπαίδευσης που χρησιμοποιούν καθαρή ομιλία ενός ατόμου σε περιβάλλον στούντιο ηχογράφησης έχουν φτάσει στο ίδιο επίπεδο ποιότητας με τους ανθρώπους, αλλά το TTS μηδενικού δείγματος εξακολουθεί να αποτελεί πρόκληση.

"Μηδενικό δείγμα" σημαίνει ότι κατά τη διαδικασία εξαγωγής συμπερασμάτων, το μοντέλο μπορεί να αναφέρεται μόνο σε ένα σύντομο άγνωστο δείγμα ομιλίας και να εκφωνεί το περιεχόμενο κειμένου με την ίδια φωνή, ακριβώς όπως ένας κοιλιολόγος που μπορεί να μιμηθεί σε πραγματικό χρόνο.

Αφού το άκουσα αυτό, αναρωτιέμαι αν θα ειδοποιηθείτε ξαφνικά - ένα μοντέλο με αυτή την ικανότητα είναι το καλύτερο εργαλείο για το Deepfake!

Είναι ευχάριστο που η MSRA το έλαβε υπόψη της αυτή τη στιγμή χρησιμοποιούν μόνο τη σειρά VALL-E ως ερευνητικό έργο και δεν έχουν σχέδια να την ενσωματώσουν σε προϊόντα ή να επεκτείνουν τη χρήση της.

Αν και το VALL-E 2 έχει ισχυρές δυνατότητες εκμάθησης μηδενικού δείγματος και μπορεί να μιμηθεί φωνές όπως ένας φωνητικός ηθοποιός, η ομοιότητα και η φυσικότητα εξαρτώνται από το μήκος και την ποιότητα της φωνητικής προτροπής, τον θόρυβο του περιβάλλοντος και άλλους παράγοντες.

Στη σελίδα του έργου και στο έγγραφο, ο συγγραφέας έχει κάνει μια ηθική δήλωση: Εάν θέλετε να προωθήσετε το VALL-E σε εφαρμογές πραγματικού κόσμου, χρειάζεστε τουλάχιστον ένα ισχυρό μοντέλο συνθετικής ανίχνευσης ομιλίας και να σχεδιάσετε έναν μηχανισμό εξουσιοδότησης για να διασφαλίσετε ότι το μοντέλο μπορεί να συνθέσει ομιλία Έχει εγκριθεί προηγουμένως από τον κάτοχο του ήχου.

Ορισμένοι χρήστες του Διαδικτύου εξέφρασαν μεγάλη απογοήτευση με την πρακτική της Microsoft να δημοσιεύει μόνο έγγραφα αλλά όχι προϊόντα.


Άλλωστε, η πρόσφατη ανατροπή διάφορων προϊόντων μας έκανε να καταλάβουμε βαθιά ότι και μόνο η εξέταση του demo είναι εντελώς αναξιόπιστη και δεν υπάρχει τρόπος να το δοκιμάσετε μόνοι σας = τίποτα.


Αλλά κάποιοι στο Reddit υπέθεσαν ότι η Microsoft απλώς δεν ήθελε να είναι «η πρώτη που θα φάει καβούρια» και ότι δεν κυκλοφόρησε το μοντέλο επειδή ανησυχούσε για πιθανή κριτική και αρνητική κοινή γνώμη.

Μόλις υπάρξει τρόπος να μετατρέψετε το VALL-E σε προϊόν ή εμφανιστούν άλλα ανταγωνιστικά προϊόντα στην αγορά, θα εξακολουθείτε να ανησυχείτε για το αν η Microsoft θα βγάλει χρήματα;



Πράγματι, όπως είπαν οι χρήστες του Διαδικτύου, κρίνοντας από το demo που κυκλοφόρησε αυτή τη στιγμή στη σελίδα του έργου, είναι δύσκολο να κρίνουμε το πραγματικό επίπεδο του VALL-E.


Σελίδα έργου: https://www.microsoft.com/en-us/research/project/vall-ex/vall-e-2/

Συνολικά 5 κείμενα είναι σύντομες αγγλικές προτάσεις που δεν υπερβαίνουν τις 10 λέξεις Οι φωνές των φωνητικών προτροπών είναι πολύ παρόμοιες και οι αγγλικές προφορές δεν είναι αρκετά διαφορετικές.

Αν και δεν υπάρχουν πολλά demo, μπορείτε αόριστα να αισθάνεστε ότι το μοντέλο είναι πολύ καλό στο να μιμείται βρετανικές και αμερικανικές προφορές, ωστόσο, εάν η προτροπή έχει μια ελαφριά ινδική ή σκωτσέζικη προφορά, θα είναι δύσκολο να επιτευχθεί το επίπεδο αυθεντικότητας.

μέθοδος

Ο προκάτοχος του μοντέλου, VALL-E, κυκλοφόρησε στις αρχές του 2023 και αποτελεί ήδη μια σημαντική ανακάλυψη για το TTS σε μηδενικά δείγματα. Το VALL-E είναι σε θέση να συνθέτει εξατομικευμένη ομιλία από ηχογραφήσεις 3 δευτερολέπτων, διατηρώντας παράλληλα τη φωνή, το συναίσθημα και το ακουστικό περιβάλλον του ομιλητή.

Ωστόσο, το VALL-E έχει δύο βασικούς περιορισμούς:

1) Σταθερότητα: Η τυχαία δειγματοληψία που χρησιμοποιείται στη διαδικασία εξαγωγής συμπερασμάτων μπορεί να προκαλέσει ασταθή λειτουργία της εξόδου και η δειγματοληψία πυρήνα με μικρή τιμή top-p μπορεί να προκαλέσει προβλήματα άπειρου βρόχου. Αν και μπορεί να μετριαστεί με πολλαπλές δειγματοληψίες και επακόλουθη ταξινόμηση, αυτό θα αυξήσει το υπολογιστικό κόστος.

2) Αποδοτικότητα: Η αυτοπαλινδρομική αρχιτεκτονική του VALL-E συνδέεται με τους ίδιους υψηλούς ρυθμούς καρέ με τα μοντέλα κωδικοποιητών ήχου εκτός ραφιού και δεν μπορεί να προσαρμοστεί, με αποτέλεσμα πιο αργά συμπεράσματα.

Αν και έχουν γίνει πολλές μελέτες για τη βελτίωση αυτών των προβλημάτων του VALL-E, συχνά περιπλέκουν τη συνολική αρχιτεκτονική του μοντέλου και αυξάνουν το βάρος της κλιμάκωσης του μεγέθους των δεδομένων.

Με βάση αυτή την προηγούμενη εργασία, το VALL-E 2 περιέχει δύο βασικές καινοτομίες: δειγματοληψία με επίγνωση της επανάληψης και μοντελοποίηση ομαδοποιημένου κώδικα.

Η δειγματοληψία με επίγνωση της επανάληψης είναι μια βελτίωση στην τυχαία δειγματοληψία στο VALL-E. Μπορεί να υιοθετήσει προσαρμοστικά τυχαία δειγματοληψία ή πυρηνική δειγματοληψία σταθερότητα.


Αλγοριθμική περιγραφή επαναλαμβανόμενης αντιληπτικής δειγματοληψίας

Η μοντελοποίηση ομαδοποιημένου κώδικα διαιρεί τον κώδικα κωδικοποιητή σε πολλαπλές ομάδες και κάθε ομάδα μοντελοποιείται σε ένα μόνο πλαίσιο κατά τη διάρκεια της αυτόματης παλινδρόμησης. Όχι μόνο μειώνει το μήκος της ακολουθίας και επιταχύνει την εξαγωγή συμπερασμάτων, αλλά βελτιώνει επίσης την απόδοση μειώνοντας τα προβλήματα μοντελοποίησης μεγάλου πλαισίου.

Αξίζει να σημειωθεί ότι το VALL-E 2 απαιτεί μόνο απλά δεδομένα κειμένου μεταγραφής ομιλίας για εκπαίδευση και δεν απαιτεί πρόσθετα σύνθετα δεδομένα, γεγονός που απλοποιεί σημαντικά τη διαδικασία συλλογής και επεξεργασίας δεδομένων και βελτιώνει την πιθανή επεκτασιμότητα.

Συγκεκριμένα, για κάθε τμήμα δεδομένων ομιλίας-κειμένου στο σύνολο δεδομένων, ένας κωδικοποιητής κωδικοποιητή ήχου και ένας κωδικοποιητής κειμένου χρησιμοποιούνται για να το αναπαραστήσουν ως κωδικός κωδικοποιητή = [0,1,…,(−1 )] και ακολουθία κειμένου = [0 ,1,…,(−1)] για εκπαίδευση αυτοπαλινδρομικών (AR) και μη αυτοπαλινδρομικών μοντέλων (NAR).


Και τα δύο μοντέλα AR και NAR χρησιμοποιούν την αρχιτεκτονική Transformer και τέσσερις παραλλαγές σχεδιάστηκαν για μεταγενέστερα πειράματα αξιολόγησης για σύγκριση. Μοιράζονται το ίδιο μοντέλο NAR, αλλά τα μεγέθη ομάδων των μοντέλων AR είναι 1, 2, 4, 8 αντίστοιχα.

Η διαδικασία συλλογιστικής είναι επίσης ένας συνδυασμός μοντέλων AR και NAR. Με βάση την ακολουθία κειμένου και την υπόδειξη κώδικα <′,0, δημιουργείται η πρώτη ακολουθία κώδικα με κωδικό στόχο ≥′,0 και στη συνέχεια δημιουργείται ο κωδικός στόχος κάθε ομάδας χρησιμοποιώντας τη μέθοδο αυτοπαλίνδρομης.


Δεδομένης της ακολουθίας ≥′,0, το μοντέλο NAR μπορεί να συναχθεί χρησιμοποιώντας συνθήκες κειμένου και ακουστικές συνθήκες 〈′ για να δημιουργηθούν οι υπόλοιπες αλληλουχίες κώδικα στόχου ≥′,≥1.

Το μοντέλο εκπαίδευσης χρησιμοποιεί δεδομένα από το σώμα Libriheavy, το οποίο περιέχει 50.000 ώρες ομιλίας από 7.000 άτομα που διαβάζουν αγγλικά ακουστικά βιβλία. Η κατάτμηση λέξεων κειμένου και ομιλίας χρησιμοποιεί BPE και το προεκπαιδευμένο μοντέλο ανοιχτού κώδικα EnCodec αντίστοιχα.

Επιπλέον, το προεκπαιδευμένο μοντέλο ανοιχτού κώδικα Vocos χρησιμοποιείται επίσης ως αποκωδικοποιητής ήχου για τη δημιουργία ομιλίας.

Αξιολογώ

Προκειμένου να επαληθευτεί εάν το αποτέλεσμα σύνθεσης ομιλίας του μοντέλου μπορεί να φτάσει στο ίδιο επίπεδο με τους ανθρώπους, η αξιολόγηση χρησιμοποιεί δύο υποκειμενικούς δείκτες, τον SMOS και τον CMOS, και χρησιμοποιεί την πραγματική ανθρώπινη ομιλία ως βασική αλήθεια.

Το SMOS (Similarity Mean Opinion Score) χρησιμοποιείται για την αξιολόγηση της ομοιότητας μεταξύ της ομιλίας και της αρχικής προτροπής Το εύρος βαθμολογίας είναι 1 έως 5, με αύξηση 0,5 πόντων.

Το CMOS (Συγκριτική Μέση Βαθμολογία Γνώμης) χρησιμοποιείται για την αξιολόγηση της φυσικότητας της συνθετικής ομιλίας σε σύγκριση με μια δεδομένη ομιλία αναφοράς Το εύρος της κλίμακας είναι -3~3, με αύξηση 1.


Σύμφωνα με τα αποτελέσματα στον Πίνακα 2, η υποκειμενική βαθμολογία του VALL-E 2 όχι μόνο ξεπερνά αυτή της πρώτης γενιάς VALL-E, αλλά αποδίδει ακόμη καλύτερα από την πραγματική ανθρώπινη ομιλία.

Επιπλέον, η εργασία χρησιμοποιεί επίσης αντικειμενικούς δείκτες όπως SIM, WER και DNSMOS για να αξιολογήσει την ομοιότητα, την ευρωστία και τη συνολική αντιληπτική ποιότητα της συνθετικής ομιλίας.


Σε αυτούς τους τρεις αντικειμενικούς δείκτες, ανεξάρτητα από το πώς ρυθμίζεται το μέγεθος της ομάδας του VALL-E 2, υπάρχει μια συνολική βελτίωση σε σύγκριση με το VALL-E Οι βαθμολογίες WER και DNSMOS είναι επίσης καλύτερες από την πραγματική ανθρώπινη ομιλία, αλλά υπάρχει ακόμα ένα συγκεκριμένο κενό στη βαθμολογία της SIM.

Επιπλέον, μπορεί επίσης να βρεθεί από τα αποτελέσματα στον Πίνακα 3 ότι όταν το μέγεθος της ομάδας μοντέλων AR του VALL-E 2 είναι 2, μπορεί να επιτευχθεί το βέλτιστο αποτέλεσμα.

Παρόμοια συμπεράσματα μπορούν να ληφθούν από την αξιολόγηση του συνόλου δεδομένων VCTK. Όταν το μήκος προτροπής αυξάνεται, η μέθοδος μοντελοποίησης ομαδοποιημένου κώδικα μπορεί να μειώσει το μήκος της ακολουθίας και να μετριάσει τα σφάλματα δημιουργίας που προκαλούνται από τον λανθασμένο μηχανισμό προσοχής στην αρχιτεκτονική του μετασχηματιστή, βελτιώνοντας έτσι τη βαθμολογία WER.


Σχετικά με τον Συγγραφέα

Ο πρώτος συγγραφέας αυτού του άρθρου, ο Chen Sanyuan, είναι διδάκτορας που εκπαιδεύτηκε από κοινού από το Harbin Institute of Technology και τη Microsoft Research Asia. Έχει υπηρετήσει ως ασκούμενος ερευνητής στην ομάδα MSRA Natural Language Computing από το 2020. Τα ερευνητικά του ενδιαφέροντα είναι κυρίως προεκπαιδευμένα. μοντέλα γλώσσας για επεξεργασία ομιλίας και ήχου.


Βιβλιογραφικές αναφορές:

https://arxiv.org/abs/2406.05370