Το πιο καυτό μοντέλο ήχου AI στον κόσμο, οι τελευταίες τεχνικές λεπτομέρειες αποκαλύφθηκαν

Το πιο καυτό μοντέλο ήχου AI στον κόσμο, αποκαλύφθηκαν οι τελευταίες τεχνικές λεπτομέρειες

2024-07-24

έξυπνα πράγματα
Συντάχθηκε από τον Meng Qiang
Συντάκτης Yunpeng

Σύμφωνα με το Zhixixi News στις 24 Ιουλίου, το Satbility AI μοιράστηκε την ερευνητική εργασία Stable Audio Open στο Arxiv στις 19 Ιουλίου, αποκαλύπτοντας τις τεχνικές λεπτομέρειες πίσω από το μοντέλο.

Το Stable Audio Open είναι ένα μοντέλο ανοιχτού κώδικα που κυκλοφόρησε από τη StabilityAI φέτος τον Ιούνιο. Μπορεί να δημιουργήσει δείγματα και ηχητικά εφέ έως και 47 δευτερόλεπτα δωρεάν GPU καταναλωτικής ποιότητας. Εκτός από το ότι είναι δωρεάν και ανοιχτού κώδικα, αυτό το μοντέλο δίνει επίσης προσοχή στην προστασία των πνευματικών δικαιωμάτων των δημιουργών και καταβάλλει κάθε δυνατή προσπάθεια για να αποφύγει ηθικά και ηθικά ζητήματα κατά την εκπαίδευση δεδομένων.

Η δημοσίευση αποκάλυψε ότι το Stable Audio Open είναι μια παραλλαγή του εμπορικού Stable Audio 2 που κυκλοφόρησε από τη StabilityAI τον Μάρτιο του τρέχοντος έτους Η αρχιτεκτονική κλειδιού αποτελείται από έναν αυτόματο κωδικοποιητή, που βασίζεται στο μοντέλο ενσωμάτωσης και διάχυσης κειμένου (DiT) του T5.

Διεύθυνση χαρτιού: https://arxiv.org/html/2407.14358v1

1. 3 βασικές αρχιτεκτονικές παρέχουν υποστήριξη για τη δωρεάν δημιουργία στερεοφωνικού μικρού ήχου υψηλής ποιότητας 44,1 kHz

Το Stable Audio Open εισάγει ένα μοντέλο κειμένου σε ήχο με 3 κύριες αρχιτεκτονικές:

Αυτοκωδικοποιητές: συμπίεση δεδομένων κυματομορφής σε διαχειρίσιμα μήκη ακολουθίας.
Ενσωμάτωση κειμένου με βάση το T5.
Μοντέλο διάχυσης που βασίζεται σε μετασχηματιστή (DiT): λειτουργεί στον λανθάνοντα χώρο των αυτόματων κωδικοποιητών.

Ένας αυτόματος κωδικοποιητής είναι μια αρχιτεκτονική νευρωνικού δικτύου που αποτελείται από έναν κωδικοποιητή και έναν αποκωδικοποιητή. Ο αυτόματος κωδικοποιητής στο Stable Audio Open συμπιέζει την κυματομορφή ήχου σε μια συντομότερη ακολουθία για μεταγενέστερη επεξεργασία.

Το T5 (Text-to-Text Transformer) είναι ένα μοντέλο επεξεργασίας φυσικής γλώσσας που αναπτύχθηκε από την Google και μπορεί να μετατρέψει το εισαγόμενο κείμενο σε άλλη αναπαράσταση κειμένου. Στο Stable Audio Open, το μοντέλο T5 μετατρέπει το κείμενο που έχει εισάγει ο χρήστης σε ενσωμάτωση κειμένου για να διευκολύνει την ενσωμάτωση πληροφοριών κειμένου στη διαδικασία παραγωγής ήχου.

Το DiT (Diffusion Transformer) είναι ένα μοντέλο διάχυσης που λειτουργεί στον λανθάνοντα χώρο του αυτόματου κωδικοποιητή για την επεξεργασία και τη βελτιστοποίηση των δεδομένων που συμπιέζονται από τον κωδικοποιητή για να διασφαλιστεί ότι ο αποκωδικοποιητής μπορεί να αποκαταστήσει συνεκτικό, υψηλής ποιότητας ήχο.

Ως παραλλαγή του μοντέλου του Stable Audio 2, το Stable Audio Open έχει προσαρμοστεί στη χρήση δεδομένων εκπαίδευσης και μέρος της αρχιτεκτονικής. Ελήφθη ένα εντελώς διαφορετικό σύνολο δεδομένων και χρησιμοποιήθηκε το T5 αντί του CLAP (Contrastive Language-Audio Pretraining). Το πρώτο αναπτύχθηκε από την Google και εστιάζει σε δεδομένα κειμένου για την ολοκλήρωση διαφόρων εργασιών επεξεργασίας φυσικής γλώσσας, ενώ το δεύτερο αναπτύχθηκε από το OpenAI και μπορεί να επεξεργαστεί τόσο γλωσσικά δεδομένα όσο και δεδομένα ήχου.

Ως μοντέλο ανοιχτού κώδικα και δωρεάν, το Stable Audio Open δεν δημιουργεί συνεκτικά και ολοκληρωμένα κομμάτια, ούτε είναι βελτιστοποιημένο για πλήρη κομμάτια, μελωδίες ή φωνητικά.

Η Stability AI είπε ότι το Stable Audio Open εστιάζει στην παραγωγή ήχου επίδειξης και ηχητικών εφέ και μπορεί να δημιουργήσει στερεοφωνικό ήχο υψηλής ποιότητας 44,1 kHz έως και 47 δευτερόλεπτα δωρεάν. Όταν είναι επαγγελματικά εκπαιδευμένο, το μοντέλο είναι ιδανικό για τη δημιουργία τυμπάνων, ορχηστρικών riff, ήχους περιβάλλοντος, ηχογραφήσεων foley και άλλων δειγμάτων ήχου για χρήση στη μουσική παραγωγή και τη σχεδίαση ήχου.

Ένα βασικό πλεονέκτημα αυτής της έκδοσης ανοιχτού κώδικα είναι ότι οι χρήστες μπορούν να ρυθμίσουν με ακρίβεια το μοντέλο με βάση τα δικά τους προσαρμοσμένα δεδομένα ήχου.

2. Η εκπαιδευτική διαδικασία επικεντρώνεται στην προστασία των πνευματικών δικαιωμάτων

Στο πλαίσιο της ταχείας ανάπτυξης της γενετικής τεχνητής νοημοσύνης, υπάρχει μια ολοένα και πιο έντονη συζήτηση σχετικά με τη χρήση της τεχνητής νοημοσύνης στη μουσική βιομηχανία, ειδικά όσον αφορά ζητήματα πνευματικών δικαιωμάτων. Ο Ed Newton-Rex, πρώην αντιπρόεδρος ήχου της Stability AI, παραιτήθηκε στα τέλη του 2023 επειδή διαφώνησε με τη χρήση ήχου που προστατεύεται από πνευματικά δικαιώματα από το Stability AI κατά την εκπαίδευση μοντέλων, πιστεύοντας ότι αυτό ήταν αντίθετο με την ηθική. Ασχολήθηκε με την ανάπτυξη του Stable Audio.

Η εκπαίδευση δεδομένων της γενετικής τεχνητής νοημοσύνης είναι σαν ένα μαύρο κουτί Κανείς εκτός από τον προγραμματιστή δεν γνωρίζει εάν τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση προστατεύονται από πνευματικά δικαιώματα. «Πολλές εταιρείες τεχνολογίας πολλών δισεκατομμυρίων δολαρίων χρησιμοποιούν το έργο των δημιουργών για να εκπαιδεύσουν μοντέλα τεχνητής νοημοσύνης χωρίς άδεια και στη συνέχεια χρησιμοποιούν αυτά τα μοντέλα για να δημιουργήσουν νέο περιεχόμενο», δήλωσε ο Newton-Rex, ο οποίος παραιτήθηκε σε μια δημόσια επιστολή μην αποδεχτείτε αυτό το είδος συμπεριφοράς που βασίζεται στην παραβίαση των πνευματικών δικαιωμάτων των δημιουργών για να αποκομίσουν κέρδη.

Η Stability AI δήλωσε ότι για τον σεβασμό των πνευματικών δικαιωμάτων των δημιουργών, τα σύνολα δεδομένων που χρησιμοποιούνται από το Stable Audio Open προέρχονται από το Freesound και το Free Music Archive (FMA) και όλες οι εγγραφές που χρησιμοποιούνται είναι ηχογραφήσεις που έχουν κυκλοφορήσει με την άδεια CC (Creative Commons). Το CC είναι ένας μηχανισμός αδειοδότησης πνευματικών δικαιωμάτων που επιτρέπει στους δημιουργούς να μοιράζονται τα έργα τους και να ρυθμίζουν πώς μπορούν να τα χρησιμοποιούν άλλοι.

Για να διασφαλιστεί ότι αποφεύγει τη χρήση οποιουδήποτε υλικού που προστατεύεται από πνευματικά δικαιώματα, η Stability AI λέει ότι προσδιορίζει δείγματα μουσικής στο Freesound χρησιμοποιώντας μια ετικέτα ήχου και τα αναγνωρισμένα δείγματα αποστέλλονται στην εταιρεία ανίχνευσης περιεχομένου της Audible Magic για να διασφαλιστεί ότι το πιθανό περιεχόμενο αφαιρείται από το σύνολο δεδομένων.

«Αυτό μας επιτρέπει να δημιουργήσουμε ένα ανοιχτό μοντέλο ήχου σεβόμενοι πλήρως τα δικαιώματα των δημιουργών», δήλωσε η Stability AI.

Συμπέρασμα: Τα μοντέλα ανοιχτού κώδικα και τα δωρεάν μοντέλα κάνουν το Vincent Audio πιο δημοφιλές

Η κυκλοφορία του Stable Audio Open καταδεικνύει την καινοτομία και την πρόοδο του Stability AI στον τομέα των μοντέλων από κείμενο σε ήχο. Αν και αυτό το μοντέλο έχει ορισμένους περιορισμούς στη δημιουργία μήκους και συνοχής ήχου, τα πλεονεκτήματά του είναι επίσης προφανή. Μπορεί να παράγει δωρεάν στερεοφωνικό ήχο υψηλής ποιότητας 44,1 kHz και μπορεί να λειτουργεί σε GPU καταναλωτικής ποιότητας, μειώνοντας το όριο για τη χρήση του Vincent Audio.

Ταυτόχρονα, το Stable Audio Open ανοίγει την τεχνολογία παραγωγής ήχου ενώ παράλληλα θέτει ένα νέο σημείο αναφοράς για την προστασία των πνευματικών δικαιωμάτων. Στο μέλλον, με τη συνεχή πρόοδο της τεχνολογίας και τη βελτίωση της ηθικής, το Stable Audio Open αναμένεται να ασκήσει τις δυνατότητές του σε περισσότερα σενάρια εφαρμογών και να προωθήσει την ανάπτυξη και τη διάδοση της τεχνολογίας παραγωγής ήχου.

Επί του παρόντος, τα βάρη μοντέλων Stable Audio Open είναι διαθέσιμα στην πλατφόρμα μοντέλων μηχανικής εκμάθησης Hugging Face. Το Stability AI ενθαρρύνει τους σχεδιαστές ήχου, τους μουσικούς, τους προγραμματιστές και όσους ενδιαφέρονται για τον ήχο να εξερευνήσουν τις δυνατότητες του μοντέλου και να παρέχουν σχόλια.

Πηγή: Stability AI

Νέα

Το πιο καυτό μοντέλο ήχου AI στον κόσμο, αποκαλύφθηκαν οι τελευταίες τεχνικές λεπτομέρειες

Εισαγωγή

τα στοιχεία επικοινωνίας μου