νέα

το πρώτο μεγάλης κλίμακας μοντέλο παραγωγής ήχου της κίνας πέρασε την κατάθεση

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ifeng.com technology news, στις 20 σεπτεμβρίου, η διοίκηση κυβερνοχώρου της κίνας κυκλοφόρησε την πιο πρόσφατη λίστα με τις παραγωγικές λίστες εγκρίσεων για μεγάλα μοντέλα της σαγκάης μοντέλο πέρασε από κοινού τη διαδικασία εγγραφής και έγινε το πρώτο μοντέλο παραγωγής ήχου μεγάλης κλίμακας στη χώρα που έλαβε υπηρεσίες παραγωγής τεχνητής νοημοσύνης από τη διοίκηση κυβερνοχώρου της κίνας.

το μοντέλο ήχου himalayan είναι το πρώτο μοντέλο παραγωγής ήχου τέταρτης γενιάς στον κόσμο με πολυσυναισθηματική ερμηνεία και υπερφυσική έκφραση.αυτό το μοντέλο θα οδηγήσει την εξέλιξη της aigc σε ολόκληρη τη βιομηχανία ήχου από το μοντέλο παραγωγής ήχου τρίτης γενιάς στο μεγάλο μοντέλο παραγωγής ήχου τέταρτης γενιάς.

το μοντέλο ήχου himalayan είναι ένα πλαίσιο llm που βασίζεται στην κοινή μοντελοποίηση κειμένου και ήχου από την ομάδα της everest ai πραγματοποιεί κοινή εκπαίδευση μοντελοποίησης ήχου και κειμένου κάτω από την ίδια χωρική διανυσματική αναπαράσταση.αυτή η κοινή μέθοδος μοντελοποίησης προικίζει πλήρως την εργασία παραγωγής ήχου με ισχυρές σημασιολογικές πληροφορίες και κάνει πλήρη χρήση των εγγενών συνδέσεων και των συμπληρωματικών πληροφοριών μεταξύ τους., βελτιώνοντας σημαντικά τις επιδόσεις και τις δυνατότητες γενίκευσης του μοντέλου αυτή είναι επίσης η βασική τεχνολογική ανακάλυψη για την τέταρτη γενιά μεγάλων μοντέλων ήχου που ξεπερνά την προηγούμενη γενιά.

κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, το himalayan everest ai πρώτα προεπεξεργάζεται δεδομένα ήχου και δεδομένα κειμένου αντίστοιχα, τα μετατρέπει σε φόρμες διακριτικών κατάλληλες για εισαγωγή μοντέλου και αντιστοιχίζει διακριτικά ήχου και διακριτικά κειμένου στην ίδια χωρική διανυσματική αναπαράσταση, έτσι ώστε το μοντέλο να κατανοήσει και να επεξεργαστεί καλύτερα το σχέση ήχου και κειμένου. η συνολική διαδικασία εκπαίδευσης περιλαμβάνει πολλές κύριες διαδικασίες: προκατάρτιση (προκατάρτιση), εποπτευόμενη λεπτομέρεια (sft), ρύθμιση εποπτευόμενης από τον τομέα (domain sft), μικρορύθμιση εποπτευόμενη από ομιλητή (speaker sft) και ενισχυτική μάθηση (rl). μέσω της εκπαίδευσης αυτών των διαδικασιών, ητο μοντέλο έχει τα ακόλουθα χαρακτηριστικά: (1) ικανότητα κλωνοποίησης τόνου 15 δευτερολέπτων και ικανότητα μετατροπής ήχου. (2) υπερ-ανθρωπόμορφη, πολυσυναισθηματική, ευθυγραμμισμένη με τις ανθρώπινες προτιμήσεις παραγωγή ομιλίας. (3) εξαιρετικά ελεγχόμενο στυλ και παραγλωσσική ικανότητα.

η ομάδα έρευνας και ανάπτυξης ai του himalayan everest αξιολόγησε το εκπαιδευμένο μοντέλο και διαπίστωσε ότι στο πλαίσιο μακροσκελούς ακουστικού περιεχομένου, όπως μυθιστορήματα ήχου, η δυνατότητα ελέγχου του στυλ ερμηνείας των χαρακτήρων, η σταθερότητα της απόδοσης φωνήματος και η φυσικότητα της ροής της ομιλίας και οι παύσεις του ρυθμού ήταν σημαντικά. υψηλότερο το μοντέλο γενιάς ήχου τρίτης γενιάς στο εσωτερικό και στο εξωτερικό.

himalaya audio μεγάλο μοντέλο υλοποιεί το παράδειγμα του "συνδυασμού παραγωγής και μοντέλου", συνδυάζοντας τον κλάδο με το μοντέλο για να σχηματιστεί ένας βρόχος θετικής ανατροφοδότησης επιχειρήσεων, δεδομένων και αλγορίθμων. χρησιμοποιείται ευρέως σε επαγγελματικά σενάρια όπως τα ηχητικά βιβλία aigc και η συνομιλία με συνομιλία για παράδειγμα, το πρόσφατα δημοφιλές ηχητικό βιβλίο "my altay" δημιουργήθηκε από το μοντέλο ήχου himalayan. το himalaya everest ai δήλωσε ότι η δυνατότητα ήχου μεγάλου μοντέλου μπορεί να βιωθεί απευθείας στον επίσημο ιστότοπο του everest ai και οι χρήστες μπορούν να δημιουργήσουν απευθείας το δικό τους ηχητικό περιεχόμενο.