Το OpenAI ανοίγει τη λειτουργία φωνής GPT-4o σε ορισμένους χρήστες που πληρώνουν, παρέχοντας πιο φυσικές συνομιλίες

Το OpenAI ανοίγει τη λειτουργία φωνής GPT-4o σε ορισμένους χρήστες που πληρώνουν, παρέχοντας πιο φυσικές συνομιλίες σε πραγματικό χρόνο

2024-07-31

Το IT House ανέφερε στις 31 Ιουλίου ότι στις 30 τοπική ώρα, το OpenAI ανακοίνωσε ότι θα ανοίξει τη λειτουργία φωνής GPT-4o (σημείωση IT House: έκδοση Alpha) σε ορισμένους χρήστες του ChatGPT Plus από εδώ και στο εξής και θα το προωθήσει σταδιακά σε όλα τα ChatGPT Αυτό το φθινόπωρο συνδρομητής.

Τον Μάιο του τρέχοντος έτους, η Chief Technology Officer του OpenAI Mira Murati ανέφερε στην ομιλία της:

Στο GPT-4o, εκπαιδεύσαμε ένα νέο ενοποιημένο μοντέλο από άκρο σε άκρο σε κείμενο, όραση και ήχο, που σημαίνει ότι όλες οι είσοδοι και οι έξοδοι επεξεργάζονται από το ίδιο νευρωνικό δίκτυο. Δεδομένου ότι το GPT-4o είναι το πρώτο μας μοντέλο που συνδυάζει όλες αυτές τις λειτουργίες, βρισκόμαστε ακόμη στα πρώτα στάδια της διερεύνησης των δυνατοτήτων αυτού του μοντέλου και των περιορισμών του.

Το OpenAI σχεδίαζε αρχικά να προσκαλέσει μια μικρή ομάδα χρηστών ChatGPT Plus να δοκιμάσουν τη λειτουργία φωνής GPT-4o στα τέλη Ιουνίου του τρέχοντος έτους, αλλά ο αξιωματούχος ανακοίνωσε την αναβολή τον Ιούνιο, λέγοντας ότι ήταν απαραίτητο ναΠερισσότερος χρόνος για γυάλισματο μοντέλο, βελτιώστε το μοντέλοΕντοπίστε και απορρίψτε συγκεκριμένο περιεχόμενοΙκανότητα.

Σύμφωνα με προηγουμένως εκτεθειμένες πληροφορίες, η μέση καθυστέρηση φωνητικής ανάδρασης του μοντέλου GPT-3.5 είναι 2,8 δευτερόλεπτα, ενώ η καθυστέρηση του μοντέλου GPT-4 είναι 5,4 δευτερόλεπτα, επομένως, δεν είναι πολύ καλή στη φωνητική επικοινωνία και το επερχόμενο GPT-. 4o μπορεί να το συντομεύσει σημαντικά,σχεδόν απρόσκοπτη συνομιλία。

Η λειτουργία φωνής GPT-4o διαθέτειΓρήγορη απάντηση、Η φωνή είναι τόσο καλή όσο ένα πραγματικό πρόσωποΚαι άλλες δυνατότητες, το OpenAI που ονομάζεται επίσης λειτουργία ομιλίας GPT-4o, η οποία μπορεί να αντιληφθεί τον συναισθηματικό τόνο στην ομιλία, συμπεριλαμβανομένης της θλίψης, του ενθουσιασμού ή του τραγουδιού.

Η εκπρόσωπος του OpenAI, Lindsay McCallum, δήλωσε: «ChatGPT Μην υποδύεστε τη φωνή κάποιου άλλου, συμπεριλαμβανομένων των φωνών ατόμων και δημοσίων προσώπων και μπλοκΔιαφορετικό από τον προεπιλεγμένο ήχο Παραγωγή. "

Νέα

Το OpenAI ανοίγει τη λειτουργία φωνής GPT-4o σε ορισμένους χρήστες που πληρώνουν, παρέχοντας πιο φυσικές συνομιλίες σε πραγματικό χρόνο

Εισαγωγή

τα στοιχεία επικοινωνίας μου