Το OpenAI ενημερώθηκε ξαφνικά! Το GPT-4o λανσάρει προηγμένη φωνητική έκδοση, απαντά σε ερωτήσεις σε δευτερόλεπτα, οι χρήστες του Διαδικτύου τρελαίνονται

2024-07-31

Έξυπνα πράγματα (δημόσιος λογαριασμός:zhidxcom）
συγγραφέαςβανίλια
επεξεργασίαLi Shuiqing

Η προηγμένη λειτουργία φωνής του GPT-4o τελικά δεν είναι πλέον «μέλλον»!

Ειδήσεις από το Zhidongxi στις 31 Ιουλίου, νωρίς σήμερα το πρωί,OpenAIΑναγγέλλουμε την έναρξη της διάθεσης σε μια μικρή ομάδα χρηστών ChatGPT PlusΠροηγμένη λειτουργία φωνής, με βάση το GPT-4o για την παροχή πιο φυσικών συνομιλιών σε πραγματικό χρόνο.

▲Το OpenAI εκκινεί την προηγμένη λειτουργία φωνής

Μετά την κυκλοφορία του μοντέλου, πολλοί χρήστες του Διαδικτύου που έλαβαν την πρόσκληση έχουν ήδη αρχίσει να το παίζουν και μοιράζονται τα δικά τους δοκιμαστικά βίντεο και τα συναισθήματά τους. Για παράδειγμα, αυτό είναι ένα γρήγορο κομμάτι ραπ και beatbox που παρουσιάζεται από το ChatGPT, το οποίο ακούγεται αρκετά κομψό.

//oss.zhidx.com/uploads/2024/07/66a9902a60e1d_66a9902a5d0a5_66a9902a5d078_Beatbox.mp4

Συνολικά, η προηγμένη λειτουργία φωνής του ChatGPT δεν διαφέρει πολύ από την αρχική επίσημη επίδειξη.σχεδόν καμία καθυστέρηση , οι διάφοροι τόνοι είναι επίσης πολύ ζωντανοί. Ωστόσο, φαίνεται ότι έχει λάβει πολλά προστατευτικά μέτρα όσον αφορά την ασφάλεια του ChatGPTΗ πιθανότητα απόρριψης αιτημάτων χρηστών έχει αυξηθεί。

Η λειτουργία φωνητικής συνομιλίας του ChatGPT κυκλοφόρησε για πρώτη φορά τον Σεπτέμβριο του περασμένου έτους.Τον Μάιο του τρέχοντος έτους, το OpenAI ξεκίνησε έναΕμβληματικό μοντέλο GPT-4o Μια πιο προηγμένη έκδοση του φωνητικού διαλόγου και διεξήγαγε μια δημόσια επίδειξη. Το GPT-4o χρησιμοποιεί ένα ενιαίο πολυτροπικό μοντέλο αντί για τα προηγούμενα τρία ξεχωριστά μοντέλα για δυνατότητες ομιλίας, μειώνοντας τον λανθάνοντα χρόνο στις συνομιλίες με chatbot. (Το OpenAI ανέτρεψε τον φωνητικό βοηθό μέσα σε μια νύχτα! Το μοντέλο GPT-4o είναι τρομακτικά ισχυρό, το ChatGPT έμαθε να διαβάζει την οθόνη και η πραγματική έκδοση του Her είναι εδώ)

Εκείνη την εποχή, το OpenAI ανακοίνωσε ότι η δυνατότητα θα κυκλοφορούσε σε δωρεάν και επί πληρωμή χρήστες εντός εβδομάδων. Ωστόσο, μόλις λίγες μέρες μετά την κυκλοφορία του, το OpenAI είχε μια διαμάχη με τη Scarlett Johansson, η οποία υποδύεται τη "Black Widow" στη σειρά ταινιών "Avengers" και είναι γνωστή στους θαυμαστές ως η "χήρα αδερφή" λόγω του ήχου ChatGPT στο Η διαδήλωση ήταν πολύ παρόμοια, και κατηγορήθηκε από την ίδια τη Scarlett και εναντιώθηκε έντονα από τους χρήστες του Διαδικτύου.

Η ημερομηνία κυκλοφορίας του Advanced Voice Mode έχει επίσης καθυστερήσει ως αποτέλεσμα. Αν και το OpenAI επέμεινε ότι το ChatGPT δεν μιμήθηκε τη φωνή της Scarlett, η γραμμή φωνής αφαιρέθηκε αργότερα.

1. Δοκιμές με περισσότερα από εκατό εξωτερικά μέλη της κόκκινης ομάδας, η οποία μπορεί να είναι ανοιχτή σε όλους τους συνδρομητές το φθινόπωρο

Η προηγμένη λειτουργία φωνής που βασίζεται στο GPT-4o είναι προς το παρόν διαθέσιμη μόνο σε μικρό αριθμό χρηστών ChatGPT Plus και είναι διαθέσιμηΠιο φυσικές συνομιλίες σε πραγματικό χρόνο，Να επιτρέπεται στους χρήστες να διακόπτουν ανά πάσα στιγμή, και μπορώΑισθανθείτε και ανταποκριθείτε στα συναισθήματα των χρηστών。

Οι χρήστες που συμμετέχουν σε αυτήν τη δοκιμή Alpha θα λάβουν ένα email με οδηγίες και μια ειδοποίηση στην εφαρμογή ChatGPT για κινητά. Το OpenAI είπε ότι θα συνεχίσει να προσθέτει περισσότερους χρήστες σε κυλιόμενη βάση και σχεδιάζει να το κάνει διαθέσιμο σε κάθε συνδρομητή Plus το φθινόπωρο.

▲Ηλεκτρονικό ταχυδρομείο πρόσκλησης και κύρια σελίδα εφαρμογής

Η προηγμένη λειτουργία φωνής του ChatGPT κυκλοφόρησε τον Μάιο του τρέχοντος έτους. Βασίζεται στο νέο εμβληματικό μοντέλο του OpenAI, GPT-4o, το οποίο μπορεί να εκτελεί φωνητική συνομιλία και αλληλεπίδραση βίντεο σε πραγματικό χρόνο, όπως η κατανόηση γραμμικών εξισώσεων μέσω εικόνων βίντεο και η κατανόηση και η κρίση των εκφράσεων των ανθρώπων. και τους τονισμούς.

Η OpenAI είπε ότι από την αρχική της κυκλοφορία, η ομάδα εργάζεται για να βελτιώσει την ασφάλεια και την ποιότητα των φωνητικών συνομιλιών, δοκιμάζοντας τις δυνατότητες φωνής με περισσότερα από 100 εξωτερικά μέλη της κόκκινης ομάδας σε 45 γλώσσες.

Για να προστατεύσει το απόρρητο, το OpenAI μίλησε μόνο με τέσσερις προκαθορισμένες φωνές κατά την εκπαίδευση του μοντέλου και κατασκεύασε ένα αντίστοιχο σύστημα για να μπλοκάρει διαφορετικά αποτελέσματα.

Το OpenAI σχεδιάζει να μοιραστεί μια λεπτομερή αναφορά σχετικά με τη λειτουργικότητα, τους περιορισμούς και την αξιολόγηση ασφάλειας του GPT-4o στις αρχές Αυγούστου.

2. Το πρώτο κύμα δοκιμαστικών χρηστών άρχισε να ζει μια γεμάτη ζωή: εξασκώντας γαλλικά, μαθαίνοντας νιαούρισμα και εξηγώντας το ποδόσφαιρο.

Το πρώτο κύμα δοκιμαστικών χρηστών ανυπομονεί να χρησιμοποιήσει την προηγμένη λειτουργία φωνής και να μοιραστεί τις δοκιμαστικές τους εμπειρίες.

Ο καλλιτέχνης Manuel Sainsily ανοίγει την κάμερα ενώΖωντανή λήψηΡώτησα το ChatGPT σχετικά με το πρόσφατα μεγαλωμένο γατάκι μου και το περιβάλλον που κανόνισα για αυτό, ενώ ζήτησα τη γνώμη του ChatGPT σχετικά με το τάισμα.

//oss.zhidx.com/uploads/2024/07/66a9900fc37cb_66a9900fbde19_66a9900fbddf7_Συνομιλία βίντεο.mp4

Η απάντηση του ChatGPT ήταν βασικά χωρίς καθυστέρηση Πρώτα, επαίνεσε τη χαριτωμενία της γάτας με έναν πολύ αποφασιστικό τόνο και μετά παρηγόρησε τον Sainsily αφού ζήτησε περισσότερες πληροφορίες, λέγοντάς του να μην ανησυχεί. Ο Sainsily αναφωνεί: «Είναι σαν να έχεις μια βιντεοκλήση με έναν έμπειρο φίλο».

Ο Netizen Bergara μοιράστηκε στην κοινωνική πλατφόρμα Reddit ότι το ChatGPT απέρριψε όλα τα αιτήματά του για τραγούδι και δεν ήταν πρόθυμος να αλλάξει τη φωνή του. Το ChatGPT πέτυχε όταν του ζήτησε να απαγγείλει ένα ποίημα με διαφορετικούς τρόπους και διαθέσεις, αλλά όταν του ζητήθηκε να το απαγγείλει με χαμόγελο, αρνήθηκε.

Για παράδειγμα, ο Bergara είπε ότι εξασκούσε τα γαλλικά και ζήτησε από το ChatGPT να ενεργήσει ωςπροπονητής γλώσσας, ζητώντας τη γνώμη τους για την προφορά.

//oss.zhidx.com/uploads/2024/07/66a9903094c84_66a99030913bd_66a990309139a_Γαλλική διδασκαλία.mp4

Όσον αφορά την προφορά της λέξης Bergara, το ChatGPT έδωσε λεπτομερείς προτάσεις για το άγχος, τους ήχους τέλους κ.λπ., και έκανε επιδείξεις. Ταυτόχρονα, ο τρόπος διδασκαλίας του είναι πολύ «ενθαρρυντική εκπαίδευση», και επαινεί την προφορά του Bergara χωρίς δισταγμό, γεγονός που αυξάνει άμεσα τη συναισθηματική αξία.

Η Bergara επιτρέπει στο ChaGPT να το χρησιμοποιεί ξεχωριστάΝτροπαλός, θυμωμένος τόνος Πείτε αστεία για μπύρα. Η κατανόηση του ChatGPT για τη ντροπαλότητα είναι να χρησιμοποιεί μια φωνή που αναπνέει και όταν εκφράζει θυμό, αυξάνει τα ντεσιμπέλ του.

//oss.zhidx.com/uploads/2024/07/66a990398daca_66a9903989c33_66a9903989c08_ Λέγοντας αστεία με ντροπαλό και θυμωμένο ύφος.mp4

Όταν ζητηθεί η χρήση του ChatGPTλυπημένος τόνοςΌταν απαγγέλλετε ποίηση, ακούγεται σαν να πρόκειται να σπάσει...

//oss.zhidx.com/uploads/2024/07/66a9902fc3720_66a9902fbc252_66a9902fbc230_sad tone.mp4

Ο Bergara είπε ότι στις μέχρι τώρα δοκιμές, το ChatGPT συμπεριφέρθηκε παρόμοια με αυτό που έδειξε το OpenAI, αλλάΤο ποσοστό απόρριψης φαίνεται λίγο υψηλό, υπέθεσε ότι μπορεί να είναι για λόγους ασφαλείας.

Για παράδειγμα, όταν η Bergara ζήτησε από το ChatGPT να τραγουδήσει μια ιστορία για τα ρομπότ και την αγάπη, είπε ότι μπορούσε να πει την ιστορία, αλλά μόνο με κανονικό τόνο ομιλίας.

//oss.zhidx.com/uploads/2024/07/66a99036460bb_66a9903642127_66a99036420ff_Συναισθηματική αφήγηση.mp4

Κατά τη διάρκεια της αφήγησης του ChatGPT, ο Bergara διέκοψε αρκετές φορές και του ζήτησε να "προσθέσει περισσότερο συναίσθημα". Το ChatGPT συμμορφώθηκε και ο τόνος του έγινε πιο αργός και πιο ζωντανός.

Ορισμένοι χρήστες του Διαδικτύου έχουν ήδη αρχίσει να χρησιμοποιούν το ChatGPT για να οργανώσουν τη ζωή τους.

Ο συνιδρυτής του Squad και CTO Ethan Sutin αφήνει το ChatGPTμιμήθηκε διάφορα νιαουρίσματα γάτας . Πρέπει να πω ότι αυτό το κάλεσμα της γάτας είναι λίγο "μαγικό", αλλά φαίνεται να είναι αρκετά αληθινό, επειδή η γάτα μου προσελκύθηκε από αυτό...

//oss.zhidx.com/uploads/2024/07/66a9901c00939_66a9901bf0c77_66a9901bf0c51_Μάθετε να νιαουρίζετε.mp4

Το ChatGPT φαίνεται επίσης να έχειμουσική απόδοση Ικανότητα. Ο Σούτιν του ζήτησε να παίξει μια συγχορδία σε Σι μινόρε Υπάρχει κάποιος αναγνώστης που γνωρίζει τη μουσική θεωρία που μπορεί να την ακούσει και να δει αν είναι ακριβής;

//oss.zhidx.com/uploads/2024/07/66a9903dcfec1_66a9903dcbf91_66a9903dcbf62_chord.mp4

Ο Διαδικτυακός Cristiano Giardina άφησε το ChatGPT να παίξεισχολιαστής ποδοσφαιρικών αγώνων . Μοιράστηκε μερικές αρχικές εντυπώσεις από τη δοκιμή της προηγμένης λειτουργίας ομιλίας: είναι πολύ γρήγορο, παράγει πάντα ενδιαφέροντα αποτελέσματα και έχει πάντα αμερικανική προφορά όταν μιλάει άλλες γλώσσες.

//oss.zhidx.com/uploads/2024/07/66a9988d2ea93_66a9988d279ea_66a9988d279c4_Σχόλιο ποδοσφαίρου.mp4

Ο Netizen Kesku ζήτησε από το ChatGPT να πει ένα πράγμαανύπαρκτη γλώσσα , και στη συνέχεια εξηγήστε πώς λειτουργεί η γλώσσα. Το ChatGPT δημιούργησε το Glimnar, μια γλώσσα βασισμένη στον ήχο που μοιάζει λίγο με ψαλμωδία.

//oss.zhidx.com/uploads/2024/07/66a998835c09b_66a9988357da7_66a9988357d83_Creation Language.mp4

Αν και εξακολουθούν να υπάρχουν μόνο λίγοι χρήστες που χρησιμοποιούν την προηγμένη λειτουργία φωνής του ChatGPT, καθώς το εύρος ώθησης διευρύνεται, ίσως μπορούμε να δούμε πιο ενδιαφέροντα παιχνίδια και εμπειρίες.

Συμπέρασμα: Το OpenAI αυξάνει την ευαισθητοποίηση σχετικά με την ασφάλεια της τεχνητής νοημοσύνης

Η τεχνητή νοημοσύνη σε φωνή και βίντεο ελέγχεται για την ικανότητά της να χρησιμεύει ως εργαλείο απάτης. Αν και η λειτουργία ομιλίας του OpenAI δεν επιτρέπει προς το παρόν τη δημιουργία νέων φωνών ή κλώνων φωνής, η λειτουργία εξακολουθεί να προκαλεί σύγχυση.

Τους μήνες που ακολούθησαν την εαρινή ενημέρωση, το OpenAI κυκλοφόρησε μια σειρά νέων εγγράφων σχετικά με την ασφάλεια και την ευθυγράμμιση μοντέλων AI. Αυτό έρχεται μετά τη διάλυση της ομάδας της Super Alignment, η οποία επικρίθηκε από ορισμένους πρώην και νυν υπαλλήλους ότι έστρεψε την εστίασή της στην κυκλοφορία νέων προϊόντων και όχι στην ασφάλεια. Προς το παρόν, η επιβράδυνση της διάθεσης προηγμένων λειτουργιών φωνής φαίνεται να είναι ένα σημάδι για τους χρήστες, τις ρυθμιστικές αρχές και τους νομοθέτες ότι το OpenAI λαμβάνει σοβαρά υπόψη την ασφάλεια.

Η κυκλοφορία της προηγμένης λειτουργίας ομιλίας του ChatGPT διαφοροποιεί επίσης περαιτέρω το OpenAI από ανταγωνιστές όπως το μοντέλο Llama 3.1 της Meta και το Claude 3 της Anthropic, ασκώντας πίεση στις νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης που εστιάζουν στη συναισθηματική ομιλία.

Νέα

Το OpenAI ενημερώθηκε ξαφνικά! Το GPT-4o λανσάρει προηγμένη φωνητική έκδοση, απαντά σε ερωτήσεις σε δευτερόλεπτα, οι χρήστες του Διαδικτύου τρελαίνονται

Εισαγωγή

τα στοιχεία επικοινωνίας μου