Η έκδοση GPT-4o "Her" είναι επιτέλους εδώ! Λέγοντας αστεία και νιαουρίζοντας σαν γάτα, πόσο σέξι μπορεί να είναι μια κοπέλα με τεχνητή νοημοσύνη;

2024-07-31

Νέα Έκθεση Σοφίας

Εκδότης: Ο Taozi είναι τόσο νυσταγμένος

[Εισαγωγή στη Νέα Σοφία] Η φωνητική λειτουργία GPT-4o φτάνει επιτέλους όπως αναμενόταν και η επιστημονική φανταστική έκδοση του Her γίνεται πραγματικότητα! Ορισμένοι χρήστες του Διαδικτύου που δοκίμασαν το Grayscale έχουν τρελαθεί, ωστόσο, το OpenAI παρέχει επί του παρόντος μόνο 4 προκαθορισμένες φωνές. Επιπλέον, το διακριτικό εξόδου του νέου μοντέλου GPT-4o αυξήθηκε επίσης 16 φορές στα 64K.

Η υπόσχεση του Ultraman επιτέλους εκπληρώθηκε.

Πριν από τα τέλη Ιουλίου, η λειτουργία φωνής GPT-4o ξεκίνησε επιτέλους τις δοκιμές σε κλίμακα του γκρι και ένας μικρός αριθμός χρηστών του ChatGPT Plus έχουν ήδη αποκτήσει εισιτήρια πρώιμης υιοθέτησης.

Εάν δείτε την ακόλουθη διεπαφή μετά το άνοιγμα της εφαρμογής ChatGPT, συγχαρητήρια που γίνατε ένας από τους πρώτους τυχερούς.

Σύμφωνα με το OpenAI, η προηγμένη λειτουργία φωνής παρέχει μια πιο φυσική συνομιλία σε πραγματικό χρόνο, μπορεί να διακοπεί κατά βούληση και μπορεί ακόμη και να αισθανθεί και να ανταποκριθεί στα συναισθήματά σας.

Αναμένεται ότι όλοι οι χρήστες του ChatGPT Plus θα μπορούν να χρησιμοποιήσουν αυτήν τη δυνατότητα αυτό το φθινόπωρο.

Επιπλέον, πιο ισχυρή κοινή χρήση βίντεο και οθόνης θα κυκλοφορήσει αργότερα. Με άλλα λόγια, ενεργοποιώντας την κάμερα, μπορείτε να συνομιλήσετε "πρόσωπο με πρόσωπο" με το ChatGPT.

Ορισμένοι χρήστες του Διαδικτύου που επηρεάστηκαν από την κλίμακα του γκρι άρχισαν να δοκιμάζουν ο ένας μετά τον άλλο και ανακάλυψαν πολλές περιπτώσεις χρήσης της λειτουργίας φωνής GPT-4o.

Όχι, κάποιοι το αφήνουν να λειτουργήσει ως «προπονητής δεύτερης ξένης γλώσσας» για να διδάξουν τον εαυτό τους πώς να εξασκούνται στην ομιλία.

Στην επόμενη διδασκαλία, το ChatGPT βοήθησε τους χρήστες του Διαδικτύου να διορθώσουν την προφορά του Croissant (κρουασάν) και του Baguette (γαλλική μπαγκέτα).

Ταυτόχρονα, τα tokens εξόδου του GPT-4o αυξήθηκαν 16 φορές, από τα αρχικά 4.000 tokens σε 64.000 tokens.

Αυτό είναι το νέο μοντέλο beta gpt-4o-64k-output-alpha που το OpenAI κυκλοφόρησε αθόρυβα πρόσφατα στην επίσημη ιστοσελίδα του.

Ένα μακρύτερο διακριτικό εξόδου σημαίνει ότι μπορούν να αποκτηθούν ταυτόχρονα περίπου 4 πλήρη σενάρια ταινιών μεγάλου μήκους.

Ήρθε αυτή

Ο λόγος για τον οποίο η λειτουργία φωνής GPT-4o κυκλοφόρησε τώρα είναι επειδή το OpenAI διενεργεί δοκιμές ασφάλειας και ποιότητας σε αυτήν τους τελευταίους μήνες.

Δοκίμασαν τις φωνητικές δυνατότητες του GPT-4o σε 45 γλώσσες με 100+ κόκκινα μέλη της ομάδας.

Για να προστατεύσει το απόρρητο των ανθρώπων, η ομάδα εκπαίδευσε το μοντέλο να μιλά χρησιμοποιώντας μόνο 4 «προεπιλεγμένες φωνές».

Δημιούργησαν επίσης ένα σύστημα για να μπλοκάρει την έξοδο ήχων διαφορετικών από αυτούς τους τέσσερις.

Επιπλέον, το φιλτράρισμα περιεχομένου είναι επίσης απαραίτητο και η ομάδα έχει λάβει επίσης μέτρα για να αποτρέψει τη δημιουργία βίαιου περιεχομένου και περιεχομένου που σχετίζεται με πνευματικά δικαιώματα.

Η OpenAI ανακοίνωσε ότι σχεδιάζει να δημοσιεύσει μια λεπτομερή έκθεση σχετικά με τις δυνατότητες, τους περιορισμούς και την αξιολόγηση ασφάλειας του GPT-4o στις αρχές Αυγούστου.

Πραγματική μέτρηση σε όλο το δίκτυο

Ακολουθούν ορισμένες περιπτώσεις λειτουργίας φωνής GPT-4o που μοιράζονται οι χρήστες του Διαδικτύου.

Το ChatGPT μπορεί να εκτελέσει beatboxing.

Το ChatGPT είπε επίσης αστεία μπύρας σε ντροπαλούς, θυμωμένους και πιο θυμωμένους τόνους.

Μερικοί χρήστες του Διαδικτύου είπαν ένα αστείο ειδικά για το ChatGPT, "Γιατί οι επιστήμονες δεν πιστεύουν στον Adam-Atom, επειδή αυτοί αποτελούν τα πάντα."

Το ChatGPT γέλασε αμήχανα.

Αυτό που είναι ακόμα πιο αστείο είναι ότι το ChatGPT έχει ακόμα έναν τρόπο να μαθαίνει να νιαουρίζει.

Μετά από μερικές δοκιμές, κάποιος διαπίστωσε ότι η προηγμένη λειτουργία φωνής ChatGPT είναι πολύ γρήγορη και δεν υπάρχει σχεδόν καμία καθυστέρηση στην απάντηση.

Όταν του ζητείται να μιμηθεί κάποιους ήχους, αναπαράγει πάντα τους ήχους ρεαλιστικά. Και διαφορετικές προφορές μπορούν επίσης να μιμηθούν.

Το παρακάτω βίντεο δείχνει τη σκηνή όπου το AI λειτουργεί ως σχολιαστής για έναν ποδοσφαιρικό αγώνα.

Το ChatGPT αφηγείται ιστορίες στα κινέζικα, το οποίο είναι επίσης πολύ ζωντανό.

Αν και το OpenAI ισχυρίζεται ότι οι λειτουργίες κοινής χρήσης βίντεο και οθόνης θα ξεκινήσουν αργότερα, ορισμένοι χρήστες του Διαδικτύου το έχουν ήδη χρησιμοποιήσει πρώτοι.

Ένας δικτυακός χρήστης έχει μια νέα γάτα για κατοικίδιο. Έφτιαξε μια φωλιά για αυτήν και της ετοίμασε τροφή, αλλά δεν ήξερε τι να κάνει, οπότε ρώτησε το ChatGPT.

Κατά τη διάρκεια της συνομιλίας στο βίντεο, ο χρήστης του Διαδικτύου της έδειξε το σπίτι της γάτας, αφού το είδε, το ChatGPT σχολίασε: «Πρέπει να είναι πολύ άνετο» και ανησυχούσε για το πώς τα πήγαινε.

Οι χρήστες του Διαδικτύου είπαν ότι δεν έχει φάει ακόμα και φαίνεται λίγο ανήσυχο. Το ChatGPT παρηγορήθηκε, "Αυτό είναι φυσιολογικό. Απαιτείται χρόνος για να προσαρμοστούν οι γάτες."

Μπορεί να φανεί ότι η όλη διαδικασία ερωτήσεων και απαντήσεων είναι πολύ ομαλή, δίνοντας στους ανθρώπους την αίσθηση της επικοινωνίας με πραγματικούς ανθρώπους.

Οι χρήστες του Διαδικτύου ξέθαψαν επίσης την ιαπωνική έκδοση της κονσόλας παιχνιδιών, αλλά δεν μιλούν ιαπωνικά.

Εκείνη τη στιγμή, έδειξε τη διεπαφή του παιχνιδιού στο ChatGPT και του ζήτησε να του το μεταφράσει. Τελικά, ο Hu ολοκλήρωσε το παιχνίδι μαζί.

Πρέπει να πω ότι με την ευλογία της λειτουργίας οπτικής + φωνής, το ChatGPT είναι πολύ πιο δυνατό.

Το GPT-4o Long Output είναι αθόρυβα online, με έξοδο έως και 64K

Επιπλέον, θα ακολουθήσει το GPT-4o, το οποίο υποστηρίζει μεγαλύτερη έξοδο token.

Μόλις χθες, το OpenAI ανακοίνωσε επίσημα ότι θα παρέχει στους δοκιμαστές την έκδοση GPT-4o Alpha, η οποία υποστηρίζει την έξοδο έως και 64.000 tokens ανά αίτημα, που ισοδυναμεί με ένα μυθιστόρημα 200 σελίδων.

Οι δοκιμαστές μπορούν να έχουν πρόσβαση στη λειτουργία μακράς εξόδου του GPT-4o από το "gpt-4o-64k-output-alpha".

Ωστόσο, η τιμή του νέου μοντέλου έχει θέσει για άλλη μια φορά νέο ταβάνι. Κοστίζει 6 $ ανά εκατομμύριο μάρκες εισόδου και 18 $ ανά εκατομμύριο μάρκες εξόδου.

Αν και το διακριτικό εξόδου είναι 16 φορές μεγαλύτερο από αυτό του GPT-4o, η τιμή έχει επίσης αυξηθεί κατά 3 $.

Μετά από μια τέτοια σύγκριση, το gpt-4o-mini είναι όντως πιο προσιτό!

Ο ερευνητής Simon Willison είπε ότι η μεγάλη έξοδος χρησιμοποιείται κυρίως για περιπτώσεις χρήσης μετασχηματισμού δεδομένων.

Για παράδειγμα, για να μεταφράσετε έγγραφα από μια γλώσσα σε άλλη ή για να εξαγάγετε δομημένα δεδομένα από έγγραφα, σχεδόν κάθε διακριτικό εισόδου πρέπει να χρησιμοποιείται στο JSON εξόδου.

Πριν από αυτό, το μεγαλύτερο μοντέλο εξόδου που γνώριζε ήταν το GPT-4o mini, το οποίο ήταν 16K tokens.

Γιατί να κυκλοφορήσετε ένα μοντέλο με μεγαλύτερη απόδοση;

Προφανώς, η μεγαλύτερη έξοδος επιτρέπει στο GPT-4o να παρέχει μια πιο ολοκληρωμένη και λεπτομερή απόκριση, κάτι που είναι πολύ χρήσιμο για ορισμένα σενάρια.

Για παράδειγμα, η σύνταξη κώδικα και η βελτίωση της γραφής.

Αυτή είναι επίσης μια προσαρμογή που έγινε από το OpenAI με βάση τα σχόλια των χρηστών ότι απαιτείται μεγαλύτερο περιεχόμενο εξόδου για την κάλυψη της περίπτωσης χρήσης.

Διαφορά μεταξύ περιβάλλοντος και εξόδου

Από την κυκλοφορία του, το GPT-4o παρέχει ένα μέγιστο παράθυρο περιβάλλοντος 128K. Για τη μακροχρόνια έξοδο GPT-4o, το μέγιστο παράθυρο περιβάλλοντος εξακολουθεί να είναι 128K.

Λοιπόν, πώς το OpenAI αυξάνει τον αριθμό των διακριτικών εξόδου από 4.000 σε 64.000 διατηρώντας παράλληλα το συνολικό παράθυρο περιβάλλοντος των 128K;

Αυτό οφείλεται στο γεγονός ότι το OpenAI περιόρισε αρχικά τον αριθμό των διακριτικών εξόδου σε μέγιστο αριθμό 4.000 μάρκες.

Αυτό σημαίνει ότι οι χρήστες μπορούν να χρησιμοποιήσουν έως και 124.000 διακριτικά ως είσοδο σε μία αλληλεπίδραση και μπορούν να λάβουν μόνο έως και 4.000 διακριτικά εξόδου.

Φυσικά, μπορείτε επίσης να εισαγάγετε περισσότερα διακριτικά, πράγμα που σημαίνει ότι βγαίνουν λιγότερα διακριτικά.

Σε τελική ανάλυση, το μήκος του μεγάλου πλαισίου (128K) καθορίζεται εκεί. Ανεξάρτητα από το πώς αλλάζει η είσοδος, το διακριτικό εξόδου δεν θα υπερβαίνει τα 4000.

Τώρα, το OpenAI περιορίζει το μήκος του διακριτικού εξόδου σε 64.000 μάρκες, πράγμα που σημαίνει ότι μπορείτε να εξάγετε 16 φορές περισσότερα διακριτικά από πριν.

Άλλωστε, η παραγωγή είναι πιο εντατική υπολογιστικά και η αύξηση της τιμής είναι μεγαλύτερη.

Ομοίως, για το τελευταίο GPT-4o mini, το πλαίσιο είναι επίσης 128K, αλλά η μέγιστη απόδοση έχει αυξηθεί στα 16.000 tokens.

Στη συνέχεια, οι χρήστες μπορούν να παρέχουν έως και 112.000 μάρκες ως είσοδο και τελικά να λάβουν έως και 16.000 μάρκες ως έξοδο.

Σε γενικές γραμμές, το OpenAI παρέχει μια λύση εδώ για να περιορίσει το διακριτικό εισόδου για να αποκτήσει μεγαλύτερη απόκριση από το LLM, αντί να επεκτείνει άμεσα το μήκος του περιβάλλοντος.

Όσο για άλλα μοντέλα στην αγορά, το μακρύ έχει ξεπεράσει το ένα εκατομμύριο (Gemini), και το ελαφρώς πιο κοντό έχει 200 K (Claude, μερικά έχουν ακόμη και αποτελέσματα μοντέλων που έχουν φτάσει τα 200 K, και το OpenAI είναι ακόμα εδώ).

Αυτό δημιουργεί επίσης ένα δύσκολο πρόβλημα στους προγραμματιστές: εάν θέλετε να εισάγετε περισσότερα, πρέπει να αποδεχτείτε λιγότερα αποτελέσματα, εάν θέλετε περισσότερα, πρέπει να εισάγετε λιγότερα.

Το πώς θα το μετρήσετε εξαρτάται από το ποιο από αυτά είστε διατεθειμένοι να θυσιάσετε...

Βιβλιογραφικές αναφορές:

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/

Νέα

Η έκδοση GPT-4o "Her" είναι επιτέλους εδώ! Λέγοντας αστεία και νιαουρίζοντας σαν γάτα, πόσο σέξι μπορεί να είναι μια κοπέλα με τεχνητή νοημοσύνη;

Εισαγωγή

τα στοιχεία επικοινωνίας μου