Νέα

Η προηγμένη λειτουργία φωνής του ChatGPT είναι online: Μόλις μιλήσετε κινέζικα, η ταυτότητά σας αποκαλύπτεται

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Αναφορά Machine Heart

Επιμέλεια: Egg Sauce, Xiaozhou

Το «Her» του OpenAI είναι επιτέλους ανοιχτό σε μερικούς ανθρώπους.



Τον Μάιο του τρέχοντος έτους, το OpenAI παρουσίασε τη νέα γενιά ναυαρχίδα του μοντέλου GPT-4o και την εφαρμογή επιτραπέζιου υπολογιστή στο "Spring New Product Launch" και έδειξε μια σειρά από νέες δυνατότητες.

Τώρα, το OpenAI ανακοίνωσε ότι θα ανοίξει την προηγμένη λειτουργία φωνής του ChatGPT σε μια μικρή ομάδα χρηστών ChatGPT Plus, επιτρέποντας στους χρήστες να λάβουν την εξαιρετικά ρεαλιστική ηχητική απόκριση του GPT-4o για πρώτη φορά. Αυτοί οι χρήστες θα λάβουν μια ειδοποίηση στην εφαρμογή ChatGPT και θα λάβουν ένα email με οδηγίες σχετικά με τον τρόπο χρήσης της εφαρμογής.

«Από τότε που παρουσιάσαμε την προηγμένη λειτουργία φωνής, εργαζόμαστε σκληρά για να βελτιώσουμε την ασφάλεια και την ποιότητα των φωνητικών συνομιλιών και να προετοιμαστούμε να φέρουμε αυτήν την τεχνολογία αιχμής σε εκατομμύρια ανθρώπους, δήλωσε ότι αυτή η δυνατότητα θα γίνει σταδιακά διαθέσιμη το φθινόπωρο». του 2024. Παρουσιάστηκε σε όλους τους χρήστες Plus.

Ορισμένοι χρήστες έχουν ήδη δημοσιεύσει τα αποτελέσματα της χρήσης προηγμένης λειτουργίας φωνής:

Πηγή: https://x.com/tsarnick/status/1818402307115241608

Όταν λέτε αστεία με το ChatGPT, το ChatGPT μπορεί να σας προσφέρει λίγο γέλιο:

Πηγή: https://x.com/yoimnotkesku/status/1818406786077970663

Χρησιμοποιώντας την προηγμένη λειτουργία φωνής του ChatGPT, το "Her" μπορεί να δημιουργήσει μουσική υπόκρουση ενώ αφηγείται ιστορίες και είναι διαθέσιμο σε πολλές γλώσσες.

Πηγή: https://x.com/yoimnotkesku/status/1818415019349901354

Διατίθενται επίσης γαλλικά, ισπανικά και ουρντού:

Πηγή: https://x.com/yoimnotkesku/status/1818424494106853438

Αλλά η κινεζική έκφραση δεν είναι πολύ αυθεντική, όπως ένας "waiguoren" που μαθαίνει κινέζικα:

Πηγή: https://x.com/yoimnotkesku/status/1818446895083139170

Όλοι όσοι άκουσαν έμειναν έκπληκτοι:



Το πρόβλημα προφοράς δεν εμφανίζεται μόνο στα κινέζικα, αλλά και στα γερμανικά:



Πηγή: https://x.com/yoimnotkesku/status/1818445235606671670

Τέλος, ας μιλήσουμε για ένα γλωσσοπίεστρα:

Πηγή: https://x.com/yoimnotkesku/status/1818427991514337695

Το OpenAI λέει ότι η προηγμένη λειτουργία φωνής είναι διαφορετική από αυτή που προσφέρει επί του παρόντος το ChatGPT.

Η παλιά λύση λειτουργίας ομιλίας του ChatGPT χρησιμοποιούσε τρία ξεχωριστά μοντέλα: ένα μοντέλο μετέτρεπε την ομιλία σε κείμενο, το GPT-4 ήταν υπεύθυνο για το χειρισμό των προτροπών (προτροπές) και ένα τρίτο μοντέλο ήταν υπεύθυνο για τη μετατροπή του κειμένου του ChatGPT σε ομιλία. Το GPT-4o είναι πολυτροπικό και μπορεί να χειριστεί αυτές τις εργασίες χωρίς τη βοήθεια βοηθητικών μοντέλων, μειώνοντας έτσι σημαντικά την καθυστέρηση διαλόγου. Το OpenAI είπε επίσης ότι το GPT-4o μπορεί να αισθανθεί τον συναισθηματικό τονισμό στη φωνή του χρήστη, συμπεριλαμβανομένης της θλίψης, του ενθουσιασμού κ.λπ.

Τον Μάιο του τρέχοντος έτους, το OpenAI παρουσίασε για πρώτη φορά τη φωνητική λειτουργία του GPT-4o, η ταχύτητα αντίδρασης "Her" και η εκπληκτική ομοιότητα με τη φωνή ενός πραγματικού προσώπου σόκαρε το κοινό - και εδώ είναι το πρόβλημα.



Η φωνή που ονομάζεται "Sky" μοιάζει με τη Scarlett Johansson, η οποία υποδύεται την τεχνητή βοηθό στην ταινία "Her".

Λίγο μετά την επίδειξη του OpenAI, η Johnson είπε ότι είχε αντισταθεί σε πολλαπλά αιτήματα από τον CEO του OpenAI Sam Altman να χρησιμοποιήσει τη φωνή της και ότι προσέλαβε νομικό σύμβουλο για να υπερασπιστεί τη φωνή της αφού είδε το demo του GPT-4o. Το OpenAI αρνήθηκε ότι χρησιμοποίησε τη φωνή της Scarlett Johansson αλλά αφαίρεσε επίσης τη φωνή από το demo.

Τον Ιούνιο, η OpenAI είπε ότι θα καθυστερήσει την κυκλοφορία μιας προηγμένης λειτουργίας ομιλίας για να βελτιώσει τα μέτρα ασφαλείας της.

Μετά από πολύωρη αναμονή, η «Her» συνάντησε επιτέλους τους πάντες. Το OpenAI είπε ότι η προηγμένη λειτουργία φωνής που κυκλοφόρησε αυτή τη φορά θα περιοριστεί στο ChatGPT, το οποίο έχει συνεργαστεί με πληρωμένους φωνητικούς ηθοποιούς για την παραγωγή τεσσάρων προκαθορισμένων φωνών: Juniper, Breeze, Cove και Ember.

Αξίζει να σημειωθεί ότι υπάρχουν μόνο αυτοί οι τέσσερις τύποι ήχων εξόδου - η φωνή Sky που εμφανίζεται στην επίδειξη του OpenAI τον Μάιο δεν είναι πλέον διαθέσιμη για το ChatGPT. «Το ChatGPT δεν μπορεί να υποδυθεί τις φωνές άλλων, συμπεριλαμβανομένων των ατόμων και των δημοσίων προσώπων, και θα μπλοκάρει την έξοδο που διαφέρει από μία από αυτές τις προκαθορισμένες φωνές», δήλωσε η εκπρόσωπος του OpenAI, Lindsay McCallum.

Η αρχική πρόθεση αυτής της εγκατάστασης είναι να αποφευχθεί η διαμάχη για το Deepfake. Τον Ιανουάριο του τρέχοντος έτους, η τεχνολογία κλωνοποίησης φωνής της startup τεχνητής νοημοσύνης ElevenLabs χρησιμοποιήθηκε για να υποδυθεί τον Πρόεδρο των ΗΠΑ Μπάιντεν και να εξαπατήσει τους πρωτοβάθμιους ψηφοφόρους στο Νιου Χάμσαϊρ, προκαλώντας σημαντική διαμάχη.

Η OpenAI είπε επίσης ότι έχει εισαγάγει νέα φίλτρα για να μπλοκάρει ορισμένα αιτήματα για τη δημιουργία μουσικής ή άλλου ήχου που προστατεύεται από πνευματικά δικαιώματα.

Πέρυσι, πολλές εταιρείες δημιουργίας εικόνων και μουσικής τεχνητής νοημοσύνης έπεσαν σε νομικές διαμάχες λόγω παραβίασης πνευματικών δικαιωμάτων. Και μοντέλα ήχου όπως το GPT-4o προσθέτουν μια εντελώς νέα κατηγορία εταιρειών που μπορούν να υποβάλλουν καταγγελίες.

Το OpenAI λέγεται ότι έχει δοκιμάσει τις φωνητικές δυνατότητες του GPT-4o με περισσότερα από 100 εξωτερικά μέλη της «κόκκινης ομάδας» σε 45 γλώσσες. Αυτές οι βασικές πληροφορίες θα ανακοινωθούν με περισσότερες λεπτομέρειες σε μια έκθεση σχετικά με τις λειτουργίες, τους περιορισμούς και την αξιολόγηση ασφάλειας του GPT-4o τον Αύγουστο.

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant