νέα

το openai απελευθερώνει πλήρως τον ανθρώπινο βοηθό φωνής chatgpt, ο οποίος μπορεί να μιλήσει 50 γλώσσες, συμπεριλαμβανομένων των κινεζικών

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

συντάκτης αυτού του άρθρου: li dan

πηγή: hard ai

τέσσερις μήνες μετά την αρχική δημόσια κυκλοφορία του openai, η ανθρώπινη λειτουργία προηγμένης τεχνητής νοημοσύνης (ai) του chatgpt είναι τελικά διαθέσιμη στους χρήστες που πληρώνουν.

την τρίτη, 24 σεπτεμβρίου, eastern time, το openai ανακοίνωσε ότι όλοι οι χρήστες που πλήρωσαν για να εγγραφούν στα προγράμματα openai chatgpt plus και team θα μπορούν να χρησιμοποιούν τη νέα προηγμένη λειτουργία φωνής chatgpt advanced voice αυτή η δυνατότητα θα κυκλοφορήσει σταδιακά στο επόμενο λίγες μέρες και θα είναι πρώτα διαθέσιμο στην αγορά των ηπα είναι online. την επόμενη εβδομάδα, η λειτουργία θα είναι διαθέσιμη στους συνδρομητές των προγραμμάτων openai edu και enterprise.

αυτό σημαίνει ότι αυτή την εβδομάδα, τόσο οι μεμονωμένοι χρήστες της έκδοσης plus του chatgpt όσο και οι χρήστες της ομάδας μικρών επιχειρήσεων της έκδοσης teams μπορούν να ενεργοποιήσουν τη νέα λειτουργία φωνής μιλώντας απλά, χωρίς να χρειάζεται να εισάγουν μη αυτόματα λέξεις προτροπής και να έχουν μια συνομιλία gpt. κατά την πρόσβαση στη σύνθετη λειτουργία φωνής στην εφαρμογή, ο χρήστης μπορεί να γνωρίζει ότι έχει εισέλθει στον προηγμένο φωνητικό βοηθό μέσω ενός αναδυόμενου παραθύρου και ο χρήστης θα λάβει μια ειδοποίηση από την εφαρμογή.

το openai έχει δώσει στη νέα φωνητική έκδοση του chatgpt δύο λειτουργίες, η μία είναι η λειτουργία αποθήκευσης "προσαρμοσμένων οδηγιών" για τον φωνητικό βοηθό και η άλλη είναι η λειτουργία "μνήμης" για να θυμάται ποια συμπεριφορά θέλει ο χρήστης να εκτελέσει ο βοηθός φωνής, παρόμοια σε αυτό που το openai έδωσε το chatgpt τον απρίλιο του τρέχοντος έτους, η έκδοση κειμένου εισάγει τη λειτουργία μνήμης. οι χρήστες μπορούν να επωφεληθούν από αυτές τις δυνατότητες για να διασφαλίσουν ότι τα μοτίβα φωνής είναι εξατομικευμένα, επιτρέποντας στον βοηθό ai να ανταποκρίνεται με βάση τις προτιμήσεις του χρήστη για όλες τις συνομιλίες.

το openai κυκλοφόρησε πέντε νέες φωνές διαφορετικών στυλ την τρίτη, με το όνομα arbor, maple, sol, spruce και vale, συν τις τέσσερις φωνές breeze, juniper, cove και ember που κυκλοφόρησαν προηγουμένως στην παλιά έκδοση της λειτουργίας φωνής, προαιρετικές φωνές επιτυγχάνοντας εννέα τύπους. το openai βελτιώνει επίσης την ταχύτητα συνομιλίας, την ευχέρεια και την προφορά σε ορισμένες ξένες γλώσσες.

το openai εισήγαγε ότι ο προηγμένος φωνητικός βοηθός μπορεί να πει "συγγνώμη, άργησα" σε 50 γλώσσες και επισύναψε ένα βίντεο στη δημοσίευση στα μέσα κοινωνικής δικτύωσης για να δείξει ότι ο χρήστης μπορεί να ζητήσει από τον φωνητικό βοηθό να εκφράσει τη φωνή του στη γιαγιά επειδή περίμενε πολλή ώρα. το βίντεο δείχνει ότι ο βοηθός τεχνητής νοημοσύνης συνόψισε πρώτα αυτό που ήθελε να εκφράσει ο χρήστης όπως απαιτείται και το είπε στα αγγλικά. στη συνέχεια, αφού ο χρήστης ζήτησε από τη γιαγιά της τεχνητής νοημοσύνης να μιλήσει μόνο στα mandarin, ο βοηθός τεχνητής νοημοσύνης το μίλησε ξανά στα αγγλικά. τυπικό μανταρίνι.

η νέα λειτουργία φωνής είναι διαθέσιμη για το μοντέλο ai του openai gpt-4o και όχι για το μοντέλο προεπισκόπησης o1 που κυκλοφόρησε πρόσφατα.

η κυκλοφορία της νέας λειτουργίας φωνής έχει καθυστερήσει πολύ. η wall street news ανέφερε κάποτε ότι τον μάιο του τρέχοντος έτους, το openai παρουσίασε τη λειτουργία φωνής voice mode κατά την κυκλοφορία του νέου εμβληματικού μοντέλου gpt-4o. η φωνή chatgpt που υποστηριζόταν από το gpt-4o εκείνη την εποχή ακουγόταν σαν ενήλικη αμερικανίδα και μπορούσε να ανταποκριθεί στα αιτήματα αμέσως. όταν άκουσε τον διευθυντή έρευνας του openai της επίδειξης, mark chen, να εκπνέει υπερβολικά, φάνηκε να επικρατεί η νευρικότητά του και στη συνέχεια είπε ότι είπε, "mark, δεν είσαι ηλεκτρική σκούπα", λέγοντας στον chen να χαλαρώσει και να αναπνεύσει.

το openai σχεδίαζε αρχικά να ξεκινήσει τη λειτουργία φωνής σε μια μικρή ομάδα χρηστών του προγράμματος plus στα τέλη ιουνίου, αλλά ανακοίνωσε τον ιούνιο ότι η κυκλοφορία θα καθυστερούσε κατά ένα μήνα για να διασφαλίσει ότι η λειτουργία μπορεί να χειριστεί με ασφάλεια και αποτελεσματικότητα αιτήματα από εκατομμύρια χρήστες . εκείνη την εποχή, το openai είπε ότι σχεδίαζε να κάνει τη λειτουργία προσβάσιμη σε όλους τους χρήστες plus αυτό το φθινόπωρο, με το ακριβές χρονοδιάγραμμα να εξαρτάται από την τήρηση υψηλών εσωτερικών προτύπων για ασφάλεια και αξιοπιστία.

στα τέλη ιουλίου, το openai κυκλοφόρησε το chatgpt σε προηγμένη λειτουργία φωνής για περιορισμένο αριθμό πληρωμένων χρηστών plus, λέγοντας ότι η λειτουργία φωνής δεν μπορεί να μιμηθεί τον τρόπο που μιλάνε οι άλλοι και πρόσθεσε νέα φίλτρα για να διασφαλίσει ότι το λογισμικό μπορεί να ανακαλύψει και να απορρίψει συγκεκριμένη μουσική που δημιουργείται ή άλλες φόρμες αιτήματα για ήχο που προστατεύεται από πνευματικά δικαιώματα. ωστόσο, η νέα λειτουργία φωνής δεν διαθέτει πολλά χαρακτηριστικά που επιδείχθηκαν από το openai τον μάιο, όπως οι δυνατότητες όρασης υπολογιστή. αυτή η δυνατότητα επιτρέπει στο gpt να παρέχει φωνητική ανατροφοδότηση για τις χορευτικές κινήσεις του χρήστη χρησιμοποιώντας απλώς την κάμερα του smartphone.