Το "Her" του OpenAI είναι δύσκολο να παραδοθεί;

2024-07-27

Ο Mengchen προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Έχουν περάσει δύο μήνες και δύο εβδομάδες και ακόμα δεν έχουμε δει τη δημόσια έκδοση του OpenAI "Her".

Στις 14 Μαΐου, το OpenAI κυκλοφόρησε το GPT-4o καιΛειτουργία συνομιλίας ήχου και βίντεο από άκρο σε άκρο σε πραγματικό χρόνο, ζωντανή επίδειξη του διαλόγου AI τόσο ομαλής όσο και των ανθρώπων.

Μπορεί να αισθανθεί τον ρυθμό της αναπνοής σας και μπορεί να απαντήσει σε πραγματικό χρόνο με πιο πλούσιο τόνο από πριν, μπορεί ακόμη και να διακόψει την τεχνητή νοημοσύνη ανά πάσα στιγμή και το αποτέλεσμα είναι εκπληκτικό.

Αλλά όπως όλοι το περιμένουν με ανυπομονησία, από καιρό σε καιρόαναβάλλωβγήκε νέα.

Τι εμποδίζει το OpenAI; Σύμφωνα με γνωστές πληροφορίες:

έχωΝομικές διαφορές, για να διασφαλιστεί ότι η χροιά της φωνής δεν θα προκαλέσει ξανά διαμάχες όπως η «χήρα αδερφή» Scarlett Johansson.

Υπάρχουν επίσηςΕρώτηση Ασφαλείας, πρέπει να ευθυγραμμιστούν σωστά και οι συνομιλίες ήχου και βίντεο σε πραγματικό χρόνο θα ανοίξουν νέα σενάρια χρήσης και η χρήση ως εργαλείο απάτης θα είναι επίσης ένα από αυτά.

Ωστόσο, εκτός από τα παραπάνω, υπάρχουν τεχνικά προβλήματα και δυσκολίες που πρέπει να ξεπεραστούν;

Μετά τον αρχικό ενθουσιασμό, οι ειδικοί άρχισαν να κοιτούν την πόρτα.

Οι χρήστες του Διαδικτύου με αιχμηρά μάτια μπορεί να έχουν παρατηρήσει,Κατά τη διάρκεια της επίδειξης στη συνέντευξη Τύπου, το κινητό τηλέφωνο ήταν συνδεδεμένο με καλώδιο δικτύου.。

Στα μάτια των εμπειρογνωμόνων του κλάδου, η επίδειξη του συνεδρίου GPT-4o ήταν τόσο ομαλή, αλλά εξακολουθούν να υπάρχουν αρκετοί περιορισμοί:

χρειάζομαι"Σταθερό δίκτυο, σταθερός εξοπλισμός, σταθερό φυσικό περιβάλλον"。

Αφού κυκλοφόρησε πραγματικά στο κοινό, είναι ακόμα άγνωστο εάν οι παγκόσμιοι χρήστες μπορούν να αποκτήσουν μια εμπειρία που δεν είναι σε κίνδυνο σε σύγκριση με τη συνέντευξη Τύπου.

Υπήρχε μια άλλη ενδιαφέρουσα λεπτομέρεια στη συνέντευξη Τύπου, ο όμορφος ερευνητής Barret Zoph.Το ChatGPT χρησιμοποιήθηκε ως πίνακας κατά την επίδειξη μιας βιντεοκλήσης。

Η καθυστέρηση στο κομμάτι της βιντεοκλήσης είναι προφανής.Το φωνητικό μέρος της ερώτησης έχει υποβληθεί σε επεξεργασία και το οπτικό μέρος εξακολουθεί να επεξεργάζεται την προηγούμενη λήψη., που είναι το ξύλινο τραπέζι που απαθανάτισε η κάμερα όταν μόλις σήκωσε το τηλέφωνο.

Φανταστείτε πόσοι άνθρωποι θα το χρησιμοποιήσουν αφού τελικά κυκλοφορήσει;

Μια από τις πιο πολυσυζητημένες περιπτώσεις στο διαφημιστικό βίντεο, όπου ένας τυφλός άνδρας κουνούσε το χέρι για ταξί με τη βοήθεια φωνής AI, έγινε αμέσως λόγος από τους χρήστες του Διαδικτύου.

Ωστόσο, πρέπει επίσης να σημειωθεί ότι αυτό θα είναι αΣενάρια που βασίζονται σε μεγάλο βαθμό σε χαρακτηριστικά χαμηλής καθυστέρησης, εάν η καθοδήγηση AI έρθει λίγο πιο αργά, το ταξί θα περάσει.

Το σήμα δικτύου σε εξωτερικές σκηνές μπορεί να μην είναι εγγυημένο ότι είναι σταθερό, για να μην αναφέρουμε σκηνές όπως αεροδρόμια, σιδηροδρομικούς σταθμούς και τουριστικά αξιοθέατα όπου υπάρχουν πολλά άτομα και συσκευές που καταλαμβάνουν εύρος ζώνης, επομένως η δυσκολία θα αυξηθεί πολύ.

επίσης,Θα υπάρχουν επίσης προβλήματα θορύβου σε εξωτερικές σκηνές。

Τα μεγάλα μοντέλα ταλαιπωρούνται εγγενώς από το πρόβλημα της "ψευδαίσθησης".

Τέλος, υπάρχει ένα άλλο ζήτημα που παραβλέπεται εύκολα,Προσαρμογή πολλαπλών συσκευών。

Μπορεί να φανεί ότι το τρέχον συνέδριο OpenAI και τα διαφημιστικά βίντεο χρησιμοποιούν όλα το νέο iPhone Pro.

Το εάν η ίδια εμπειρία μπορεί να επιτευχθεί σε μοντέλα χαμηλότερης κατηγορίας θα πρέπει να περιμένει μέχρι την επίσημη κυκλοφορία.

Το OpenAI προωθεί ότι το GPT-4o μπορεί να χρησιμοποιηθεί σεΜόλις 232 χιλιοστά του δευτερολέπτου, κατά μέσο όρο 320 χιλιοστά του δευτερολέπτουνα ανταποκρίνεται στην είσοδο ήχου σε χρόνο που συνάδει με το πόσο γρήγορα ανταποκρίνονται οι άνθρωποι σε μια συνομιλία.

Αλλά αυτός είναι μόνο ο χρόνος από την είσοδο στην έξοδο του μεγάλου μοντέλου, όχι ολόκληρο το σύστημα.

Συνολικά, κάνοντας μια καλή δουλειά στην τεχνητή νοημοσύνη, δεν είναι ακόμα δυνατό να δημιουργήσετε μια ομαλή εμπειρία όπως το "Her". διάφορες συνθήκες δικτύου και θορυβώδη περιβάλλοντα.

Η τεχνητή νοημοσύνη από μόνη της δεν μπορεί να την κάνει

Για την επίτευξη χαμηλής καθυστέρησης, προσαρμογής πολλών συσκευών κ.λπ., βασιζόμαστεRTC(Real-Time Communications, Real-Time Communications) τεχνολογία.

Πριν από την εποχή του AI, η τεχνολογία RTC είχε χρησιμοποιηθεί ευρέως σε ζωντανές μεταδόσεις, τηλεδιάσκεψη και άλλα σενάρια και η ανάπτυξή της ήταν σχετικά ώριμη.

Από την άποψη του RTC, οι λέξεις φωνητικής προτροπής του χρήστη πρέπει να περάσουν από ένα σύνολο πολύπλοκων διαδικασιών πριν εισαχθούν στο μεγάλο μοντέλο.

Απόκτηση και προεπεξεργασία σήματος:Στις τελικές συσκευές, όπως τα κινητά τηλέφωνα, η φωνή του χρήστη συλλέγεται σε πρωτότυπα σήματα και υποβάλλεται σε επεξεργασία, όπως μείωση θορύβου και εξάλειψη ηχούς, προκειμένου να προετοιμαστεί για επακόλουθη αναγνώριση.

Κωδικοποίηση και συμπίεση ομιλίας: Για να εξοικονομηθεί το εύρος ζώνης μετάδοσης όσο το δυνατόν περισσότερο, το φωνητικό σήμα πρέπει να κωδικοποιηθεί και να συμπιεστεί. Ταυτόχρονα, ορισμένοι μηχανισμοί πλεονασμού και διόρθωσης σφαλμάτων πρέπει να προστεθούν προσαρμοστικά σύμφωνα με τις πραγματικές συνθήκες δικτύου για να αντισταθούν στην απώλεια πακέτων δικτύου.

μετάδοση δικτύου: Τα συμπιεσμένα φωνητικά δεδομένα χωρίζονται σε πακέτα δεδομένων και αποστέλλονται στο cloud μέσω του Διαδικτύου. Εάν η φυσική απόσταση από τον διακομιστή είναι μεγάλη, η μετάδοση πρέπει συχνά να περάσει από πολλούς κόμβους και κάθε μετάβαση μπορεί να προκαλέσει καθυστέρηση και απώλεια πακέτων.

Αποκωδικοποίηση και αποκατάσταση φωνής:Αφού το πακέτο δεδομένων φτάσει στον διακομιστή, το σύστημα το αποκωδικοποιεί και επαναφέρει το αρχικό φωνητικό σήμα.

Τελικά, ήταν η σειρά της AI να αναλάβει δράση.Μόνο μετατρέποντας πρώτα το σήμα ομιλίας σε διακριτικά μέσω του μοντέλου Ενσωμάτωσης μπορεί το πολυτροπικό μεγάλο μοντέλο από άκρο σε άκρο να είναι σε θέση να κατανοήσει και να δημιουργήσει απαντήσεις.

Φυσικά, αφού το μεγάλο μοντέλο δημιουργήσει μια απάντηση, πρέπει να περάσει από ένα σύνολο αντίστροφων διαδικασιών και στη συνέχεια το ηχητικό σήμα της απάντησης μεταδίδεται τελικά πίσω στον χρήστη.

Κάθε βήμα της όλης διαδικασίας απαιτεί ακραία βελτιστοποίηση για να επιτύχετε πραγματικά διαλόγους ήχου και βίντεο AI σε πραγματικό χρόνο.

Μεταξύ αυτών, η συμπίεση, η κβαντοποίηση και άλλες μέθοδοι του ίδιου του μεγάλου μοντέλου θα επηρεάσουν τελικά τις δυνατότητες AI, επομένως η κοινή βελτιστοποίηση σε συνδυασμό με παράγοντες όπως η επεξεργασία σήματος ήχου και η απώλεια πακέτων δικτύου είναι ιδιαίτερα σημαντική.

Εννοείται ότι το OpenAI δεν έλυσε αυτό το πρόβλημα ανεξάρτητα, αλλά επέλεξε να συνεργαστεί με τρίτο μέρος.

Συνεργάτες είναιΠρομηθευτής RTC ανοιχτού κώδικα LiveKit, επί του παρόντος γίνεται το επίκεντρο της βιομηχανίας με την υποστήριξή της για τη λειτουργία φωνής ChatGPT.

Εκτός από το OpenAI, το LiveKit έχει επίσης συνεργαστεί με σχετικές εταιρείες τεχνητής νοημοσύνης όπως το Character.ai και το ElevenLabs.

Ίσως εκτός από μερικούς γίγαντες όπως η Google που διαθέτουν σχετικά ώριμη τεχνολογία RTC που έχει αναπτύξει μόνος του,Η συνεργασία με κατασκευαστές RTC που ειδικεύονται στον κλάδο είναι η τρέχουσα κύρια επιλογή για συσκευές αναπαραγωγής διαλόγων ήχου και βίντεο σε πραγματικό χρόνο AI.。

Φυσικά, αυτό το κύμα περιλαμβάνει επίσης τη συμμετοχή εγχώριων παικτών Πολλές εγχώριες εταιρείες τεχνητής νοημοσύνης εντείνουν ήδη την ανάπτυξη μεγάλων μοντέλων πολλαπλών μέσων και εφαρμογών διαλόγου AI σε πραγματικό χρόνο.

Μπορούν οι εγχώριες εφαρμογές τεχνητής νοημοσύνης να καλύψουν τα αποτελέσματα του OpenAI και πότε μπορούν πραγματικά να το ζήσουν όλοι;

Δεδομένου ότι αυτά τα έργα βρίσκονται βασικά στα αρχικά στάδια, δεν έχουν δημοσιοποιηθεί πολλές πληροφορίες, αλλά οι εταίροι τους RTCδίκτυο ήχουΈγινε μια σημαντική ανακάλυψη.

Το Qubit ζήτησε από το Sound Network,Με το τρέχον επίπεδο εγχώριας τεχνολογίας, η καθυστέρηση ενός γύρου διαλόγου μπορεί να μειωθεί σε περίπου 1 δευτερόλεπτο., σε συνδυασμό με περισσότερες τεχνικές βελτιστοποίησης, δεν είναι πλέον πρόβλημα η επίτευξη ομαλών συνομιλιών που μπορούν να ανταποκριθούν έγκαιρα.

Για να κάνουμε καλά το RTC, η τεχνητή νοημοσύνη δεν είναι μόνο «Αυτή»

Ποιος είναι το SoundNet;

Μια αντιπροσωπευτική επιχείρηση στον κλάδο RTC, που γίνεται ο πρώτος παγκόσμιος πάροχος διαδραστικών υπηρεσιών cloud σε πραγματικό χρόνο το 2020.

Η πρώτη φορά που το SoundNet βγήκε από τη βιομηχανία ήταν επειδή παρείχε τεχνική υποστήριξη για το Clubhouse, μια κορυφαία εφαρμογή ήχου κοινωνικής δικτύωσης.

Στην πραγματικότητα, πολλές γνωστές εφαρμογές όπως η Bilibili, η Xiaomi και η Xiaohongshu έχουν επιλέξει τη λύση RTC της Agora και οι επιχειρήσεις στο εξωτερικό έχουν επίσης αναπτυχθεί γρήγορα τα τελευταία χρόνια.

Έτσι, για τις εφαρμογές διαλόγου ήχου και βίντεο σε πραγματικό χρόνο τεχνητής νοημοσύνης, πώς να επιλύσετε συγκεκριμένα τις δυσκολίες της χαμηλής καθυστέρησης και της προσαρμογής πολλών συσκευών και ποια αποτελέσματα μπορούν να επιτευχθούν;

Έχουμε προσκαλέσειZhong Sheng, επικεφαλής επιστήμονας και CTO του Shengwangγια να απαντήσω σε αυτή την ερώτηση.

Σύμφωνα με τον Zhong Sheng, το συμπέρασμα μεγάλου μοντέλου δεν υπολογίζεται.Απλώς πείτε ότι ο χρόνος που χρειάζεται για να πάει ένα σήμα μπρος-πίσω σε μια γραμμή δικτύου μπορεί ήδη να είναι 70-300 χιλιοστά του δευτερολέπτου.。

Συγκεκριμένα, εστιάζουμε κυρίως στη βελτιστοποίηση από τρεις πτυχές.

πρώτα,Η Shengwang έχει δημιουργήσει περισσότερα από 200 κέντρα δεδομένων σε όλο τον κόσμο και οι τοποθεσίες που επιλέγονται κατά τη δημιουργία συνδέσεων είναι πάντα πιο κοντά στους τελικούς χρήστες.

Σε συνδυασμό με την έξυπνη τεχνολογία δρομολόγησης, όταν μια συγκεκριμένη γραμμή έχει συμφόρηση, το σύστημα μπορεί να επιλέξει αυτόματα άλλες διαδρομές με καλύτερη καθυστέρηση και εύρος ζώνης για να διασφαλίσει την ποιότητα της επικοινωνίας.

Εάν δεν εμπλέκεται η μετάδοση μεταξύ περιοχών, το από άκρο σε άκρο μπορεί να είναι μικρότερο από 100ms. Εάν περιλαμβάνει cross-region, όπως από την Κίνα έως τις Ηνωμένες Πολιτείες, είναι πιο πιθανό να χρειαστούν 200-300ms.

δεύτερος, Η Shengwang, που ιδρύθηκε το 2014, αναλύει διάφορα αδύναμα σενάρια δικτύου μέσω της εξόρυξης δεδομένων με βάση τον τεράστιο όγκο δεδομένων πραγματικών σκηνών που έχουν συσσωρευτεί με τα χρόνια και στη συνέχεια τα αναπαράγει στο εργαστήριο. Αυτό παρέχει ένα "εύρος πυροδότησης" για τη βελτιστοποίηση του αλγόριθμου μετάδοσης, έτσι ώστε να μπορεί να ανταπεξέλθει σε πολύπλοκα και μεταβαλλόμενα περιβάλλοντα δικτύου, μπορεί επίσης να κάνει έγκαιρες προσαρμογές στη στρατηγική μετάδοσης όταν εμφανίζεται μια αντίστοιχη αδύναμη λειτουργία δικτύου κατά τη διάρκεια της μετάδοσης σε πραγματικό χρόνο. λειαίνων.

τρίτος, Για κάθετες βιομηχανίες και συγκεκριμένες εργασίες, η Shengwang προσπαθεί επίσης να προσαρμόσει μοντέλα με μικρότερες παραμέτρους για να συμπιέσει τον χρόνο απόκρισης μεγάλων μοντέλων. Οι ακραίες δυνατότητες των μεγάλων μοντέλων γλώσσας και των μοντέλων ομιλίας συγκεκριμένου μεγέθους είναι κατευθύνσεις που αξίζει να εξερευνήσετε, οι οποίες είναι βασικές για τη βελτιστοποίηση της οικονομικής απόδοσης και της εμπειρίας χαμηλής καθυστέρησης συνομιλίας AI ή chatbot.

Επιτέλους, Το RTC SDK που αναπτύχθηκε από τη Shengwang είναι επίσης προσαρμοσμένο και βελτιστοποιημένο για διαφορετικές τερματικές συσκευές, ειδικά για ορισμένα μοντέλα χαμηλού επιπέδου, τα οποία μπορούν να επιτύχουν χαμηλή κατανάλωση ενέργειας, χαμηλή χρήση μνήμης, εξαιρετικά μικρό μέγεθος συσκευασίας κ.λπ. Ειδικότερα, οι δυνατότητες μείωσης θορύβου φωνής, ακύρωσης ηχούς και βελτίωσης της ποιότητας βίντεο από την πλευρά της συσκευής με βάση αλγόριθμους τεχνητής νοημοσύνης μπορούν να επηρεάσουν άμεσα το εύρος και την επίδραση του chatbot AI.

Ο Zhongsheng εισήγαγε επίσης ότι στη διαδικασία εξερεύνησης του συνδυασμού της τεχνολογίας RTC και μεγάλων μοντέλων, αλλάζει και το πεδίο εφαρμογής της ίδιας της τεχνολογίας RTC.

Ανέφερε ορισμένες από τις κατευθύνσεις σκέψης του, όπως η αλλαγή από τη μετάδοση ηχητικών σημάτων στη μετάδοση διακριτικών που μπορούν να γίνουν άμεσα κατανοητά από μεγάλα μοντέλα, ακόμη και η εφαρμογή της αναγνώρισης ομιλίας σε κείμενο (STT) και της αναγνώρισης συναισθημάτων στο τέλος, έτσι ώστε μόνο κείμενο και μπορούν να μεταδοθούν σχετικές πληροφορίες.

Με αυτόν τον τρόπο, περισσότερες διεργασίες επεξεργασίας σήματος μπορούν να τοποθετηθούν στην τελική πλευρά και το μοντέλο Embeding που απαιτεί λιγότερη υπολογιστική ισχύ μπορεί να τοποθετηθεί πιο κοντά στον χρήστη, μειώνοντας τις απαιτήσεις εύρους ζώνης ολόκληρης της διαδικασίας και το κόστος του μοντέλου cloud.

Ξεκινώντας από αυτό το σημείο, ο Zhong Sheng πιστεύει ότι ο τελικός συνδυασμός τεχνολογίας AI και RTC θα κινηθεί προς την ενοποίηση συσκευών και cloud.

Δηλαδή, δεν μπορείτε να βασιστείτε πλήρως σε μεγάλα μοντέλα στο cloud. Αυτή δεν είναι η καλύτερη επιλογή όσον αφορά το κόστος, την κατανάλωση ενέργειας και την εμπειρία καθυστέρησης.

Από την άποψη της ολοκλήρωσης στο σύννεφο, ολόκληρη η υποδομή πρέπει να αλλάξει ανάλογα. Η υπολογιστική ισχύς δεν βρίσκεται μόνο στο cloud, αλλά θα χρησιμοποιηθεί και η υπολογιστική ισχύς των κινητών τηλεφώνων. Οι κόμβοι μετάδοσης στην άκρη θα κατανέμουν επίσης την υπολογιστική ισχύ και το πρωτόκολλο μετάδοσης δεδομένων θα αλλάξει επίσης ανάλογα...

Προς το παρόν, η Agora και οι μεγάλοι κατασκευαστές εφαρμογών μοντέλων έχουν καταλάβει πώς να το κάνουνΤρία μοντέλα συνεργασίας, δηλαδή οι διαφορετικές μέθοδοι παροχής των τριών μερών ολόκληρου του συστήματος: μεγάλο μοντέλο, RTC και διακομιστής cloud:

Ιδιωτική ανάπτυξη:Η Shengwang παρέχει μόνο το RTC SDK, το οποίο αναπτύσσεται μαζί με μεγάλα μοντέλα σε κέντρα δεδομένων των ίδιων των συνεργατών.
Shengwang Cloud Platform: Η Shengwang παρέχει RTC SDK και πόρους διακομιστή cloud και οι προγραμματιστές μπορούν να επιλέξουν με ευελιξία μοντέλα, τοποθεσίες ανάπτυξης και υπολογιστικούς πόρους σύμφωνα με τις ανάγκες τους. Δεν χρειάζεται να δημιουργήσετε τη δική σας υποδομή και μπορείτε να δημιουργήσετε γρήγορα εφαρμογές φωνής AI.
Λύση Agora από άκρο σε άκρο: Η Shengwang παρέχει μεγάλα μοντέλα, RTC SDK και πόρους διακομιστών cloud που έχουν αναπτυχθεί μόνοι τους. Τα κάθετα μοντέλα μπορούν να προσαρμοστούν για τμηματοποιημένες βιομηχανίες όπως η εκπαίδευση, το ηλεκτρονικό εμπόριο, η κοινωνική ψυχαγωγία, η εξυπηρέτηση πελατών κ.λπ., και είναι βαθιά ενσωματωμένα με τις δυνατότητες RTC για την παροχή ολοκληρωμένων λύσεων φωνητικής αλληλεπίδρασης.

Επιπλέον, στα υπάρχοντα έργα συνεργασίας, η ταχύτερη εφαρμογή δεν απέχει πολύ από το να συναντήσει όλους.

Στην επικοινωνία με το Acoustic Network, υπάρχει μια άλλη νέα τάση στην ανακάλυψη qubit που αξίζει προσοχής:

Οι εγχώριες εφαρμογές τεχνητής νοημοσύνης ξεπερνούν σταδιακά το πεδίο των ερωτήσεων και απαντήσεων του βοηθού τεχνητής νοημοσύνης και της συναισθηματικής συντροφικότητας AI.

Δείτε βιομηχανίες όπως η κοινωνική ψυχαγωγία, η ζωντανή ροή ηλεκτρονικού εμπορίου και η διαδικτυακή εκπαίδευση Αυτό που όλοι δίνουν περισσότερη προσοχή είναι οι διασημότητες του Διαδικτύου και οι διάσημοι δάσκαλοι. Οι ψηφιακοί άνθρωποι που οδηγούνται από διαλόγους ήχου και βίντεο σε πραγματικό χρόνο AI μπορούν να γίνουν οι «ψηφιακοί κλώνοι» τους και να αλληλεπιδράσουν περαιτέρω ένας προς έναν με κάθε θαυμαστή ή μαθητή. Ταυτόχρονα, ο χρόνος και η ενέργεια του χρήστη είναι επίσης περιορισμένοι και δεν έχουν δεξιότητες να χωριστούν σε πολλαπλές εργασίες και έχουν επίσης ανάγκες για τους δικούς τους κλώνους AI. Με την ανάπτυξη της τεχνολογίας, τη βελτίωση της εμπειρίας τεχνολογίας avatar AI και τη μείωση του κόστους, το πεδίο εφαρμογής τους θα επεκτείνεται ολοένα και περισσότερο.

Πάρτε τα λόγια του Zhong Sheng, «Το πιο σπάνιο πράγμα για τους ανθρώπους είναι ο χρόνος»:

Πρέπει όλοι να έχουμε αυτή την εμπειρία Τι γίνεται αν δύο συναντήσεις συγκρούονται και μπορούμε να παρακολουθήσουμε μόνο μία;

Μπορείτε να συμμετάσχετε μόνοι σας σε ένα και να στείλετε έναν βοηθό τεχνητής νοημοσύνης σε μια άλλη εκδήλωση για να φέρετε συναρπαστικές πληροφορίες. Στο μέλλον, αυτός ο βοηθός μπορεί να είναι ακόμη και το δικό σας avatar AI Κατά τη διάρκεια της δραστηριότητας, μπορείτε να διεξάγετε εξατομικευμένες επικοινωνίες, να ρωτάτε ή να απαντάτε σε διάφορες ερωτήσεις με βάση τα δικά σας ενδιαφέροντα και ανησυχίες και να αλληλεπιδράτε με άλλα άτομα ή είδωλα άλλων ανθρώπων.

Επομένως, ο διάλογος ήχου και βίντεο σε πραγματικό χρόνο AI μπορεί να κάνει πολλά περισσότερα από το "Her".

Νέα

Το "Her" του OpenAI είναι δύσκολο να παραδοθεί;

Εισαγωγή

τα στοιχεία επικοινωνίας μου