Το spot GPT-4o μετατρέπεται σε συμβόλαια μελλοντικής εκπλήρωσης, αυτό που εμποδίζει το OpenAI

Το spot GPT-4o μετατρέπεται σε συμβόλαια μελλοντικής εκπλήρωσης, τι εμποδίζει το OpenAI;

2024-07-16

Η τεχνολογία RTC είναι ένα από τα κλειδιά για τη δημοτικότητα του AI σε πραγματικό χρόνο.

Συγγραφέας |
επεξεργασία|. Jingyu

Αυτή, περνάει από τις ταινίες στο ριάλιτι.

Τον Μάιο του τρέχοντος έτους, η OpenAI κυκλοφόρησε το πιο πρόσφατο πολυτροπικό μεγάλο μοντέλο AI GPT-4o. Σε σύγκριση με το προηγούμενο GPT-4 Turbo, το GPT-4o είναι δύο φορές ταχύτερο και το μισό κόστος. Η μέση καθυστέρηση της φωνητικής αλληλεπίδρασης AI σε πραγματικό χρόνο είναι 2,8 δευτερόλεπτα (GPT-3,5) έως 5,4 δευτερόλεπτα (GPT) .

Όχι μόνο βελτιώνεται η αποτελεσματικότητα, αλλά και η συναισθηματική ανάλυση στις συνομιλίες έχει γίνει ένα από τα χαρακτηριστικά αυτής της ενημέρωσης προϊόντος. Κατά τη διάρκεια της συνομιλίας με τον οικοδεσπότη, το AI μπορεί να ακούσει τη «νευρικότητα» όταν μίλησε και έκανε στοχευμένες προτάσεις για να πάρει μια βαθιά ανάσα.

OpenAI, γίνεται ο «δημιουργός» με βάση το πυρίτιο στην εποχή των μεγάλων μοντέλων.

Ωστόσο, η συνέντευξη Τύπου ήταν συγκλονιστική, αλλά η πραγματικότητα ήταν πολύ αδύνατη. Μετά την κυκλοφορία του προϊόντος, η OpenAI, ο εμπνευστής αυτής της τεχνολογικής επανάστασης μεγάλου μοντέλου, γίνεται σταδιακά σαν μια εταιρεία "future".

Μετά την κυκλοφορία του ολοκληρωμένου, χαμηλής καθυστέρησης GPT-4o, η κυκλοφορία της λειτουργίας ήχου και εικόνας σε πραγματικό χρόνο εξακολουθεί να καθυστερεί το πολυτροπικό προϊόν βίντεο Sora, αλλά έχει επίσης καθυστερήσει.

Αλλά αυτό δεν είναι μόνο ένα πρόβλημα για την OpenAI ως εταιρεία - μετά την κυκλοφορία του ChatGPT, υπήρξαν τόσες εγχώριες εκδόσεις του ChatGPT, όπως ο σταυροειδές κυπρίνος που διασχίζει το ποτάμι, ωστόσο, υπάρχει αυτή τη στιγμή μόνο ένα SenseTime 5.5 που αποτελεί πραγματικά σημείο αναφοράς για το GPT-4o , και η πρόοδος είναι η ίδια. Μείνετε σε ανοιχτή beta εντός του μήνα.

Γιατί στη συνέντευξη Τύπου, το πολυτροπικό μεγάλο μοντέλο σε πραγματικό χρόνο απέχει μόνο ένα βήμα από την αλλαγή του κόσμου, αλλά στη διαδικασία της ουσιαστικής μετάβασης προς την παραγωγικότητα, γυρίζει πάντα από "σημείο" σε "επιλογή";

Μια νέα φωνή βγαίνει στην επιφάνεια: σε έναν πολυτροπικό κόσμο, ίσως η (αλγοριθμική) βία δεν έχει θαύματα.

φωνή σε πραγματικό χρόνο,ένα κομμάτι

Πρέπει να περάσειτουΔιαδρομή εμπορευματοποίησης AI

Η ωριμότητα της τεχνολογίας βοηθάει μια νέα βιομηχανία του γαλάζιου ωκεανού να διαμορφωθεί σταδιακά.

Τα δεδομένα από το a16z, ένα γνωστό ίδρυμα επιχειρηματικών κεφαλαίων στη Silicon Valley, δείχνουν ότι μεταξύ των κορυφαίων 50 εφαρμογών τεχνητής νοημοσύνης με παγκόσμιους χρήστες, οι 9 είναι συνοδευτικά προϊόντα. Τα στοιχεία από τη λίστα προϊόντων AI δείχνουν ότι ο αριθμός των επισκέψεων στο AI Companion τον Μάιο του τρέχοντος έτους έφτασε τα 432 εκατομμύρια, σημειώνοντας αύξηση 13,87% από έτος σε έτος.

Η υψηλή ζήτηση, ο υψηλός ρυθμός ανάπτυξης, ο υψηλός χώρος στην αγορά και η συντροφικότητα της τεχνητής νοημοσύνης θα επιφέρουν διπλές αλλαγές στα επιχειρηματικά μοντέλα και στην αλληλεπίδραση ανθρώπου-υπολογιστή.

Η ωριμότητα των επιχειρήσεων επιβάλλει επίσης τη συνεχή πρόοδο της τεχνολογίας αντίστροφα.Λαμβάνοντας μόνο το πρώτο εξάμηνο του τρέχοντος έτους ως κόμβο, η τεχνολογία φωνής AI σε πραγματικό χρόνο έχει ήδη υποστεί τρεις επαναλήψεις σε μόλις έξι μήνες.

Το αντιπροσωπευτικό προϊόν του πρώτου κύματος τεχνολογίας είναι το Pi.

Τον Μάρτιο του τρέχοντος έτους, η start-up Inflection AI ενημέρωσε το συναισθηματικό chatbot Pi για μεμονωμένους χρήστες.

Η διεπαφή προϊόντος του Pi είναι πολύ απλή, το πλαίσιο διαλόγου Text + είναι η βασική διαδραστική διεπαφή, αλλά προσθέτει επίσης λειτουργίες φωνής AI, όπως φωνητική ανάγνωση και τηλεφωνικές κλήσεις.

Για να επιτύχει αυτό το είδος φωνητικής αλληλεπίδρασης, το Pi βασίζεται στην παραδοσιακή τεχνολογία φωνής τριών βημάτων STT (Speech Recognition, Speech-to-Text) - LLM (Large Model Semantic Analysis) - TTS (Text To Speech). Χαρακτηρίζεται από ώριμη τεχνολογία, αλλά αργή απόκριση, έλλειψη κατανόησης βασικών πληροφοριών όπως ο τόνος και αδυναμία επίτευξης πραγματικού φωνητικού διαλόγου σε πραγματικό χρόνο.

Ένα άλλο προβεβλημένο προϊόν της ίδιας περιόδου είναι το Call Annie. Σε σύγκριση με το Pi, το Call Annie έχει μια ολοκληρωμένη σχεδίαση εμπειρίας βιντεοκλήσης Εκτός από τη σχεδίαση απάντησης και τερματισμού κλήσεων, η λειτουργία υπακοής μπορεί επίσης να ελαχιστοποιηθεί και να αλλάξει σε άλλες εφαρμογές και υποστηρίζει περισσότερες από 40 ρυθμίσεις ρόλων συνομιλίας.

Ωστόσο, όλοι μοιράζονται κοινά τεχνικά προβλήματα - υψηλή καθυστέρηση και έλλειψη συναισθηματικού χρώματος. Όσον αφορά τον λανθάνοντα χρόνο, ακόμη και το πιο προηγμένο OpenAI στον κλάδο θα παρουσιάσει καθυστέρηση 2,8 δευτερολέπτων (GPT-3,5) έως 5,4 δευτερολέπτων (GPT-4).Συναισθηματικά, πληροφορίες όπως ο τόνος, ο τόνος και η ταχύτητα ομιλίας θα χαθούν κατά τη διάρκεια της αλληλεπίδρασης και θα είναι αδύνατη η παραγωγή προηγμένων εκφράσεων ομιλίας, όπως το γέλιο και το τραγούδι.

Μετά από αυτό, ο εκπρόσωπος του νέου κύματος τεχνολογίας ήταν ένα προϊόν που ονομάζεται EVI.

Αυτό το προϊόν κυκλοφόρησε από την Hume AI τον Απρίλιο του τρέχοντος έτους και απέφερε στη Hume AI 50 εκατομμύρια δολάρια ΗΠΑ (περίπου 362 εκατομμύρια γιουάν) σε χρηματοδότηση της σειράς Β.

Όσον αφορά τον σχεδιασμό του προϊόντος, η Hume AI κυκλοφόρησε μια λειτουργία παιδικής χαράς στον υποκείμενο αλγόριθμο.Η διαφορά όμως είναι ότι η φωνή μεταφέρει συναίσθημα, άρα υπάρχουν και αλλαγές στον ρυθμό και τον τονισμό στην έκφραση.

Η υλοποίηση αυτής της συνάρτησης βασίζεται κυρίως στην προσθήκη του νέου αλγόριθμου SST (semantic space theory, semantic space theory) στην παραδοσιακή διαδικασία τριών βημάτων STT-LLM-TTS. Το SST μπορεί να σχεδιάσει με ακρίβεια όλο το φάσμα των ανθρώπινων συναισθημάτων μέσω εκτεταμένης συλλογής δεδομένων και προηγμένων στατιστικών μοντέλων, αποκαλύπτοντας τη συνέχεια μεταξύ των ανθρώπινων συναισθηματικών καταστάσεων, δίνοντας στο EVI πολλά ανθρωπόμορφα χαρακτηριστικά.

Το τίμημα της συναισθηματικής προόδου είναι η περαιτέρω θυσία της χρονικής καθυστέρησης, ο χρόνος που χρειάζεται ο χρήστης να περιμένει για να μιλήσει στο EVI αυξάνεται περαιτέρω σε σύγκριση με το Pi και το Call Annie.

Μέχρι τα μέσα Μαΐου, κυκλοφόρησε το GPT-4o και η ενσωμάτωση της πολυτροπικής τεχνολογίας έγινε η τεχνική κατεύθυνση αυτής της περιόδου.

Σε σύγκριση με προηγούμενα προϊόντα φωνητικής αλληλεπίδρασης τριών βημάτων, το GPT-4o είναι ένα νέο μοντέλο που εκπαιδεύεται από άκρο σε άκρο σε κείμενο, εικόνες και ήχο, που σημαίνει ότι όλες οι είσοδοι και οι έξοδοι επεξεργάζονται από το ίδιο νευρωνικό δίκτυο.

Το πρόβλημα της καθυστέρησης έχει επίσης βελτιωθεί σημαντικά. Το OpenAI ανακοίνωσε επίσημα ότι η φωνητική αλληλεπίδραση σε πραγματικό χρόνο του GPT-4o μπορεί να ανταποκριθεί στην είσοδο ήχου με ταχύτερη ταχύτητα 232 χιλιοστών του δευτερολέπτου και μέσο όρο 320 χιλιοστών του δευτερολέπτου. Συναισθηματικά, η αλληλεπίδραση μεταξύ των χρηστών και της τεχνητής νοημοσύνης γίνεται όλο και πιο έξυπνη, με αλλαγές στην ταχύτητα ομιλίας και τη συναισθηματική κατανόηση.

Σε επίπεδο προϊόντος, καθίσταται δυνατό για τους ανθρώπους να ερωτευτούν την τεχνητή νοημοσύνη και η τεχνητή νοημοσύνη να αντικαταστήσει τους τυφλούς όταν βλέπουν τον κόσμο.

Το Character.ai, το οποίο κυκλοφόρησε πρόσφατα τη λειτουργία φωνητικής κλήσης και είναι ένα εντυπωσιακό νέο αστέρι στη Silicon Valley το 2024, έχει γίνει ο μεγαλύτερος δικαιούχος αυτού του τεχνολογικού κύματος.

Στο Character.ai, οι χρήστες έχουν την ευκαιρία να στείλουν μηνύματα με αντίγραφα χαρακτήρων anime, τηλεοπτικών προσωπικοτήτων και ιστορικών προσωπικοτήτων σε εξαιρετικά ρεαλιστικά παιχνίδια ρόλων. Η νέα ρύθμιση έχει προκαλέσει αύξηση του αριθμού των χρηστών του προϊόντος Σύμφωνα με στοιχεία από το Similarweb, το Character.ai μπορεί να χειριστεί 20.000 αιτήματα συμπερασμάτων τεχνητής νοημοσύνης ανά δευτερόλεπτο και ο αριθμός των επισκέψεων τον Μάιο έφτασε τα 277 εκατομμύρια.

Σύγκριση επισκεψιμότητας μεταξύ Character.ai και perplexity.ai｜Πηγή εικόνας: Similarweb

Την ίδια στιγμή, η Microsoft, η Google και άλλοι ανακοίνωσαν επίσημα ότι τα μεγάλα μοντέλα τους θα λανσάρουν λειτουργίες φωνητικών κλήσεων σε πραγματικό χρόνο.

Ωστόσο, ο στεγανός σχεδιασμός του προϊόντος, στην πραγματική εφαρμογή, δείχνει πάντα το αποτέλεσμα εφαρμογής της εκκένωσης πλημμύρας των Τριών Φαραγγιών - στο τρίτο κύμα, τα προϊόντα που συνοδευόταν σχεδόν από το στυλ "της" στη συνέντευξη τύπου έχουν αλλάξει στην πραγματική τους εφαρμογή γίνει "σχέδιο" για εκτόξευση, θα κυκλοφορήσει σύντομα και βρίσκεται σε εσωτερικές δοκιμές.

Ένα αναμφισβήτητο συμπέρασμα είναι ότι ο ήχος και το βίντεο σε πραγματικό χρόνο μπορεί να γίνουν η απόλυτη μορφή αλληλεπίδρασης ανθρώπου-υπολογιστήΌλα συμπεριλαμβάνονταιΕκτός από τη συνοδευτική σκηνή, σκηνές όπως τα έξυπνα NPC παιχνιδιών, οι ομιλούμενοι δάσκαλοι τεχνητής νοημοσύνης και η μετάφραση σε πραγματικό χρόνο αναμένεται να εκραγούν, ωστόσο, πριν από αυτό, πώς να λύσετε το τελευταίο μίλι από τη "συνέντευξη τύπου" έως την κυκλοφορία του προϊόντος είναι το πιο δύσκολο πρόβλημα στον κλάδο σήμερα.

AI φωνή σε πραγματικό χρόνο,

Όχι θαύματα με μεγάλη δύναμη

Όλα συμπεριλαμβάνονταιΦωνή σε πραγματικό χρόνο «χωρίς θαύματα με μεγάλες προσπάθειες», ένα απαισιόδοξο ρητό εξαπλώνεται αθόρυβα στη Silicon Valley.

Η αντίσταση προέρχεται από όλες τις πτυχές της τεχνολογίας, των κανονισμών και των επιχειρήσεων.

Ο πνευματικός ηγέτης της τεχνικής αντιπολίτευσης είναι ο Yann LeCun, ο «πατέρας των συνελικτικών δικτύων».

Κατά την άποψή του: Σε σύγκριση με διάφορους αλγόριθμους τεχνητής νοημοσύνης στο παρελθόν, το μεγαλύτερο χαρακτηριστικό της τεχνολογίας μεγάλων μοντέλων είναι ότι «οι μεγάλες προσπάθειες μπορούν να κάνουν θαύματα». Μέσω της τροφοδοσίας μεγάλων δεδομένων, καθώς και της υποστήριξης υλικού υπολογιστικών συμπλεγμάτων με εκατοντάδες εκατομμύρια παραμέτρους και υψηλής απόδοσης, οι αλγόριθμοι μπορούν να χρησιμοποιηθούν για τη διαχείριση πιο περίπλοκων προβλημάτων και την επίτευξη υψηλότερης επεκτασιμότητας. Ωστόσο, επί του παρόντος είμαστε υπερβολικά αισιόδοξοι για τα μεγάλα μοντέλα, ειδικά την άποψη ότι τα πολυτροπικά μεγάλα μοντέλα μπορεί να είναι παγκόσμια μοντέλα, κάτι που είναι ακόμη πιο ανοησία.

Για παράδειγμα, οι άνθρωποι έχουν πέντε αισθήσεις, οι οποίες διαμορφώνουν την αληθινή μας κατανόηση για τον κόσμο, το LLM, το οποίο εκπαιδεύεται με βάση μεγάλο αριθμό κειμένων στο Διαδίκτυο, στερείται παρατήρησης και αλληλεπίδρασης με τον φυσικό κόσμο και στερείται αρκετής κοινής λογικής. Επομένως, στη διαδικασία δημιουργίας βίντεο ή φωνής, θα υπάρχει πάντα φαινομενικά απρόσκοπτο περιεχόμενο, τροχιές κίνησης ή φωνητικά συναισθήματα, αλλά έλλειψη ρεαλισμού. Επιπλέον, οι σκληροί φυσικοί περιορισμοί είναι επίσης ένα πρόβλημα.

ρυθμιστικό επίπεδο,Όλα συμπεριλαμβάνονταιΟμιλία σε πραγματικό χρόνο, δηλαδή το μεγάλο μοντέλο ομιλίας από άκρο σε άκρο, αντιμετωπίζει ένα παιχνίδι μεταξύ τεχνολογίας και ηθικής.

Στο παρελθόν, η διαδικασία τριών βημάτων του STT-LLM-TTS στην παραδοσιακή βιομηχανία φωνητικής τεχνητής νοημοσύνης προκλήθηκε για πρώτη φορά από την ανώριμη τεχνολογία , και πολυτροπική αλληλεπίδραση. Ταυτόχρονα, επειδή η ίδια η φωνή είναι πιο δύσκολη στην επίβλεψη από το κείμενο, η φωνή AI μπορεί εύκολα να χρησιμοποιηθεί σε σενάρια όπως απάτη μέσω τηλεφώνου, πορνογραφία και μάρκετινγκ ανεπιθύμητων μηνυμάτων. Προκειμένου να διευκολυνθεί η αναθεώρηση, ο ενδιάμεσος σύνδεσμος κειμένου έχει καταστεί επίσης απαραίτητος σε κάποιο βαθμό.

Και σε επιχειρηματικό επίπεδο, Η εκπαίδευση μοντέλων από άκρο σε άκρο απαιτεί μεγάλο όγκο δεδομένων YouTube και podcast κατά τη διάρκεια της φάσης εκπαίδευσης εκατομμύρια δολάρια.

Όσο για αυτό το είδος κόστους, για τις συνηθισμένες εταιρείες τεχνητής νοημοσύνης αυτή τη στιγμή, είναι άχρηστο να πέφτουν χρήματα από τον ουρανό, Πρέπει επίσης να πληρώσουν για τις κάρτες υπολογιστών τεχνητής νοημοσύνης υψηλής τεχνολογίας της NVIDIA, τον χώρο αποθήκευσης gigabit και τα πνευματικά δικαιώματα ήχου και βίντεο ανεξάντλητα χωρίς κίνδυνο. .

Φυσικά, είτε πρόκειται για την τεχνική κρίση του Yang Likun, για πιθανές ρυθμιστικές δυσκολίες ή για το δίλημμα κόστους της εμπορευματοποίησης, αυτά δεν είναι τα βασικά ζητήματα για το Open AI.

Κάντε πραγματικά την κλάση GPT-4o σε πραγματικό χρόνοΌλα συμπεριλαμβάνονταιΟ θεμελιώδης λόγος για τον οποίο τα προϊόντα φωνητικής αλληλεπίδρασης έχουν αλλάξει από spot σε συμβόλαια μελλοντικής εκπλήρωσης είναι στο επίπεδο της υλοποίησης του έργου.

GPT-4o για επίδειξη με συνδεδεμένο καλώδιο δικτύου,

Λείπει ακόμα μια χρήσιμη υποβοήθηση RTC

Ένα σιωπηρό μυστικό στον κλάδο είναι, κατηγορία GPT-4oΌλα συμπεριλαμβάνονταιΤα προϊόντα φωνής σε πραγματικό χρόνο, σε επίπεδο μηχανικής, είναι μόνο η μισή μάχη.

Κατά την κυκλοφορία του GPT-4o, ενώ υποστηρίχθηκε η χαμηλή καθυστέρηση, ορισμένοι χρήστες με αιχμηρά μάτια ανακάλυψαν ότι το κινητό τηλέφωνο στο βίντεο επίδειξης ήταν ακόμα συνδεδεμένο με καλώδιο δικτύου.Αυτό σημαίνει επίσης ότι η μέση καθυστέρηση των 320ms που ανακοινώθηκε επίσημα από το GPT-4o είναι πιθανό να είναι μια επίδειξη σταθερού εξοπλισμού, σταθερών δικτύων και σταθερών σεναρίων και είναι ένας εργαστηριακός δείκτης που μπορεί να επιτευχθεί υπό ιδανικές συνθήκες.

Το συνέδριο εκτόξευσης του OpenAI δείχνει ξεκάθαρα ότι τα κινητά τηλέφωνα είναι συνδεδεμένα | Πηγή εικόνας: OpenAI

πού είναι το πρόβλημα;

Αποσυναρμολογώντας το από το τεχνικό επίπεδο, για να πραγματοποιηθούν φωνητικές κλήσεις AI σε πραγματικό χρόνο, τα τρία βήματα σε επίπεδο αλγορίθμου συνδυάζονται σε έναν, ο οποίος είναι μόνο ένας από τους βασικούς συνδέσμους, ο άλλος βασικός σύνδεσμος, το επίπεδο επικοινωνίας RTC, αντιμετωπίζει επίσης μια σειρά των τεχνικών προκλήσεων. Το λεγόμενο RTC μπορεί απλά να κατανοηθεί ως η μετάδοση και η αλληλεπίδραση ήχου και βίντεο σε περιβάλλον δικτύου σε πραγματικό χρόνο Είναι μια τεχνολογία που υποστηρίζει φωνή σε πραγματικό χρόνο, βίντεο σε πραγματικό χρόνο και άλλες αλληλεπιδράσεις.

Ο Chen Ruofei, επικεφαλής τεχνολογίας ήχου στην Agora, είπε στο Geek Park ότι σε πραγματικά σενάρια εφαρμογών, οι χρήστες συνήθως δεν μπορούν να βρίσκονται πάντα σε σταθερό εξοπλισμό, σταθερά δίκτυα και σταθερά φυσικά περιβάλλοντα. Στα καθημερινά μας σενάρια βιντεοκλήσεων, όταν το δίκτυο ενός μέρους είναι φτωχό, οι καθυστερήσεις ομιλίας και οι καθυστερήσεις θα αυξηθούν.

Επιπλέον, η προσαρμογή πολλαπλών συσκευών, η επεξεργασία σήματος ήχου κ.λπ. είναι επίσης τεχνικές πτυχές που δεν μπορούν να αγνοηθούν κατά την εφαρμογή φωνής σε πραγματικό χρόνο AI.

Πώς να λύσετε αυτά τα προβλήματα;

Η απάντηση βρίσκεται στις πιο πρόσφατες απαιτήσεις στρατολόγησης του OpenAI, ανέφερε συγκεκριμένα ότι θέλει να προσλάβει ταλέντα μηχανικού για να τους βοηθήσει να αναπτύξουν τα πιο προηγμένα μοντέλα στο περιβάλλον RTC.

Όσον αφορά την επιλογή συγκεκριμένης λύσης, η τεχνολογία RTC που χρησιμοποιείται από το GPT-4o είναι μια λύση ανοιχτού κώδικα που βασίζεται στο WebRTC, η οποία μπορεί να επιλύσει ορισμένες καθυστερήσεις σε τεχνικό επίπεδο, καθώς και απώλεια πακέτων, ασφάλεια περιεχομένου επικοινωνίας και πολλαπλές πλατφόρμες που προκαλούνται από διαφορετικά περιβάλλοντα δικτύου.

Ωστόσο, η Β πλευρά του ανοιχτού κώδικα είναι η αδυναμία της παραγωγικότητας.

Για να δώσουμε ένα απλό παράδειγμα, όσον αφορά ζητήματα προσαρμογής πολλών συσκευών, τα σενάρια χρήσης RTC αντιπροσωπεύονται κυρίως από κινητά τηλέφωνα, αλλά οι δυνατότητες επικοινωνίας και συλλογής ήχου διαφορετικών μοντέλων κινητών τηλεφώνων ποικίλλουν ευρέως: επί του παρόντος, τα κινητά τηλέφωνα Apple μπορούν να επιτύχουν μια σταθερή καθυστέρηση περίπου δεκάδες χιλιοστά του δευτερολέπτου, ωστόσο, το οικοσύστημα Android, το οποίο είναι σχετικά πολύπλοκο, δεν έχει μόνο πολλά μοντέλα, αλλά το χάσμα απόδοσης μεταξύ προϊόντων υψηλής τεχνολογίας και χαμηλού επιπέδου είναι επίσης αρκετά εμφανές μπορεί να φτάσει τα εκατοντάδες χιλιοστά του δευτερολέπτου σε επίπεδο συλλογής και επικοινωνίας.

Για ένα άλλο παράδειγμα, σε σενάρια εφαρμογών ομιλίας AI σε πραγματικό χρόνο, τα σήματα ανθρώπινης ομιλίας μπορεί να αναμειγνύονται με το θόρυβο του περιβάλλοντος Απαιτείται σύνθετη επεξεργασία σήματος για την αφαίρεση του θορύβου και της ηχούς για να διασφαλιστεί η καθαρή και υψηλής ποιότητας είσοδος ομιλίας, ώστε η τεχνητή νοημοσύνη να μπορεί να κατανοήσει καλύτερα τους ανθρώπους. τα λόγια που ειπώθηκαν.

Η συμβατότητα με πολλές συσκευές και οι προηγμένες δυνατότητες μείωσης θορύβου ήχου είναι επίσης αυτά που λείπει από το WebRTC ανοιχτού κώδικα.

Η εμπειρία του κλάδου αποτελεί εμπόδιο στην εφαρμογή προϊόντων ανοιχτού κώδικα. Επομένως, σε σύγκριση με λύσεις ανοιχτού κώδικα, μεγάλοι κατασκευαστές μοντέλων και επαγγελματίες πάροχοι λύσεων RTC συνεργάζονται για να τις γυαλίσουν και να τις βελτιστοποιήσουν, κάτι που σε κάποιο βαθμό μπορεί να αντιπροσωπεύει καλύτερα τις μελλοντικές τάσεις του κλάδου.

Στον τομέα της RTC, η Agora είναι ο πιο αντιπροσωπευτικός κατασκευαστής Εκτός από γνωστές εγχώριες εταιρείες Εκτός από εφαρμογές όπως Xiaomi, Bilibili, Momo και Xiaohongshu, υπάρχουν επίσης το Yalla, η μεγαλύτερη πλατφόρμα φωνητικής κοινωνικής και ψυχαγωγίας στη Μέση Ανατολή και τη Βόρεια Αφρική, ο Kumu, ο «Βασιλιάς του Social Live Broadcasting Platforms» στη Νοτιοανατολική Ασία, HTC VIVE, The Meet Group, Bunch κ.λπ. σε όλο τον κόσμο γνωστές εταιρείες έχουν υιοθετήσει την τεχνολογία RTC της Agora.

Η συσσώρευση της εμπειρίας του κλάδου και το γυάλισμα παγκόσμιων πελατών αποτελούν περαιτέρω απόδειξη της τεχνολογικής πρωτοπορίας. Σύμφωνα με τον Chen Ruofei, το δίκτυο μετάδοσης σε πραγματικό χρόνο SD-RTN™ της Shengwang που αναπτύχθηκε μόνος του, καλύπτει περισσότερες από 200 χώρες και περιοχές σε όλο τον κόσμο και η παγκόσμια καθυστέρηση ήχου και βίντεο από άκρο σε άκρο φτάνει κατά μέσο όρο τα 200 ms. Σε απάντηση στις διακυμάνσεις στο περιβάλλον δικτύου, η έξυπνη τεχνολογία δρομολόγησης του SoundNet και ο αλγόριθμος κατά των αδύναμων δικτύου μπορούν να εξασφαλίσουν τη σταθερότητα και την ευχέρεια των κλήσεων. Λόγω των διαφορών στον τερματικό εξοπλισμό, η Shengwang έχει συγκεντρώσει εκατοντάδες εκατομμύρια προεγκατεστημένες εφαρμογές σε όλο τον κόσμο και έχει συσσωρεύσει τεχνογνωσία για την προσαρμογή σε πολύπλοκα περιβάλλοντα.

Εκτός από την τεχνολογική ηγεσία, η εμπειρία του κλάδου είναι ένα αόρατο εμπόδιο.

Στην πραγματικότητα, αυτός είναι ο λόγος που το επιχειρηματικό τοπίο του κλάδου RTC ήταν σχετικά σταθερό όλα αυτά τα χρόνια:Για να κάνει καλή δουλειά στο RTC, δεν βασίστηκε ποτέ στο μοντέλο μεγάλης κλίμακας «οι μεγάλες προσπάθειες μπορούν να κάνουν θαύματα».

Ο μόνος τρόπος για να επιτευχθεί η τελική βελτιστοποίηση της καθυστέρησης φωνής και η καθολική εμπορική χρήση της φωνητικής αλληλεπίδρασης σε πραγματικό χρόνο είναι μέσω της συσσωρευμένης και εντατικής εργασίας με την πάροδο του χρόνου.

Και από αυτή την προοπτική,Όλα συμπεριλαμβάνονταιΗ φωνητική αλληλεπίδραση σε πραγματικό χρόνο είναι μια μάχη που δεν πρέπει να υποτιμάται από άποψη φαντασίας και δυσκολίας.

Το μέλλον του - οι αλγόριθμοι, οι έλεγχοι και το RTC πρέπει να περάσουν κάθε επίπεδο. Για να ολοκληρώσουμε αυτόν τον μακρύ δρόμο, πρέπει όχι μόνο να κοιτάξουμε ψηλά στον έναστρο ουρανό της τεχνολογίας, αλλά και να έχουμε τα πόδια μας στο έδαφος της μηχανικής.

*Πηγή εικόνας κεφαλίδας: Visual China

Αυτό το άρθρο είναι ένα πρωτότυπο άρθρο από το Geek Park Για επανέκδοση, επικοινωνήστε με το Geek Jun στο WeChat geekparkGO

ρώτησε ο Γκικ

Ποιες συνοδευτικές εφαρμογές AI έχετε χρησιμοποιήσει;？

Το μυστικό της επιτυχίας του Zuckerberg: Μην αφήνετε τις ταινίες να σας ξεγελούν, κανείς δεν ξέρει πώς να το κάνει εξαρχής.

Κάντε like και followΛογαριασμός βίντεο Geek Park，

Νέα

Το spot GPT-4o μετατρέπεται σε συμβόλαια μελλοντικής εκπλήρωσης, τι εμποδίζει το OpenAI;

Εισαγωγή

τα στοιχεία επικοινωνίας μου