„Her“ von OpenAI ist schwer zu liefern.

2024-07-27

Mengchen stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Zwei Monate und zwei Wochen sind vergangen und wir haben die öffentlich veröffentlichte Version von OpenAI „Her“ immer noch nicht gesehen.

Am 14. Mai veröffentlichte OpenAI GPT-4o undEnd-to-End-Audio- und Video-Konversationsmodus in Echtzeit, Live-Demonstration des KI-Dialogs so reibungslos wie der Mensch.

Es kann Ihren Atemrhythmus erkennen und in Echtzeit mit einem satteren Ton als zuvor antworten. Es kann die KI sogar jederzeit unterbrechen, und der Effekt ist erstaunlich.

Aber jeder freut sich von Zeit zu Zeit daraufaufschiebenNeuigkeiten kamen heraus.

Was hält OpenAI zurück? Nach bekannten Informationen:

habenRechtsstreitigkeiten, um sicherzustellen, dass die Klangfarbe der Stimme nicht wieder für Kontroversen wie die „Witwenschwester“ Scarlett Johansson sorgt.

es gibt auchSicherheitsfrage, müssen richtig aufeinander abgestimmt sein, und Echtzeit-Audio- und Videogespräche werden neue Nutzungsszenarien eröffnen, und auch der Einsatz als Betrugstool wird eines davon sein.

Gibt es jedoch darüber hinaus noch technische Probleme und Schwierigkeiten, die es zu überwinden gilt?

Nach der anfänglichen Aufregung begannen die Experten, die Tür in Augenschein zu nehmen.

Aufmerksamen Internetnutzern ist es vielleicht aufgefallen,Bei der Vorführung auf der Pressekonferenz war das Mobiltelefon mit einem Netzwerkkabel angeschlossen.。

In den Augen von Brancheninsidern verlief die Demonstration der GPT-4o-Konferenz so reibungslos, es gibt jedoch immer noch einige Einschränkungen:

brauchen„Festes Netzwerk, feste Ausrüstung, feste physische Umgebung“。

Nach der tatsächlichen Veröffentlichung ist noch nicht bekannt, ob globale Benutzer ein Erlebnis erhalten können, das im Vergleich zur Pressekonferenz keine Kompromisse eingeht.

Bei der Pressekonferenz gab es noch ein weiteres interessantes Detail: den gutaussehenden Forscher Barret Zoph.ChatGPT wurde als Tabelle bei der Demonstration eines Videoanrufs verwendet。

Die Verzögerung im Videoanrufteil ist offensichtlich.Der Sprachteil der Frage wurde verarbeitet und der visuelle Teil verarbeitet noch die vorherige Aufnahme.Dabei handelt es sich um den Holztisch, den die Kamera aufgenommen hat, als das Telefon gerade abgenommen wurde.

Stellen Sie sich vor, wie viele Leute es verwenden werden, nachdem es endlich veröffentlicht wurde?

Einer der am meisten diskutierten Fälle im Werbevideo, bei dem ein blinder Mann mit Hilfe einer KI-Stimme nach einem Taxi winkte, wurde von Internetnutzern sofort erwähnt.

Es sollte jedoch auch beachtet werden, dass dies ein sein wirdSzenarien, die stark auf Funktionen mit geringer Latenz angewiesen sindKommt die KI-Führung etwas langsamer, fährt das Taxi vorbei.

Es kann nicht garantiert werden, dass das Netzwerksignal in Außenszenen stabil ist, ganz zu schweigen von Szenen wie Flughäfen, Bahnhöfen und Touristenattraktionen, in denen viele Menschen und Geräte Bandbreite belegen, sodass die Schwierigkeit erheblich zunimmt.

Auch,Auch bei Außenaufnahmen wird es zu Lärmproblemen kommen。

Große Modelle sind von Natur aus mit dem Problem der „Illusion“ behaftet. Wenn das Rauschen die Erkennung der Stimme des Benutzers beeinträchtigt und einige Wörter auftauchen, die nichts mit den Anweisungen zu tun haben, ist die Antwort unklar.

Schließlich gibt es noch ein weiteres Problem, das leicht übersehen wird:Anpassung an mehrere Geräte。

Es ist ersichtlich, dass die aktuellen OpenAI-Konferenz- und Werbevideos alle das neue iPhone Pro verwenden.

Ob die gleiche Erfahrung auch bei Modellen der unteren Preisklasse möglich ist, muss bis zur offiziellen Veröffentlichung abgewartet werden.

OpenAI wirbt dafür, dass GPT-4o verwendet werden kannNur 232 Millisekunden, durchschnittlich 320 Millisekundenauf Audioeingaben in einer Zeit zu reagieren, die mit der Reaktionsgeschwindigkeit von Menschen in einem Gespräch übereinstimmt.

Dies ist jedoch nur die Zeit von der Eingabe bis zur Ausgabe des großen Modells, nicht des gesamten Systems.

Alles in allem ist es immer noch nicht möglich, ein reibungsloses Erlebnis wie „Her“ zu schaffen, indem man nur eine gute Arbeit in der KI leistet. Es erfordert auch eine Reihe von Fähigkeiten wie geringe Latenz, Anpassung an mehrere Geräte und Fähigkeit, damit umzugehen verschiedene Netzwerkbedingungen und laute Umgebungen.

KI allein kann „Sie“ nicht erschaffen

Um eine geringe Latenz, Anpassung an mehrere Geräte usw. zu erreichen, verlassen wir uns daraufEchtzeituhr(Echtzeitkommunikation, Echtzeitkommunikation)-Technologie.

Vor der KI-Ära war die RTC-Technologie in Live-Übertragungen, Videokonferenzen und anderen Szenarien weit verbreitet und ihre Entwicklung war relativ ausgereift.

Aus Sicht von RTC müssen die Sprachaufforderungswörter des Benutzers eine Reihe komplexer Prozesse durchlaufen, bevor sie in das große Modell eingegeben werden.

Signalerfassung und Vorverarbeitung:Auf Endgeräten wie Mobiltelefonen wird die Stimme des Benutzers in Originalsignale umgewandelt und verarbeitet, beispielsweise durch Rauschunterdrückung und Echounterdrückung, um sie für die spätere Erkennung vorzubereiten.

Sprachkodierung und -komprimierung: Um möglichst viel Übertragungsbandbreite einzusparen, muss das Sprachsignal kodiert und komprimiert werden. Gleichzeitig müssen einige Redundanz- und Fehlerkorrekturmechanismen entsprechend den tatsächlichen Netzwerkbedingungen adaptiv hinzugefügt werden, um Netzwerkpaketverlusten vorzubeugen.

Netzwerkübertragung: Die komprimierten Sprachdaten werden in Datenpakete aufgeteilt und über das Internet an die Cloud gesendet. Wenn die physische Entfernung vom Server groß ist, muss die Übertragung häufig über mehrere Knoten erfolgen, und jeder Hop kann zu Verzögerungen und Paketverlusten führen.

Sprachdekodierung und -wiederherstellung:Nachdem das Datenpaket den Server erreicht hat, dekodiert das System es und stellt das ursprüngliche Sprachsignal wieder her.

Schließlich war die KI an der Reihe, Maßnahmen zu ergreifen.Nur wenn das Sprachsignal zunächst über das Einbettungsmodell in Token umgewandelt wird, kann das durchgängige multimodale große Modell in der Lage sein, Antworten zu verstehen und zu generieren.

Nachdem das große Modell eine Antwort generiert hat, muss es natürlich eine Reihe umgekehrter Prozesse durchlaufen, und dann wird das Audiosignal der Antwort schließlich an den Benutzer zurückgesendet.

Jeder Schritt des gesamten Prozesses erfordert eine extreme Optimierung, um wirklich einen KI-Audio- und Videodialog in Echtzeit zu erreichen.

Darunter werden Komprimierung, Quantisierung und andere Methoden des großen Modells selbst schließlich die KI-Fähigkeiten beeinflussen, daher ist eine gemeinsame Optimierung in Kombination mit Faktoren wie Audiosignalverarbeitung und Netzwerkpaketverlust besonders wichtig.

Es versteht sich, dass OpenAI dieses Problem nicht alleine gelöst hat, sondern sich für die Zusammenarbeit mit einem Dritten entschieden hat.

Partner sindOpen-Source-RTC-Anbieter LiveKit, das derzeit mit seiner Unterstützung des ChatGPT-Sprachmodus in den Fokus der Branche rückt.

Neben OpenAI hat LiveKit auch mit verwandten KI-Unternehmen wie Character.ai und ElevenLabs zusammengearbeitet.

Vielleicht mit Ausnahme einiger Giganten wie Google, die über eine relativ ausgereifte, selbst entwickelte RTC-Technologie verfügen,Die Zusammenarbeit mit auf die Branche spezialisierten RTC-Herstellern ist derzeit die gängige Wahl für KI-Echtzeit-Audio- und Videodialogplayer.。

Natürlich ist an dieser Welle auch die Beteiligung inländischer Akteure beteiligt. Viele inländische KI-Unternehmen treiben bereits die Entwicklung von durchgängigen multimodalen Großmodellen und KI-Echtzeit-Audio- und Videodialoganwendungen voran.

Können heimische KI-Anwendungen mit den Ergebnissen von OpenAI mithalten und wann kann es wirklich jeder selbst erleben?

Da sich diese Projekte grundsätzlich in einem frühen Stadium befinden, wurden nicht viele Informationen öffentlich bekannt gegeben, wohl aber ihre RTC-PartnerSound-NetzwerkEs wurde ein Durchbruch.

Qubit erkundigte sich bei Sound Network:Mit dem aktuellen Stand der heimischen Technologie kann die Verzögerung einer Dialogrunde auf etwa 1 Sekunde reduziert werden.In Verbindung mit weiteren Optimierungstechniken ist es kein Problem mehr, reibungslose Gespräche zu führen, bei denen zeitnah reagiert werden kann.

Um RTC gut zu machen, ist KI nicht nur „Sie“

Wer ist SoundNet?

Ein repräsentatives Unternehmen in der RTC-Branche, das im Jahr 2020 zum ersten globalen Anbieter interaktiver Cloud-Dienste in Echtzeit wird.

Der erste Ausstieg von SoundNet aus der Branche erfolgte, weil das Unternehmen technischen Support für Clubhouse bereitstellte, eine erfolgreiche soziale Audioanwendung.

Tatsächlich haben sich viele bekannte Anwendungen wie Bilibili, Xiaomi und Xiaohongshu für die RTC-Lösung von Agora entschieden, und auch das Auslandsgeschäft hat sich in den letzten Jahren rasant entwickelt.

Wie können also bei KI-Echtzeit-Audio- und Videodialoganwendungen die Schwierigkeiten der geringen Latenz und der Anpassung an mehrere Geräte konkret gelöst werden und welche Effekte können erzielt werden?

Wir haben eingeladenZhong Sheng, Chefwissenschaftler und CTO von Shengwangum diese Frage zu beantworten.

Laut Zhong Sheng wird keine große Modellinferenz berechnet;Sagen Sie einfach, dass die Zeit, die ein Signal benötigt, um auf einer Netzwerkleitung hin und her zu gelangen, bereits 70–300 Millisekunden betragen kann.。

Konkret konzentrieren wir uns hauptsächlich auf die Optimierung unter drei Gesichtspunkten.

Erste,Shengwang hat mehr als 200 Rechenzentren auf der ganzen Welt gebaut und die für den Verbindungsaufbau gewählten Standorte liegen stets in der Nähe der Endbenutzer.

In Kombination mit intelligenter Routing-Technologie kann das System bei Überlastung einer bestimmten Leitung automatisch andere Pfade mit besserer Verzögerung und Bandbreite auswählen, um die Kommunikationsqualität sicherzustellen.

Wenn keine regionsübergreifende Übertragung beteiligt ist, kann die End-to-End-Zeit weniger als 100 ms betragen. Wenn es sich um eine regionenübergreifende Übertragung handelt, beispielsweise von China in die Vereinigten Staaten, ist es wahrscheinlicher, dass es 200–300 ms dauert.

zweite, Shengwang, gegründet im Jahr 2014, analysiert mithilfe von Data Mining verschiedene schwache Netzwerkszenarien auf der Grundlage der riesigen Mengen realer Szenendaten, die im Laufe der Jahre gesammelt wurden, und reproduziert sie dann im Labor. Dies bietet eine „Schussreichweite“ für die Optimierung des Übertragungsalgorithmus, sodass dieser auch mit komplexen und veränderlichen Netzwerkumgebungen zurechtkommt und rechtzeitig Anpassungen an der Übertragungsstrategie vornehmen kann, wenn während der Echtzeitübertragung ein entsprechend schwacher Netzwerkmodus auftritt glatter.

dritte, Für vertikale Branchen und spezifische Aufgaben versucht Shengwang auch, Modelle mit kleineren Parametern anzupassen, um die Reaktionszeit großer Modelle zu verkürzen. Die extremen Fähigkeiten großer Sprachmodelle und Sprachmodelle einer bestimmten Größe sind erkundungswürdige Richtungen, die der Schlüssel zur Optimierung der Kosteneffizienz und der Erfahrung mit geringer Latenz von Konversations-KI oder Chatbots sind.

zu guter Letzt, Das von Shengwang entwickelte RTC SDK ist auch für verschiedene Endgeräte angepasst und optimiert, insbesondere für einige Low-End-Modelle, die einen geringen Stromverbrauch, eine geringe Speichernutzung, eine extrem kleine Paketgröße usw. erreichen können. Insbesondere die geräteseitigen Fähigkeiten zur Sprachrauschunterdrückung, Echounterdrückung und Verbesserung der Videoqualität auf Basis von KI-Algorithmen können sich direkt auf den Umfang und die Wirkung von KI-Chatbots auswirken.

Zhongsheng stellte außerdem vor, dass sich im Zuge der Erforschung der Kombination von RTC- und Großmodelltechnologie auch der Umfang der RTC-Technologie selbst verändert.

Er nannte einige seiner Denkrichtungen, wie den Wechsel von der Übertragung von Audiosignalen zur Übertragung von Token, die von großen Modellen direkt verstanden werden können, und sogar die Implementierung von Speech-to-Text (STT) und Emotionserkennung am Ende, so dass nur Text und Damit verbundene Informationen können emotionale Parameter übermittelt werden.

Auf diese Weise können mehr Signalverarbeitungsprozesse auf der Endseite platziert werden und das Einbettungsmodell, das weniger Rechenleistung erfordert, kann näher am Benutzer platziert werden, wodurch der Bandbreitenbedarf des gesamten Prozesses und die Kosten des Cloud-Modells reduziert werden.

Von diesem Punkt an glaubt Zhong Sheng, dass die endgültige Kombination von KI- und RTC-Technologie in Richtung der Integration von Geräten und Clouds gehen wird.

Das heißt, Sie können sich nicht vollständig auf große Modelle in der Cloud verlassen. Dies ist hinsichtlich Kosten, Energieverbrauch und Latenzerfahrung nicht die beste Wahl.

Aus Sicht der End-Cloud-Integration muss sich die gesamte Infrastruktur entsprechend ändern. Dabei wird nicht nur die Rechenleistung in der Cloud genutzt, sondern auch die Rechenleistung von Mobiltelefonen. Auch die Übertragungsknoten am Rand werden die Rechenleistung verteilen und auch das Datenübertragungsprotokoll wird sich entsprechend ändern...

Derzeit haben Agora und große Hersteller von Modellanwendungen herausgefunden, wie das gehtDrei KooperationsmodelleDas heißt, die unterschiedlichen Bereitstellungsmethoden der drei Teile des Gesamtsystems: großes Modell, RTC und Cloud-Server:

Privater Einsatz:Shengwang stellt nur das RTC SDK bereit, das zusammen mit großen Modellen in den eigenen Rechenzentren der Partner bereitgestellt wird. Es eignet sich für Unternehmen mit selbst entwickelten großen Modellen oder einer großen Modellinferenzinfrastruktur.
Shengwang Cloud-Plattform: Shengwang stellt RTC SDK- und Cloud-Server-Ressourcen bereit, und Entwickler können Modelle, Bereitstellungsorte und Rechenressourcen entsprechend ihren Anforderungen flexibel auswählen. Sie müssen keine eigene Infrastruktur aufbauen und können schnell KI-Sprachanwendungen erstellen.
Agora End-to-End-Lösung: Shengwang bietet selbst entwickelte große Modelle, RTC SDK und Cloud-Server-Ressourcen. Vertikale Modelle können für segmentierte Branchen wie Bildung, E-Commerce, soziale Unterhaltung, Kundenservice usw. angepasst werden und sind tief in RTC-Funktionen integriert, um integrierte Sprachinteraktionslösungen bereitzustellen.

Darüber hinaus ist es bei bestehenden Kooperationsprojekten nicht mehr weit, bis die schnellste Bewerbung alle erreicht.

In der Kommunikation mit Acoustic Network gibt es einen weiteren neuen Trend in der Qubit-Entdeckung, der Aufmerksamkeit verdient:

Inländische KI-Anwendungen gehen allmählich über den Rahmen von Fragen und Antworten mit KI-Assistenten und emotionaler KI-Begleitung hinaus.

Nehmen Sie Branchen wie soziale Unterhaltung, E-Commerce-Live-Streaming und Online-Bildung. Was jeder am meisten beachtet, sind prominente Moderatoren im Internet und berühmte Lehrer. Digitale Menschen, die durch KI-Audio- und Videodialoge in Echtzeit gesteuert werden, können zu ihren „digitalen Klonen“ werden und weiterhin eins zu eins mit jedem Fan oder Schüler interagieren. Gleichzeitig sind die eigene Zeit und Energie des Benutzers begrenzt, er verfügt nicht über die Fähigkeit, sich in mehrere Aufgaben aufzuteilen, und er benötigt auch eigene KI-Klone. Mit der Entwicklung der Technologie, der Verbesserung der KI-Avatar-Technologieerfahrung und der Kostensenkung wird ihr Anwendungsbereich zunehmend erweitert.

Nehmen Sie die Worte von Zhong Sheng: „Das knappste Gut für Menschen ist Zeit“:

Wir alle müssen diese Erfahrung machen. Was ist, wenn zwei Treffen in Konflikt geraten und wir nur an einem teilnehmen können?

Sie können selbst an einer Veranstaltung teilnehmen und einen KI-Assistenten zu einer anderen Veranstaltung schicken, um spannende Informationen mitzubringen. Zukünftig kann dieser Assistent sogar Ihr eigener KI-Avatar sein. Während der Aktivität können Sie personalisierte Kommunikation führen, verschiedene Fragen basierend auf Ihren eigenen Interessen und Anliegen stellen oder beantworten und mit anderen Personen oder deren Avataren interagieren.

Daher kann der KI-Echtzeit-Audio- und Videodialog viel mehr als nur „Sie“.

Nachricht

„Her“ von OpenAI ist schwer zu liefern.

Einführung

meine Kontaktdaten