Belegung

GPT-4o-Spot verwandelt sich in Futures, was hält OpenAI zurück?

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Die RTC-Technologie ist einer der Schlüssel zur Popularität der Echtzeit-KI.


Autor |. Ray
bearbeiten|. Jingyu

Sie bewegt sich vom Film zur Realität.

Im Mai dieses Jahres veröffentlichte OpenAI das neueste multimodale KI-Großmodell GPT-4o. Im Vergleich zum vorherigen GPT-4 Turbo ist GPT-4o doppelt so schnell und halb so teuer. Die durchschnittliche Verzögerung der Echtzeit-KI-Sprachinteraktion beträgt 2,8 Sekunden (GPT-3,5) bis 5,4 Sekunden (GPT) im Vergleich zur Vorgängerversion . -4) erreicht sogar 320 Millisekunden – fast so viel wie die Reaktionsgeschwindigkeit im täglichen Dialog eines Menschen.

Nicht nur die Effizienz wird verbessert, auch die emotionale Analyse in Gesprächen gehört zu den Features dieses Produkt-Updates. Während des Gesprächs mit dem Gastgeber kann die KI die „Nervosität“ beim Sprechen hören und gezielte Vorschläge zum Durchatmen machen.

OpenAI, entwickelt sich zum siliziumbasierten „Schöpfer“ im Zeitalter großer Modelle.

Die Pressekonferenz war zwar schockierend, die Realität jedoch sehr dürftig. Nach der Markteinführung des Produkts entwickelt sich OpenAI, der Initiator dieser großen Technologierevolution, allmählich zu einem „Zukunftsunternehmen“.

Nach der Veröffentlichung des Allround-GPT-4o mit geringer Latenz verzögert sich die Veröffentlichung der Echtzeit-Audio- und Videofunktion noch; die Veröffentlichung des multimodalen Videoprodukts Sora verzögert sich jedoch ebenfalls.

Aber das ist nicht nur ein Problem für OpenAI als Unternehmen – nach der Veröffentlichung von ChatGPT gab es so viele inländische Versionen von ChatGPT wie Karausche, die den Fluss überquerten. Allerdings gibt es derzeit nur eine SenseTime 5.5, die GPT-4o wirklich übertrifft , und der Fortschritt ist derselbe. Bleiben Sie innerhalb eines Monats in der offenen Beta.

Warum ist das multimodale Echtzeit-Großmodell auf der Pressekonferenz nur einen Schritt davon entfernt, die Welt zu verändern, verwandelt sich aber im Prozess der tatsächlichen Entwicklung in Richtung Produktivierung immer von „Spot“ zu „Option“?

Eine neue Stimme taucht auf: In einer multimodalen Welt vollbringt (algorithmische) Gewalt vielleicht keine Wunder.

01

Echtzeitstimme,ein Stück

Muss passierenvonWeg zur KI-Kommerzialisierung

Die Reife der Technologie trägt dazu bei, dass eine neue Blue-Ocean-Industrie allmählich Gestalt annimmt.

Daten von a16z, einer bekannten Risikokapitalinstitution im Silicon Valley, zeigen, dass unter den Top 50 KI-Anwendungen mit weltweiten Nutzern neun Begleitprodukte sind. Daten aus der AI-Produktliste zeigen, dass die Zahl der Besuche bei AI Companion im Mai dieses Jahres 432 Millionen erreichte, was einem Anstieg von 13,87 % gegenüber dem Vorjahr entspricht.

Hohe Nachfrage, hohe Wachstumsrate, großer Marktraum und die Begleitung durch KI werden zu doppelten Veränderungen bei Geschäftsmodellen und der Mensch-Computer-Interaktion führen.

Die Reife der Wirtschaft erzwingt auch den kontinuierlichen Fortschritt der Technologie in umgekehrter Richtung.Wenn man allein die erste Hälfte dieses Jahres als Knotenpunkt betrachtet, hat die Echtzeit-KI-Sprachtechnologie in nur sechs Monaten bereits drei Iterationen durchlaufen.

Das repräsentative Produkt der ersten Technologiewelle ist Pi.

Im März dieses Jahres hat das Start-up Inflection AI seinen emotionalen Chatbot Pi für Einzelnutzer aktualisiert.

Die Produktoberfläche von Pi ist sehr einfach. Das Text- und Dialogfeld ist die zentrale interaktive Schnittstelle, es werden jedoch auch KI-Sprachfunktionen wie Sprachvorlesen und Telefonanrufe hinzugefügt.

Um diese Art der Sprachinteraktion zu erreichen, setzt Pi auf die traditionelle dreistufige Sprachtechnologie STT (Speech Recognition, Speech-to-Text), LLM (Large Model Semantic Analysis) und TTS (Text To Speech). Es zeichnet sich durch ausgereifte Technologie, aber langsame Reaktion, mangelndes Verständnis wichtiger Informationen wie Ton und die Unfähigkeit aus, einen echten Sprachdialog in Echtzeit zu erreichen.

Ein weiteres vorgestelltes Produkt aus derselben Zeit ist Call Annie. Im Vergleich zu Pi verfügt Call Annie über ein vollständiges Videoanruf-Erlebnisdesign. Zusätzlich zum Design zum Annehmen und Auflegen von Anrufen kann die Gehorsamsfunktion auch minimiert und auf andere Apps umgestellt werden, und unterstützt mehr als 40 Gesprächsrolleneinstellungen.

Allerdings haben sie alle gemeinsame technische Probleme – hohe Latenz und mangelnde emotionale Färbung. In Bezug auf die Latenz wird selbst das fortschrittlichste OpenAI der Branche eine Verzögerung von 2,8 Sekunden (GPT-3,5) bis 5,4 Sekunden (GPT-4) erleben.Auf emotionaler Ebene gehen bei der Interaktion Informationen wie Tonfall, Tonhöhe und Sprechgeschwindigkeit verloren und es wird unmöglich sein, fortgeschrittene Sprachausdrücke wie Lachen und Singen wiederzugeben.

Danach ist der Vertreter der neuen Technologiewelle ein Produkt namens EVI.

Dieses Produkt wurde von Hume AI im April dieses Jahres auf den Markt gebracht und brachte Hume AI eine Serie-B-Finanzierung in Höhe von 50 Millionen US-Dollar (ca. 362 Millionen Yuan) ein.

In Bezug auf das Produktdesign hat Hume AI eine Spielplatzfunktion im zugrunde liegenden Algorithmus eingeführt. Benutzer können neben der offiziellen Standardkonfiguration auch Claude, GPT-4 Turbo usw. auswählen.Der Unterschied besteht jedoch darin, dass die Stimme Emotionen transportiert, sodass es auch zu Veränderungen im Rhythmus und in der Intonation des Ausdrucks kommt.

Die Realisierung dieser Funktion basiert hauptsächlich auf der Hinzufügung des neuen SST-Algorithmus (Semantic Space Theory, semantische Raumtheorie) zum traditionellen dreistufigen STT-LLM-TTS-Prozess. SST kann durch umfangreiche Datenerfassung und fortschrittliche statistische Modelle das gesamte Spektrum menschlicher Emotionen genau abbilden, die Kontinuität zwischen menschlichen emotionalen Zuständen aufdecken und EVI viele anthropomorphe Merkmale verleihen.

Der Preis für den emotionalen Fortschritt ist das weitere Opfer der Zeitverzögerung, die Zeit, die der Benutzer warten muss, um mit EVI zu sprechen, ist im Vergleich zu Pi und Call Annie noch länger.

Mitte Mai wurde GPT-4o veröffentlicht und die Integration multimodaler Technologie wurde zur technischen Richtung dieser Zeit.

Im Vergleich zu früheren dreistufigen Sprachinteraktionsprodukten ist GPT-4o ein neues Modell, das durchgängig über Text, Bild und Audio trainiert wird, was bedeutet, dass alle Ein- und Ausgaben von demselben neuronalen Netzwerk verarbeitet werden.

Auch das Verzögerungsproblem wurde deutlich verbessert. OpenAI gab offiziell bekannt, dass die Echtzeit-Sprachinteraktion von GPT-4o auf Audioeingaben mit einer Höchstgeschwindigkeit von 232 Millisekunden und einem Durchschnitt von 320 Millisekunden reagieren kann. Emotional ist die Interaktion zwischen Nutzern und KI immer intelligenter geworden, wobei Veränderungen in der Sprachgeschwindigkeit und im emotionalen Verständnis erreicht werden.

Auf Produktebene wird es möglich, dass sich Menschen in die KI verlieben und dass die KI blinde Menschen beim Sehen der Welt ersetzt.

Character.ai, das kürzlich die Sprachanruffunktion eingeführt hat und im Jahr 2024 ein auffälliger neuer Star im Silicon Valley ist, ist zum größten Nutznießer dieser Technologiewelle geworden.

Bei Character.ai haben Benutzer die Möglichkeit, in ultrarealistischen Rollenspielen mit Nachbildungen von Anime-Charakteren, TV-Persönlichkeiten und historischen Figuren zu texten. Laut Daten von Similarweb kann Character.ai 20.000 KI-Inferenzanfragen pro Sekunde verarbeiten, und die Zahl der Besuche lag im Mai bei bis zu 277 Millionen.


Traffic-Vergleich zwischen Character.ai und perplexity.ai|Bildquelle: Similarweb

Gleichzeitig haben Microsoft, Google und andere offiziell angekündigt, dass ihre großen Modelle Echtzeit-Sprachanruffunktionen einführen werden.

Das wasserdichte Produktdesign in der tatsächlichen Umsetzung zeigt jedoch immer die Umsetzungswirkung des Drei-Schluchten-Hochwasserabflusses – in der dritten Welle haben sich die fast „ihren“ Begleitprodukte auf der Pressekonferenz alle in der tatsächlichen Umsetzung verändert wird zu einem „Plan“ für den Start, wird bald eingeführt und befindet sich in internen Tests.

Eine unbestrittene Schlussfolgerung ist, dass Echtzeit-Audio und -Video die ultimative Form der Mensch-Computer-Interaktion werden könnenKIZusätzlich zur Begleitszene wird erwartet, dass Szenen wie spielintelligente NPCs, KI-Sprachlehrer und Echtzeitübersetzungen explodieren. Zuvor gilt es jedoch, die letzte Meile von der „Pressekonferenz“ bis zur Produkteinführung zu lösen ist heute das schwierigste Problem in der Branche.

02

KI-Echtzeitstimme,

Keine Wunder mit großer Kraft

KIEchtzeitstimme „Keine Wunder mit großen Anstrengungen“, ein pessimistisches Sprichwort verbreitet sich leise im Silicon Valley.

Widerstand kommt aus allen Bereichen der Technologie, Regulierung und Wirtschaft.

Der geistige Anführer der technischen Opposition ist Yann LeCun, der „Vater der Faltungsnetzwerke“.

Seiner Ansicht nach besteht das größte Merkmal der Großmodelltechnologie im Vergleich zu verschiedenen KI-Algorithmen in der Vergangenheit darin, dass „große Anstrengungen Wunder bewirken können“. Durch die Einspeisung großer Datenmengen sowie die Hardwareunterstützung von Rechenclustern mit Hunderten Millionen Parametern und hoher Leistung können Algorithmen zur Bewältigung komplexerer Probleme und zur Erzielung einer höheren Skalierbarkeit eingesetzt werden. Derzeit sind wir jedoch zu optimistisch, was große Modelle angeht, insbesondere die Ansicht, dass multimodale große Modelle Weltmodelle sein könnten, was noch mehr Unsinn ist.

Zum Beispiel verfügen Menschen über fünf Sinne, die unser wahres Verständnis der Welt ausmachen, das auf einer Vielzahl von Internettexten basiert, denen es an Beobachtung und Interaktion mit der physischen Welt mangelt und denen es auch an genügend gesundem Menschenverstand mangelt. Daher wird es im Prozess der Video- oder Sprachgenerierung immer scheinbar nahtlose Inhalte, Bewegungsverläufe oder Sprachemotionen geben, aber es mangelt an Realismus. Darüber hinaus stellen auch harte physikalische Einschränkungen ein Problem dar. Angesichts der zunehmenden Modellgröße und Interaktionsdimensionen fehlt es den aktuellen großen Modellen an ausreichender Bandbreite, um solche Informationen zu verarbeiten.

Regulierungsebene,KIEchtzeitsprache, also das große End-to-End-Sprachmodell, steht vor einem Spiel zwischen Technologie und Ethik.

In der Vergangenheit wurde der dreistufige Prozess von STT-LLM-TTS in der traditionellen KI-Sprachbranche zunächst durch unausgereifte Technologie verursacht. Die Entwicklung zu einem durchgängigen großen Sprachmodell erfordert eine zusätzliche Implementierung in Bezug auf Modellarchitektur und Trainingsmethoden und multimodaler technologischer Durchbruch. Da Sprache selbst schwieriger zu überwachen ist als Text, kann KI-Sprache gleichzeitig problemlos in Szenarien wie Telefonbetrug, Pornografie und Spam-Marketing eingesetzt werden. Um die Durchsicht zu erleichtern, ist in gewissem Umfang auch der Zwischentextlink notwendig geworden.

Und auf geschäftlicher Ebene, End-to-End-Audio- und Video-Training mit großen Modellen erfordert während der Trainingsphase eine große Menge an YouTube- und Podcast-Daten. Die Kosten für das Training beginnen bei Dutzenden von Malen oder sogar höher Millionen von Dollar.

Was diese Art von Kosten angeht, ist es für gewöhnliche KI-Unternehmen derzeit sinnlos, Geld vom Himmel fallen zu lassen. Sie müssen auch für NVIDIAs High-End-KI-Rechnerkarten, Gigabit-Speicher und unerschöpfliche, risikofreie Audio- und Video-Urheberrechte bezahlen .

Ob es nun Yang Likuns technisches Urteilsvermögen, mögliche regulatorische Schwierigkeiten oder das Kostendilemma der Kommerzialisierung sind, das sind natürlich nicht die Kernthemen von Open AI.

Machen Sie den GPT-4o-Kurs wirklich in EchtzeitKIDer Hauptgrund, warum sich Sprachinteraktionsprodukte von Spot- zu Futures gewandelt haben, liegt auf der Ebene der Projektumsetzung.

03

GPT-4o zur Demonstration mit eingestecktem Netzwerkkabel,

Es fehlt noch ein nützlicher RTC-Assistent

Ein stillschweigendes Geheimnis in der Branche ist, GPT-4o-KlasseKIEchtzeit-Sprachprodukte sind auf technischer Ebene nur die halbe Miete.

Beim Start von GPT-4o wurde zwar eine geringe Latenz behauptet, einige scharfsichtige Benutzer stellten jedoch fest, dass das Mobiltelefon im Demonstrationsvideo immer noch mit einem Netzwerkkabel angeschlossen war.Dies bedeutet auch, dass die von GPT-4o offiziell angekündigte durchschnittliche Verzögerung von 320 ms wahrscheinlich eine Demonstration fester Geräte, fester Netzwerke und fester Szenarien ist und ein Laborindikator ist, der unter idealen Bedingungen erreicht werden kann.


Die GPT-4o-Auftaktkonferenz von OpenAI zeigt deutlich, dass Mobiltelefone angeschlossen sind |

Wo ist das Problem?

Wenn man es von der technischen Ebene zerlegt, um KI-Echtzeit-Sprachanrufe zu realisieren, werden die drei Schritte auf der Algorithmusebene zu einem zusammengefasst, was nur eine der Kernverbindungen ist. Die andere Kernverbindung, die RTC-Kommunikationsebene, steht ebenfalls vor einer Reihe technischer Herausforderungen. Unter dem sogenannten RTC versteht man einfach die Übertragung und Interaktion von Audio und Video in einer Echtzeit-Netzwerkumgebung. Dabei handelt es sich um eine Technologie, die Echtzeit-Sprache, Echtzeit-Video und andere Interaktionen unterstützt.

Chen Ruofei, Leiter der Audiotechnologie bei Agora, erklärte gegenüber Geek Park, dass sich Benutzer in tatsächlichen Anwendungsszenarien normalerweise nicht immer in festen Geräten, festen Netzwerken und festen physischen Umgebungen aufhalten können. Wenn in unseren täglichen Videoanrufszenarien das Netzwerk einer Partei schlecht ist, kommt es zu Sprachverzögerungen und Verzögerungen. Diese Situation tritt auch bei KI-Echtzeit-Sprachanrufen auf, sodass eine Übertragung mit geringer Latenz und eine hervorragende Netzwerkoptimierung für die RTC-Übertragung von entscheidender Bedeutung sind.

Darüber hinaus sind Multi-Device-Anpassung, Audiosignalverarbeitung usw. auch technische Aspekte, die bei der Implementierung von KI-Echtzeitsprache nicht außer Acht gelassen werden dürfen.

Wie können diese Probleme gelöst werden?

Die Antwort liegt in den neuesten Rekrutierungsanforderungen von OpenAI. OpenAI erwähnte ausdrücklich, dass es technische Talente rekrutieren möchte, um sie bei der Bereitstellung der fortschrittlichsten Modelle in der RTC-Umgebung zu unterstützen.

In Bezug auf die spezifische Lösungsauswahl handelt es sich bei der von GPT-4o verwendeten RTC-Technologie um eine auf WebRTC basierende Open-Source-Lösung, die bestimmte Verzögerungen auf technischer Ebene sowie Paketverluste, Kommunikationsinhaltssicherheit und plattformübergreifende Probleme beheben kann verschiedene Netzwerkumgebungen.

Die B-Seite von Open Source ist jedoch die Schwäche der Produktisierung.

Um ein einfaches Beispiel zu nennen: In Bezug auf Anpassungsprobleme bei mehreren Geräten werden RTC-Nutzungsszenarien hauptsächlich durch Mobiltelefone repräsentiert, aber die Kommunikations- und Tonerfassungsfähigkeiten verschiedener Mobiltelefonmodelle variieren stark: Derzeit können Apple-Mobiltelefone eine stabile Verzögerung von erreichen Das Android-Ökosystem ist jedoch relativ komplex und weist nicht nur viele Modelle auf, sondern auch die Latenz zwischen High-End- und Low-End-Produkten kann auf der Erfassungs- und Kommunikationsebene Hunderte von Millisekunden betragen.

Ein weiteres Beispiel: In KI-Echtzeit-Sprachanwendungsszenarien können menschliche Sprachsignale mit Hintergrundgeräuschen gemischt werden, um Rauschen und Echo zu entfernen und eine saubere und qualitativ hochwertige Spracheingabe zu gewährleisten, damit die KI Menschen besser verstehen kann . die Worte sagten.

Multi-Geräte-Kompatibilität und erweiterte Funktionen zur Audio-Rauschunterdrückung sind auch das, was Open-Source-WebRTC fehlt.

Branchenerfahrung ist ein Engpass bei der Anwendung von Open-Source-Produkten. Daher arbeiten große Modellhersteller und professionelle RTC-Lösungsanbieter im Vergleich zu Open-Source-Lösungen zusammen, um diese zu polieren und zu optimieren, was in gewissem Maße zukünftige Branchentrends besser abbilden kann.

Im Bereich RTC ist Agora der bekannteste Hersteller für die Bereitstellung von Audiotechnologie für Clubhouse. Mehr als 60 % der Pan-Entertainment-Apps weltweit entscheiden sich für den RTC-Dienst Neben bekannten inländischen Unternehmen Neben Apps wie Xiaomi, Bilibili, Momo und Xiaohongshu, Yalla, der größten Sprach-Social- und Entertainment-Plattform im Nahen Osten und Nordafrika, Kumu, dem „König der sozialen Live-Broadcasting-Plattformen“ in Südostasien, HTC VIVE, The Meet Group, Bunch und anderen globalen Plattformen. Namhafte Unternehmen haben die RTC-Technologie von Agora übernommen.


Der Aufbau von Branchenerfahrung und die Pflege globaler Kunden sind ein weiterer Beweis für die Technologieführerschaft. Laut Chen Ruofei deckt das von Shengwang selbst entwickelte SD-RTN™-Echtzeitübertragungsnetzwerk mehr als 200 Länder und Regionen auf der ganzen Welt ab, und die globale End-to-End-Verzögerung von Audio und Video erreicht durchschnittlich 200 ms. Als Reaktion auf Schwankungen in der Netzwerkumgebung können die intelligente Routing-Technologie und der Anti-Schwach-Netzwerk-Algorithmus von SoundNet die Stabilität und den Fluss von Anrufen gewährleisten. Angesichts der Unterschiede bei den Endgeräten hat Shengwang Hunderte Millionen vorinstallierter Apps auf der ganzen Welt angesammelt und Know-how bei der Anpassung an komplexe Umgebungen gesammelt.

Neben der Technologieführerschaft ist Branchenerfahrung eine unsichtbare Barriere.

Aus diesem Grund ist die Geschäftslandschaft der RTC-Branche über die Jahre hinweg relativ stabil geblieben:Um bei RTC gute Arbeit zu leisten, haben wir uns nie auf das groß angelegte Modell „Große Anstrengungen können Wunder bewirken“ verlassen.

Der einzige Weg, eine ultimative Optimierung der Sprachverzögerung und eine universelle Kommerzialisierung der Echtzeit-Sprachinteraktion zu erreichen, ist durch angesammelte und intensive Arbeit im Laufe der Zeit.

Und aus dieser PerspektiveKISprachinteraktion in Echtzeit ist ein Kampf, der in Bezug auf Vorstellungskraft und Schwierigkeitsgrad nicht unterschätzt werden sollte.

Seine Zukunft – Algorithmen, Audits und RTC müssen alle Level bestehen. Um diesen langen Weg zu bewältigen, müssen wir nicht nur in den Sternenhimmel der Technik blicken, sondern auch auf dem Boden der Technik stehen.

*Quelle des Headerbildes: Visual China

Bei diesem Artikel handelt es sich um einen Originalartikel von Geek Park. Für einen Nachdruck wenden Sie sich bitte an Geek Jun auf WeChat geekparkGO

Geek fragte

Welche KI-Begleit-Apps haben Sie verwendet?


Zuckerbergs Erfolgsgeheimnis: Lassen Sie sich nicht von den Filmen täuschen, niemand weiß überhaupt, wie man es macht.

Liken und folgenGeek Park-Videokonto