Die GPT-4o-Version „Her“ ist endlich da! Witze erzählen und miauen wie eine Katze – wie sexy kann eine KI-Freundin sein?

2024-07-31

Neuer Weisheitsbericht

Herausgeber: Taozi ist so schläfrig

[Einführung in die neue Weisheit] Die GPT-4o-Sprachfunktion kommt endlich wie erwartet und die Science-Fiction-Version von Her wird Wirklichkeit! Einige Internetnutzer, die Grayscale getestet haben, sind verrückt geworden. Allerdings bietet OpenAI derzeit nur 4 voreingestellte Stimmen. Darüber hinaus stieg auch der Ausgabetoken des neuen GPT-4o-Modells um das 16-fache auf 64.000.

Ultramans Versprechen wurde endlich erfüllt.

Noch vor Ende Juli hat der GPT-4o-Sprachmodus endlich mit Graustufentests begonnen, und eine kleine Anzahl von ChatGPT Plus-Benutzern hat bereits Early Adopter-Tickets erhalten.

Wenn Sie nach dem Öffnen der ChatGPT-App die folgende Benutzeroberfläche sehen, herzlichen Glückwunsch, dass Sie zu den ersten Glücklichen gehören.

Laut OpenAI sorgt der erweiterte Sprachmodus für ein natürlicheres Gespräch in Echtzeit, kann nach Belieben unterbrochen werden und kann sogar Ihre Emotionen spüren und darauf reagieren.

Es wird erwartet, dass alle ChatGPT Plus-Benutzer diese Funktion im Herbst nutzen können.

Darüber hinaus wird später eine leistungsfähigere Video- und Bildschirmfreigabe eingeführt. Mit anderen Worten: Durch Einschalten der Kamera können Sie mit ChatGPT „von Angesicht zu Angesicht“ chatten.

Einige Internetnutzer, die von Graustufen betroffen waren, begannen nacheinander mit Tests und entdeckten viele Anwendungsfälle für den GPT-4o-Sprachmodus.

Nein, manche Leute lassen es als „Coach für eine zweite Fremdsprache“ fungieren, um sich selbst beizubringen, wie man das Sprechen übt.

Im folgenden Unterricht half ChatGPT den Internetnutzern, die Aussprache von Croissant (Croissant) und Baguette (französisches Baguette) zu korrigieren.

Gleichzeitig stiegen die ausgegebenen Token von GPT-4o um das 16-fache, von ursprünglich 4.000 Token auf 64.000 Token.

Dies ist das neue Beta-Modell gpt-4o-64k-output-alpha, das OpenAI kürzlich stillschweigend auf seiner offiziellen Website veröffentlicht hat.

Ein längeres Ausgabetoken bedeutet, dass ungefähr vier vollständige Drehbücher für Spielfilme gleichzeitig abgerufen werden können.

Sie ist gekommen

Der Grund, warum die GPT-4o-Sprachfunktion jetzt veröffentlicht wird, liegt darin, dass OpenAI in den letzten Monaten Sicherheits- und Qualitätstests dafür durchgeführt hat.

Sie testeten die Sprachfunktionen von GPT-4o in 45 Sprachen mit über 100 roten Teammitgliedern.

Um die Privatsphäre der Menschen zu schützen, trainierte das Team das Modell so, dass es nur mit vier „Standardstimmen“ spricht.

Sie haben auch ein System entwickelt, um die Ausgabe anderer als dieser vier Geräusche zu blockieren.

Darüber hinaus ist auch die Filterung von Inhalten unerlässlich, und das Team hat außerdem Maßnahmen ergriffen, um die Generierung von gewalttätigen und urheberrechtlich geschützten Inhalten zu verhindern.

OpenAI hat angekündigt, dass es plant, Anfang August einen detaillierten Bericht über die Fähigkeiten, Einschränkungen und Sicherheitsbewertung von GPT-4o zu veröffentlichen.

Tatsächliche Messung im gesamten Netzwerk

Im Folgenden finden Sie einige Fälle des GPT-4o-Sprachmodus, die von Internetnutzern geteilt werden.

ChatGPT kann Beatboxing durchführen.

ChatGPT erzählte auch Bierwitze in schüchternem, wütendem und wütenderem Ton.

Einige Internetnutzer erzählten speziell für ChatGPT einen Witz: „Warum glauben Wissenschaftler nicht an Adam-Atom, weil sie alles ausmachen?“

ChatGPT lachte verlegen.

Was noch lustiger ist, ist, dass ChatGPT immer noch eine Möglichkeit hat, das Miauen zu lernen.

Nach einigen Tests stellte jemand fest, dass der erweiterte Sprachmodus von ChatGPT sehr schnell ist und es fast keine Verzögerung bei der Beantwortung gibt.

Wenn Sie aufgefordert werden, bestimmte Geräusche zu imitieren, werden die Geräusche stets realistisch wiedergegeben. Und auch unterschiedliche Akzente können nachgeahmt werden.

Das Video unten zeigt die Szene, in der KI als Kommentator für ein Fußballspiel fungiert.

ChatGPT erzählt Geschichten auf Chinesisch, was auch sehr anschaulich ist.

Obwohl OpenAI behauptet, dass die Video- und Bildschirmfreigabefunktionen später eingeführt werden, haben einige Internetnutzer sie bereits als erste genutzt.

Ein Internetnutzer hat eine neue Hauskatze. Er baute ein Nest für sie und bereitete ihr Futter vor, wusste aber nicht, was er tun sollte, also fragte er ChatGPT.

Während des Gesprächs im Video zeigte der Internetnutzer ihr das Haus der Katze. Nachdem er es gesehen hatte, kommentierte ChatGPT: „Es muss sehr bequem sein“ und war besorgt darüber, wie es der Katze ging.

Internetnutzer sagten, dass es noch nichts gegessen habe und sahen etwas besorgt aus. ChatGPT tröstete: „Das ist normal. Katzen brauchen Zeit, um sich daran zu gewöhnen.“

Es ist ersichtlich, dass der gesamte Frage- und Antwortprozess sehr reibungslos verläuft und den Menschen das Gefühl gibt, mit echten Menschen zu kommunizieren.

Netizens haben auch die japanische Version der Spielekonsole ausgegraben, aber sie sprechen kein Japanisch.

Zu diesem Zeitpunkt zeigte er ChatGPT die Spieloberfläche und bat ihn, sie für ihn zu übersetzen. Schließlich beendete Hu das Spiel gemeinsam.

Ich muss sagen, dass ChatGPT mit dem Segen des visuellen + Sprachmodus viel stärker ist.

GPT-4o Long Output ist leise online, mit einer Ausgabe von bis zu 64 KB

Darüber hinaus wird GPT-4o folgen, das eine größere Token-Ausgabe unterstützt.

Erst gestern gab OpenAI offiziell bekannt, dass es Testern die GPT-4o Alpha-Version zur Verfügung stellen wird, die die Ausgabe von bis zu 64.000 Token pro Anfrage unterstützt, was einem 200-seitigen Roman entspricht.

Allerdings hat der Preis des neuen Modells noch einmal eine neue Obergrenze gesetzt. Es kostet 6 US-Dollar pro Million Input-Tokens und 18 US-Dollar pro Million Output-Tokens.

Obwohl der Output-Token 16-mal so groß ist wie der von GPT-4o, ist auch der Preis um 3 US-Dollar gestiegen.

Nach einem solchen Vergleich ist gpt-4o-mini tatsächlich günstiger!

Der Forscher Simon Willison sagte, dass lange Ausgaben hauptsächlich für Anwendungsfälle der Datentransformation verwendet werden.

Um beispielsweise Dokumente von einer Sprache in eine andere zu übersetzen oder strukturierte Daten aus Dokumenten zu extrahieren, muss fast jedes Eingabetoken im Ausgabe-JSON verwendet werden.

Zuvor war das Modell mit der längsten Ausgabe, das er kannte, der GPT-4o mini mit 16.000 Token.

Warum ein Modell mit längerer Leistung auf den Markt bringen?

Offensichtlich ermöglicht eine längere Ausgabe GPT-4o eine umfassendere und detailliertere Antwort, was für einige Szenarien sehr hilfreich ist.

Zum Beispiel Code schreiben und das Schreiben verbessern.

Dies ist auch eine von OpenAI vorgenommene Anpassung, die auf dem Feedback der Benutzer basiert, dass längere Ausgabeinhalte erforderlich sind, um den Anwendungsfall zu erfüllen.

Unterschied zwischen Kontext und Ausgabe

Seit seiner Einführung bietet GPT-4o ein maximales Kontextfenster von 128 KB. Für die GPT-4o-Langausgabe beträgt das maximale Kontextfenster immer noch 128 KB.

Wie erhöht OpenAI also die Anzahl der Ausgabe-Tokens von 4.000 auf 64.000 und behält gleichzeitig das Gesamtkontextfenster von 128.000 bei?

Dies liegt daran, dass OpenAI die Anzahl der ausgegebenen Token zunächst auf maximal 4.000 Token begrenzte.

Das bedeutet, dass Benutzer in einer Interaktion bis zu 124.000 Token als Eingabe verwenden können und nur bis zu 4.000 Ausgabe-Token erhalten können.

Natürlich können Sie auch mehr Token eingeben, wodurch weniger Token ausgegeben werden.

Schließlich ist dort die Länge des langen Kontexts (128 KB) festgelegt. Unabhängig davon, wie sich die Eingabe ändert, wird das Ausgabetoken 4000 nicht überschreiten.

Jetzt begrenzt OpenAI die Ausgabe-Token-Länge auf 64.000 Token, was bedeutet, dass Sie 16-mal mehr Token als zuvor ausgeben können.

Denn der Output ist rechenintensiver und der Preisanstieg größer.

Ebenso beträgt der Kontext für den neuesten GPT-4o mini ebenfalls 128 KB, die maximale Ausgabe wurde jedoch auf 16.000 Token erhöht.

Anschließend können Benutzer bis zu 112.000 Token als Eingabe bereitstellen und erhalten letztendlich bis zu 16.000 Token als Ausgabe.

Im Allgemeinen bietet OpenAI hier eine Lösung, um das Eingabetoken zu begrenzen, um eine längere Antwort von LLM zu erhalten, anstatt die Kontextlänge direkt zu erweitern.

Was andere Modelle auf dem Markt betrifft, so hat das lange Modell eine Million überschritten (Gemini), und das etwas kürzere hat 200.000 (Claude); einige haben sogar Modellausgaben, die 200.000 erreicht haben, und OpenAI ist immer noch da.

Dies stellt Entwickler auch vor ein schwieriges Problem: Wenn Sie mehr eingeben möchten, müssen Sie weniger Ausgaben akzeptieren. Wenn Sie mehr Ausgaben wünschen, müssen Sie weniger eingeben.

Wie man es misst, hängt davon ab, welches man bereit ist zu opfern ...

Verweise:

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/

Nachricht