der erweiterte sprachmodus von chatgpt ist vollständig geöffnet. die details, die sie wissen müssen, finden sie hier

2024-09-25

es besteht kein grund, bis zum herbst zu warten. openai gab heute morgen bekannt, dass die neue version des erweiterten sprachmodus von chatgpt diese woche vollständig für alle plus- und team-benutzer bereitgestellt wird.

openai-ceo sam altman hat auf der x-plattform gepostet:

der erweiterte sprachmodus wird heute offiziell eingeführt! (wird diese woche vollständig veröffentlicht) ich hoffe, sie haben das gefühl, dass sich das warten lohnt🥺🫶

allerdings gibt es in der neuen version des erweiterten sprachmodus auch eine tägliche nutzungszeitbeschränkung, und diese beschränkung wird sich ebenfalls ändern. wenn dem benutzer noch 15 minuten verbleiben, gibt das system eine erinnerung aus.

das bedeutet, dass es möglicherweise nicht realistisch ist, ihn als engen ki-freund zu nutzen, mit dem man 24 stunden am tag über alles reden kann.

es gibt zwei einfache möglichkeiten, um festzustellen, ob sie push-qualifikationen erworben haben.

wenn sie zum pushen berechtigt sind, wird zunächst die folgende benachrichtigung in der app angezeigt, wenn sie zum ersten mal auf den sprachmodus zugreifen:

die zweite methode besteht darin, die anzahl der stimmstile zu überprüfen.

zuvor unterstützte chatgpt fünf voreingestellte sprachstile, wurde jedoch später aufgrund eines rechtsstreits zwischen dem sprachstil „sky“ und „widow sister“ aus den regalen genommen.

heute führt openai fünf neue stimmstile ein, die natürlicher klingen: vale, spruce, arbor, maple und sol.

die offizielle website von openai beschreibt diese neun sounds wie folgt:

arbor – lässig und vielseitig

breeze – lebhaft und ernst

cove – ruhig und unkompliziert

ember – selbstbewusst und optimistisch

wacholder – offen und optimistisch

ahorn – fröhlich und offen

sol – smart und entspannt

fichte – ruhig und selbstbewusst

vale – intelligent und neugierig

nachdem sie sich den neuen sprachstil angehört haben, haben alle internetnutzer ihre eigenen vorlieben. einige vermissen „sky“, während andere bereits in den neuen stimmstil versunken sind. sol ist derzeit der beliebteste ton. gerne können sie ihn im kommentarbereich teilen.

welche auswirkung hat der erweiterte sprachmodus von chatgpt?

der beamte liefert ein beispiel: wenn sie sich aufrichtig bei ihrer oma entschuldigen möchten, die nur mandarin spricht, können sie dazu chatgpt verwenden, das mehr als 50 sprachen spricht.

sie haben es richtig gehört, chatgpt hat folgendes auf mandarin klar und prägnant gesagt:

oma, es tut mir leid, ich wollte dich nicht so lange warten lassen.

darüber hinaus unterstützt der erweiterte sprachmodus von chatgpt jetzt das festlegen benutzerdefinierter befehle.

die mitarbeiter von openai weisen darauf hin, dass die stimmmodalität (die art und weise, wie eine stimme vorgetragen wird) viele elemente enthält, die sich möglicherweise nicht in einer textkonversation widerspiegeln, wie etwa akzent, intonation, rhythmus usw.

jetzt können benutzer die art und weise, wie ein ki-modell spricht, durch einstellungen anpassen, die genauer beschreiben, wie der benutzer das modell sprechen möchte.

sie nannte beispiele wie das modell, das in einem bestimmten rhythmus spricht, sich deutlich ausspricht, langsam spricht und regelmäßig den namen des benutzers verwendet. sie empfiehlt, einfach anzufangen und dem model beispielsweise den namen des benutzers und einige grundlegende informationen mitzuteilen.

in einem konkreten szenario fragen benutzer, welche lustigen dinge sie am wochenende unternehmen können. der erweiterte sprachmodus von chatgpt bietet vorschläge basierend auf dem wetter und dem standort des benutzers (der bay area), z. b. wandern, picknicken oder fahren entlang der route 1.

oder wenn sie sagt, dass ihr die idee, durch die landschaft zu fahren, gefällt und sie fragt, welche route sie nehmen soll, kann chatgpt einen detaillierten plan ausarbeiten.

kurz gesagt: durch die anpassung der stimme und interaktion des modells kann der erweiterte sprachmodus von chatgpt spezifische vorschläge basierend auf den vorlieben und bedürfnissen des benutzers liefern und so die interaktionen natürlicher und nützlicher gestalten.

darüber hinaus wurden die konversationsgeschwindigkeit, der sprachfluss und der akzent der neuen version des erweiterten sprachmodus von chatgpt erheblich verbessert. dies kann als ihr fremdsprachenpartner wirklich eine überlegung wert sein.

als er über die benutzererfahrung sprach, sagte der openai-modelldesigner drew, dass chatgpt ruhig bleibt, wenn er etwas tut oder nicht mit chatgpt sprechen muss.

wenn er eine frage hat, stellt er sie, und die frage kann sich zu einem langen gespräch entwickeln.

während eines gesprächs passt sich die stimme von chatgpt dem ton des gesprächs an. für ihn ist chatgpt wie ein freund, der neben ihm sitzt und nicht nur informationen liefert, sondern auch ideen kommuniziert.

in der praxis können sie damit auch interviews und andere szenarien üben, ohne sich gedanken über verzögerungen machen zu müssen.

„ich meine, die latenz ist so gering, es ist, als würde man mit einem anderen menschen sprechen“, betonte drew.

die ersten benutzererfahrungen finden sie in den vorherigen artikeln von appso👇

die ersten benutzererfahrungen zum gpt-4o-sprachmodus sind da! der film „her“ ist endlich wahr geworden, netizen: ich hätte mich fast in sie verliebt

es ist erwähnenswert, dass die neue version des von openai eingeführten erweiterten sprachmodus derzeit nicht für die eu, das vereinigte königreich, die schweiz, island, norwegen und liechtenstein zugänglich ist.

ein stein löste tausende wellen aus und die betroffenen internetnutzer waren sowohl wütend als auch hilflos.

leider ist die video- und bildschirmfreigabe von chatgpt immer noch nicht live.

vor vier monaten wurde diese funktion auf einer pressekonferenz vorgestellt. damals zeigte uns openai auch, wie man chatgpt in echtzeit nach der mathematischen aufgabe auf dem papier vor ihnen oder dem code auf dem computerbildschirm fragen kann.

derzeit hat openai nicht angegeben, wann diese funktion eingeführt wird.

in einer ki-branche, in der die entwicklung immer unvorhersehbar ist, ist der verspätete erweiterte sprachmodus im wesentlichen ein kastriertes produkt.

es gibt keine neuen funktionen, die allzu auffällig sind, und es hat nicht einmal die funktionalen verpflichtungen auf der mai-konferenz erfüllt. der aufgewärmte vorstoß in vollem umfang ähnelt eher einem produkt, das auf das neue modell von google abzielt.

paradoxerweise scheint sich das „coming soon“ im openai-wörterbuch von unserem zu unterscheiden.

einige seit langem versprochene funktionen könnten morgen oder nächstes jahr bedeuten.

wenn sie es aus einem anderen blickwinkel betrachten, ist openai, das über hervorragende technische fähigkeiten verfügt, auch ein unternehmen, das fantasie verkauft. worauf wir uns am meisten freuen, ist möglicherweise ihr nächster versuch.

schließlich ist es für sie doch eine tradition geworden, oder?

noch etwas

die offizielle openai-website hat heute eine version der qa-antworten zum chatgpt-sprachmodus aktualisiert. wir haben auch einige praktische antworten kurz zusammengefasst, in der hoffnung, für sie von nutzen zu sein.

1. wenn sie den erweiterten sprachmodus verwenden, können sie weiterhin im hintergrund ihres telefons bleiben und das gespräch fortsetzen.

2. wenn sie vom text- oder standard-sprachmodus in den erweiterten sprachmodus wechseln, beachten sie bitte, dass sie nicht zum vorherigen text- oder standard-sprachkonversationsstatus zurückkehren können.

3. bei der verwendung von bluetooth im auto oder freisprechfunktionen im auto kann das erlebnis des erweiterten sprachdialogs beeinträchtigt sein, da openai derzeit keine spezielle optimierung für diese geräte bietet.

3. der erweiterte sprachdialog steht gpts noch nicht zur verfügung. mit gpts können sie nur standard-sprachgespräche führen. gpts haben ihre eigene einzigartige sprachoption namens shimmer.

4. um das urheberrecht der musikschaffenden zu respektieren, hat openai eine reihe von sicherheitsmaßnahmen ergriffen, darunter neue filterbedingungen, um zu verhindern, dass sprachgespräche musikalische inhalte, einschließlich gesang, erzeugen.

5. erweiterter sprachmodus gespräche sind multimodaler natur und der transkribierte text stimmt nicht immer genau mit dem ursprünglichen gespräch überein.

6. der ton in der erweiterten sprachkonversation bleibt zusammen mit dem chatverlauf erhalten, bis sie ihn aktiv löschen. nach dem löschen werden audiodaten in der regel innerhalb von 30 tagen gelöscht, können jedoch unter bestimmten umständen länger aufbewahrt werden.

7. openai gibt an, dass das system ihr audio in sprachchats standardmäßig nicht zum trainieren des modells verwendet, es sei denn, sie entscheiden sich dafür, das audio zu teilen.

8. wenn die option „voice-chat-erlebnis für alle benutzer verbessern“ in den „einstellungen“ nicht aktiviert ist, bedeutet dies, dass sie kein audio geteilt haben und das system ihr audio nicht zum trainieren des modells verwenden wird.

nachricht

der erweiterte sprachmodus von chatgpt ist vollständig geöffnet. die details, die sie wissen müssen, finden sie hier

einführung

meine kontaktdaten