Nachricht

Der erweiterte Sprachmodus von ChatGPT ist endlich online: Sobald Sie Chinesisch sprechen, wird Ihre Identität als „Wai Guoren“ preisgegeben

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Maschinenherzbericht

Herausgeber: Egg Sauce, Xiaozhou

„Her“ von OpenAI ist endlich für einige Leute zugänglich.

Im Mai dieses Jahres stellte OpenAI beim „Spring New Product Launch“ sein Flaggschiffmodell GPT-4o und die Desktop-App der neuen Generation vor und demonstrierte eine Reihe neuer Funktionen.

Jetzt hat OpenAI angekündigt, den erweiterten Sprachmodus von ChatGPT für eine kleine Gruppe von ChatGPT Plus-Benutzern zu öffnen, sodass Benutzer erstmals die ultrarealistische Audioantwort von GPT-4o erhalten können. Diese Benutzer erhalten eine Benachrichtigung in der ChatGPT-App und eine E-Mail mit Anweisungen zur Verwendung der App.

„Seit wir den erweiterten Sprachmodus zum ersten Mal demonstriert haben, haben wir hart daran gearbeitet, die Sicherheit und Qualität von Sprachgesprächen zu verbessern und uns darauf vorzubereiten, diese Spitzentechnologie Millionen von Menschen zugänglich zu machen.“ OpenAI sagte, dass diese Funktion im Herbst schrittweise verfügbar sein wird von 2024. Einführung für alle Plus-Benutzer.

Einige Benutzer haben bereits über die Auswirkungen der Verwendung des erweiterten Sprachmodus berichtet:

Quelle: https://x.com/tsarnick/status/1818402307115241608

Wenn Sie mit ChatGPT Witze erzählen, kann ChatGPT Sie zum Lachen bringen:

Quelle: https://x.com/yoimnotkesku/status/1818406786077970663

Mithilfe des erweiterten Sprachmodus von ChatGPT kann „Her“ beim Geschichtenerzählen Hintergrundmusik erstellen und ist in mehreren Sprachen verfügbar.

Quelle: https://x.com/yoimnotkesku/status/1818415019349901354

Französisch, Spanisch und Urdu sind ebenfalls verfügbar:

Quelle: https://x.com/yoimnotkesku/status/1818424494106853438

Aber der chinesische Ausdruck ist nicht sehr authentisch, wie bei einem „waiguoren“, der Chinesisch lernt:

Quelle: https://x.com/yoimnotkesku/status/1818446895083139170

Alle Zuhörer waren fassungslos:

Das Akzentproblem tritt nicht nur im Chinesischen auf, sondern auch im Deutschen:

Quelle: https://x.com/yoimnotkesku/status/1818445235606671670

Lassen Sie uns zum Schluss über einen Zungenbrecher sprechen:

Quelle: https://x.com/yoimnotkesku/status/1818427991514337695

Laut OpenAI unterscheidet sich der erweiterte Sprachmodus von dem, was ChatGPT derzeit bietet.

Die alte Sprachmoduslösung von ChatGPT verwendete drei separate Modelle: Ein Modell wandelte Sprache in Text um, GPT-4 war für die Verarbeitung von Eingabeaufforderungen (Eingabeaufforderungen) verantwortlich und ein drittes Modell war für die Konvertierung von ChatGPTs Text in Sprache verantwortlich. GPT-4o ist multimodal und kann diese Aufgaben ohne die Hilfe von Hilfsmodellen bewältigen, wodurch die Dialoglatenz deutlich reduziert wird. OpenAI sagte auch, dass GPT-4o den emotionalen Tonfall in der Stimme des Benutzers erkennen kann, einschließlich Traurigkeit, Aufregung usw.

Im Mai dieses Jahres demonstrierte OpenAI zum ersten Mal die Sprachfunktion von GPT-4o und die erstaunliche Ähnlichkeit mit der Stimme einer echten Person schockierte das Publikum – und hier liegt das Problem.

Die Stimme namens „Sky“ ähnelt Scarlett Johansson, die im Film „Her“ die künstliche Assistentin spielt.

Kurz nach der OpenAI-Demo sagte Johnson, sie habe sich mehreren Aufforderungen von OpenAI-CEO Sam Altman, ihre Stimme zu nutzen, widersetzt und dass sie einen Rechtsbeistand beauftragt habe, um ihre Stimme zu verteidigen, nachdem sie die GPT-4o-Demo gesehen hatte. OpenAI bestritt die Verwendung der Stimme von Scarlett Johansson, entfernte die Stimme jedoch auch aus der Demo.

Im Juni kündigte OpenAI an, die Veröffentlichung eines erweiterten Sprachmodus zu verschieben, um seine Sicherheitsmaßnahmen zu verbessern.

Nach langem Warten traf „Sie“ endlich alle. OpenAI sagte, dass der dieses Mal eingeführte erweiterte Sprachmodus auf ChatGPT beschränkt sein wird, das mit bezahlten Synchronsprechern zusammengearbeitet hat, um vier voreingestellte Stimmen zu produzieren: Juniper, Breeze, Cove und Ember.

Es ist erwähnenswert, dass es nur diese vier Arten von Ausgabetönen gibt – die Sky-Stimme, die in der OpenAI-Demonstration im Mai gezeigt wurde, ist für ChatGPT nicht mehr verfügbar. „ChatGPT kann nicht die Stimmen anderer nachahmen, auch nicht die von Einzelpersonen und Persönlichkeiten des öffentlichen Lebens, und blockiert Ausgaben, die von einer dieser voreingestellten Stimmen abweichen“, sagte OpenAI-Sprecherin Lindsay McCallum.

Die ursprüngliche Absicht dieses Setups besteht darin, Deepfake-Kontroversen zu vermeiden. Im Januar dieses Jahres wurde die Voice-Cloning-Technologie des Startups ElevenLabs für künstliche Intelligenz eingesetzt, um sich als US-Präsident Biden auszugeben und Vorwahlwähler in New Hampshire zu täuschen, was zu erheblichen Kontroversen führte.

OpenAI sagte außerdem, dass es neue Filter eingeführt habe, um bestimmte Anfragen zur Generierung von Musik oder anderen urheberrechtlich geschützten Audiodaten zu blockieren.

Im vergangenen Jahr gerieten viele KI-Unternehmen im Bereich Bild- und Musikerzeugung wegen Urheberrechtsverletzungen in Rechtsstreitigkeiten. Insbesondere Plattenfirmen, die gerne Rechtsstreitigkeiten führen, haben die Audiogeneratoren Suno und Udio mit künstlicher Intelligenz verklagt. Und Audiomodelle wie der GPT-4o fügen eine ganz neue Kategorie von Unternehmen hinzu, die Beschwerden einreichen können.

OpenAI soll die Sprachfähigkeiten von GPT-4o mit mehr als 100 externen „Red Team“-Mitgliedern in 45 Sprachen getestet haben. Diese wichtigen Informationen werden im August in einem Bericht über die Funktionen, Einschränkungen und Sicherheitsbewertung von GPT-4o detaillierter bekannt gegeben.

Referenzlinks:

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-lated-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant