Nachricht

OpenAI wurde plötzlich aktualisiert! GPT-4o führt erweiterte Sprachversion ein, beantwortet Fragen in Sekundenschnelle, Internetnutzer werden verrückt

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Smart Things (öffentliches Konto:Abonnieren
AutorVanille
bearbeitenLi Shuiqing

Die erweiterte Sprachfunktion von GPT-4o ist endlich keine „Zukunft“ mehr!

Nachrichten aus Zhidongxi vom 31. Juli, heute früh,OpenAIAnkündigung des Starts der Einführung für eine kleine Gruppe von ChatGPT Plus-BenutzernErweiterter Sprachmodus, basierend auf GPT-4o, um natürlichere Gespräche in Echtzeit zu ermöglichen.


▲OpenAI startet den erweiterten Sprachmodus

Nach der Einführung des Modells haben viele Internetnutzer, die die Einladung erhalten hatten, bereits damit begonnen, es abzuspielen und ihre eigenen Testvideos und Gefühle zu teilen. Dies ist zum Beispiel ein schnelles Rap- und Beatbox-Stück von ChatGPT, das ziemlich stylisch klingt.

//oss.zhidx.com/uploads/2024/07/66a9902a60e1d_66a9902a5d0a5_66a9902a5d078_Beatbox.mp4

Insgesamt unterscheidet sich der erweiterte Sprachmodus von ChatGPT nicht wesentlich von der ursprünglichen offiziellen Demonstration.fast keine Verzögerung Auch die verschiedenen Töne sind sehr lebendig. Es scheint jedoch, dass ChatGPT viele Schutzmaßnahmen ergriffen hatDie Wahrscheinlichkeit, dass Benutzeranfragen abgelehnt werden, ist gestiegen

Die Sprachkonversationsfunktion von ChatGPT wurde erstmals im September letzten Jahres eingeführt.Im Mai dieses Jahres startete OpenAI aFlaggschiffmodell GPT-4o Eine fortgeschrittenere Version des Sprachdialogs und Durchführung einer öffentlichen Demonstration. GPT-4o verwendet ein einziges multimodales Modell anstelle der vorherigen drei separaten Modelle für Sprachfunktionen und reduziert so die Latenz bei Gesprächen mit Chatbots. (OpenAI hat den Sprachassistenten über Nacht auf den Kopf gestellt! Das GPT-4o-Modell ist erschreckend leistungsfähig, ChatGPT hat gelernt, den Bildschirm zu lesen, und die echte Version von ihr ist hier)

Damals kündigte OpenAI an, dass die Funktion innerhalb weniger Wochen für kostenlose und kostenpflichtige Benutzer bereitgestellt werde. Allerdings hatte OpenAI bereits wenige Tage nach der Veröffentlichung einen Streit mit Scarlett Johansson, die in der „Avengers“-Filmreihe die „Schwarze Witwe“ spielt und den Fans aufgrund des ChatGPT-Sounds als „Schwester der Witwe“ bekannt ist Die Zeilen waren zu ähnlich, und sie wurde von Scarlett selbst beschuldigt und von den Internetnutzern heftig abgelehnt.

Das Veröffentlichungsdatum von Advanced Voice Mode hat sich dadurch ebenfalls verzögert. Obwohl OpenAI darauf bestand, dass ChatGPT Scarletts Stimme nicht imitierte, wurde die Sprachzeile später entfernt.

1. Testen mit mehr als hundert externen Red-Team-Mitgliedern, das im Herbst möglicherweise allen Abonnenten offen steht

Der erweiterte Sprachmodus auf Basis von GPT-4o steht derzeit nur einer kleinen Anzahl von ChatGPT Plus-Benutzern zur Verfügung und ist verfügbarNatürlichere Gespräche in EchtzeitErlauben Sie Benutzern, jederzeit zu unterbrechen, und kannSpüren Sie die Emotionen des Benutzers und reagieren Sie darauf

Benutzer, die an diesem Alpha-Test teilnehmen, erhalten eine E-Mail mit Anweisungen und eine Benachrichtigung in ihrer mobilen ChatGPT-App. OpenAI gab bekannt, dass es fortlaufend weitere Benutzer hinzufügen wird und plant, es im Herbst jedem Plus-Abonnenten zur Verfügung zu stellen.


▲Einladungs-E-Mail und App-Hauptseite

Der erweiterte Sprachmodus von ChatGPT wurde im Mai dieses Jahres veröffentlicht. Er basiert auf dem neuen Flaggschiffmodell GPT-4o von OpenAI, das Sprachchat und Echtzeit-Videointeraktion durchführen kann, beispielsweise das Verstehen linearer Gleichungen anhand von Videobildern sowie das Verstehen und Beurteilen der Gesichtsausdrücke von Personen und Intonationen usw.

OpenAI sagte, dass das Team seit seiner ersten Veröffentlichung daran gearbeitet habe, die Sicherheit und Qualität von Sprachgesprächen zu verbessern, indem es Sprachfunktionen mit mehr als 100 externen Red-Team-Mitgliedern in 45 Sprachen getestet habe.

Um die Privatsphäre zu schützen, sprach OpenAI beim Training des Modells nur mit vier voreingestellten Stimmen und baute ein entsprechendes System zum Blockieren verschiedener Ausgaben auf. Außerdem wurden Schutzmaßnahmen ergriffen, um Anfragen nach gewalttätigen oder urheberrechtlich geschützten Inhalten zu blockieren.

OpenAI plant, Anfang August einen detaillierten Bericht über die Funktionalität, Einschränkungen und Sicherheitsbewertung von GPT-4o zu veröffentlichen.

2. Die erste Welle von Testbenutzern begann ein erfülltes Leben zu führen: Französisch üben, miauen lernen und Fußball erklären.

Die ersten Testbenutzer können es kaum erwarten, den erweiterten Sprachmodus zu nutzen und ihre Testerfahrungen zu teilen.

Der Künstler Manuel Sainsily schaltet dabei die Kamera einLive-ShootingIch fragte ChatGPT nach meinem frisch aufgezogenen Kätzchen und der Umgebung, die ich für es eingerichtet hatte, und fragte ChatGPT nach seiner Meinung zur Fütterung.

//oss.zhidx.com/uploads/2024/07/66a9900fc37cb_66a9900fbde19_66a9900fbddf7_Videogespräch.mp4

Die Antwort von ChatGPT erfolgte im Grunde ohne Verzögerung. Zuerst lobte er die Niedlichkeit der Katze in einem sehr liebevollen Ton, dann tröstete er Sainsily, nachdem er um weitere Informationen gebeten hatte, und sagte ihm, er solle sich keine Sorgen machen. Sainsily ruft aus: „Es fühlt sich an, als würde man einen Videoanruf mit einem sachkundigen Freund führen.“

Netizen Bergara teilte auf der sozialen Plattform Reddit mit, dass ChatGPT alle seine Gesangswünsche abgelehnt habe und nicht bereit sei, seine Stimme zu ändern. ChatGPT hatte Erfolg, als er es aufforderte, ein Gedicht auf unterschiedliche Weise und in unterschiedlichen Stimmungen vorzutragen, aber als es gebeten wurde, es mit einem Lächeln vorzutragen, lehnte es ab.

Bergara sagte zum Beispiel, er übe Französisch und bat ChatGPT, als solcher zu fungierenSprachcoachund fragen nach ihrer Meinung zur Aussprache.

//oss.zhidx.com/uploads/2024/07/66a9903094c84_66a99030913bd_66a990309139a_Französischunterricht.mp4

Bezüglich der Aussprache des Wortes Bergara gab ChatGPT detaillierte Vorschläge zu Betonung, Endlauten usw. und lieferte Demonstrationen. Gleichzeitig ist sein Unterrichtsstil sehr „ermutigend zur Bildung“ und er lobt Bergaras Aussprache ohne zu zögern, was den emotionalen Wert direkt steigert.

Bergara lässt ChaGPT es separat nutzenSchüchterner, wütender Ton Erzählen Sie Witze über Bier. Das Verständnis von Schüchternheit durch ChatGPT besteht darin, es mit einer hauchenden Stimme auszusprechen, und wenn man Ärger ausdrückt, erhöht es seine Dezibel.

//oss.zhidx.com/uploads/2024/07/66a990398daca_66a9903989c33_66a9903989c08_Witze erzählen in einem schüchternen und wütenden Ton.mp4

Wenn ChatGPT zur Verwendung aufgefordert wirdtrauriger TonBeim Rezitieren von Gedichten hört es sich an, als würde es gleich zerbrechen ...

//oss.zhidx.com/uploads/2024/07/66a9902fc3720_66a9902fbc252_66a9902fbc230_sad tone.mp4

Bergara sagte, dass sich ChatGPT in bisherigen Tests ähnlich verhalten habe wie OpenAI, aberDie Ablehnungsquote scheint etwas hoch zu seinEr spekulierte, dass dies aus Sicherheitsgründen geschehen könnte.

Als Bergara beispielsweise ChatGPT bat, eine Geschichte über Roboter und Liebe zu singen, hieß es, es könne die Geschichte erzählen, allerdings nur in normalem Sprechton.

//oss.zhidx.com/uploads/2024/07/66a99036460bb_66a9903642127_66a99036420ff_Emotional storytelling.mp4

Während ChatGPTs Storytelling unterbrach Bergara mehrmals und forderte ihn auf, „mehr Emotionen hinzuzufügen“. ChatGPT kam dieser Aufforderung nach und sein Ton wurde langsamer und lebhafter.

Einige Internetnutzer haben bereits damit begonnen, ChatGPT zur Organisation ihres Lebens zu nutzen.

Squad-Mitbegründer und CTO Ethan Sutin lässt ChatGPTahmte verschiedene Katzenmiauen nach . Ich muss sagen, dass dieser Katzenruf etwas „magisch“ ist, aber er scheint ganz real zu sein, denn meine Katze wurde davon angezogen...

//oss.zhidx.com/uploads/2024/07/66a9901c00939_66a9901bf0c77_66a9901bf0c51_Learn to meow.mp4

ChatGPT scheint das auch zu habenMusikauftritt Fähigkeit. Sutin bat ihn, einen C-Moll-Akkord zu spielen. Gibt es einen Leser, der sich mit Musiktheorie auskennt und sich den Akkord anhören und prüfen kann, ob er korrekt ist?

//oss.zhidx.com/uploads/2024/07/66a9903dcfec1_66a9903dcbf91_66a9903dcbf62_chord.mp4

Netizen Cristiano Giardina ließ ChatGPT spielenKommentator von Fußballspielen . Er teilte einige erste Eindrücke vom Ausprobieren des erweiterten Sprachmodus: Er ist sehr schnell, liefert immer interessante Ergebnisse und hat beim Sprechen anderer Sprachen immer einen amerikanischen Akzent.

//oss.zhidx.com/uploads/2024/07/66a9988d2ea93_66a9988d279ea_66a9988d279c4_football commentary.mp4

Netizen Kesku hat ChatGPT gebeten, etwas zu sagennicht existierende Sprache , und erklären Sie dann, wie die Sprache funktioniert. ChatGPT hat Glimnar entwickelt, eine klangbasierte Sprache, die ein bisschen wie Gesang klingt.

//oss.zhidx.com/uploads/2024/07/66a998835c09b_66a9988357da7_66a9988357d83_Creation Language.mp4

Obwohl es immer noch nur wenige Benutzer gibt, die den erweiterten Sprachmodus von ChatGPT nutzen, werden wir mit der Erweiterung des Push-Bereichs vielleicht interessantere Spielabläufe und Erlebnisse sehen können.

Fazit: OpenAI schärft das Bewusstsein für KI-Sicherheit

KI in Sprache und Video wird auf ihre Eignung als Werkzeug für Betrug untersucht. Obwohl der Sprachmodus von OpenAI derzeit keine Generierung neuer Stimmen oder Stimmklone zulässt, kann der Modus dennoch für Verwirrung sorgen.

In den Monaten seit dem Frühjahrsupdate hat OpenAI eine Reihe neuer Dokumente zur Sicherheit und zur Ausrichtung von KI-Modellen veröffentlicht. Dies geschah, nachdem das Super Alignment-Team aufgelöst wurde, was von einigen ehemaligen und aktuellen Mitarbeitern dafür kritisiert wurde, dass es seinen Fokus auf die Einführung neuer Produkte statt auf Sicherheit verlagerte. Derzeit scheint die Verlangsamung der Einführung fortschrittlicher Sprachmodi ein Zeichen für Benutzer, Regulierungsbehörden und Gesetzgeber zu sein, dass OpenAI die Sicherheit ernst nimmt.

Die Veröffentlichung des erweiterten Sprachmodus von ChatGPT differenziert OpenAI außerdem weiter von Konkurrenten wie Metas Llama 3.1-Modell und Anthropics Claude 3 und übt Druck auf KI-Startups aus, die sich auf emotionale Sprache konzentrieren.