Nachricht

OpenAI öffnet den GPT-4o-Sprachmodus für einige zahlende Benutzer und ermöglicht so natürlichere Gespräche in Echtzeit

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House berichtete am 31. Juli, dass OpenAI am 30. Juli bekannt gegeben habe, dass es den GPT-4o-Sprachmodus (Anmerkung von IT House: Alpha-Version) von nun an für einige ChatGPT Plus-Benutzer öffnen und ihn schrittweise für alle ChatGPT bewerben wird diesen Herbst. Plus-Abonnent.


Im Mai dieses Jahres erwähnte Mira Murati, Chief Technology Officer von OpenAI, in ihrer Rede:

In GPT-4o haben wir ein neues einheitliches Modell durchgängig für Text, Bild und Audio trainiert, was bedeutet, dass alle Ein- und Ausgaben von demselben neuronalen Netzwerk verarbeitet werden. Da GPT-4o unser erstes Modell ist, das alle diese Modi kombiniert, befinden wir uns noch in einem frühen Stadium der Erforschung der Fähigkeiten dieses Modells und seiner Einschränkungen.

OpenAI hatte ursprünglich geplant, Ende Juni dieses Jahres eine kleine Gruppe von ChatGPT Plus-Benutzern zum Testen des GPT-4o-Sprachmodus einzuladen, doch der Beamte kündigte die Verschiebung im Juni an und sagte, dies sei notwendigMehr Zeit zum Polierendas Modell, das Modell verbessernBestimmte Inhalte erkennen und ablehnenFähigkeit.

Nach zuvor offengelegten Informationen beträgt die durchschnittliche Sprachrückmeldungsverzögerung des GPT-3.5-Modells 2,8 Sekunden, während die Verzögerung des GPT-4-Modells 5,4 Sekunden beträgt. Daher ist es bei der Sprachkommunikation nicht sehr gut, und das kommende GPT-4-Modell ist nicht sehr gut. 4o kann die Verzögerung erheblich verkürzen.nahezu nahtloses Gespräch

Der GPT-4o-Sprachmodus verfügt überSchnelle AntwortDie Stimme ist so gut wie die einer echten PersonNeben anderen Funktionen nennt OpenAI auch den GPT-4o-Sprachmodus, der den emotionalen Ton in der Sprache erkennen kann, einschließlich Traurigkeit, Aufregung oder Gesang.

OpenAI-Sprecherin Lindsay McCallum sagte: „ChatGPT Imitieren Sie nicht die Stimme einer anderen Person, einschließlich der Stimmen von Einzelpersonen und Persönlichkeiten des öffentlichen Lebens, und BlöckeAnders als der Standardton Ausgabe. "