nachricht

openai veröffentlicht vollständig den menschenähnlichen chatgpt-sprachassistenten, der 50 sprachen einschließlich chinesisch sprechen kann

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

autor dieses artikels: li dan

quelle: harte ki

vier monate nach der ersten öffentlichen veröffentlichung von openai ist die menschenähnliche sprachassistentenfunktion mit künstlicher intelligenz (ki) von chatgpt endlich für zahlende benutzer verfügbar.

am dienstag, den 24. september, eastern time, gab openai bekannt, dass alle benutzer, die für das abonnement der openai chatgpt plus- und team-pläne bezahlt haben, den neuen erweiterten chatgpt-sprachmodus advanced voice nutzen können. diese funktion wird im nächsten jahr schrittweise eingeführt in wenigen tagen wird es zunächst auf dem us-amerikanischen markt verfügbar sein. nächste woche wird die funktion für abonnenten der openai edu- und enterprise-pläne verfügbar sein.

dies bedeutet, dass diese woche sowohl einzelne benutzer der plus-version von chatgpt als auch teambenutzer in kleinen unternehmen der teams-version die neue sprachfunktion durch einfaches sprechen aktivieren können, ohne manuell aufforderungswörter eingeben und ein gpt-gespräch führen zu müssen. beim zugriff auf den erweiterten sprachmodus in der app kann der benutzer über ein popup-fenster erkennen, dass er den erweiterten sprachassistenten aufgerufen hat, und erhält eine benachrichtigung von der app.

openai hat der neuen sprachversion von chatgpt zwei funktionen gegeben, eine ist die funktion zum speichern „benutzerdefinierter anweisungen“ für den sprachassistenten und die andere ist die „speicher“-funktion zum erinnern, welches verhalten der benutzer vom sprachassistenten ausführen lassen möchte, ähnlich zu dem, was openai chatgpt im april dieses jahres gegeben hat, führt die textversion eine speicherfunktion ein. benutzer können diese funktionen nutzen, um sicherzustellen, dass sprachmuster personalisiert sind, sodass der ki-assistent bei allen gesprächen basierend auf den präferenzen des benutzers reagieren kann.

openai hat am dienstag fünf neue stimmen unterschiedlichen stils mit den namen arbor, maple, sol, spruce und vale sowie die vier stimmen breeze, juniper, cove und ember eingeführt, die zuvor in der alten version des sprachmodus eingeführt wurden, und optionale stimmen, die neun typen erreichen. openai verbessert außerdem die konversationsgeschwindigkeit, den sprachfluss und den akzent in einigen fremdsprachen.

openai stellte vor, dass der erweiterte sprachassistent in 50 sprachen „entschuldigung, ich bin zu spät“ sagen kann, und fügte dem social-media-beitrag ein video hinzu, um zu zeigen, dass der benutzer den sprachassistenten bitten kann, der oma mitzuteilen, was sie erwartet hat eine lange zeit. entschuldigung. das video zeigt, dass der ki-assistent zunächst das, was der nutzer nach bedarf ausdrücken wollte, auf englisch zusammenfasste und es dann, nachdem der nutzer die ki-oma dazu aufforderte, nur mandarin zu sprechen, erneut einsprach standard-mandarin.

die neue sprachfunktion ist für das ki-modell gpt-4o von openai verfügbar und nicht für das kürzlich veröffentlichte vorschaumodell o1.

der launch der neuen sprachfunktion ist längst überfällig. wall street news erwähnte einmal, dass openai im mai dieses jahres den sprachmodus voice mode bei der einführung seines neuen flaggschiffmodells gpt-4o demonstrierte. die damals von gpt-4o unterstützte chatgpt-stimme klang wie eine erwachsene amerikanerin und konnte sofort auf anfragen reagieren. als es den openai-forschungsleiter der demo, mark chen, übermäßig ausatmen hörte, schien es seine nervosität zu spüren, und dann sagte er: „mark, du bist kein staubsauger“, und forderte chen auf, sich zu entspannen und zu atmen.

openai hatte ursprünglich geplant, den sprachmodus ende juni für eine kleine gruppe von plus-plan-benutzern einzuführen, kündigte jedoch im juni an, dass die veröffentlichung um einen monat verschoben würde, um sicherzustellen, dass die funktion anfragen von millionen von benutzern sicher und effektiv bearbeiten kann . damals sagte openai, es sei geplant, die funktion im herbst allen plus-benutzern zugänglich zu machen, wobei der genaue zeitplan von der einhaltung hoher interner standards für sicherheit und zuverlässigkeit abhängt.

ende juli startete openai chatgpt im erweiterten sprachmodus für eine begrenzte anzahl von kostenpflichtigen plus-nutzern. der sprachmodus könne die art und weise, wie andere sprechen, nicht nachahmen, und fügte neue filter hinzu, um sicherzustellen, dass die software bestimmte generierte musik erkennen und ablehnen kann oder andere formulare für urheberrechtlich geschützte audioinhalte. dem neuen sprachmodus fehlen jedoch viele von openai im mai demonstrierte funktionen, wie beispielsweise computer-vision-fähigkeiten. mit dieser funktion kann gpt einfach über die kamera des smartphones sprachfeedback zu den tanzbewegungen des benutzers geben.