nachricht

openai öffnet die sprach-ki-engine für entwickler

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

whip bulls berichtete, dass openai laut ausländischen berichten am 2. oktober seine sprach-ki-engine für andere entwickler öffnet, die unterstützung für den erweiterten sprachmodus von chatgpt bietet.

entwickler erhalten echtzeitzugriff auf die technologie, bei der die ki sprachbefehle verstehen und sprachgespräche in live-szenarien führen kann, die einem telefon ähneln.

der prozess erforderte bisher, dass entwickler mindestens drei schritte durchlaufen mussten: zuerst das audio transkribieren, dann das generierte textmodell ausführen, um eine antwort auf die anfrage abzuleiten, und schließlich ein separates text-zu-sprache-modell verwenden.

der schritt ebnet den weg für eine welle von anwendungen der künstlichen intelligenz, die konversations-sprachschnittstellen bieten.

die neue speech-to-speech-funktion ist eine von mehreren ankündigungen, die openai am dienstag auf seiner devday-veranstaltung in san francisco gemacht hat.

zu den ersten testern der funktion gehören die ernährungs- und fitness-app healthify und die sprachlern-app speak.

zu den weiteren neuen funktionen, die entwicklern zur verfügung stehen, gehört die möglichkeit, modelle anhand von bildern zu verfeinern.

in einer demo für reporter zeigten openai-führungskräfte ein beispiel der neuen audiofunktion in kombination mit der twilio-api, die es einem ki-assistenten ermöglicht, einen fiktiven süßwarenladen anzurufen und 400 mit schokolade überzogene erdbeeren zu bestellen.

zu den anpassungsdemos des tools gehörte ein beispiel für die kommunikation mit einem ki-system, um bei der suche nach lokalen produkten wie erdbeeren zu helfen. die ki ruft dann den händler auf, erdbeeren zu bestellen, und nimmt anweisungen vom benutzer entgegen, wie viel er bestellen und wie viel er voraussichtlich ausgeben wird.

openai sagt, dass jeder, der eine solche technologie nutzt, nicht verbergen darf, dass es sich um künstliche intelligenz und nicht um einen menschen handelt, und bietet den entwicklern nur sechs voreinstellungen an, anstatt neue sounds zu erstellen.

entwickler können nur von openai bereitgestellte sounds verwenden – dieselben optionen wie in chatgpt.

während die sounds in keiner weise mit einem wasserzeichen versehen sind und entwickler sich nicht von ki-systemen erkennen lassen müssen, verstößt die nutzung ihrer systeme zum spam oder zur irreführung von personen laut openai gegen die nutzungsbedingungen des unternehmens.

die ankündigungen erfolgen inmitten einer flut von nachrichten rund um den chatgpt-hersteller, darunter seine laufende massive spendenaktion und der abgang von chief technology officer mira murati und zwei weiteren führungskräften in der vergangenen woche.