nouvelles

OpenAI ouvre le mode vocal GPT-4o à certains utilisateurs payants, offrant ainsi des conversations plus naturelles en temps réel

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House a rapporté le 31 juillet que le 30, heure locale, OpenAI a annoncé qu'il ouvrirait désormais le mode vocal GPT-4o (note d'IT House : version Alpha) à certains utilisateurs de ChatGPT Plus, et qu'il le promouvrait progressivement auprès de tous les ChatGPT. cet automne. Abonné Plus.


En mai de cette année, Mira Murati, directrice de la technologie d'OpenAI, a mentionné dans son discours :

Dans GPT-4o, nous avons formé un nouveau modèle unifié de bout en bout pour le texte, la vision et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. Puisque GPT-4o est notre premier modèle à combiner tous ces modes, nous en sommes encore aux premiers stades de l’exploration des capacités de ce modèle et de ses limites.

OpenAI avait initialement prévu d'inviter un petit groupe d'utilisateurs de ChatGPT Plus à tester le mode vocal GPT-4o fin juin de cette année, mais le responsable a annoncé le report en juin, affirmant qu'il était nécessaire dePlus de temps pour peaufinerle modèle, améliorer le modèleDétecter et rejeter certains contenusCapacité.

Selon les informations précédemment exposées, le délai moyen de retour vocal du modèle GPT-3.5 est de 2,8 secondes, tandis que le délai du modèle GPT-4 est de 5,4 secondes. Par conséquent, il n'est pas très bon en communication vocale, et le prochain GPT-. 4o peut considérablement raccourcir le délai,conversation presque fluide

Le mode vocal GPT-4o aRéponse rapideLa voix est aussi bonne qu'une vraie personneEt d'autres fonctionnalités, OpenAI également appelé mode vocal GPT-4o, qui peut détecter le ton émotionnel de la parole, y compris la tristesse, l'excitation ou le chant.

La porte-parole d'OpenAI, Lindsay McCallum, a déclaré : « ChatGPT Ne vous faites pas passer pour la voix de quelqu'un d'autre, y compris les voix d'individus et de personnalités publiques, et les blocagesDifférent du son par défaut Sortir. "