noticias

OpenAI abre el modo de voz GPT-4o a algunos usuarios de pago, proporcionando conversaciones más naturales en tiempo real

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House informó el 31 de julio que el día 30, hora local, OpenAI anunció que abrirá el modo de voz GPT-4o (nota de IT House: versión Alpha) a algunos usuarios de ChatGPT Plus a partir de ahora y lo promocionará gradualmente a todos los ChatGPT. este otoño.Suscriptor Plus.


En mayo de este año, la directora de tecnología de OpenAI, Mira Murati, mencionó en su discurso:

En GPT-4o, entrenamos un nuevo modelo unificado de un extremo a otro en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. Dado que GPT-4o es nuestro primer modelo que combina todos estos modos, todavía estamos en las primeras etapas de exploración de las capacidades de este modelo y sus limitaciones.

OpenAI originalmente planeó invitar a un pequeño grupo de usuarios de ChatGPT Plus a probar el modo de voz GPT-4o a fines de junio de este año, pero el funcionario anunció el aplazamiento en junio, diciendo que era necesarioMás tiempo para pulirel modelo, mejorar el modeloDetectar y rechazar cierto contenidoCapacidad.

Según la información expuesta anteriormente, el retraso promedio en la respuesta de voz del modelo GPT-3.5 es de 2,8 segundos, mientras que el retraso del modelo GPT-4 es de 5,4 segundos. Por lo tanto, no es muy bueno en la comunicación de voz, y el próximo GPT-. 4o puede acortarlo mucho.conversación casi fluida

El modo de voz GPT-4o tieneRespuesta rápidaLa voz es tan buena como la de una persona real.Y otras características, OpenAI también lo llama modo de voz GPT-4o, que puede detectar el tono emocional en el habla, incluida la tristeza, la emoción o el canto.

La portavoz de OpenAI, Lindsay McCallum, dijo: “ChatGPT No te hagas pasar por la voz de otra persona, incluidas las voces de individuos y figuras públicas, y bloqueaDiferente al sonido predeterminado Producción. "