El modo de voz avanzado ChatGPT finalmente está en línea: tan pronto como hablas chino, tu identidad como "Wai Guoren" queda expuesta

2024-07-31

Informe del corazón de la máquina

Editor: Salsa de huevo, Xiaozhou

“Her” de OpenAI finalmente está abierta a algunas personas.

En mayo de este año, OpenAI lanzó su modelo insignia de nueva generación GPT-4o y su aplicación de escritorio en el "Lanzamiento de nuevos productos de primavera" y demostró una serie de nuevas capacidades.

Ahora, OpenAI ha anunciado que abrirá el modo de voz avanzado de ChatGPT a un pequeño grupo de usuarios de ChatGPT Plus, permitiéndoles obtener la respuesta de audio ultrarrealista de GPT-4o por primera vez. Estos usuarios recibirán una alerta en la aplicación ChatGPT y recibirán un correo electrónico con instrucciones sobre cómo usar la aplicación.

"Desde nuestra primera demostración del modo de voz avanzado, hemos estado trabajando arduamente para mejorar la seguridad y la calidad de las conversaciones de voz y prepararnos para llevar esta tecnología de vanguardia a millones de personas", dijo OpenAI, y esta característica estará disponible gradualmente en el mundo. otoño de 2024. Presentado a todos los usuarios Plus.

Algunos usuarios ya han publicado los efectos del uso del modo de voz avanzado:

Fuente: https://x.com/tsarnick/status/1818402307115241608

Cuando cuentas chistes con ChatGPT, ChatGPT puede hacerte reír:

Fuente: https://x.com/yoimnotkesku/status/1818406786077970663

Usando el modo de voz avanzado de ChatGPT, "Her" puede crear música de fondo mientras cuenta historias y está disponible en varios idiomas.

Fuente: https://x.com/yoimnotkesku/status/1818415019349901354

Francés, español y urdu también están disponibles:

Fuente: https://x.com/yoimnotkesku/status/1818424494106853438

Pero la expresión china no es muy auténtica, como un "nuez torcida" que está aprendiendo chino:

Fuente: https://x.com/yoimnotkesku/status/1818446895083139170

Todos los que escucharon quedaron atónitos:

El problema del acento no sólo se da en chino, sino también en alemán:

Fuente: https://x.com/yoimnotkesku/status/1818445235606671670

Por último, hablemos de un trabalenguas:

Fuente: https://x.com/yoimnotkesku/status/1818427991514337695

OpenAI dice que el modo de voz avanzado es diferente de lo que ofrece ChatGPT actualmente.

La antigua solución de modo de voz de ChatGPT utilizaba tres modelos separados: un modelo convertía voz en texto, GPT-4 era responsable de manejar indicaciones (indicaciones) y un tercer modelo era responsable de convertir el texto de ChatGPT en voz. GPT-4o es multimodal y puede realizar estas tareas sin la ayuda de modelos auxiliares, lo que reduce significativamente la latencia del diálogo. OpenAI también dijo que GPT-4o puede detectar la entonación emocional en la voz del usuario, incluida la tristeza, la emoción, etc.

En mayo de este año, OpenAI demostró por primera vez la función de voz de GPT-4o. "Su" velocidad de reacción y la sorprendente similitud con la voz de una persona real sorprendieron a la audiencia, y aquí está el problema.

La voz llamada "Sky" se parece a Scarlett Johansson, quien interpreta a la asistente artificial en la película "Her".

Poco después de la demostración de OpenAI, Johnson dijo que se había resistido a múltiples solicitudes del director ejecutivo de OpenAI, Sam Altman, para usar su voz y que contrató a un asesor legal para defender su voz después de ver la demostración de GPT-4o. OpenAI negó haber usado la voz de Scarlett Johansson, pero también la eliminó de la demostración.

En junio, OpenAI dijo que retrasaría el lanzamiento de un modo de voz avanzado para mejorar sus medidas de seguridad.

Después de una larga espera, "Ella" finalmente conoció a todos. OpenAI dijo que el modo de voz avanzado lanzado esta vez se limitará a ChatGPT, que ha colaborado con actores de voz pagos para producir cuatro voces preestablecidas: Juniper, Breeze, Cove y Ember.

Vale la pena señalar que solo existen estos cuatro tipos de sonidos de salida: la voz de Sky que se mostró en la demostración de OpenAI en mayo ya no está disponible para ChatGPT. "ChatGPT no puede hacerse pasar por las voces de otros, incluidas las de individuos y figuras públicas, y bloqueará la salida que difiera de una de estas voces preestablecidas", dijo la portavoz de OpenAI, Lindsay McCallum.

La intención original de esta configuración es evitar la controversia sobre Deepfake. En enero de este año, la tecnología de clonación de voz de la startup de inteligencia artificial ElevenLabs se utilizó para hacerse pasar por el presidente estadounidense Biden y engañar a los votantes de las primarias en New Hampshire, lo que provocó una considerable controversia.

OpenAI también dijo que ha introducido nuevos filtros para bloquear ciertas solicitudes para generar música u otro audio protegido por derechos de autor.

El año pasado, muchas empresas de IA de generación de imágenes y música se vieron envueltas en disputas legales debido a infracciones de derechos de autor. En particular, las compañías discográficas a las que les gusta litigar han demandado a los generadores de audio de inteligencia artificial Suno y Udio. Y los modelos de audio como el GPT-4o añaden una categoría completamente nueva de empresas que pueden presentar quejas.

Se dice que OpenAI probó las capacidades de voz de GPT-4o con más de 100 miembros externos del "equipo rojo" en 45 idiomas. Esta información clave se anunciará con más detalle en un informe sobre las funciones, limitaciones y evaluación de seguridad de GPT-4o en agosto.

Enlaces de referencia:

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety- related-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant

noticias

El modo de voz avanzado ChatGPT finalmente está en línea: tan pronto como hablas chino, tu identidad como "Wai Guoren" queda expuesta

Introducción

Mi informacion de contacto