noticias

¡OpenAI se actualizó de repente! GPT-4o lanza una versión de voz avanzada, responde preguntas en segundos, los internautas se están volviendo locos

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Cosas inteligentes (cuenta pública:zhidxcom
autorvainilla
editarLi Shui Qing

¡La función de voz avanzada del GPT-4o finalmente ya no es un "futuro"!

Noticias de Zhidongxi el 31 de julio, esta mañana temprano,IA abiertaAnuncio del inicio del lanzamiento a un pequeño grupo de usuarios de ChatGPT PlusModo de voz avanzado, basado en GPT-4o para brindar conversaciones más naturales en tiempo real.


▲OpenAI lanza el modo de voz avanzado

Después del lanzamiento del modelo, muchos internautas que recibieron la invitación ya comenzaron a reproducirlo y compartieron sus propios videos de prueba y sentimientos. Por ejemplo, esta es una pieza rápida de rap y beatbox presentada por ChatGPT, que suena bastante elegante.

//oss.zhidx.com/uploads/2024/07/66a9902a60e1d_66a9902a5d0a5_66a9902a5d078_Beatbox.mp4

En general, el modo de voz avanzado de ChatGPT no es muy diferente de la demostración oficial original.casi sin demora , los distintos tonos también son muy vivos. Sin embargo, parece que ha tomado muchas medidas de protección en términos de seguridad.La posibilidad de rechazar las solicitudes de los usuarios ha aumentado.

La función de conversación de voz de ChatGPT se lanzó por primera vez en septiembre del año pasado.En mayo de este año, OpenAI lanzó unModelo insignia GPT-4o Una versión más avanzada del diálogo de voz y realizó una manifestación pública. GPT-4o utiliza un único modelo multimodal en lugar de los tres modelos separados anteriores para las capacidades de voz, lo que reduce la latencia en las conversaciones con chatbots. (¡OpenAI anuló al asistente de voz de la noche a la mañana! El modelo GPT-4o es terriblemente poderoso, ChatGPT aprendió a leer la pantalla y la versión real de Her está aquí)

En ese momento, OpenAI anunció que la función se implementaría para usuarios gratuitos y pagos en unas semanas. Sin embargo, apenas unos días después de su lanzamiento, OpenAI tuvo una disputa con Scarlett Johansson, quien interpreta a la "Viuda Negra" en la serie de películas "Avengers" y es conocida por los fanáticos como la "hermana viuda" debido al sonido ChatGPT en Las líneas de la manifestación eran demasiado similares, y la propia Scarlett la acusó y los internautas se opusieron firmemente.

Como resultado, la fecha de lanzamiento del Modo de voz avanzado también se retrasó. Aunque OpenAI insistió en que ChatGPT no imitaba la voz de Scarlett, la línea de voz fue eliminada posteriormente.

1. Pruebas con más de cien miembros externos del equipo rojo, que pueden estar abiertas a todos los suscriptores en el otoño.

El modo de voz avanzado basado en GPT-4o actualmente solo está disponible para una pequeña cantidad de usuarios de ChatGPT Plus y está disponibleConversaciones más naturales en tiempo realPermitir que los usuarios interrumpan en cualquier momento, y puedeDetectar y responder a las emociones del usuario.

Los usuarios que participen en esta prueba Alpha recibirán un correo electrónico con instrucciones y una notificación en su aplicación móvil ChatGPT. OpenAI dijo que continuará agregando más usuarios de forma continua y planea ponerlo a disposición de todos los suscriptores de Plus en el otoño.


▲ Correo electrónico de invitación y página principal de la aplicación

El modo de voz avanzado de ChatGPT se lanzó en mayo de este año y se basa en el nuevo modelo insignia de OpenAI, GPT-4o, que puede realizar chat de voz e interacción de video en tiempo real, como comprender ecuaciones lineales a través de imágenes de video y comprender y juzgar las expresiones de las personas. y entonaciones.

OpenAI dijo que desde su lanzamiento inicial, el equipo ha estado trabajando para mejorar la seguridad y la calidad de las conversaciones de voz, probando capacidades de voz con más de 100 miembros externos del equipo rojo en 45 idiomas.

Para proteger la privacidad, OpenAI solo habló con cuatro voces preestablecidas al entrenar el modelo y construyó un sistema correspondiente para bloquear diferentes salidas. También tomó medidas de protección para bloquear solicitudes de contenido violento o protegido por derechos de autor.

OpenAI planea compartir un informe detallado sobre la funcionalidad, las limitaciones y la evaluación de seguridad de GPT-4o a principios de agosto.

2. La primera oleada de usuarios de prueba empezó a vivir una vida plena: practicando francés, aprendiendo a maullar y explicando el fútbol.

La primera ola de usuarios de prueba está ansiosa por usar el modo de voz avanzado y compartir sus experiencias de prueba.

El artista Manuel Sainsily enciende la cámara mientrasdisparos en vivoLe pregunté a ChatGPT sobre mi gatito recién criado y el entorno que le preparé, mientras le pedí a ChatGPT su opinión sobre la alimentación.

//oss.zhidx.com/uploads/2024/07/66a9900fc37cb_66a9900fbde19_66a9900fbddf7_Video conversación.mp4

La respuesta de ChatGPT fue básicamente sin demora. Primero, elogió la ternura del gato en un tono muy cariñoso y luego consoló a Sainsily después de pedirle más información, diciéndole que no se preocupara. Sainsily exclama: "Es como tener una videollamada con un amigo experto".

El internauta Bergara compartió en la plataforma social Reddit que ChatGPT rechazó todas sus solicitudes de canto y no estaba dispuesto a cambiar su voz. ChatGPT tuvo éxito cuando le pidió que recitara un poema de diferentes maneras y estados de ánimo, pero cuando le pidió que lo recitara con una sonrisa, se negó.

Por ejemplo, Bergara dijo que estaba practicando francés y le pidió a ChatGPT que actuara comoentrenador de idiomas, pidiendo su opinión sobre la pronunciación.

//oss.zhidx.com/uploads/2024/07/66a9903094c84_66a99030913bd_66a990309139a_Enseñanza de francés.mp4

En cuanto a la pronunciación de la palabra Bergara, ChatGPT dio sugerencias detalladas sobre acentuación, sonidos finales, etc., y realizó demostraciones. Al mismo tiempo, su estilo de enseñanza es muy "fomentador de la educación", y elogia sin dudar la pronunciación de Bergara, lo que aumenta directamente el valor emocional.

Bergara deja que ChaGPT lo use por separadoTono tímido y enojado. Cuenta chistes sobre la cerveza. La comprensión de ChatGPT sobre la timidez es utilizar una voz entrecortada y, al expresar enojo, aumenta sus decibeles.

//oss.zhidx.com/uploads/2024/07/66a990398daca_66a9903989c33_66a9903989c08_Contar chistes en tono tímido y enojado.mp4

Cuando se solicita el uso de ChatGPTtono tristeAl recitar poesía, parece que está a punto de romperse...

//oss.zhidx.com/uploads/2024/07/66a9902fc3720_66a9902fbc252_66a9902fbc230_sad tone.mp4

Bergara dijo que en las pruebas hasta ahora, ChatGPT se ha comportado similar a lo que ha mostrado OpenAI, peroLa tasa de rechazo parece un poco alta., especuló que podría ser por razones de seguridad.

Por ejemplo, cuando Bergara le pidió a ChatGPT que cantara una historia sobre robots y amor, dijo que podía contar la historia, pero solo en un tono normal.

//oss.zhidx.com/uploads/2024/07/66a99036460bb_66a9903642127_66a99036420ff_Narrativa emocional.mp4

Durante la narración de ChatGPT, Bergara interrumpió varias veces y pidió "agregar más emoción". ChatGPT obedeció y su tono se volvió más lento y animado.

Algunos internautas ya han comenzado a utilizar ChatGPT para organizar sus vidas.

El cofundador y director de tecnología del equipo, Ethan Sutin, deja ChatGPTImitó varios maullidos de gato. . Tengo que decir que este llamado de gato es un poco "mágico", pero parece bastante real, porque mi gato se sintió atraído por él...

//oss.zhidx.com/uploads/2024/07/66a9901c00939_66a9901bf0c77_66a9901bf0c51_Aprende a maullar.mp4

ChatGPT también parece tenerpresentación musical Capacidad. Sutin le pidió que tocara un acorde de do menor. ¿Hay algún lector que sepa teoría musical que pueda escucharlo y ver si es exacto?

//oss.zhidx.com/uploads/2024/07/66a9903dcfec1_66a9903dcbf91_66a9903dcbf62_chord.mp4

El internauta Cristiano Giardina dejó jugar ChatGPTcomentarista de partidos de futbol . Compartió algunas impresiones iniciales al probar el modo de voz avanzado: es muy rápido, siempre produce resultados interesantes y siempre tiene acento americano cuando habla otros idiomas.

//oss.zhidx.com/uploads/2024/07/66a9988d2ea93_66a9988d279ea_66a9988d279c4_Comentario de fútbol.mp4

El internauta Kesku le pidió a ChatGPT que dijera una cosalenguaje inexistente y luego explica cómo funciona el lenguaje. ChatGPT creó Glimnar, un lenguaje basado en sonidos que suena un poco como un canto.

//oss.zhidx.com/uploads/2024/07/66a998835c09b_66a9988357da7_66a9988357d83_Creation Language.mp4

Aunque todavía hay solo unos pocos usuarios que utilizan el modo de voz avanzado de ChatGPT, a medida que se expande su alcance, tal vez podamos ver experiencias y jugabilidad más interesantes.

Conclusión: OpenAI crea conciencia sobre la seguridad de la IA

La IA en voz y vídeo está siendo examinada por su capacidad de servir como herramienta para el fraude. Aunque el modo de voz de OpenAI actualmente no permite la generación de nuevas voces o clones de voces, el modo aún puede causar confusión.

En los meses posteriores a la actualización de primavera, OpenAI publicó una serie de nuevos artículos sobre seguridad y alineación de modelos de IA. Esto se produce después de que su equipo Super Alignment se disolviera, criticado por algunos empleados anteriores y actuales por cambiar su enfoque hacia el lanzamiento de nuevos productos en lugar de la seguridad. Por ahora, la desaceleración en la implementación de modos de voz avanzados parece ser una señal para los usuarios, reguladores y legisladores de que OpenAI se toma en serio la seguridad.

El lanzamiento del modo de voz avanzado de ChatGPT también diferencia aún más a OpenAI de competidores como el modelo Llama 3.1 de Meta y Claude 3 de Anthropic, lo que ejerce presión sobre las nuevas empresas de IA que se centran en el habla emocional.