¡La versión GPT-4o "Her" finalmente está aquí! Contando chistes y maullando como un gato, ¿qué tan sexy puede ser una novia AI?

2024-07-31

Nuevo informe de sabiduría

Editor: Taozi tiene mucho sueño

[Introducción a la Nueva Sabiduría] La función de voz GPT-4o finalmente llega como se esperaba, ¡y la versión de ciencia ficción de Her se hace realidad! Algunos internautas que probaron Grayscale se volvieron locos. Sin embargo, OpenAI actualmente solo proporciona 4 voces preestablecidas. Además, el token de salida del nuevo modelo GPT-4o también aumentó 16 veces a 64K.

La promesa de Ultraman finalmente se cumplió.

Antes de finales de julio, el modo de voz GPT-4o finalmente lanzó las pruebas en escala de grises, y una pequeña cantidad de usuarios de ChatGPT Plus ya obtuvieron boletos de adopción temprana.

Si ve la siguiente interfaz después de abrir la aplicación ChatGPT, felicidades por convertirse en uno de los primeros afortunados.

Según OpenAI, el modo de voz avanzado proporciona una conversación más natural en tiempo real, puede interrumpirse a voluntad e incluso puede sentir y responder a sus emociones.

Se espera que todos los usuarios de ChatGPT Plus puedan utilizar esta función este otoño.

Además, más adelante se lanzarán vídeos y pantallas compartidas más potentes. En otras palabras, al encender la cámara, puedes chatear "cara a cara" con ChatGPT.

Algunos internautas afectados por la escala de grises comenzaron a probar uno tras otro y descubrieron muchos casos de uso del modo de voz GPT-4o.

No, algunas personas lo dejan actuar como un "segundo entrenador de lengua extranjera" para aprender a practicar el habla.

En la siguiente enseñanza, ChatGPT ayudó a los internautas a corregir la pronunciación de Croissant (croissant) y Baguette (baguette francesa).

Al mismo tiempo, los tokens de salida de GPT-4o aumentaron 16 veces, de los 4.000 tokens iniciales a 64.000 tokens.

Este es el nuevo modelo beta gpt-4o-64k-output-alpha que OpenAI lanzó silenciosamente recientemente en su sitio web oficial.

Un token de salida más largo significa que se pueden obtener aproximadamente 4 guiones de películas completos a la vez.

ella ha venido

La razón por la que se lanza ahora la función de voz GPT-4o es porque OpenAI ha estado realizando pruebas de seguridad y calidad en los últimos meses.

Probaron las capacidades de voz de GPT-4o en 45 idiomas con más de 100 miembros del equipo rojo.

Para proteger la privacidad de las personas, el equipo entrenó al modelo para que hablara usando sólo cuatro "voces predeterminadas".

También crearon un sistema para bloquear la salida de sonidos distintos de estos cuatro.

Además, el filtrado de contenidos también es fundamental y el equipo también ha tomado medidas para evitar la generación de contenidos violentos y relacionados con los derechos de autor.

OpenAI ha anunciado que planea publicar un informe detallado sobre las capacidades, limitaciones y evaluación de seguridad de GPT-4o a principios de agosto.

Medición real en toda la red.

A continuación se muestran algunos casos del modo de voz GPT-4o compartidos por los internautas.

ChatGPT puede realizar beatboxing.

ChatGPT también contó chistes sobre cerveza en tonos tímidos, enojados y más enojados.

Algunos internautas contaron un chiste específicamente para ChatGPT: "¿Por qué los científicos no creen en Adam-Atom, porque ellos lo inventan todo?".

ChatGPT se rió torpemente.

Lo que es aún más divertido es que ChatGPT todavía tiene una forma de aprender a maullar.

Después de algunas pruebas, alguien descubrió que el modo de voz avanzado ChatGPT es muy rápido y casi no hay demora en responder.

Cuando se le pide que imite algunos sonidos, siempre los reproduce de manera realista. Y también se pueden imitar diferentes acentos.

El siguiente vídeo muestra la escena en la que la IA actúa como comentarista de un partido de fútbol.

ChatGPT cuenta historias en chino, que también es muy vívido.

Aunque OpenAI afirma que las funciones de vídeo y compartir pantalla se lanzarán más adelante, algunos internautas ya las han utilizado por primera vez.

Un internauta tiene un nuevo gato como mascota. Le construyó un nido y le preparó comida, pero no sabía qué hacer, así que le preguntó a ChatGPT.

Durante la conversación en el video, el internauta le mostró la casa del gato. Luego de verlo, ChatGPT comentó: “Debe ser muy cómoda” y se mostró preocupado por cómo estaba el gato.

Los internautas dijeron que aún no ha comido y parece un poco preocupado. ChatGPT lo consoló: "Esto es normal. Los gatos necesitan tiempo para adaptarse".

Se puede ver que todo el proceso de preguntas y respuestas es muy sencillo, lo que da a las personas la sensación de comunicarse con personas reales.

Los internautas también buscaron la versión japonesa de la consola de juegos, pero no hablan japonés.

En ese momento, le mostró la interfaz del juego a ChatGPT y le pidió que se la tradujera. Finalmente, Hu completaron el juego juntos.

Debo decir que con la bendición del modo visual + voz, ChatGPT es mucho más potente.

GPT-4o Long Output está silenciosamente en línea, con una salida de hasta 64K

Además, le seguirá GPT-4o, que admite una mayor producción de tokens.

Ayer mismo, OpenAI anunció oficialmente que proporcionará a los probadores la versión GPT-4o Alpha, que admite la salida de hasta 64.000 tokens por solicitud, lo que equivale a una novela de 200 páginas.

Sin embargo, el precio del nuevo modelo ha vuelto a marcar un nuevo techo. Cuesta 6 dólares por millón de tokens de entrada y 18 dólares por millón de tokens de salida.

Aunque el token de salida es 16 veces mayor que el de GPT-4o, el precio también ha aumentado en 3 dólares.

Después de tal comparación, ¡gpt-4o-mini es realmente más asequible!

El investigador Simon Willison dijo que la salida larga se utiliza principalmente para casos de uso de transformación de datos.

Por ejemplo, para traducir documentos de un idioma a otro, o para extraer datos estructurados de documentos, es necesario utilizar casi todos los tokens de entrada en el JSON de salida.

Antes de esto, el modelo de salida más largo que conocía era GPT-4o mini, que tenía 16.000 tokens.

¿Por qué lanzar un modelo con mayor rendimiento?

Obviamente, una salida más larga permite que GPT-4o proporcione una respuesta más completa y detallada, lo cual es muy útil para algunos escenarios.

Por ejemplo, escribir código y mejorar la escritura.

Este también es un ajuste realizado por OpenAI basado en los comentarios de los usuarios de que se necesita un contenido de salida más largo para cumplir con el caso de uso.

Diferencia entre contexto y resultado

Desde su lanzamiento, GPT-4o ha proporcionado una ventana de contexto máxima de 128K. Para GPT-4o Long Output, la ventana de contexto máxima sigue siendo 128K.

Entonces, ¿cómo aumenta OpenAI la cantidad de tokens de salida de 4000 a 64 000 mientras mantiene la ventana de contexto general de 128K?

Esto se debe a que OpenAI inicialmente limitó la cantidad de tokens de salida a un máximo de 4000 tokens.

Esto significa que los usuarios pueden usar hasta 124.000 tokens como entrada en una interacción y solo pueden obtener hasta 4.000 tokens de salida.

Por supuesto, también puede ingresar más tokens, lo que significa que se generarán menos tokens.

Después de todo, la longitud del contexto largo (128K) está fija allí. No importa cómo cambie la entrada, el token de salida no excederá los 4000.

Ahora, OpenAI limita la longitud del token de salida a 64.000 tokens, lo que significa que puede generar 16 veces más tokens que antes.

Después de todo, la producción requiere más cálculos y el aumento de precios es mayor.

De manera similar, para el último GPT-4o mini, el contexto también es 128K, pero la producción máxima se ha incrementado a 16.000 tokens.

Luego, los usuarios pueden proporcionar hasta 112.000 tokens como entrada y, en última instancia, obtener hasta 16.000 tokens como salida.

En general, OpenAI proporciona una solución aquí para limitar el token de entrada para obtener una respuesta más larga de LLM, en lugar de expandir directamente la longitud del contexto.

En cuanto a otros modelos en el mercado, el largo ha superado el millón (Gemini), y el ligeramente más corto tiene 200K (Claude). Algunos incluso tienen modelos que han alcanzado los 200K, y OpenAI todavía está aquí;

Esto también plantea un problema difícil a los desarrolladores: si desea ingresar más, debe aceptar menos resultados; si desea más resultados, debe ingresar menos;

Cómo medirlo depende de cuál estés dispuesto a sacrificar...

Referencias:

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/

noticias