noticias

openai lanza completamente el asistente de voz chatgpt similar a un humano, que puede hablar 50 idiomas, incluido el chino

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

autor de este artículo: li dan

fuente: ia dura

cuatro meses después del lanzamiento público inicial de openai, la función de asistente de voz de inteligencia artificial (ia) avanzada similar a un humano de chatgpt finalmente está disponible para los usuarios que pagan.

el martes 24 de septiembre, hora del este, openai anunció que todos los usuarios que pagaron para suscribirse a los planes openai chatgpt plus y team podrán utilizar el nuevo modo de voz avanzado chatgpt advanced voice. esta función se implementará gradualmente en el próximo. en unos días y estará disponible por primera vez en el mercado estadounidense en línea. la próxima semana, la función estará disponible para los suscriptores de los planes openai edu y enterprise.

esto significa que esta semana, tanto los usuarios individuales de la versión plus de chatgpt como los usuarios de equipos de pequeñas empresas de la versión teams pueden habilitar la nueva función de voz simplemente hablando, sin tener que ingresar manualmente palabras y tener una conversación gpt. al acceder al modo de voz avanzado en la aplicación, el usuario puede saber que ha ingresado al asistente de voz avanzado a través de una ventana emergente y recibirá una notificación de la aplicación.

openai le ha dado a la nueva versión de voz de chatgpt dos funciones, una es la función de almacenar "instrucciones personalizadas" para el asistente de voz y la otra es la función de "memoria" que recuerda qué comportamiento el usuario quiere que realice el asistente de voz, similar además de lo que openai le dio a chatgpt en abril de este año, la versión de texto introduce la función de memoria. los usuarios pueden aprovechar estas funciones para garantizar que los patrones de voz estén personalizados, lo que permite que el asistente de ia responda según las preferencias del usuario para todas las conversaciones.

openai lanzó cinco nuevas voces de diferentes estilos el martes, llamadas arbor, maple, sol, spruce y vale, además de las cuatro voces breeze, juniper, cove y ember lanzadas anteriormente en la versión anterior del modo de voz, logrando nueve voces opcionales. openai también mejora la velocidad de la conversación, la fluidez y el acento en algunos idiomas extranjeros.

openai presentó que el asistente de voz avanzado puede decir "lo siento, llego tarde" en 50 idiomas y adjuntó un video a la publicación en las redes sociales para demostrar que el usuario puede pedirle al asistente de voz que le exprese a la abuela porque ha estado esperando. mucho tiempo. el video muestra que el asistente de ia primero resumió lo que el usuario quería expresar según lo requerido y lo dijo en inglés. luego, después de que el usuario le pidió a la abuela de ia que solo hablara mandarín, el asistente de ia volvió a hablarlo. mandarín estándar.

la nueva función de voz está disponible para el modelo de ia gpt-4o de openai y no para el modelo de vista previa o1 lanzado recientemente.

el lanzamiento de la nueva función de voz está muy retrasado. wall street news mencionó una vez que en mayo de este año, openai demostró el modo de voz voice mode al lanzar su nuevo modelo insignia gpt-4o. la voz chatgpt compatible con gpt-4o en ese momento sonaba como la de una mujer estadounidense adulta y podía responder a las solicitudes al instante. cuando escuchó al director de investigación de openai de la demostración, mark chen, exhalar excesivamente, pareció darse cuenta de su nerviosismo y luego dijo: "mark, no eres una aspiradora", diciéndole a chen que se relajara y respirara.

openai originalmente planeó lanzar el modo de voz para un pequeño grupo de usuarios del plan plus a fines de junio, pero anunció en junio que el lanzamiento se retrasaría un mes para garantizar que la función pueda manejar de manera segura y efectiva las solicitudes de millones de usuarios. . en ese momento, openai dijo que planeaba hacer que la función fuera accesible para todos los usuarios plus este otoño, y que el cronograma exacto dependía del cumplimiento de altos estándares internos de seguridad y confiabilidad.

a finales de julio, openai lanzó chatgpt en modo de voz avanzado para un número limitado de usuarios plus pagos, diciendo que el modo de voz no puede imitar la forma en que otros hablan, y agregó nuevos filtros para garantizar que el software pueda descubrir y rechazar cierta música generada. u otras formas solicitudes de audio con derechos de autor. sin embargo, el nuevo modo de voz carece de muchas características demostradas por openai en mayo, como las capacidades de visión por computadora. esta característica permite a gpt proporcionar comentarios de voz sobre los movimientos de baile del usuario simplemente usando la cámara del teléfono inteligente.