Google lanza Gemini Live: admite chat de voz con IA y puede simular escenas de entrevistas

2024-08-14

Según las noticias de IT House del 14 de agosto, Google celebró hoy la conferencia de lanzamiento de teléfonos móviles de la serie Pixel 9.El servicio Gemini Live ha sido lanzado y estará disponible para los suscriptores de Gemini Advanced de habla inglesa a partir de hoy.

Promover intercambios conversacionales naturales y fluidos.

Google dijo que Gemini Live ofrece una experiencia de conversación móvil que permite a los usuarios tener conversaciones fluidas con Gemini.

Se puede decir que Gemini Live es el último modo de voz avanzado (prueba Alpha limitada) lanzado por OpenAI ChatGPT. Adopta un motor de voz mejorado y puede llevar a cabo conversaciones de múltiples rondas que son más coherentes, emocionalmente expresivas y realistas.

Google dice que los usuarios pueden interrumpir el chatbot mientras habla para hacer preguntas de seguimiento, y el chatbot se adaptará a los patrones de habla del usuario en tiempo real.

Parte de la publicación del blog de Google traducida por IT House es la siguiente:

Con Gemini Live [usando la aplicación Gemini], los usuarios pueden hablar con Gemini y elegir entre [10 nuevos] sonidos naturales a los que puede responder. Los usuarios pueden incluso hablar a su propio ritmo o interrumpir a mitad de la respuesta para hacer preguntas aclaratorias, como en una conversación humana.

Google demostró una escena de Gemini Live, simulando una conversación entre un usuario y un gerente de contratación (o inteligencia artificial, según la situación), brindando a los usuarios recomendaciones sobre habilidades para hablar y sugerencias de optimización.

Un portavoz de Google dijo:

Live utiliza nuestro modelo Gemini Advanced, que hemos modificado para hacerlo más conversacional. La gran ventana contextual del modelo se utiliza cuando los usuarios mantienen largas conversaciones con Live.

No admite entrada multimodal

Gemini Live aún no tiene una de las características que Google mostró en I/O: entrada multimodal.

Google lanzó un video pregrabado en mayo que muestra a Gemini Live viendo y reaccionando al entorno del usuario a través de fotos y videos capturados por la cámara del teléfono, como nombrar las partes de una bicicleta rota o explicar algunos de los códigos en la pantalla de la computadora. hace.

Google dijo que la entrada multimodal se lanzará "más adelante este año", pero se negó a compartir detalles.

noticias

Google lanza Gemini Live: admite chat de voz con IA y puede simular escenas de entrevistas

Introducción

Mi información de contacto