notícias

Google lança Gemini Live: suporta chat de voz com IA e pode simular cenas de entrevistas

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

De acordo com notícias da IT House em 14 de agosto, o Google realizou hoje a conferência de lançamento do telefone móvel da série Pixel 9.O serviço Gemini Live foi lançado e estará disponível para assinantes Gemini Advanced que falam inglês a partir de hoje.


Promova trocas de conversação naturais e tranquilas

O Google disse que o Gemini Live oferece uma experiência de conversação móvel que permite aos usuários ter conversas fluidas com o Gemini.

Pode-se dizer que Gemini Live é o mais recente modo de voz avançado (teste Alpha limitado) lançado pelo OpenAI ChatGPT. Ele adota um mecanismo de fala aprimorado e pode realizar conversas em várias rodadas que são mais coerentes, emocionalmente expressivas e realistas.


O Google diz que os usuários podem interromper o chatbot enquanto ele fala para fazer perguntas de acompanhamento, e o chatbot se adaptará aos padrões de fala do usuário em tempo real.

Parte da postagem do blog do Google traduzida pela IT House é a seguinte:

Com o Gemini Live [usando o aplicativo Gemini], os usuários podem conversar com o Gemini e escolher entre [10 novos] sons naturais aos quais ele pode responder. Os usuários podem até falar em seu próprio ritmo ou interromper a resposta para fazer perguntas esclarecedoras, como em uma conversa humana.

O Google demonstrou uma cena do Gemini Live, simulando uma conversa entre um usuário e um gerente de contratação (ou inteligência artificial, dependendo da situação), fornecendo aos usuários recomendações sobre habilidades orais e sugestões de otimização.

Um porta-voz do Google disse:

Live usa nosso modelo Gemini Advanced, que ajustamos para torná-lo mais conversacional. A grande janela de contexto do modelo é usada quando os usuários participam de longas conversas com o Live.
Não suporta entrada multimodal

O Gemini Live ainda não possui um dos recursos que o Google exibiu no I/O: entrada multimodal.

O Google lançou um vídeo pré-gravado em maio mostrando o Gemini Live vendo e reagindo ao entorno do usuário por meio de fotos e vídeos capturados pela câmera do telefone, como nomear as peças de uma bicicleta quebrada ou explicar alguns dos códigos na tela do computador. faz.

O Google disse que a entrada multimodal será lançada “ainda este ano”, mas se recusou a compartilhar detalhes.