nouvelles

Google lance Gemini Live : prend en charge le chat vocal AI et peut simuler des scènes d'interview

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House a rapporté le 14 août que lors de la conférence de lancement des téléphones mobiles de la série Pixel 9 de Google qui s'est tenue aujourd'hui,Le service Gemini Live a été lancé et sera disponible pour les abonnés anglophones de Gemini Advanced à partir d'aujourd'hui.


Favorisez des échanges conversationnels naturels et fluides

Google a déclaré que Gemini Live offre une expérience de conversation mobile qui permet aux utilisateurs d'avoir des conversations fluides avec Gemini.

Gemini Live peut être considéré comme le dernier mode vocal avancé (test Alpha limité) lancé par OpenAI ChatGPT. Il adopte un moteur vocal amélioré et peut mener des conversations à plusieurs tours plus cohérentes, émotionnellement expressives et réalistes.


Google indique que les utilisateurs peuvent interrompre le chatbot pendant qu'il parle pour poser des questions de suivi, et le chatbot s'adaptera aux habitudes de parole de l'utilisateur en temps réel.

Une partie du billet de blog Google traduit par IT House est la suivante :

Avec Gemini Live [à l'aide de l'application Gemini], les utilisateurs peuvent parler à Gemini et choisir parmi [10 nouveaux] sons naturels auxquels il peut répondre. Les utilisateurs peuvent même parler à leur propre rythme ou interrompre une réponse au milieu d’une réponse pour poser des questions de clarification, comme dans une conversation humaine.

Google a présenté une scène de Gemini Live, simulant une conversation entre un utilisateur et un responsable du recrutement (ou une intelligence artificielle, selon la situation), fournissant aux utilisateurs des recommandations sur les compétences orales et des suggestions d'optimisation.

Un porte-parole de Google a déclaré :

Live utilise notre modèle Gemini Advanced, que nous avons modifié pour le rendre plus conversationnel. La grande fenêtre contextuelle du modèle est utilisée lorsque les utilisateurs engagent de longues conversations avec Live.
Ne prend pas en charge l'entrée multimodale

Gemini Live ne possède pas encore l'une des fonctionnalités présentées par Google en matière d'E/S : l'entrée multimodale.

Google a publié en mai une vidéo préenregistrée montrant Gemini Live voyant et réagissant à l'environnement de l'utilisateur à travers des photos et des vidéos capturées par l'appareil photo du téléphone, comme nommer les pièces d'un vélo cassé ou expliquer ce qu'est une partie du code sur l'écran de l'ordinateur. fait.

Google a déclaré que l'entrée multimodale serait lancée "plus tard cette année", mais a refusé de partager des détails.