Google、Gemini Liveをリリース：AI音声チャットをサポートし、面接シーンをシミュレート可能

2024-08-14

IT Houseは8月14日、本日開催されたGoogleのPixel 9シリーズ携帯電話発表カンファレンスで、Gemini Live サービスがリリースされ、今日から英語を話す Gemini Advanced 加入者が利用できるようになります。

自然でスムーズな会話のやりとりを促進する

Googleによると、Gemini LiveはユーザーがGeminiと自由に会話できるモバイル会話体験を提供するという。

Gemini Liveは、OpenAI ChatGPTによって開始された最新のAdvanced Voiceモード（限定アルファテスト）と言え、強化された音声エンジンを採用し、より一貫性があり、感情表現が豊かで現実的なマルチラウンド会話を実行できます。

Googleによると、ユーザーはチャットボットの会話中に中断してフォローアップの質問をすることができ、チャットボットはユーザーの会話パターンにリアルタイムで適応するという。

IT House が翻訳した Google ブログ投稿の一部は次のとおりです。

Gemini Live [Gemini アプリを使用] を使用すると、ユーザーは Gemini に話しかけ、応答できる [10 の新しい] 自然音から選択できます。ユーザーは、人間の会話と同じように、自分のペースで話したり、回答の途中で中断して明確な質問をしたりすることもできます。

Googleは、ユーザーと採用担当者（状況に応じて人工知能）との会話をシミュレートし、ユーザーにスピーキングスキルに関する推奨事項や最適化の提案を提供するGemini Liveのシーンをデモした。

Googleの広報担当者は次のように述べた。

Live は Gemini Advanced モデルを使用しており、これをより会話的にするために調整しました。モデルの大きなコンテキストウィンドウは、ユーザーが Live で長い会話をするときに使用されます。

マルチモーダル入力をサポートしていません

Gemini Live には、Google が I/O で披露した機能の 1 つであるマルチモーダル入力がまだありません。

Googleは5月に、壊れた自転車の部品に名前を付けたり、コンピュータ画面上のコードの一部を説明したりするなど、携帯電話のカメラで撮影した写真やビデオを通じてGemini Liveがユーザーの周囲を見て反応する様子を示す事前録画ビデオを公開した。そうです。

Googleは、マルチモーダル入力は「今年後半」に開始されると述べたが、詳細については明らかにしなかった。

ニュース