новости

Google выпускает Gemini Live: поддерживает голосовой чат с искусственным интеллектом и может имитировать сцены интервью

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

14 августа IT House сообщил, что на состоявшейся сегодня конференции Google по запуску мобильных телефонов серии Pixel 9Услуга Gemini Live запущена и с сегодняшнего дня будет доступна англоговорящим подписчикам Gemini Advanced.


Способствуйте естественному и плавному диалогу

В Google заявили, что Gemini Live предоставляет возможность мобильного общения, которая позволяет пользователям свободно общаться с Gemini.

Можно сказать, что Gemini Live — это новейший расширенный голосовой режим (ограниченный альфа-тест), запущенный OpenAI ChatGPT. Он использует усовершенствованный речевой движок и может вести многоэтапные разговоры, которые являются более связными, эмоционально выразительными и реалистичными.


Google утверждает, что пользователи могут прерывать чат-бота, пока он говорит, чтобы задать дополнительные вопросы, и чат-бот будет адаптироваться к манере речи пользователя в режиме реального времени.

Часть сообщения в блоге Google, переведенная IT House, выглядит следующим образом:

С помощью Gemini Live [с помощью приложения Gemini] пользователи могут разговаривать с Gemini и выбирать из [10 новых] естественных звуков, на которые он может реагировать. Пользователи могут даже говорить в своем темпе или прерывать ответ на полуслове, чтобы задать уточняющие вопросы, как в обычном разговоре.

Google продемонстрировал сцену Gemini Live, имитирующую разговор между пользователем и менеджером по найму (или искусственным интеллектом, в зависимости от ситуации), предоставляя пользователям рекомендации по навыкам разговорной речи и предложения по оптимизации.

Представитель Google сказал:

Live использует нашу модель Gemini Advanced, которую мы настроили, чтобы сделать ее более интерактивной. Большое контекстное окно модели используется, когда пользователи ведут долгие разговоры с Live.
Не поддерживает мультимодальный ввод

Gemini Live пока не имеет ни одной из функций, которые Google продемонстрировал на I/O: мультимодального ввода.

В мае Google выпустила предварительно записанное видео, показывающее, как Gemini Live видит и реагирует на окружение пользователя с помощью фотографий и видео, снятых камерой телефона, например, называет части сломанного велосипеда или объясняет, что такое код на экране компьютера. делает.

Google сообщил, что мультимодальный ввод будет запущен «позже в этом году», но отказался раскрыть подробности.