расширенный голосовой режим chatgpt полностью открыт, подробности здесь

расширенный голосовой режим chatgpt полностью открыт, подробности здесь.

2024-09-25

нет необходимости ждать до осени. рано утром openai объявила, что новая версия расширенного голосового режима chatgpt будет полностью доступна всем пользователям plus и team на этой неделе.

генеральный директор openai сэм альтман опубликовал на платформе x:

расширенный голосовой режим официально запущен сегодня! (будет полностью выпущен на этой неделе) надеюсь, вы чувствуете, что ожидание того стоит🥺🫶

однако в новой версии расширенного голосового режима также имеется ограничение по времени использования в день, и это ограничение также изменится. когда у пользователя останется 15 минут, система выдаст напоминание.

это означает, что использовать его в качестве близкого друга ии, с которым можно говорить обо всем 24 часа в сутки, может быть нереально.

есть два простых способа определить, получили ли вы push-квалификацию.

во-первых, если вы имеете право на подталкивание, при первом входе в голосовой режим в приложении будет отображаться следующее уведомление:

второй способ — проверить количество голосовых стилей.

ранее chatgpt поддерживал пять предустановленных голосовых стилей, но впоследствии был удален с полок из-за юридического спора между голосовым стилем «небо» и «вдова-сестра».

сегодня openai запускает пять новых голосовых стилей, которые звучат более естественно: vale, spruce, arbor, maple и sol.

официальный сайт openai описывает эти девять звуков следующим образом:

беседка – простая и универсальная

бриз – живой и серьезный.

бухта – спокойная и прямолинейная.

эмбер – уверенный и оптимистичный.

можжевельник – открытый и оптимистичный

клен – веселый и откровенный

сол – умный и раскрепощенный

ель – спокойная и уверенная.

вейл – умный и любопытный.

после прослушивания нового стиля голоса у всех пользователей сети появились свои предпочтения. некоторые скучают по «небу», а другие уже погружены в новый стиль озвучки. сол в настоящее время является самым популярным. какой тон вы предпочитаете? вы можете поделиться им в комментариях.

так каков же эффект расширенного голосового режима chatgpt?

чиновник приводит пример: если вы хотите искренне извиниться перед своей бабушкой, которая говорит только на китайском языке, за опоздание, вы можете использовать для этого chatgpt, который говорит на более чем 50 языках.

вы правильно поняли, chatgpt сказал на китайском языке следующее ясно и кратко:

бабушка, извини, я опоздала. я не хотела заставлять тебя ждать так долго. как я могу тебе компенсировать?

кроме того, расширенный голосовой режим chatgpt теперь поддерживает настройку пользовательских команд.

сотрудники openai отмечают, что вокальная модальность (способ передачи голоса) содержит множество элементов, которые могут не отражаться в текстовом разговоре, например акцент, интонация, ритм и т. д.

теперь пользователи могут настроить то, как говорит модель ии, с помощью настроек, которые более точно описывают, как пользователь хочет, чтобы модель говорила.

она привела такие примеры, как модель говорила с определенной частотой, четко излагала свои мысли, говорила медленно и регулярно использовала имя пользователя. она рекомендует начать с простого: например, сообщить модели имя пользователя и некоторую базовую информацию.

в конкретном сценарии пользователи спрашивают, чем интересного они могут заняться на выходных. расширенный голосовой режим chatgpt предлагает предложения в зависимости от погоды и местоположения пользователя (район залива), например, поход, пикник или поездка по маршруту 1.

или когда она говорит, что ей нравится идея покататься по пейзажам, и спрашивает, какой маршрут ей следует выбрать, chatgpt может предложить подробный план.

короче говоря, настраивая голос и взаимодействие модели, расширенный голосовой режим chatgpt может предоставлять конкретные предложения, основанные на предпочтениях и потребностях пользователя, делая взаимодействие более естественным и полезным.

кроме того, скорость разговора, беглость и акцент в новой версии расширенного голосового режима chatgpt были значительно улучшены. возможно, его действительно стоит рассмотреть в качестве вашего партнера по иностранному языку.

говоря о пользовательском опыте, дизайнер моделей openai дрю сказал, что когда он что-то делает или ему не нужно разговаривать с chatgpt, chatgpt будет хранить молчание.

когда у него есть вопрос, он его задает, и вопрос может перерасти в долгий разговор.

во время разговора голос chatgpt подстраивается под тон разговора. по его мнению, chatgpt — это как друг, сидящий рядом с ним и не только предоставляющий информацию, но и обменивающийся идеями.

на практике вы также можете попробовать использовать его для отработки собеседований и других сценариев, не беспокоясь о задержках.

«я имею в виду, что задержка настолько мала, что это похоже на разговор с другим человеком», — подчеркнул дрю.

чтобы получить первую порцию пользовательского опыта, вы можете просмотреть предыдущие статьи appso👇

первая партия пользовательского опыта голосового режима gpt-4o уже здесь! фильм «она» наконец-то сбылся, пользователи сети: я почти влюбился в нее

стоит отметить, что новая версия расширенного голосового режима, запущенная openai, в настоящее время недоступна для ес, великобритании, швейцарии, исландии, норвегии и лихтенштейна.

один камень вызвал тысячи волн, а пострадавшие пользователи сети были разгневаны и беспомощны.

к сожалению, видео и демонстрация экрана chatgpt по-прежнему недоступны.

четыре месяца назад эта функция была представлена на пресс-конференции. в то время openai также показала нам, как в режиме реального времени задавать chatgpt математическую задачу на листе бумаги перед вами или код на экране компьютера.

в настоящее время openai не уточнила, когда эта функция будет запущена.

в индустрии искусственного интеллекта, где развитие всегда непредсказуемо, запоздалый расширенный голосовой режим по сути является кастрированным продуктом.

нет новых функций, которые бы слишком бросались в глаза, и он даже не выполнил функциональные обязательства на майской конференции. разогретый полномасштабный рывок больше похож на продукт, ориентированный на новую модель google.

парадоксально, но слово «скоро» в словаре openai, похоже, отличается от нашего.

некоторые давно обещанные функции могут появиться завтра или в следующем году.

если подумать об этом с другой стороны, openai, обладающая отличными техническими возможностями, также является компанией, которая продает воображение. то, чего мы больше всего ждем, может стать их следующим открытием.

ведь для них это стало традицией, правда?

еще одна вещь

официальный сайт openai сегодня обновил версию ответов на вопросы контроля качества о голосовом режиме chatgpt. мы также кратко суммировали некоторые практические ответы, надеясь быть вам полезными.

1. при использовании расширенного голосового режима вы все равно можете зависнуть в фоновом режиме телефона и продолжить разговор.

2. если вы переключитесь из текстового или стандартного голосового режима в расширенный голосовой режим, обратите внимание, что вы не сможете вернуться к предыдущему состоянию текстового или стандартного голосового разговора.

3. при использовании в автомобиле функций bluetooth или телефона без помощи рук на качество расширенного голосового диалога может повлиять, поскольку openai в настоящее время не обеспечивает специальной оптимизации для этих устройств.

3. расширенный голосовой диалог пока недоступен для gpt. с gpt вы можете вести только стандартные голосовые разговоры. у gpt есть собственная уникальная голосовая опция под названием shimmer.

4. в целях соблюдения авторских прав создателей музыки openai приняла ряд мер безопасности, включая новые условия фильтрации, позволяющие предотвратить создание музыкального контента, в том числе пения, голосовыми разговорами.

5. расширенный речевой режим разговоры по своей природе мультимодальны, и транскрибируемый текст не всегда точно соответствует исходному разговору.

6. звук в расширенном голосовом разговоре будет сохраняться вместе с историей чата, пока вы его не удалите. после удаления аудио обычно удаляется в течение 30 дней, но при определенных обстоятельствах может храниться дольше.

7. openai сообщает, что по умолчанию система не будет использовать ваш звук в голосовых чатах для обучения модели, если вы не решите поделиться звуком.

8. если в «настройках» не включена опция «улучшить голосовой чат для всех пользователей», это означает, что вы не предоставили общий доступ к аудио, и система не будет использовать ваш звук для обучения модели.

новости

расширенный голосовой режим chatgpt полностью открыт, подробности здесь.

введение

моя контактная информация