новости

openai полностью выпускает человекоподобного голосового помощника chatgpt, который может говорить на 50 языках, включая китайский

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

автор статьи: ли дань

источник: жесткий ии

через четыре месяца после первоначального публичного выпуска openai функция голосового помощника с искусственным интеллектом (ии) chatgpt, похожая на человека, наконец-то доступна для платных пользователей.

во вторник, 24 сентября по восточному времени, openai объявила, что все пользователи, заплатившие за подписку на планы openai chatgpt plus и team, смогут использовать новый расширенный голосовой режим chatgpt advanced voice. эта функция будет постепенно внедряться в следующем. через несколько дней и сначала будет доступен на рынке сша онлайн. на следующей неделе эта функция будет доступна подписчикам планов openai edu и enterprise.

это означает, что на этой неделе как отдельные пользователи версии chatgpt plus, так и пользователи малых бизнес-групп версии teams смогут включить новую голосовую функцию, просто говоря, без необходимости вручную вводить подсказки и вести беседу gpt. при доступе к расширенному голосовому режиму в приложении пользователь может узнать, что он вошел в расширенный голосовой помощник, через всплывающее окно, и пользователь получит уведомление от приложения.

openai предоставил новой голосовой версии chatgpt две функции: одна — функция хранения «пользовательских инструкций» для голосового помощника, а другая — функция «памяти», позволяющая запомнить, какое поведение пользователь хочет от голосового помощника. к тому, что openai предоставил chatgpt в апреле этого года. текстовая версия представляет функцию памяти. пользователи могут воспользоваться этими функциями, чтобы обеспечить персонализацию голосовых шаблонов, позволяя ии-помощнику реагировать на все разговоры в зависимости от предпочтений пользователя.

во вторник openai запустила пять новых голосов разных стилей: arbor, maple, sol, spruce и vale, а также четыре голоса breeze, juniper, cove и ember, ранее запущенные в старой версии голосового режима, дополнительные голоса. достижение девяти типов. openai также улучшает скорость разговора, беглость речи и акцент на некоторых иностранных языках.

openai сообщила, что усовершенствованный голосовой помощник может сказать «извините, я опаздываю» на 50 языках, и прикрепила видео к сообщению в социальной сети, чтобы продемонстрировать, что пользователь может попросить голосового помощника передать сообщение бабушке, потому что она ждала долго извиняться. на видео видно, что ии-помощник сначала резюмировал то, что пользователь хотел выразить, как требовалось, и произнес это на английском языке. затем, после того как пользователь предложил ии-бабушке говорить только на мандаринском языке, ии-помощник снова произнес это на английском языке. стандартный мандарин.

новая голосовая функция доступна для ai-модели openai gpt-4o, а не для недавно выпущенной предварительной модели o1.

запуск новой голосовой функции уже давно назрел. wall street news однажды упомянула, что в мае этого года openai продемонстрировала голосовой режим voice mode при запуске своей новой флагманской модели gpt-4o. голос chatgpt, поддерживаемый gpt-4o, в то время звучал как голос взрослой американки и мог мгновенно отвечать на запросы. когда он услышал, как директор по исследованиям openai в демоверсии марк чен сильно выдохнул, он, казалось, уловил его нервозность, а затем сказал, что он сказал: «марк, ты не пылесос», велев чену расслабиться и дышать.

первоначально openai планировала запустить голосовой режим для небольшой группы пользователей плана plus в конце июня, но в июне объявила, что выпуск будет отложен на один месяц, чтобы гарантировать, что эта функция сможет безопасно и эффективно обрабатывать запросы от миллионов пользователей. . в то время openai заявила, что планирует сделать эту функцию доступной для всех пользователей plus этой осенью, причем точные сроки будут зависеть от соблюдения высоких внутренних стандартов безопасности и надежности.

в конце июля openai запустила chatgpt в расширенном голосовом режиме для ограниченного числа платных пользователей plus, заявив, что голосовой режим не может имитировать то, как говорят другие, и добавила новые фильтры, гарантирующие, что программное обеспечение может обнаруживать и отклонять определенную сгенерированную музыку. или другие формы. запросы на аудиофайлы, защищенные авторским правом. однако в новом голосовом режиме отсутствуют многие функции, продемонстрированные openai в мае, такие как возможности компьютерного зрения. эта функция позволяет gpt обеспечивать голосовую обратную связь о танцевальных движениях пользователя, просто используя камеру смартфона.