Новости

Расширенный голосовой режим ChatGPT наконец-то доступен онлайн: как только вы говорите по-китайски, ваша личность как «Вай Гуорен» раскрывается.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Отчет о сердце машины

Монтажер: Яичный соус, Сяочжоу

«Она» OpenAI наконец-то открыта для некоторых людей.

В мае этого года OpenAI представила свою флагманскую модель нового поколения GPT-4o и настольное приложение на весеннем запуске нового продукта и продемонстрировала ряд новых возможностей.

Теперь OpenAI объявила, что откроет расширенный голосовой режим ChatGPT для небольшой группы пользователей ChatGPT Plus, что позволит пользователям впервые получить сверхреалистичный звуковой отклик GPT-4o. Эти пользователи получат оповещение в приложении ChatGPT и письмо по электронной почте с инструкциями по использованию приложения.

«С тех пор, как мы впервые продемонстрировали расширенный голосовой режим, мы усердно работаем над повышением безопасности и качества голосовых разговоров и готовимся предоставить эту передовую технологию миллионам людей. OpenAI заявила, что эта функция постепенно станет доступной осенью». 2024 г. Представлено всем пользователям Plus.

Некоторые пользователи уже опубликовали результаты использования расширенного голосового режима:

Источник: https://x.com/tsarnick/status/1818402307115241608

Когда вы рассказываете шутки с помощью ChatGPT, ChatGPT может вас рассмешить:

Источник: https://x.com/yoimnotkesku/status/1818406786077970663

Используя расширенный голосовой режим ChatGPT, «Она» может создавать фоновую музыку во время рассказа историй и доступна на нескольких языках.

Источник: https://x.com/yoimnotkesku/status/1818415019349901354

Также доступны французский, испанский и урду:

Источник: https://x.com/yoimnotkesku/status/1818424494106853438

Но китайское выражение не очень аутентично, как у «вайгуорен», изучающего китайский язык:

Источник: https://x.com/yoimnotkesku/status/1818446895083139170

Все, кто слушал, были ошеломлены:

Проблема с акцентом встречается не только в китайском, но и в немецком языке:

Источник: https://x.com/yoimnotkesku/status/1818445235606671670

Напоследок поговорим о скороговорке:

Источник: https://x.com/yoimnotkesku/status/1818427991514337695

OpenAI утверждает, что расширенный голосовой режим отличается от того, что сейчас предлагает ChatGPT.

Старое решение речевого режима ChatGPT использовало три отдельные модели: одна модель преобразовывала речь в текст, GPT-4 отвечала за обработку подсказок (подсказок), а третья модель отвечала за преобразование текста ChatGPT в речь. GPT-4o является мультимодальным и может справляться с этими задачами без помощи вспомогательных моделей, тем самым значительно уменьшая задержку диалога. OpenAI также сообщила, что GPT-4o может улавливать эмоциональную интонацию голоса пользователя, включая грусть, волнение и т. д.

В мае этого года OpenAI впервые продемонстрировала голосовую функцию GPT-4o. Скорость реакции «Ее» и поразительное сходство с голосом реального человека шокировали публику — и вот в чем проблема.

Голос по имени «Скай» напоминает Скарлетт Йоханссон, которая играет искусственную помощницу в фильме «Она».

Вскоре после демонстрации OpenAI Джонсон заявила, что она сопротивлялась многочисленным просьбам генерального директора OpenAI Сэма Альтмана использовать ее голос и что она наняла адвоката для защиты своего голоса после просмотра демо-версии GPT-4o. OpenAI отрицает использование голоса Скарлетт Йоханссон, но также удалила его из демо-версии.

В июне OpenAI заявила, что отложит выпуск расширенного речевого режима, чтобы улучшить меры безопасности.

После долгого ожидания «Она» наконец-то встретилась со всеми. OpenAI заявила, что расширенный голосовой режим, запущенный на этот раз, будет ограничен ChatGPT, который в сотрудничестве с платными актерами озвучивания создал четыре предустановленных голоса: Juniper, Breeze, Cove и Ember.

Стоит отметить, что существует только эти четыре типа вывода звуков — голос Sky, показанный на демонстрации OpenAI в мае, больше не доступен для ChatGPT. «ChatGPT не может выдавать себя за голоса других, в том числе отдельных лиц и общественных деятелей, и блокирует выходные данные, которые отличаются от одного из этих предустановленных голосов», — заявила представитель OpenAI Линдси МакКаллум.

Первоначальная цель этой установки — избежать споров о Deepfake. В январе этого года технология клонирования голоса стартапа по искусственному интеллекту ElevenLabs была использована для того, чтобы выдать себя за президента США Байдена и обмануть первичных избирателей в Нью-Гэмпшире, что вызвало серьезные споры.

OpenAI также заявила, что представила новые фильтры для блокировки определенных запросов на создание музыки или другого аудио, защищенного авторскими правами.

В прошлом году многие компании, занимающиеся созданием изображений и музыки, занимающиеся искусственным интеллектом, попали в юридические споры из-за нарушения авторских прав. В частности, звукозаписывающие компании, которые любят судиться, подали в суд на аудиогенераторы искусственного интеллекта Suno и Udio. А аудиомодели, такие как GPT-4o, добавляют совершенно новую категорию компаний, которые могут подавать жалобы.

Сообщается, что OpenAI протестировала голосовые возможности GPT-4o с более чем 100 внешними членами «красной команды» на 45 языках. Эта ключевая информация будет объявлена ​​более подробно в отчете о функциях, ограничениях и оценке безопасности GPT-4o в августе.

Справочные ссылки:

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant