OpenAI внезапно обновился! GPT-4o запускает расширенную голосовую версию, отвечает на вопросы за считанные секунды, пользователи сети сходят с ума

2024-07-31

Умные вещи (паблик аккаунт:zhidxcom）
авторваниль
редактироватьЛи Шуйцин

Расширенная голосовая функция GPT-4o наконец-то больше не является «будущим»!

Новости из Чжидунси от 31 июля сегодня рано утром:OpenAIОбъявление о начале внедрения для небольшой группы пользователей ChatGPT Plus.Расширенный голосовой режим, основанный на GPT-4o, обеспечивающий более естественное общение в реальном времени.

▲OpenAI запускает расширенный голосовой режим

После запуска модели многие пользователи сети, получившие приглашение, уже начали играть в нее и поделились своими пробными видео и впечатлениями. Например, это быстрый рэп и битбокс, представленный ChatGPT, который звучит довольно стильно.

//oss.zhidx.com/uploads/2024/07/66a9902a60e1d_66a9902a5d0a5_66a9902a5d078_Beatbox.mp4

В целом расширенный голосовой режим ChatGPT мало чем отличается от оригинальной официальной демонстрации.почти без задержек , различные тона также очень яркие. Однако, похоже, было принято множество защитных мер с точки зрения безопасности ChatGPT.Шанс отклонения запросов пользователей увеличился。

Функция голосового общения ChatGPT была впервые запущена в сентябре прошлого года.В мае этого года OpenAI запустилаФлагманская модель GPT-4o Более продвинутая версия голосового диалога и проведенная публичная демонстрация. GPT-4o использует одну мультимодальную модель вместо предыдущих трех отдельных моделей речевых возможностей, сокращая задержку в разговорах с чат-ботами. (OpenAI в одночасье перевернул голосового помощника! Модель GPT-4o ужасающе мощная, ChatGPT научился читать с экрана, и настоящая версия Ее здесь)

В то время OpenAI объявила, что эта функция будет доступна для бесплатных и платных пользователей в течение нескольких недель. Однако всего через несколько дней после его выхода у OpenAI возник спор со Скарлетт Йоханссон, которая играет «Черную вдову» в серии фильмов «Мстители» и известна фанатам как «сестра-вдова» из-за звука ChatGPT в Демонстрация была слишком похожей, и сама Скарлетт обвинила ее, и пользователи сети резко выступили против.

В результате дата выпуска Advanced Voice Mode также была отложена. Хотя OpenAI настаивала на том, что ChatGPT не имитировал голос Скарлетт, позже голосовая линия была удалена.

1. Тестирование с более чем сотней внешних участников красной команды, которое осенью может быть открыто для всех подписчиков.

Расширенный голосовой режим на основе GPT-4o в настоящее время доступен только небольшому числу пользователей ChatGPT Plus и доступенБолее естественные разговоры в реальном времени，Разрешить пользователям прерывать работу в любое время, и можетЧувствовать эмоции пользователя и реагировать на них。

Пользователи, участвующие в этом альфа-тестировании, получат электронное письмо с инструкциями и уведомлением в своем мобильном приложении ChatGPT. OpenAI заявила, что продолжит постепенно добавлять новых пользователей и планирует осенью сделать ее доступной каждому подписчику Plus.

▲Письмо с приглашением и главная страница приложения

Расширенный голосовой режим ChatGPT был выпущен в мае этого года. Он основан на новой флагманской модели OpenAI GPT-4o, которая может выполнять голосовой чат и видеовзаимодействие в реальном времени, например, понимать линейные уравнения с помощью видеоизображений, а также понимать и оценивать выражения людей. и интонации и т. д.

В OpenAI заявили, что с момента своего первого выпуска команда работала над повышением безопасности и качества голосовых разговоров, тестируя голосовые возможности с более чем 100 внешними членами красной команды на 45 языках.

Чтобы защитить конфиденциальность, OpenAI при обучении модели разговаривала только четырьмя предустановленными голосами и создала соответствующую систему для блокировки различных выходных данных. Также были приняты защитные меры для блокировки запросов на контент, содержащий насилие или защищенный авторским правом.

OpenAI планирует опубликовать подробный отчет о функциональности, ограничениях и оценке безопасности GPT-4o в начале августа.

2. Первая волна пробных пользователей начала жить полноценной жизнью: практиковать французский, учиться мяукать и объяснять футбол.

Пользователи первой волны пробной версии с нетерпением ждут возможности использовать расширенный голосовой режим и поделиться своим опытом пробной версии.

Художник Мануэль Сансили включает камеру, покаЖивая съемкаЯ спросил ChatGPT о моем только что выращенном котенке и об условиях, которые я для него устроил, а также спросил у ChatGPT его мнение о кормлении.

//oss.zhidx.com/uploads/2024/07/66a9900fc37cb_66a9900fbde19_66a9900fbddf7_Видео разговор.mp4

Ответ ChatGPT был практически без задержки. Сначала он очень любящим тоном похвалил кота за его привлекательность, а затем утешил Сейнсили, попросив предоставить дополнительную информацию, сказав ему не волноваться. Сэнсили восклицает: «Это похоже на видеозвонок со знающим другом».

Пользователь сети Бергара поделился на социальной платформе Reddit, что ChatGPT отклонил все его запросы на пение и не желает менять свой голос. ChatGPT добился успеха, когда он попросил его прочитать стихотворение в разных тонах и настроениях, но когда его попросили прочитать его с улыбкой, он отказался.

Например, Бергара сказал, что практикует французский язык, и попросил ChatGPT выступить в ролиязыковой тренер, спрашивая их мнение о произношении.

//oss.zhidx.com/uploads/2024/07/66a9903094c84_66a99030913bd_66a990309139a_Учение французского языка.mp4

Что касается произношения слова Бергара, ChatGPT дал подробные рекомендации по ударению, окончанию звуков и т. д., а также провел демонстрации. В то же время его стиль преподавания очень «поощряет образование», и он без колебаний хвалит произношение Бергары, что напрямую повышает эмоциональную ценность.

Бергара позволяет ChaGPT использовать его отдельноЗастенчивый, сердитый тон Расскажите анекдоты о пиве. Понимание застенчивости в ChatGPT заключается в том, чтобы использовать хриплый голос, а при выражении гнева он увеличивает его децибелы.

//oss.zhidx.com/uploads/2024/07/66a990398daca_66a9903989c33_66a9903989c08_Рассказывать анекдоты застенчивым и злым тоном.mp4

Когда ChatGPT предлагается использоватьгрустный тонКогда читаешь стихи, такое ощущение, будто вот-вот сломается...

//oss.zhidx.com/uploads/2024/07/66a9902fc3720_66a9902fbc252_66a9902fbc230_sadtone.mp4

Бергара сказал, что в ходе тестов ChatGPT вел себя аналогично тому, что показал OpenAI, ноПроцент отказов кажется немного высокимОн предположил, что это может быть сделано из соображений безопасности.

Например, когда Bergara попросила ChatGPT спеть историю о роботах и любви, она сказала, что может рассказать эту историю, но только нормальным речевым тоном.

//oss.zhidx.com/uploads/2024/07/66a99036460bb_66a9903642127_66a99036420ff_Эмоциональное повествование.mp4

Во время рассказа ChatGPT Бергара несколько раз прерывал его и просил «добавить больше эмоций». ChatGPT подчинился, и его тон стал медленнее и оживленнее.

Некоторые пользователи сети уже начали использовать ChatGPT для организации своей жизни.

Соучредитель и технический директор Squad Итан Сутин запускает ChatGPTимитировал различные кошачьи мяуканья . Надо сказать, что этот кошачий зов немного "волшебный", но кажется вполне реальным, потому что моего кота он привлек...

//oss.zhidx.com/uploads/2024/07/66a9901c00939_66a9901bf0c77_66a9901bf0c51_Learn to meow.mp4

ChatGPT, похоже, тоже имеетмузыкальное представление Способность. Сутин попросил его сыграть аккорд до минор. Есть ли кто-нибудь из читателей, знающих теорию музыки, которые могли бы послушать ее и убедиться в ее точности?

//oss.zhidx.com/uploads/2024/07/66a9903dcfec1_66a9903dcbf91_66a9903dcbf62_chord.mp4

Пользователь сети Криштиану Джардина разрешил ChatGPT игратькомментатор футбольного матча . Он поделился некоторыми первыми впечатлениями от использования расширенного речевого режима: он очень быстрый, всегда дает интересные результаты и всегда имеет американский акцент при разговоре на других языках.

//oss.zhidx.com/uploads/2024/07/66a9988d2ea93_66a9988d279ea_66a9988d279c4_Football commentary.mp4

Пользователь сети Kesku попросил ChatGPT сказать одну вещьнесуществующий язык , а затем объясните, как работает этот язык. ChatGPT создал Glimnar — звуковой язык, который немного напоминает пение.

//oss.zhidx.com/uploads/2024/07/66a998835c09b_66a9988357da7_66a9988357d83_Creation Language.mp4

Хотя расширенный голосовой режим ChatGPT по-прежнему используют лишь немногие пользователи, поскольку область его распространения расширяется, возможно, мы сможем увидеть более интересный игровой процесс и впечатления.

Вывод: OpenAI повышает осведомленность о безопасности ИИ

Искусственный интеллект в голосе и видео тщательно изучается на предмет его способности служить инструментом мошенничества. Хотя речевой режим OpenAI в настоящее время не позволяет создавать новые голоса или голосовые клоны, этот режим все равно может вызывать путаницу.

Через несколько месяцев после весеннего обновления OpenAI выпустила серию новых статей по вопросам безопасности и согласования моделей искусственного интеллекта. Это произошло после того, как команда Super Alignment была расформирована, и некоторые бывшие и нынешние сотрудники раскритиковали ее за то, что она сместила акцент на выпуск новых продуктов, а не на безопасность. На данный момент замедление развертывания расширенных голосовых режимов кажется пользователям, регулирующим органам и законодателям знаком того, что OpenAI серьезно относится к безопасности.

Выпуск расширенного речевого режима ChatGPT также еще больше отличает OpenAI от конкурентов, таких как модель Llama 3.1 от Meta и Claude 3 от Anthropic, что оказывает давление на стартапы в области искусственного интеллекта, ориентированные на эмоциональную речь.

Новости

OpenAI внезапно обновился! GPT-4o запускает расширенную голосовую версию, отвечает на вопросы за считанные секунды, пользователи сети сходят с ума

Введение

моя контактная информация