Новости

Версия GPT-4o «Her» наконец-то здесь! Рассказывая анекдоты и мяукая, как кошка, насколько сексуальной может быть девушка с искусственным интеллектом?

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Редактор: Таози такой сонный.

[Введение в новую мудрость] Голосовая функция GPT-4o наконец-то появилась, как и ожидалось, и научно-фантастическая версия «Она» становится реальностью! Некоторые пользователи сети, протестировавшие оттенки серого, сошли с ума. Однако в настоящее время OpenAI предоставляет только 4 предустановленных голоса. Кроме того, выходной токен новой модели GPT-4o также вырос в 16 раз до 64 КБ.

Обещание Ультрачеловека было наконец выполнено.

До конца июля голосовой режим GPT-4o наконец-то запустил тестирование в оттенках серого, и небольшое количество пользователей ChatGPT Plus уже получили билеты раннего использования.


Если вы увидите следующий интерфейс после открытия приложения ChatGPT, поздравляем вас с тем, что вы стали одним из первых счастливчиков.


По данным OpenAI, расширенный голосовой режим обеспечивает более естественный разговор в реальном времени, может быть прерван по желанию и даже может чувствовать и реагировать на ваши эмоции.

Ожидается, что этой осенью все пользователи ChatGPT Plus смогут воспользоваться этой функцией.


Кроме того, позже будут запущены более мощные функции совместного использования видео и экрана. Другими словами, включив камеру, вы можете общаться «тет-а-тет» с помощью ChatGPT.


Некоторые пользователи сети, на которых повлияли оттенки серого, начали тестирование один за другим и обнаружили множество вариантов использования голосового режима GPT-4o.


Нет, некоторые люди позволяют ему действовать как «второй тренер по иностранному языку», чтобы научиться практиковаться в разговорной речи.


В следующем обучении ChatGPT помог пользователям сети исправить произношение Croissant (круассан) и Baguette (французский багет).

В то же время выпуск токенов GPT-4o вырос в 16 раз: с первоначальных 4000 токенов до 64 000 токенов.

Это новая бета-модель gpt-4o-64k-output-alpha, которую OpenAI недавно незаметно запустила на своем официальном сайте.


Более длинный выходной токен означает, что одновременно можно получить примерно 4 полных сценария полнометражного фильма.


Она пришла

Причина, по которой голосовая функция GPT-4o выпущена сейчас, заключается в том, что OpenAI в течение последних нескольких месяцев проводила испытания ее безопасности и качества.

Они протестировали голосовые возможности GPT-4o на 45 языках с участием более 100 членов красной команды.


Чтобы защитить конфиденциальность людей, команда научила модель говорить, используя только 4 «голоса по умолчанию».

Они также создали систему, блокирующую вывод звуков, отличных от этих четырех.

Кроме того, фильтрация контента также имеет важное значение, и команда также приняла меры для предотвращения создания контента, связанного с насилием и авторскими правами.

OpenAI объявила, что планирует выпустить подробный отчет о возможностях, ограничениях и оценке безопасности GPT-4o в начале августа.


Фактические измерения во всей сети

Ниже приведены некоторые случаи голосового режима GPT-4o, которыми поделились пользователи сети.

ChatGPT может выполнять битбоксинг.


ChatGPT также рассказывал шутки о пиве застенчивым, злым и еще более злым тоном.

Некоторые пользователи сети специально для ChatGPT пошутили: «Почему учёные не верят в Адама-Атома, ведь они всё придумали».

ChatGPT неловко рассмеялся.

Еще более забавно то, что у ChatGPT все еще есть способ научиться мяукать.

После некоторого тестирования кто-то обнаружил, что расширенный голосовой режим ChatGPT работает очень быстро и задержка в ответе практически отсутствует.

Когда его просят имитировать какие-то звуки, он всегда воспроизводит звуки реалистично. А еще можно имитировать разные акценты.


На видео ниже показана сцена, где ИИ выступает в роли комментатора футбольного матча.

ChatGPT рассказывает истории на китайском языке, что тоже очень ярко.

Хотя OpenAI утверждает, что функции совместного использования видео и экрана будут запущены позже, некоторые пользователи сети уже воспользовались ими первыми.


У пользователя сети появился новый домашний кот. Он построил для него гнездо и приготовил для него еду, но не знал, что делать, поэтому спросил ChatGPT.

Во время разговора в видео пользователь сети показал ему дом кошки. Увидев это, ChatGPT прокомментировал: «Должно быть, это очень удобно» и выразил обеспокоенность тем, как поживает кот.

Пользователи сети отметили, что он еще не ел и выглядит немного обеспокоенным. ChatGPT успокоил: «Это нормально. Кошкам нужно время, чтобы адаптироваться».

Видно, что весь процесс вопросов и ответов очень плавный, что дает людям ощущение общения с реальными людьми.

Пользователи сети также откопали японскую версию игровой консоли, но они не говорят по-японски.

В это время он показал ChatGPT интерфейс игры и попросил его перевести его для него. Наконец Ху вместе завершил игру.

Должен сказать, что благодаря визуальному + голосовому режиму ChatGPT намного сильнее.

GPT-4o Long Output спокойно работает в режиме онлайн с выводом до 64 КБ.

Кроме того, последует GPT-4o, который поддерживает вывод токенов большего размера.

Буквально вчера OpenAI официально объявила, что предоставит тестировщикам альфа-версию GPT-4o, которая поддерживает вывод до 64 тыс. токенов за запрос, что эквивалентно 200-страничному роману.

Тестировщики могут получить доступ к функции длинного вывода GPT-4o из «gpt-4o-64k-output-alpha».

Однако цена новой модели в очередной раз установила новый потолок. Это стоит 6 долларов США за миллион входных токенов и 18 долларов США за миллион выходных токенов.

Хотя выходной токен в 16 раз больше, чем у GPT-4o, цена также выросла на 3 доллара.


После такого сравнения gpt-4o-mini действительно доступнее!


Исследователь Саймон Уиллисон сказал, что длинные выходные данные в основном используются для преобразования данных.

Например, для перевода документов с одного языка на другой или для извлечения структурированных данных из документов почти каждый входной токен должен использоваться в выходном JSON.

До этого самой длинной выходной моделью, которую он знал, была GPT-4o mini, которая содержала 16 000 токенов.


Зачем запускать модель с большей производительностью?

Очевидно, что более длинный вывод позволяет GPT-4o предоставить более полный и подробный ответ, что очень полезно для некоторых сценариев.

Например, написание кода и улучшение написания.

Это также корректировка, внесенная OpenAI на основе отзывов пользователей о том, что для соответствия варианту использования требуется более длинный выходной контент.

Разница между контекстом и выводом

С момента своего запуска GPT-4o обеспечивал максимальное контекстное окно 128 КБ. Для длинного вывода GPT-4o максимальный размер контекстного окна по-прежнему составляет 128 КБ.

Итак, как OpenAI увеличивает количество выходных токенов с 4000 до 64000, сохраняя при этом общее контекстное окно размером 128 КБ?

Это связано с тем, что OpenAI изначально ограничил количество выходных токенов максимум 4000 токенами.

Это означает, что пользователи могут использовать до 124 000 токенов в качестве входных данных за одно взаимодействие и могут получить только до 4000 токенов на выходе.

Конечно, вы также можете ввести больше токенов, что означает, что будет выведено меньше токенов.

Ведь там фиксирована длина длинного контекста (128К). Как бы ни изменялся входной токен, выходной токен не превысит 4000.

Теперь OpenAI ограничивает длину выходного токена до 64 000 токенов, что означает, что вы можете выводить в 16 раз больше токенов, чем раньше.

В конце концов, объем производства требует большего объема вычислений, а рост цен выше.

Аналогично, для последней версии GPT-4o mini контекст также составляет 128 КБ, но максимальный вывод увеличен до 16 000 токенов.

Затем пользователи могут предоставить до 112 000 токенов на входе и в конечном итоге получить до 16 000 токенов на выходе.

В общем, OpenAI предлагает здесь решение, позволяющее ограничить входной токен для получения более длинного ответа от LLM, а не напрямую увеличивать длину контекста.


Что касается других моделей на рынке, то у длинной перевалило за миллион (Gemini), а у чуть более короткой — 200K (Claude); у некоторых выходы моделей даже достигли 200K, а OpenAI все еще здесь.

Это также ставит перед разработчиками сложную проблему: если вы хотите вводить больше, вам придется принимать меньше вывода; если вы хотите больше вывода, вам придется вводить меньше;

Как его измерить, зависит от того, чем вы готовы пожертвовать...

Использованная литература:

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/