«Ее» OpenAI сложно реализовать. Что сдерживает?

2024-07-27

Менгчен родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Прошло два месяца и две недели, а мы до сих пор не увидели публично выпущенную версию OpenAI «Her».

14 мая OpenAI выпустила GPT-4o иСквозной режим аудио и видео разговора в реальном времени, живая демонстрация диалогов ИИ, таких же гладких, как и человеческие.

Он может чувствовать ритм вашего дыхания и отвечать в режиме реального времени более насыщенным тоном, чем раньше. Он может даже прервать работу ИИ в любой момент, и эффект потрясающий.

Но так как все этого ждут, время от времениоткладыватьновость вышла.

Что сдерживает OpenAI? По известным данным:

иметьЮридические споры, чтобы тембр голоса больше не вызывал споров, как у «сестры-вдовы» Скарлетт Йоханссон.

Это такжеКонтрольный вопрос, должны быть правильно согласованы, а аудио- и видеоразговоры в реальном времени откроют новые сценарии использования, и использование в качестве инструмента мошенничества также будет одним из них.

Однако, кроме вышеперечисленного, есть ли какие-либо технические проблемы и трудности, которые необходимо преодолеть?

После первоначального волнения эксперты принялись осматривать дверь.

Внимательные пользователи сети, возможно, заметили:Во время демонстрации на пресс-конференции мобильный телефон был подключен через сетевой кабель.。

По мнению инсайдеров отрасли, демонстрация конференции GPT-4o прошла гладко, но все же есть несколько ограничений:

нуждаться«Фиксированная сеть, фиксированное оборудование, фиксированная физическая среда»。

После того, как он действительно будет представлен публике, до сих пор неизвестно, смогут ли пользователи по всему миру получить впечатления, которые не будут скомпрометированы по сравнению с пресс-конференцией.

На пресс-конференции была еще одна интересная деталь: красавец-исследователь Баррет Зоф.ChatGPT использовался в качестве таблицы при демонстрации видеозвонка。

Задержка в части видеозвонка очевидна.Голосовая часть вопроса обработана, а визуальная часть еще обрабатывает предыдущий кадр., деревянный стол, заснятый камерой, когда вы только что подняли трубку.

Представьте, сколько людей будут использовать его после того, как он наконец выйдет?

Один из самых обсуждаемых случаев в рекламном ролике, где слепой мужчина с помощью голоса искусственного интеллекта помахал рукой, чтобы вызвать такси, сразу же обсудили пользователи сети.

Однако следует также отметить, что это будетСценарии, которые в значительной степени полагаются на функции с низкой задержкой, если указания ИИ будут действовать немного медленнее, то такси проедет мимо.

Стабильность сетевого сигнала в сценах на открытом воздухе не может быть гарантирована, не говоря уже о таких сценах, как аэропорты, вокзалы и туристические достопримечательности, где много людей и устройств занимают полосу пропускания, поэтому сложность значительно возрастет.

также,Также будут проблемы с шумом в сценах на открытом воздухе.。

Большие модели по своей сути обеспокоены проблемой «иллюзии». Если шум влияет на распознавание голоса пользователя и появляются какие-то слова, не относящиеся к инструкциям, то ответ будет неясен.

Наконец, есть еще одна проблема, которую легко упустить из виду:Адаптация к нескольким устройствам。

Видно, что текущая конференция OpenAI и рекламные видеоролики используют новый iPhone Pro.

Можно ли получить тот же опыт на моделях более низкого уровня, придется подождать до официального релиза.

OpenAI продвигает возможность использования GPT-4o вВсего 232 миллисекунды, в среднем 320 миллисекунд.реагировать на аудиовход за время, соответствующее скорости реакции людей в разговоре.

Но это только время от ввода до вывода большой модели, а не всей системы.

В общем, просто хорошо поработав над искусственным интеллектом, все еще невозможно создать такой плавный опыт, как «Она». Для этого также требуется ряд возможностей, таких как низкая задержка, адаптация к нескольким устройствам и способность справляться с ними. различные сетевые условия и шумная среда.

Один только ИИ не сможет создать «Её»

Для достижения низкой задержки, адаптации к нескольким устройствам и т. д. мы полагаемся наРТК(Связь в реальном времени, связь в реальном времени).

До эры искусственного интеллекта технология RTC широко использовалась в прямых трансляциях, видеоконференциях и других сценариях, и ее развитие было относительно зрелым.

С точки зрения RTC, слова голосовых подсказок пользователя должны пройти ряд сложных процессов, прежде чем они будут введены в большую модель.

Сбор и предварительная обработка сигнала:На конечных устройствах, таких как мобильные телефоны, голос пользователя собирается в исходные сигналы и обрабатывается, например, с помощью шумоподавления и устранения эха, чтобы подготовиться к последующему распознаванию.

Кодирование и сжатие речи: Чтобы максимально сэкономить полосу пропускания, речевой сигнал необходимо кодировать и сжимать. В то же время некоторые механизмы резервирования и исправления ошибок должны быть адаптивно добавлены в соответствии с фактическими условиями сети, чтобы предотвратить потерю сетевых пакетов.

сетевая передача: Сжатые голосовые данные разделяются на пакеты данных и отправляются в облако через Интернет. Если физическое расстояние от сервера велико, передаче часто приходится проходить через несколько узлов, и каждый переход может привести к задержке и потере пакетов.

Декодирование и восстановление голоса:После того, как пакет данных достигает сервера, система декодирует его и восстанавливает исходный голосовой сигнал.

Наконец, настала очередь ИИ действовать.Только предварительно преобразовав речевой сигнал в токены с помощью модели внедрения, сквозная мультимодальная большая модель сможет понимать и генерировать ответы.

Конечно, после того, как большая модель сгенерирует ответ, она должна пройти ряд обратных процессов, а затем звуковой сигнал ответа наконец передается обратно пользователю.

Каждый шаг всего процесса требует предельной оптимизации для действительного достижения аудио- и видеодиалога с использованием искусственного интеллекта в реальном времени.

Среди них сжатие, квантование и другие методы самой большой модели в конце концов повлияют на возможности ИИ, поэтому совместная оптимизация в сочетании с такими факторами, как обработка аудиосигнала и потеря сетевых пакетов, особенно важна.

Понятно, что OpenAI не решила эту проблему самостоятельно, а предпочла сотрудничать с третьей стороной.

ПартнерыПоставщик RTC с открытым исходным кодом LiveKit, который в настоящее время становится центром внимания отрасли благодаря поддержке голосового режима ChatGPT.

Помимо OpenAI, LiveKit также сотрудничает со связанными с ним компаниями, занимающимися искусственным интеллектом, такими как Character.ai и ElevenLabs.

Возможно, за исключением нескольких гигантов, таких как Google, которые имеют относительно зрелую собственную технологию RTC.Сотрудничество с производителями RTC, специализирующимися в этой отрасли, в настоящее время является основным выбором для проигрывателей аудио- и видеодиалогов с искусственным интеллектом в реальном времени.。

Конечно, эта волна также предполагает участие отечественных игроков. Многие отечественные компании, занимающиеся искусственным интеллектом, уже активизируют разработку комплексных мультимодальных больших моделей и приложений для аудио- и видеодиалога с искусственным интеллектом в реальном времени.

Смогут ли отечественные приложения искусственного интеллекта догнать результаты OpenAI и когда каждый сможет испытать это на себе?

Поскольку эти проекты в основном находятся на ранних стадиях, публично раскрыто не так много информации, но их партнеры RTCзвуковая сетьЭто стало прорывом.

Кубит спросил у Sound Network:При нынешнем уровне отечественных технологий задержку раунда диалога можно сократить примерно до 1 секунды., в сочетании с дополнительными методами оптимизации, больше не является проблемой обеспечить плавное общение и своевременный ответ.

Чтобы хорошо делать RTC, ИИ — это не только «Она»

Кто такой Саунднет?

Представительное предприятие в отрасли реального времени, став первым глобальным поставщиком интерактивных облачных услуг в реальном времени в 2020 году.

Впервые SoundNet вышла из индустрии потому, что предоставляла техническую поддержку Clubhouse, популярному аудиосоциальному приложению.

Фактически, многие известные приложения, такие как Bilibili, Xiaomi и Xiaohongshu, выбрали решение Agora RTC, а зарубежный бизнес также быстро развивался в последние годы.

Итак, как конкретно решить проблемы с низкой задержкой и адаптацией к нескольким устройствам для приложений с аудио- и видеодиалогом в режиме реального времени и каких эффектов можно достичь?

Мы пригласилиЧжун Шэн, главный научный сотрудник и технический директор Shengwangчтобы ответить на этот вопрос.

По словам Чжун Шэна, выводы большой модели не рассчитываются;Скажем так, время прохождения сигнала туда и обратно по сетевой линии уже может составлять 70-300 миллисекунд.。

В частности, мы в основном фокусируемся на оптимизации по трем аспектам.

первый,Shengwang построила более 200 центров обработки данных по всему миру, а места, выбранные для установления соединений, всегда находятся ближе всего к конечным пользователям.

В сочетании с технологией интеллектуальной маршрутизации, когда определенная линия перегружена, система может автоматически выбирать другие пути с лучшей задержкой и пропускной способностью, чтобы обеспечить качество связи.

Если передача между регионами не задействована, сквозное время может составлять менее 100 мс. Если он включает в себя межрегиональный обмен, например от Китая до США, это, скорее всего, займет 200–300 мс.

второй, Компания Shengwang, основанная в 2014 году, анализирует различные сценарии слабой сети посредством интеллектуального анализа данных на основе огромного количества данных о реальных сценах, накопленных за годы, а затем воспроизводит их в лаборатории. Это обеспечивает «диапазон стрельбы» для оптимизации алгоритма передачи, чтобы он мог справляться со сложными и изменчивыми сетевыми средами, а также мог своевременно вносить коррективы в стратегию передачи, когда во время передачи в реальном времени возникает соответствующий режим слабой сети, чтобы обеспечить передачу; более гладкий.

третий, Для вертикальных отраслей и конкретных задач Shengwang также пытается настраивать модели с меньшими параметрами, чтобы сократить время отклика больших моделей. Чрезвычайные возможности больших языковых моделей и речевых моделей определенного размера — это направления, которые стоит изучить, поскольку они являются ключом к оптимизации экономической эффективности и малой задержки при использовании диалогового искусственного интеллекта или чат-ботов.

наконец, RTC SDK, разработанный Shengwang, также адаптирован и оптимизирован для различных терминальных устройств, особенно для некоторых моделей младшего класса, которые могут обеспечить низкое энергопотребление, низкое использование памяти, чрезвычайно малый размер корпуса и т. д. В частности, возможности устройства по снижению голосового шума, эхоподавлению и улучшению качества видео на основе алгоритмов искусственного интеллекта могут напрямую влиять на масштабы и эффект чат-бота с искусственным интеллектом.

Чжуншэн также сообщил, что в процессе изучения сочетания технологий реального времени и больших моделей область применения самой технологии реального времени также меняется.

Он привел некоторые из направлений своего мышления, такие как переход от передачи аудиосигналов к передаче токенов, которые могут быть непосредственно поняты большими моделями, и даже реализация преобразования речи в текст (STT) и распознавания эмоций на конце, чтобы только текст и соответствующая информация может быть передана.

Таким образом, на конечной стороне можно разместить больше процессов обработки сигналов, а модель внедрения, требующую меньше вычислительной мощности, можно разместить ближе к пользователю, что снижает требования к пропускной способности всего процесса и стоимость облачной модели.

Начиная с этого момента, Чжун Шэн считает, что окончательное сочетание технологий искусственного интеллекта и RTC приведет к интеграции устройств и облаков.

То есть вы не можете полностью полагаться на большие модели в облаке. Это не лучший выбор с точки зрения стоимости, энергопотребления и задержки.

С точки зрения интеграции конечного облака вся инфраструктура должна измениться соответствующим образом. Вычислительные мощности будут использоваться не только в облаке, но и на мобильных телефонах. Узлы передачи на границе также будут распределять вычислительную мощность, и протокол передачи данных также изменится соответственно...

В настоящее время Agora и производители приложений для крупных моделей выяснили, какТри модели сотрудничества, то есть различные методы поставки трех частей всей системы: большая модель, RTC и облачный сервер:

Частное развертывание:Shengwang предоставляет только RTC SDK, который развертывается вместе с большими моделями в собственных центрах обработки данных партнеров. Он подходит для компаний с самостоятельно разработанной инфраструктурой больших моделей или вывода больших моделей.
Облачная платформа Шэнван: Shengwang предоставляет RTC SDK и ресурсы облачного сервера, а разработчики могут гибко выбирать модели, места развертывания и вычислительные ресурсы в соответствии со своими потребностями. Нет необходимости создавать собственную инфраструктуру, и вы можете быстро создавать голосовые приложения на основе искусственного интеллекта.
Комплексное решение Agora: Shengwang предоставляет самостоятельно разработанные большие модели, RTC SDK и ресурсы облачных серверов. Вертикальные модели можно настроить для сегментированных отраслей, таких как образование, электронная коммерция, социальные развлечения, обслуживание клиентов и т. д., и они глубоко интегрированы с возможностями RTC для предоставления интегрированных решений голосового взаимодействия.

Более того, в существующих проектах сотрудничества самое быстрое приложение не далеко от удовлетворения всех.

В сообщении Acoustic Network есть еще одна новая тенденция в открытии кубитов, заслуживающая внимания:

Внутренние приложения ИИ постепенно выходят за рамки вопросов и ответов помощника ИИ и эмоционального общения ИИ.

Возьмем, к примеру, такие отрасли, как социальные развлечения, онлайн-трансляции электронной коммерции и онлайн-образование. На что все обращают больше всего внимания, так это на интернет-знаменитостей и известных учителей. Цифровые люди, управляемые аудио- и видеодиалогами ИИ в реальном времени, могут стать их «цифровыми клонами» и в дальнейшем взаимодействовать один на один с каждым фанатом или учеником. В то же время собственное время и энергия пользователя также ограничены, и у него нет навыков, позволяющих разделить себя на несколько задач, а также у него есть потребности в собственных клонах ИИ. С развитием технологий, совершенствованием технологий AI-аватаров и снижением затрат сфера их применения будет все больше расширяться.

Возьмем, к примеру, слова Чжун Шэна: «Самая дефицитная вещь для человека — это время»:

У всех нас должен быть этот опыт. Что, если два собрания конфликтуют, и мы можем присутствовать только на одном?

Вы можете принять участие в одном из них самостоятельно и отправить ИИ-помощника на другое мероприятие, чтобы он принес интересную информацию. В будущем этот помощник может даже стать вашим собственным ИИ-аватаром. Во время активности вы сможете вести персонализированное общение, задавать или отвечать на различные вопросы, исходя из ваших собственных интересов и проблем, а также взаимодействовать с другими людьми или аватарами других людей.

Таким образом, аудио- и видеодиалоги ИИ в реальном времени могут сделать гораздо больше, чем просто «Она».

Новости

«Ее» OpenAI сложно реализовать. Что сдерживает?

Введение

моя контактная информация