Новости

Спот GPT-4o превращается в фьючерсы, что сдерживает OpenAI?

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Технология RTC — один из ключей к популярности искусственного интеллекта в реальном времени.


Автор | Рэй
редактировать|

Она переходит от кино к реальности.

В мае этого года OpenAI выпустила новейшую мультимодальную большую модель искусственного интеллекта GPT-4o. По сравнению с предыдущим GPT-4 Turbo, GPT-4o работает в два раза быстрее и вдвое дешевле. Средняя задержка голосового взаимодействия с искусственным интеллектом в реальном времени составляет от 2,8 секунды (GPT-3.5) до 5,4 секунды (GPT) по сравнению с предыдущей версией. .-4), достигая даже 320 миллисекунд — почти столько же, сколько скорость реакции человека при повседневном общении.

Не только повышена эффективность, но и эмоциональный анализ в разговорах также стал одной из особенностей этого обновления продукта. Во время разговора с ведущим ИИ может слышать «нервозность», когда он говорит, и делает целенаправленные предложения сделать глубокий вдох.

OpenAI, становится «творцом» на основе кремния в эпоху больших моделей.

Однако пресс-конференция была шокирующей, а реальность оказалась очень скудной. После запуска продукта OpenAI, инициатор этой технологической революции больших моделей, постепенно становится похожей на компанию «будущего».

После выпуска универсального GPT-4o с малой задержкой запуск функции аудио и видео в реальном времени все еще задерживается; выпущен мультимодальный видеопродукт Sora, но он также задерживается;

Но это проблема не только OpenAI как компании — после выпуска ChatGPT отечественных версий ChatGPT было столько же, сколько карасей переправилось через реку. Однако на данный момент существует только один SenseTime 5.5, который действительно соответствует GPT-4o. , и прогресс тот же. Оставайтесь в открытой бета-версии в течение месяца.

Почему на пресс-конференции мультимодальная большая модель реального времени находится всего в одном шаге от изменения мира, но в процессе фактического продвижения к производству она всегда превращается из «точки» в «вариант»;

Раздается новый голос: в мультимодальном мире, возможно, (алгоритмическое) насилие не творит чудес.

01

голос в реальном времени,один кусочек

Должен пройти черезизПуть коммерциализации ИИ

Зрелость технологий помогает постепенно формироваться новой отрасли голубого океана.

Данные a16z, известного института венчурного капитала в Кремниевой долине, показывают, что среди 50 лучших приложений искусственного интеллекта с мировыми пользователями 9 являются сопутствующими продуктами. Данные из списка продуктов AI показывают, что количество посещений AI Companion в мае этого года достигло 432 миллионов, что на 13,87% больше, чем в прошлом году.

Высокий спрос, высокие темпы роста, обширное рыночное пространство и сотрудничество ИИ приведут к двойным изменениям в бизнес-моделях и взаимодействии человека и компьютера.

Зрелость бизнеса также заставляет непрерывный прогресс технологий идти вспять.Если взять за основу только первую половину этого года, то голосовая технология искусственного интеллекта в реальном времени уже претерпела три итерации всего за шесть месяцев.

Типичным продуктом первой волны технологий является число Пи.

В марте этого года стартап Inflection AI обновил своего эмоционального чат-бота Pi для индивидуальных пользователей.

Интерфейс продукта Pi очень прост. Диалоговое окно «Текст +» — это основной интерактивный интерфейс, но он также добавляет голосовые функции AI, такие как чтение голоса и телефонные звонки.

Для достижения такого рода голосового взаимодействия Pi использует традиционную трехэтапную голосовую технологию STT (распознавание речи, преобразование речи в текст) – LLM (семантический анализ большой модели) – TTS (текст в речь). Он характеризуется зрелой технологией, но медленной реакцией, отсутствием понимания ключевой информации, такой как тон, и неспособностью добиться настоящего голосового диалога в реальном времени.

Еще один популярный продукт того же периода — Call Annie. По сравнению с Pi, Call Annie имеет полноценный дизайн видеовызовов. В дополнение к дизайну ответа и завершения вызовов, функцию послушания также можно свернуть и переключить на другие приложения, а также поддерживает более 40 настроек ролей разговора.

Однако всех их объединяют общие технические проблемы — высокая задержка и отсутствие эмоциональной окраски. Что касается задержки, даже самый продвинутый OpenAI в отрасли будет испытывать задержку от 2,8 секунды (GPT-3.5) до 5,4 секунды (GPT-4).В эмоциональном плане такая информация, как тон, высота тона и скорость речи, будет потеряна во время взаимодействия, и будет невозможно воспроизводить сложные речевые выражения, такие как смех и пение.

После этого представителем новой волны технологий стал продукт под названием EVI.

Этот продукт был запущен Hume AI в апреле этого года и принес Hume AI 50 миллионов долларов США (приблизительно 362 миллиона юаней) в рамках финансирования серии B.

Что касается дизайна продукта, Hume AI запустила игровую площадку в базовом алгоритме. Пользователи могут выбирать свои собственные конфигурации и большие модели. Помимо официальных моделей по умолчанию, они также могут выбирать Claude, GPT-4 Turbo и т. д.Но разница в том, что голос несет в себе эмоции, поэтому в выражениях также происходят изменения ритма и интонации.

Реализация этой функции в основном зависит от добавления нового алгоритма SST (теория семантического пространства, теория семантического пространства) к традиционному трехэтапному процессу STT-LLM-TTS. SST может точно отображать весь спектр человеческих эмоций посредством обширного сбора данных и передовых статистических моделей, раскрывая непрерывность между эмоциональными состояниями человека, придавая EVI множество антропоморфных особенностей.

Цена эмоционального прогресса — это дальнейшая жертва задержки во времени., время, которое пользователю нужно ждать, чтобы поговорить с EVI, еще больше увеличивается по сравнению с Pi и Call Annie.

К середине мая был выпущен GPT-4o, и техническим направлением этого периода стала интеграция мультимодальных технологий.

По сравнению с предыдущими продуктами трехэтапного голосового взаимодействия, GPT-4o представляет собой новую модель, полностью обучаемую тексту, визуальным элементам и аудио, что означает, что все входные и выходные данные обрабатываются одной и той же нейронной сетью.

Проблема задержки также была значительно улучшена. OpenAI официально объявила, что голосовое взаимодействие GPT-4o в реальном времени может реагировать на аудиовход с максимальной скоростью 232 миллисекунды и в среднем 320 миллисекунд. В эмоциональном плане взаимодействие между пользователями и ИИ становится все более интеллектуальным, при этом достигаются изменения в скорости речи и эмоциональном понимании.

На уровне продукта люди могут влюбиться в ИИ, а ИИ заменит слепых людей в восприятии мира.

Компания Character.ai, недавно запустившая функцию голосовых вызовов и ставшая новой привлекательной звездой Кремниевой долины в 2024 году, стала крупнейшим бенефициаром этой технологической волны.

На Feature.ai пользователи имеют возможность переписываться с копиями аниме-персонажей, телеведущих и исторических личностей в ультрареалистичной ролевой игре. Новая настройка привела к резкому увеличению числа пользователей продукта. По данным сайта Likeweb, Character.ai может обрабатывать 20 000 запросов AI в секунду, а количество посещений в мае достигло 277 миллионов.


Сравнение трафика между Character.ai и perplexity.ai|Источник изображения: Likeweb

В то же время Microsoft, Google и другие официально объявили, что их большие модели будут запускать функции голосовых вызовов в реальном времени.

Тем не менее, водонепроницаемая конструкция продукта в фактической реализации всегда показывает эффект от сброса паводка «Три ущелья» - в третьей волне почти все сопутствующие продукты в стиле «ее» на пресс-конференции изменились в фактической реализации. станет «планом» к запуску, скоро будет запущен и находится на внутреннем тестировании.

Несомненный вывод заключается в том, что аудио и видео в реальном времени могут стать высшей формой взаимодействия человека и компьютера.ИИВ дополнение к сопутствующей сцене, как ожидается, взорвутся такие сцены, как игровые интеллектуальные NPC, учителя, говорящие с помощью искусственного интеллекта, и перевод в реальном времени. Однако перед этим нужно решить, как решить последнюю милю от «пресс-конференции» до запуска продукта. Сегодня это самая сложная проблема в отрасли.

02

Голос AI в реальном времени,

Никаких чудес с большой силой

ИИГолос в реальном времени «Никаких чудес с большими усилиями» — пессимистическая поговорка тихо распространяется в Кремниевой долине.

Сопротивление исходит со всех аспектов технологий, регулирования и бизнеса.

Духовным лидером технической оппозиции является Ян ЛеКун, «отец сверточных сетей».

По его мнению: по сравнению с различными алгоритмами искусственного интеллекта прошлого, самой большой особенностью технологии больших моделей является то, что «большие усилия могут творить чудеса». Благодаря передаче больших данных, а также аппаратной поддержке вычислительных кластеров с сотнями миллионов параметров и высокой производительностью алгоритмы можно использовать для решения более сложных задач и достижения более высокой масштабируемости. Однако в настоящее время мы слишком оптимистичны в отношении больших моделей, особенно в отношении мнения, что мультимодальные большие модели могут быть моделями мира, что является еще большей чепухой.

Например, у людей есть пять чувств, которые формируют наше истинное понимание мира. Поэтому в процессе генерации видео или голоса всегда будет, казалось бы, цельный контент, траектории движения или голосовые эмоции, но не хватает реализма. Кроме того, проблемой также являются жесткие физические ограничения. Ввиду увеличения размера модели и размеров взаимодействия нынешним большим моделям не хватает пропускной способности для обработки такой информации.

нормативный уровень,ИИРечь в реальном времени, то есть большая модель сквозной речи, сталкивается с игрой между технологией и этикой.

В прошлом трехэтапный процесс STT-LLM-TTS в традиционной голосовой индустрии искусственного интеллекта сначала был вызван неразвитой технологией. Переход к сквозной большой голосовой модели требует дополнительной реализации с точки зрения архитектуры модели и методов обучения. и мультимодальное взаимодействие. В то же время, поскольку сам голос сложнее контролировать, чем текст, голос ИИ можно легко использовать в таких сценариях, как телефонное мошенничество, порнография и спам-маркетинг. Чтобы облегчить просмотр, в определенной степени также стала необходима промежуточная текстовая ссылка.

И на деловом уровнеСквозное обучение больших моделей аудио и видео требует большого объема данных YouTube и подкастов на этапе обучения. Стоимость в десятки раз или даже выше, чем у предыдущих моделей текстового обучения. Стоимость обучения начинается с десятков долларов. миллионы долларов.

Что касается такого рода затрат, то для обычных компаний, занимающихся искусственным интеллектом, в настоящее время бесполезно сбрасывать деньги с неба. Им также приходится платить за высокопроизводительные вычислительные карты NVIDIA для искусственного интеллекта, гигабитное хранилище и неисчерпаемые безрисковые авторские права на аудио и видео. .

Конечно, будь то техническое суждение Ян Ликуня, возможные трудности регулирования или дилемма стоимости коммерциализации, это не основные проблемы для Open AI.

Действительно сделайте класс GPT-4o в режиме реального времениИИОсновная причина, по которой продукты голосового взаимодействия превратились из спотовых в фьючерсные, находится на уровне реализации проекта.

03

GPT-4o для демонстрации с подключенным сетевым кабелем,

Все еще отсутствует полезная помощь RTC.

Негласным секретом отрасли является, класс ГПТ-4оИИПродукты для голосовой связи в реальном времени на инженерном уровне — это только полдела.

При запуске GPT-4o, несмотря на заявленную низкую задержку, некоторые зоркие пользователи обнаружили, что мобильный телефон в демонстрационном видео все еще подключен к сетевому кабелю.Это также означает, что средняя задержка в 320 мс, официально объявленная GPT-4o, скорее всего, является демонстрацией стационарного оборудования, фиксированных сетей и фиксированных сценариев и является лабораторным показателем, которого можно достичь в идеальных условиях.


Конференция OpenAI по запуску GPT-4o ясно показывает, что мобильные телефоны подключены к сети Источник изображения: OpenAI

в чем проблема?

Если разобрать его на техническом уровне, чтобы реализовать голосовые вызовы AI в реальном времени, три этапа на уровне алгоритма объединяются в один, который является лишь одним из основных звеньев. Другое основное звено, уровень связи RTC, также сталкивается с рядом проблем. технических задач. Так называемый RTC можно просто понимать как передачу и взаимодействие аудио и видео в сетевой среде реального времени. Это технология, которая поддерживает передачу голоса в реальном времени, видео в реальном времени и другие взаимодействия.

Чэнь Жуофэй, руководитель отдела аудиотехнологий в Agora, рассказал Geek Park, что в реальных сценариях применения пользователи обычно не всегда могут находиться в стационарном оборудовании, фиксированных сетях и фиксированных физических средах. В наших сценариях ежедневных видеовызовов, когда сеть одного из участников плохая, задержки речи и задержки будут увеличиваться. Эта ситуация также возникает при голосовых вызовах с использованием искусственного интеллекта в реальном времени, поэтому передача с малой задержкой и отличная оптимизация сети имеют решающее значение для передачи RTC.

Кроме того, адаптация нескольких устройств, обработка аудиосигнала и т. д. также являются техническими аспектами, которые нельзя игнорировать при реализации голоса ИИ в реальном времени.

Как решить эти проблемы?

Ответ кроется в последних требованиях OpenAI к набору персонала. OpenAI особо упомянула, что хочет нанимать талантливых инженеров, чтобы помочь им внедрить самые передовые модели в среду RTC.

С точки зрения выбора конкретного решения, технология RTC, используемая GPT-4o, представляет собой решение с открытым исходным кодом, основанное на WebRTC, которое может решить определенные задержки на техническом уровне, а также потерю пакетов, безопасность коммуникационного контента и кроссплатформенность, вызванную проблемы совместимости с различными сетевыми средами.

Однако обратная сторона открытого исходного кода — это слабость продуктизации.

В качестве простого примера, касающегося вопросов адаптации нескольких устройств, сценарии использования RTC в основном представлены мобильными телефонами, но возможности связи и сбора звука разных моделей мобильных телефонов сильно различаются: в настоящее время мобильные телефоны Apple могут достигать стабильной задержки около десятков миллисекунд. Однако экосистема Android, которая является относительно сложной, не только включает множество моделей, но и разрыв в производительности между продуктами высокого и низкого уровня также вполне очевиден. Для некоторых моделей устройств низкого уровня задержка также весьма очевидна. может достигать сотен миллисекунд на уровнях сбора и связи.

Другой пример: в сценариях речевых приложений искусственного интеллекта в реальном времени речевые сигналы человека могут смешиваться с фоновым шумом. Требуется сложная обработка сигналов для удаления шума и эха, чтобы обеспечить чистый и высококачественный речевой ввод, чтобы ИИ мог лучше понимать людей. ., сказанные слова.

Совместимость с несколькими устройствами и расширенные возможности шумоподавления — это также то, чего не хватает WebRTC с открытым исходным кодом.

Опыт отрасли является узким местом в применении продуктов с открытым исходным кодом. Таким образом, по сравнению с решениями с открытым исходным кодом, крупные производители моделей и профессиональные поставщики решений RTC работают вместе над их доработкой и оптимизацией, что в определенной степени может лучше отражать будущие тенденции в отрасли.

В области RTC компания Agora является наиболее представительным производителем. Она известна тем, что предоставляет аудиотехнологии для Clubhouse. По данным официального сайта Agora, более 60% развлекательных приложений в мире выбирают службу Agora RTC. Помимо известных отечественных компаний, помимо таких приложений, как Xiaomi, Bilibili, Momo и Xiaohongshu, существуют также Yalla, крупнейшая голосовая социальная и развлекательная платформа на Ближнем Востоке и в Северной Африке, Kumu, «Король социальной жизни». Вещательные платформы» в Юго-Восточной Азии, HTC VIVE, The Meet Group, Bunch и т. д. по всему миру. Технология RTC Agora принята на вооружение.


Накопление отраслевого опыта и привлечение клиентов по всему миру являются еще одним свидетельством технологического лидерства. По словам Чэнь Жуофэя, разработанная Shengwang сеть передачи данных в реальном времени SD-RTN™ охватывает более 200 стран и регионов по всему миру, а глобальная сквозная задержка аудио и видео достигает в среднем 200 мс. В ответ на колебания сетевой среды технология интеллектуальной маршрутизации SoundNet и алгоритм защиты от слабых сетей могут обеспечить стабильность и плавность вызовов. Учитывая различия в терминальном оборудовании, Shengwang накопила сотни миллионов предустановленных приложений по всему миру и накопила ноу-хау по адаптации к сложным средам.

Помимо технологического лидерства, невидимым барьером является отраслевой опыт.

Фактически, именно поэтому бизнес-ландшафт отрасли RTC на протяжении многих лет был относительно стабильным:Чтобы хорошо работать в RTC, он никогда не полагался на широкомасштабную модель «большие усилия могут творить чудеса».

Единственный способ добиться максимальной оптимизации задержки голоса и универсального коммерческого использования голосового взаимодействия в реальном времени — это накопленная и интенсивная работа с течением времени.

И с этой точки зрения,ИИГолосовое взаимодействие в реальном времени — это битва, которую нельзя недооценивать с точки зрения воображения и сложности.

Его будущее – алгоритмы, аудиты и RTC должны пройти все уровни. Чтобы завершить этот долгий путь, мы должны не только смотреть на звездное небо технологий, но и твердо стоять на земле инженерии.

*Источник изображения заголовка: Visual China.

Эта статья является оригинальной статьей Гика Пака. Для перепечатки свяжитесь с Гиком Джуном в WeChat geekparkGO.

Компьютерщик спросил

Какие сопутствующие приложения AI вы использовали?


Секрет успеха Цукерберга: не позволяйте фильмам обмануть вас: никто не знает, как это сделать.

Ставьте лайк и подписывайтесьВидеоаккаунт Geek Park