Не сосредотачивайтесь только на версии Her для ChatGPT: отечественные игроки также заинтересованы в мультимодальном антропоморфном взаимодействии с искусственным интеллектом

Не сосредотачивайтесь только на версии Her для ChatGPT. Отечественные игроки также заинтересованы в мультимодальном антропоморфном взаимодействии с искусственным интеллектом.

2024-07-31

Машинное Сердце Оригинал

Автор: Ду Вэй

Насколько продвинут сегодня ИИ в распознавании человеческих эмоций? В начале этого месяца подошло к концу громкое соревнование, бросающее вызов более эмоциональному ИИ!

Это2-й конкурс мультимодального распознавания эмоций (MER24)Его совместными спонсорами выступили профессор Тао Цзяньхуа из Университета Цинхуа, Лянь Чжэн из Института автоматизации Китайской академии наук, Бьёрн В. Шуллер из Имперского колледжа, Чжао Гоин из Университета Оулу и Эрик Камбра из Наньянского технологического университета. на главной конференции по искусственному интеллекту IJCAI2024, чтобы узнать, как использовать текст, использовать мультимодальные данные, такие как аудио и видео, для распознавания эмоций ИИ и продвигать применение связанных технологий в реальных сценариях взаимодействия человека и компьютера.

Официальный сайт конкурса: https://zeroqiaoba.github.io/MER2024-website/#organization.

В этом задании всего три трека, а именно: Semi (курс обучения с полуконтролем), Noise (трек устойчивости к шуму) и Ov (трек распознавания эмоций с открытым словарем), среди которыхПолу-трек имеет наибольшее количество участвующих команд, является самым сложным и имеет самую напряженную конкуренцию.。

Взяв в качестве примера трек Semi, участвующим командам необходимо использовать небольшое количество размеченных и большое количество неразмеченных видеоданных для обучения своих собственных моделей, а также оценить производительность модели и способность к обобщению на неразмеченном наборе данных. Ключом к победе в этом соревновании является улучшение способности модели распознавать эмоции за счет улучшения технологии полуконтролируемого обучения, например, точности прогнозирования категорий эмоций.

С момента запуска конкурса в мае за два месяца в нем приняли участие около сотни команд со всего мира, включая известные университеты и инновационные компании.вПервое место в треке Semi заняла социальная платформа Soul App., ее команда по голосовым технологиям добилась успеха благодаря практичным и инновационным техническим решениям.

Однако, прежде чем раскрывать техническое решение команды Soul, нам необходимо сначала понять возможности ИИ по распознаванию эмоций в различных модальностях.

Следующий шаг во взаимодействии человека и компьютера

Пусть ИИ понимает эмоции

Сегодняшний ИИ кажется всемогущим, включая разговорное общение, создание изображений или видео, решение математических задач и т. д. Он способен решать задачи на разных уровнях, таких как восприятие, обучение, рассуждение и принятие решений. Благодаря большим моделям можно сказать, что ИИ достаточно умен, но ему не хватает таких эмоциональных аспектов, как эмпатия.

При взаимодействии человека с компьютером пользователям иногда нужен ИИ не только для выполнения инструкций и выполнения задач, но и для обеспечения достаточной эмоциональной ценности для удовлетворения эмоциональных потребностей. От функциональных «базовых навыков» до эмоциональных «продвинутых навыков» навыки, которыми должен овладеть ИИ, необходимо совершенствовать.

Поэтому мультимодальное распознавание эмоций стало активной темой исследований в области ИИ. Искусственный интеллект, способный читать и передавать эмоции, стал новой горячей темой в отрасли и считается следующим крупным прорывом в области искусственного интеллекта. За последние шесть месяцев некоторые стартапы в области искусственного интеллекта и гиганты отрасли представили нам новые формы иммерсивного взаимодействия человека и машины.

В начале апреля иностранная стартап-компания Hume AI выпустила робота для голосового общения Empathetic Voice Interface (EVI), который анализирует и определяет тон и эмоции собеседника посредством голосовой связи и может обнаруживать до 53 эмоций. Кроме того, он может имитировать различные эмоциональные состояния, делая взаимодействие ближе к реальным людям. Прорывы на эмоциональном уровне ИИ также позволили стартапу быстро получить финансирование в размере $50 млн в рамках серии B.

Затем OpenAI сделала большой шаг. Флагманская модель GPT-4o продемонстрировала функции аудио- и видеовызовов в реальном времени и мгновенно реагировала на эмоции и тон пользователя. Эта голосовая функция называется «Her». пользователи в ближайшее время откроются. С тех пор ИИ развил мощное красноречие и способность воспринимать эмоции, благодаря чему люди называют это наступлением эры научной фантастики.

Отечественные компании, такие как Microsoft Xiaoice и Lingxin Intelligence, также стремятся создавать продукты с эмоциональным искусственным интеллектом. Мы видим тенденцию: возможности распознавания эмоций все больше и больше используются в мультимодальных приложениях искусственного интеллекта, таких как текст, аудио и видео. Однако, если мы хотим пойти дальше в области распознавания антропоморфных эмоций, нам все равно придется решить такие проблемы, как нехватка размеченных данных, а также нестабильность и неточность распознавания субъективных эмоций.

Поэтому стало особенно необходимо поощрять академическое сообщество и промышленность уделять больше внимания области мультимодального распознавания эмоций и ускорять инновации и прогресс соответствующих технологий. В настоящее время ведущие академические конференции по искусственному интеллекту, такие как ACM MM и AAAI, рассматривают аффективные вычисления как важную тему исследований, такие как CVPR и ACL, также рассматривают проблемы, связанные с аффективными вычислениями. Особенно в условиях наступления эпохи больших данных и больших моделей, как использовать большой объем немаркированных данных и эффективно обрабатывать и интегрировать различную модальную информацию в мультимодальном распознавании эмоций, является серьезной проблемой, с которой в настоящее время сталкивается отрасль. Был проведен конкурс MER24. Это также причина и значение.

Команда Soul заняла первое место в треке Semi. За этим стоят ее способности к накоплению и инновациям в области мультимодального понимания данных, алгоритмов распознавания эмоций, инструментов платформы оптимизации моделей, построения внутренних рабочих процессов и т. д., а также эффективное сотрудничество команды. техническая команда.

Занял первое место на самой сложной трассе

Что сделала команда Soul?

Поскольку упоминается, что полутрасса самая сложная, каковы трудные аспекты? И как Team Soul заняла первое место? Давайте посмотрим вниз.

Данные — один из трех основных элементов ИИ. Без достаточной, особенно высококачественной подготовки данных модель не может гарантировать хорошую производительность. Столкнувшись с различными проблемами, вызванными нехваткой данных, отрасль должна не только расширять все типы данных, включая данные, генерируемые ИИ, но также сосредоточиться на улучшении возможностей обобщения моделей в сценариях с нехваткой данных. То же самое относится и к мультимодальным задачам распознавания эмоций. Его суть заключается в поддержке массивных данных меток. Различные типы контента, такие как текст, аудио и видео, могут быть помечены такими эмоциями, как радость, гнев, печаль, радость и т. д. печаль. Реальность такова, что эмоционально окрашенных данных в Интернете очень мало.

Полу-трек этого соревнованияПредоставляется только 5030 фрагментов размеченных данных, а остальные 115 595 фрагментов представляют собой неразмеченные данные. . Поэтому нехватка размеченных данных стала первой проблемой, с которой столкнулись все команды-участницы, включая команду Soul.

Источник изображения: базовый документ MER24: https://arxiv.org/pdf/2404.17113.

С другой стороны, по сравнению с треками Noise и Ov, трек Semi фокусируется на тестировании основных магистральных технологий, то есть уделяет больше внимания выбору архитектуры модели и возможностям обобщения извлечения признаков, а также накоплению и инновациям мульти- модальная большая модельная технология. Сексуальные требования относительно высоки.

Учитывая характеристики трассы с меньшим количеством данных на этикетках и высокими техническими требованиями, команда Soul провела достаточную предгоночную подготовку на основе некоторых модулей самостоятельно разработанной большой модели, накопленной ранее, и определила набор возможных инновационных технических решений. Общая идея состоит в том, чтобы принять стратегию «сначала основная часть, а затем точная настройка», сначала сосредоточив внимание на улучшении обобщения каждой модели извлечения основных функций, а затем интегрируя их вместе в ходе конкретного процесса реализации, следующих аспектов работы; были сделаны. Это их основные сильные стороны.

Во-первых, сосредоточьтесь на мультимодальном извлечении признаков на ранней стадии. В сквозной архитектуре модели предварительно обученные модели используются для извлечения эмоциональных представлений в различных модальностях текста, речи и видения, обращая внимание на сходства и различия в эмоциях, тем самым улучшая эффект распознавания эмоций. Позже предлагается эффективный метод объединения, основанный на характеристиках каждой модальности нескольких модальностей, и эти модули объединяются для формирования модельной архитектуры. Чтобы улучшить эффективность обобщения предварительно обученной модели, команда Soul впервые предложила EmoVCLIP в области распознавания эмоций специально для видеомодальностей. EmoVCLIP — это модель, основанная на большой модели CLIP в сочетании с технологией быстрого обучения. лучшая производительность обобщения в области распознавания видеоэмоций.

Кроме того, чтобы улучшить возможности распознавания эмоций текстовых модальностей, команда Soul использует GPT-4 для создания эмоциональных псевдометок для текстовых модальностей, в полной мере используя возможности эмоционального внимания GPT-4 для повышения точности распознавания эмоций в тексте. Текстовые модальности на будущее. Для дальнейшего слияния модальностей была заложена лучшая основа.

Во-вторых, с точки зрения мультимодального слияния функций, команда Soul впервые использовала стратегию исключения модальности в направлении мультимодального распознавания эмоций и изучила влияние различных показателей отсева на производительность, чтобы смягчить проблему конкуренции между ними. модальности в процессе обучения модели. Случайным образом подавляйте определенную модальность (текстовую, речевую или видеомодальность), чтобы добиться большей надежности и улучшить способность модели к обобщению невидимых данных, выходящих за рамки предоставленных помеченных данных.

Наконец, в игру вступает технология полуконтролируемого обучения. Основная идея состоит в том, чтобы использовать размеченные данные для обучения модели, затем прогнозировать неразмеченные данные и генерировать псевдометки для неразмеченных данных на основе результатов прогнозирования. Эти псевдометки используются для обучения модели и постоянного улучшения эффекта модели. Команда Soul использовала стратегию самообучения в полуконтролируемом обучении, чтобы циклически добавлять псевдометки к более чем 110 000 неразмеченных данных на полу-треке и добавлять их в обучающий набор, а также итеративно обновлять модель для получения окончательной модели.

Технический план команды Soul на соревнования.

От общей идеи до мультимодального объединения функций, контрастного обучения и самообучения на немаркированных данных — технические решения команды Soul принесли им хорошие результаты.окончательноЧто касается точности мультимодального распознавания эмоций по голосу, зрению и тексту, система, предложенная командой Soul, улучшилась на 3,7% по сравнению с базовой системой, достигнув более 90%. . В то же время команда Души также может лучше различать эмоции, имеющие запутанные границы в области распознавания эмоций (например, тревогу и тревогу).

Источник изображения: базовый документ MER24: https://arxiv.org/pdf/2404.17113.

С более глубокой точки зрения, успех команды Soul в MER24 Challenge является концентрированным выражением ее глубокого развития технологии больших моделей искусственного интеллекта в социальной сфере, особенно ее возможностей мультимодального эмоционального взаимодействия.

Инновационное мультимодальное антропоморфное взаимодействие

Социальный ИИ — новый уровень

Социальная сфера, естественно, требует искусственного интеллекта с эмоциями. Основная точка зрения гласит, что сутью социального взаимодействия является обмен эмоциональными ценностями, а эмоции разнообразны. Это означает, что если ИИ хочет беспрепятственно интегрироваться в социальную среду и эффективно функционировать, он должен обеспечивать богатую эмоциональную обратную связь и опыт, как реальные люди.

Основой для реализации чуткого ИИ является наличие мощных мультимодальных возможностей распознавания эмоций и развитие от простого «исполнителя задач» до «компаньона, удовлетворяющего эмоциональные потребности человека». Однако ИИ по-прежнему очень сложно эффективно понимать эмоции. Он фундаментально отличается от людей с точки зрения понимания контекста, восприятия эмоций пользователя, предоставления эмоциональной обратной связи и мышления. Поэтому важно постоянное совершенствование соответствующих технологий и алгоритмов.

Для Soul, которая уходит корнями в социальную сферу, сосредоточение внимания на создании искусственного интеллекта с эмоциональными способностями стало важным предложением, которое необходимо рассмотреть. При запуске в 2016 году Soul впервые задумалась о том, как использовать инновационные технологии и продукты для лучшего удовлетворения потребностей пользователей. Внедрение искусственного интеллекта для решения потребности людей в общении стало ключом к ее закреплению в социальной сфере и ее развитию. Ранее запущенный «Lingxi Engine» использует интеллектуальные алгоритмы рекомендаций для сбора и анализа карт интересов пользователей и универсальных функций на сайте, что облегчает им поиск людей, с которыми они могут общаться, и контент, который им нужен больше, формируя очень липкая экология пользователей и контента. До сих пор сценарии сопоставления, в которых применяется этот более «умный» алгоритм, также являются одной из очень активных функций пользователей Soul.

Благодаря успешному опыту раннего социального взаимодействия с помощью ИИ, в этой технологической волне быстрого развития больших моделей, Soul продолжает исследовать новые возможности взаимодействия человека и компьютера, основанные на участии ИИ в социальном взаимодействии и сетях взаимодействий с поддержкой.

С момента запуска исследований и разработок алгоритмов, связанных с AIGC, в 2020 году, Soul взяла в качестве своего направления мультимодальность и накопила передовые возможности в области интеллектуального диалога, генерации изображений, генерации голоса и музыки и т. д.По сравнению с новыми, чисто технологически ориентированными предпринимательскими силами ИИ, главной особенностью Soul является принятие стратегии «интегрированной модели и реагирования» для одновременного продвижения больших моделей и приложений AIGC на стороне C.Сосредоточьтесь на создании искусственного интеллекта с возможностями распознавания эмоций, чтобы по-настоящему добиться теплой обратной связи в насыщенных сценариях антропоморфного взаимодействия.。

Из действий Soul за последние два года видно, что она ускорила темпы реализации социальных сценариев AIGC. В 2023 году будет запущена Soul X, крупная языковая модель собственной разработки, которая станет важной инфраструктурой для социальной структуры AIGC+. Благодаря быстрому приводу модели, условно-управляемой генерации, распознаванию контекста, мультимодальному пониманию и другим возможностям диалог на месте не только плавный и естественный, но и обладает эмоциональной теплотой.

Текст стал первым шагом в реализации возможностей распознавания эмоций Души, и постепенно он расширился от одной модальности до большего количества модальностей. В этом году Soul запустила большую модель генерации речи и официально обновила собственную большую речевую модель, охватывающую генерацию речи, распознавание речи, голосовой диалог, генерацию музыки и другие подразделения. Она поддерживает генерацию реального тона, голосовое DIY и другие функции. наличие мультиэмоциональных возможностей погружения в диалог в реальном времени.

Конечно, в дополнение к постоянным усилиям Soul по разработке более эмоционального ИИ на уровне моделей, компания также использовала их в различных социальных сценариях своей платформы для дальнейшего обогащения и улучшения интерактивного опыта пользователей в области ИИ.

Возьмем, к примеру, антропоморфного диалогового робота Soul «AI Goudan». Он опирается на самостоятельно разработанную большую языковую модель Soul. В ходе нескольких раундов общения мы активно посылали им помощь в зависимости от сцены разговора, как если бы они были реальным человеком. другой конец разговора. В то же время пользователи также могут настраивать свои собственные яйца и испытывать уникальное виртуальное человеческое взаимодействие.

AI Goudan также продемонстрировал свои возможности интеграции в антропоморфизме, знаниях, мультимодальности, восприятии времени и других аспектах. Многие пользователи сайта Soul восхищались его мощными возможностями антропоморфного взаимодействия. Вот почему на платформе Soul Will много пользователей. возьмите на себя инициативу опубликовать сообщение и пожаловаться: «Боюсь, Гудан — ненастоящий человек».

Кроме того, Душа тоже полагается на Душу. В речи об Оборотне нет чувства неповиновения.

Другой пример: Soul запустила свое первое независимое новое приложение за пределами основного сайта «Эхо другого мира». В качестве социальной платформы искусственного интеллекта пользователи могут участвовать в захватывающем общении в реальном времени с виртуальными человеческими персонажами в различных сценах и стилях. Все эти персонажи имеют возможности изображения, голоса и индивидуального диалога. Конечно, пользователи могут настраивать виртуальных персонажей и личные настройки (такие как фоновый опыт, индивидуальность и т. д.) в соответствии со своими предпочтениями, что очень удобно для игры.

Точно так же большая модель собственного голоса также играет роль в таких сценах, как AI Goudan, Werewolf Phantom и Echoes of Another World. Например, в Echoes of Another World поддерживается функция голосового вызова. Виртуальные персонажи с голосами реальных людей могут общаться с пользователями естественно и в режиме реального времени, обогащая интерактивный опыт.

Функция голосового вызова в реальном времени «Эхо из другого мира».

Помимо продолжения углубления антропоморфных взаимодействий ИИ в социальных сценариях, таких как интеллектуальный диалог, игры и голос, Soul также развивает способность генерировать разнообразные стили рисования в соответствии со своей собственной эстетикой в области визуальной генерации, создавая цифровые аватары ИИ. и дальнейшее движение к многомерному комплексному взаимодействию.

Видно, что макет Soul в области распознавания эмоций ИИ охватывает языковые, голосовые и визуальные мультимодальности, работая вместе в тексте, изображениях, аудио и видео сценах, которые тесно связаны с социальным взаимодействием, позволяя пользователям взаимодействовать в Трехмерное мультисенсорное взаимодействие человека и компьютера. Испытайте теплый искусственный интеллект во время взаимодействия.

Заключение

Многие представители отрасли называют 2024 год первым годом применения AIGC. Всеобщее внимание больше не сосредоточено только на параметрах и базовых возможностях. Учитывая тенденцию перехода от уровня модели к уровню приложений, только будучи первыми, кто внедрит ИИ в вертикальных областях и сценариях, мы сможем привлечь больше пользователей и рынков. Особенно при взаимодействии человека с компьютером на C-стороне более естественно сосредоточиться на потребностях пользователя. Это хорошо отражается в социальной сфере.

Ранее многие приложения для знакомств, такие как AlienChat, были прекращены, а тема обсуждения «Первая партия молодых людей, полюбивших ИИ, разлюбила» стала горячей темой поиска. Одной из причин этого является функциональная однородность, а также то, что опыт не меняется от роли помощника/NPC к компаньону, который действительно обеспечивает эмоциональную поддержку. Это требует обогащения методов и сценариев взаимодействия человека и компьютера в социальной сфере, позволяя ИИ полноценно участвовать во всех социальных связях, глубоко общаться с пользователями и придавать им эмоциональную ценность.

Это также может стать одним из следующих основных конкурентных пунктов в социальном направлении ИИ. Нетрудно понять, почему Soul, как прикладной уровень, уделяет такое большое внимание накоплению самостоятельно разработанных технических возможностей. В прошлый период, с одной стороны, компания стремилась создать персонализированные, антропоморфные и диверсифицированные возможности искусственного интеллекта, с другой стороны, она ускорила внедрение приложений AI Native во многих измерениях, включая улучшение социального опыта, Формирование социальных сетей ИИ, игр ИИ и т. д. Полная цепочка продуктов ИИ предоставляет пользователям удовольствие от взаимодействия ИИ в различных социальных сценариях.

Можно сказать, что в последние годы Soul разработала серию продуктов, основанных на собственных крупных моделях языка и речи, а также накопила богатые инновационные технологии и практический опыт в процессе улучшения опыта эмоционального взаимодействия между ИИ и пользователей, и все они способствовали его успеху в MER24. Завоевание первого места в соревновании открыло ему возможность конкурировать с высококлассными командами-участниками со всего мира.

В последние годы таких задач становится все больше и больше, например, конкурс NTIRE 2024 AIGC по оценке качества на семинаре CVPR 2024 и два последовательных конкурса MER Challenge в 2023 и 2024 годах. Отечественные компании неоднократно добивались хороших результатов, полагаясь на эту технологию. накоплено на практике. Например, SenseTime, занявшая первое место в рейтинге MER23 в прошлом году, и Soul, занявшая первое место в этом году, добились замечательных результатов в своем внимании и инвестициях в технологии и приложения AIGC.

Можно предвидеть, что в будущем такие платформы, как Soul, которые настаивают на технологических и продуктовых инновациях, будут продолжать создавать ценность для пользователей в процессе реализации возможностей искусственного интеллекта. Только таким образом они смогут добиться более долговечного и устойчивого контента и экологии сообщества. диверсифицированная стоимость бизнеса.

Новости

Введение

моя контактная информация