소식

Her의 ChatGPT 버전에만 집중하지 마십시오. 국내 플레이어도 다중 모드 AI 의인화 상호 작용에 관심이 있습니다.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

머신하트 오리지널

저자: 두웨이

오늘날 AI는 인간의 감정을 식별하는 데 얼마나 발전했나요? 이번 달 초, 더욱 감성적인 AI에 도전하는 세간의 이목을 끄는 대회가 끝났습니다!

이것은제2회 멀티모달 감정인식 챌린지(MER24), 칭화대학교 Tao Jianhua 교수, 중국과학원 자동화 연구소 Lian Zheng, 임페리얼 칼리지 Björn W. Schuller, 오울루 대학교 Zhao Guoying, 난양 기술 대학교 Erik Cambra가 공동 후원했습니다. 최고의 AI 컨퍼런스 IJCAI2024에서는 텍스트 사용 방법을 탐구하고 오디오 및 비디오와 같은 다중 모드 데이터를 사용하여 AI 감정 인식을 수행하고 실제 인간-컴퓨터 상호 작용 시나리오에서 관련 기술의 적용을 촉진합니다.



대회 공식 홈페이지: https://zeroqiaoba.github.io/MER2024-website/#organization

이번 챌린지는 Semi(반지도 학습 트랙), Noise(소음 견고성 트랙), Ov(개방형 어휘 감정 인식 트랙) 총 3개의 트랙으로 구성되어 있습니다.세미 트랙은 참가 팀 수가 가장 많고, 가장 어렵고, 가장 치열한 경쟁을 벌이는 트랙입니다.

Semi 트랙을 예로 들면, 참여 팀은 소량의 레이블이 있는 데이터와 대량의 레이블이 없는 데이터 비디오 데이터를 사용하여 자체 모델을 훈련하고 레이블이 없는 데이터 세트에 대한 모델의 성능과 일반화 능력을 평가해야 합니다. 이번 트랙 우승의 관건은 감정 카테고리 예측 정확도 등 준지도 학습 기술을 개선해 모델의 감정 인식 성능을 높이는 것이다.

지난 5월 대회가 시작된 이후 두 달 만에 유명 대학과 혁신 기업을 포함해 전 세계에서 약 100개 팀이 참가했습니다.~에세미 트랙 1위는 소셜 플랫폼 Soul App이 차지했습니다., 음성 기술 팀은 실현 가능하고 혁신적인 기술 솔루션으로 선두를 차지했습니다.



하지만 Soul 팀의 기술 솔루션을 공개하기 전에 먼저 다양한 양상에서 AI의 감정 인식 기능을 이해해야 합니다.

인간-컴퓨터 상호작용의 다음 단계

AI가 감정을 이해하게 하라

오늘날의 AI는 대화 의사소통, 사진이나 동영상 생성, 수학적 문제 해결 등 전능한 것처럼 보입니다. 인식, 학습, 추론, 의사결정 등 다양한 수준의 작업이 가능합니다. 대형 모델의 축복 덕분에 AI는 충분히 똑똑하다고 할 수 있지만 공감 등 감성적 측면은 부족하다.

인간과 컴퓨터의 상호 작용에서 사용자는 때때로 지침을 따르고 작업을 완료하기 위해 AI가 필요할 뿐만 아니라 정서적 요구를 충족시키기 위해 충분한 정서적 가치를 제공하기 위해 AI가 필요합니다. 기능적인 '기본 스킬'부터 감성적인 '고급 스킬'까지, AI가 마스터해야 할 스킬은 업그레이드되어야 한다.

따라서 다중모달 감정인식은 AI 분야에서 활발한 연구 주제가 되고 있다. 감정을 읽고 전달할 수 있는 AI가 업계의 새로운 화두가 되면서 AI 분야의 차세대 혁신으로 주목받고 있다. 지난 6개월 동안 일부 AI 스타트업과 업계 거대 기업은 우리를 위해 새로운 형태의 몰입형 인간-기계 상호 작용을 공개했습니다.

지난 4월 초 해외 스타트업 흄AI는 음성소통을 통해 대화 상대의 말투와 감정을 분석하고 식별하며 최대 53가지 감정을 감지할 수 있는 음성 대화 로봇 'EVI(Empathetic Voice Interface)'를 출시했다. 또한 다양한 감정 상태를 시뮬레이션하여 실제 사람들과 더 가까운 상호 작용을 할 수 있습니다. AI의 감정적 수준에서의 획기적인 발전을 통해 스타트업은 시리즈 B 자금 조달에서 5천만 달러를 빠르게 받을 수 있었습니다.

다음으로 오픈AI(OpenAI)가 큰 행보를 보였다. 플래그십 모델인 GPT-4o는 실시간 음성 및 영상 통화 기능을 선보이며 사용자의 감정과 말투에 즉각 반응하는 기능을 챗GPT 버전 'Her'로 정식 출시한다. 가까운 미래에 사용자가 열릴 것입니다. 이후 AI는 강력한 언변과 감정 인지 능력을 키워 SF 시대의 도래라고 부르게 됐다.

마이크로소프트 샤오아이스(Microsoft Xiaoice), 링신 인텔리전스(Lingxin Intelligence) 등 국내 기업들도 감성 AI 제품 개발에 주력하고 있다. 우리는 추세를 볼 수 있습니다. 텍스트, 오디오, 비디오와 같은 다중 모드 AI 애플리케이션에 감정 인식 기능이 점점 더 많이 포함되고 있습니다. 그러나 의인화된 감정 인식 분야에서 더 나아가고 싶다면 분류된 데이터의 부족, 주관적 감정 인식의 불안정성과 부정확성 등의 문제를 해결해야 합니다.

따라서 학계와 업계가 다중 모드 감정 인식 분야에 더 많은 관심을 기울이고 관련 기술의 혁신과 발전을 가속화하도록 홍보하는 것이 특히 필요해졌습니다. 현재 ACM MM, AAAI 등 최고의 AI 학술 학회에서는 모두 감성 컴퓨팅을 중요한 연구 주제로 여기고 있으며, CVPR, ACL 등 상위 학회에서도 감성 컴퓨팅과 관련된 과제를 제기해 왔습니다. 특히, 빅데이터, 빅모델 시대가 도래함에 따라 멀티모달 감정인식에서 대용량의 라벨링되지 않은 데이터를 어떻게 활용하고 다양한 모달 정보를 효과적으로 처리하고 통합할 것인가는 현재 업계가 직면한 주요 과제이다. 이번 MER24 챌린지가 개최된 이유이자 의의이기도 합니다.

Soul 팀이 Semi 트랙에서 1위를 차지한 배경에는 멀티모달 데이터 이해, 감정 인식 알고리즘, 모델 최적화 플랫폼 도구, 내부 워크플로우 구축 등의 능력 축적과 혁신이 있었습니다. 기술팀.

가장 어려운 트랙에서 1위를 차지했습니다.

Soul 팀은 무엇을 했나요?

세미 트랙이 가장 어렵다고 하는데, 어려운 점은 무엇인가요? 그러면 Team Soul은 어떻게 1위를 차지하게 되었나요? 아래를 살펴보자.

데이터는 AI의 세 가지 주요 요소 중 하나이며, 특히 고품질 데이터 교육이 충분하지 않으면 모델이 좋은 성능을 보장할 수 없습니다. 데이터 부족으로 인한 다양한 문제에 직면한 업계는 AI 생성 데이터를 포함한 모든 유형의 데이터를 확장할 뿐만 아니라 데이터 희소 시나리오에서 모델 일반화 기능을 향상시키는 데 중점을 두어야 합니다. 멀티모달 감정 인식 작업에서도 마찬가지입니다. 텍스트, 오디오, 비디오 등 다양한 유형의 콘텐츠에 기쁨, 분노, 슬픔, 즐거움 등의 감정을 표시할 수 있다는 것이 핵심입니다. 슬픔. 현실은 인터넷에서 감정적으로 분류된 데이터가 매우 드물다는 것입니다.

이번 대회 세미 트랙레이블이 있는 데이터는 5030개만 제공되며, 나머지 115595개는 레이블이 없는 데이터입니다. . 따라서 라벨링된 데이터의 부족은 소울팀을 포함한 모든 참가팀이 직면한 첫 번째 문제가 되었습니다.



이미지 출처: MER24 기준 문서: https://arxiv.org/pdf/2404.17113

반면, Noise 및 Ov 트랙에 비해 Semi 트랙은 핵심 백본 기술 테스트에 중점을 둡니다. 즉, 모델 아키텍처 선택 및 특징 추출 일반화 기능 선택과 다중 기술의 축적 및 혁신에 더 중점을 둡니다. 모달 대형 모델 기술은 상대적으로 높습니다.



라벨 데이터가 적고 기술 요구 사항이 높은 트랙의 특성을 고려하여 Soul 팀은 이전에 축적된 자체 개발 대형 모델의 일부 모듈을 기반으로 레이스 전 충분한 준비를 진행했으며 실행 가능한 혁신적인 기술 솔루션 세트를 결정했습니다. 전반적인 아이디어는 "먼저 본체를 사용한 다음 미세 조정"하는 전략을 채택하는 것입니다. 먼저 각 핵심 기능 추출 모델의 일반화를 개선하는 데 중점을 두고 특정 구현 프로세스 중에 다음 작업 측면을 함께 통합합니다. 끝났다. 이것이 그들의 핵심 강점을 구성합니다.

첫째, 초기 단계에서는 다중 모드 특징 추출에 중점을 둡니다. 엔드투엔드 모델 아키텍처에서는 사전 훈련된 모델을 사용하여 텍스트, 음성, 시각의 다양한 양식에서 감정 표현을 추출하고 감정의 공통점과 차이점에 주의를 기울여 감정 인식 효과를 향상시킵니다. 이후에는 여러 양식의 각 양식의 특성을 기반으로 효과적인 융합 방법을 제안하고, 이러한 모듈을 융합하여 모델 아키텍처를 형성합니다. Soul 팀은 사전 훈련된 모델의 일반화 성능을 향상시키기 위해 영상 모달리티에 특화된 감정 인식 분야에서 처음으로 EmoVCLIP을 제안했습니다. EmoVCLIP은 신속한 학습 기술이 결합된 대형 모델 CLIP 기반 모델입니다. 비디오 감정 인식 분야에서 일반화 성능이 향상되었습니다.

또한 Soul 팀은 텍스트 양식의 감정 인식 기능을 향상시키기 위해 GPT-4를 사용하여 텍스트 양식에 대한 감정 의사 레이블을 생성하고 GPT-4의 감정 주의 기능을 최대한 활용하여 감정 인식의 정확도를 향상시킵니다. 텍스트 양식, 미래를 위한 추가 양식 융합을 위한 더 나은 기반이 마련되었습니다.

둘째, 다중 모드 특성 융합 측면에서 Soul 팀은 다중 모드 감정 인식 방향으로 처음으로 Modality Dropout 전략을 사용했으며 서로 다른 드롭아웃 비율 간의 경쟁 문제를 완화하기 위해 성능에 미치는 영향을 연구했습니다. 모달리티, 모델 훈련 프로세스 중에 특정 모달리티(텍스트, 음성 또는 비디오 모달리티)를 무작위로 억제하여 더 나은 견고성을 달성하고 제공된 레이블이 지정된 데이터 이외의 보이지 않는 데이터에 대한 모델의 일반화 능력을 향상시킵니다.

마지막으로 준지도 학습 기술이 작동하기 시작합니다. 기본 아이디어는 레이블이 지정된 데이터를 사용하여 모델을 훈련한 다음 레이블이 지정되지 않은 데이터를 예측하고 예측 결과를 기반으로 레이블이 지정되지 않은 데이터에 대한 의사 레이블을 생성하는 것입니다. 이러한 의사 레이블은 모델을 훈련하고 모델 효과를 지속적으로 개선하는 데 사용됩니다. Soul 팀은 준지도 학습의 자가 훈련 전략을 사용하여 Semi 트랙에 있는 110,000개 이상의 레이블이 지정되지 않은 데이터에 주기적으로 의사 레이블을 추가하고 이를 훈련 세트에 추가한 후 모델을 반복적으로 업데이트하여 최종 모델을 얻었습니다.



소울팀의 대회 기술 계획입니다.

전반적인 아이디어부터 다중 모드 기능 융합, 대조 학습, 레이블 없는 데이터 자가 학습에 이르기까지 Soul 팀의 기술 솔루션은 좋은 결과를 가져왔습니다.마지막으로음성, 시각, 문자의 다중 모드 감정 인식 정확도 측면에서 Soul 팀이 제안한 시스템은 기준 시스템에 비해 3.7% 향상되어 90% 이상에 도달했습니다. . 동시에 Soul 팀은 감정 인식 분야에서 경계가 혼란스러운 감정(걱정, 걱정 등)을 더 잘 구분할 수도 있습니다.



이미지 출처: MER24 기준 문서: https://arxiv.org/pdf/2404.17113

더 깊은 관점에서 볼 때, MER24 챌린지에서 Soul 팀의 성공은 소셜 분야에서 AI 대형 모델 기술, 특히 다중 모드 감정 상호 작용 능력에 대한 심층적인 배양이 집중적으로 표현된 것입니다.

혁신적인 다중 모드 의인화 상호 작용

소셜 AI는 다음 단계입니다

소셜 분야에서는 당연히 감정을 갖춘 AI가 필요합니다. 사회적 상호작용의 본질은 감정적 가치의 교환이며, 감정은 다양하다는 것이 주류 견해이다. 이는 AI가 소셜 장면에 원활하게 통합되고 효율적으로 기능하려면 실제 사람과 같은 풍부한 감정적 피드백과 경험을 제공해야 함을 의미합니다.

공감형 AI를 구현하기 위한 기반은 강력한 멀티모달 감정 인식 능력을 갖추고, 단순한 '과제 수행자'에서 '인간의 정서적 요구를 충족시키는 동반자'로 진화하는 것입니다. 그러나 AI가 감정을 효과적으로 이해하는 것은 여전히 ​​매우 어렵습니다. 맥락 이해, 사용자 감정 감지, 정서적 피드백 제공, 사고 측면에서 인간과 근본적으로 다르기 때문에 관련 기술과 알고리즘의 지속적인 혁신이 중요합니다.

소셜 분야에 뿌리를 둔 Soul에게 감성 역량을 갖춘 AI 구축에 초점을 맞추는 것은 고려해야 할 중요한 명제가 되었습니다. 2016년 출시 당시 Soul은 혁신적인 기술과 제품을 사용하여 사용자 요구를 더 잘 충족하는 방법에 대해 먼저 생각했습니다. 사람들의 연결 요구를 해결하기 위한 AI의 도입은 소셜 분야와 발전의 핵심이 되었습니다. 앞서 출시된 '링시 엔진(Lingxi Engine)'은 지능적인 추천 알고리즘을 사용해 사이트 내 사용자의 관심 지도와 전체 시나리오 기능을 마이닝하고 분석해 사용자가 채팅할 수 있는 사람과 더 필요한 콘텐츠를 더 쉽게 찾을 수 있도록 해준다. 매우 끈적한 사용자 및 콘텐츠 생태. 지금까지 이렇게 더욱 스마트해진 알고리즘이 적용된 매칭 시나리오 역시 소울 유저들이 매우 활발하게 이용하는 기능 중 하나입니다.

초기 AI 지원 사회적 상호 작용의 성공적인 경험을 통해 Soul은 대규모 모델의 급속한 개발이라는 기술적 물결 속에서 AI의 사회적 상호 작용 및 보조 관계 네트워크 참여를 기반으로 인간-컴퓨터 상호 작용의 새로운 가능성을 더욱 탐구합니다.

Soul은 2020년 AIGC 관련 알고리즘 연구개발을 시작한 이후 Multi-modality를 방향으로 삼아 지능형 대화, 이미지 생성, 음성 및 음악 생성 등 분야에서 최첨단 역량을 축적해 왔습니다.순수 기술 중심의 새로운 AI 기업가적 세력과 비교했을 때 Soul의 주요 특징은 C 측에서 대형 모델과 AIGC 애플리케이션을 동시에 홍보하는 "모델-응답-통합" 전략을 채택했다는 것입니다.풍부한 의인화 상호 작용 시나리오에서 진정으로 따뜻한 피드백을 얻을 수 있도록 감정 인식 기능을 갖춘 AI 구축에 집중

지난 2년 동안 Soul의 행동을 통해 소셜 시나리오에 힘을 실어주는 AIGC의 속도를 가속화했음을 알 수 있습니다. 2023년에는 자체 개발한 대규모 언어 모델인 Soul X가 출시되어 AIGC + 소셜 레이아웃의 중요한 인프라가 될 것입니다. 모델의 신속한 구동, 조건부 제어 가능 생성, 상황 이해, 다중 모드 이해 및 기타 기능을 통해 현장 대화는 부드럽고 자연스러울 뿐만 아니라 정서적 따뜻함도 가지고 있습니다.

텍스트는 Soul의 감정 인식 기능 구현의 첫 번째 단계가 되었으며, 단일 양식에서 더 많은 양식으로 점차 확장되었습니다. 올해 Soul은 대형 음성 생성 모델을 출시하고 자체 개발한 대형 음성 모델을 공식적으로 업그레이드하여 음성 생성, 음성 인식, 음성 대화, 음악 생성 및 기타 하위 기능을 지원하는 동시에 실제 톤 생성, 음성 DIY 및 기타 기능도 지원합니다. 다중 감정 몰입형 실시간 대화 기능을 갖추고 있습니다.

물론 모델 수준에서 더욱 감성적인 AI를 개발하려는 Soul의 지속적인 노력과 더불어 이를 플랫폼의 다양한 소셜 시나리오에 사용하여 사용자의 AI 상호 작용 경험을 더욱 풍부하게 하고 향상시켰습니다.

Soul의 의인화 대화 로봇 "AI Goudan"을 예로 들어 보겠습니다. Soul이 자체 개발한 대형 언어 모델 Soul을 사용합니다. 여러 차례의 의사소통 중에 대화 장면을 기반으로 마치 실제 인물인 것처럼 적극적으로 배려를 보냈습니다. 대화의 다른 쪽 끝. 동시에 사용자는 자신의 계란을 맞춤화하고 독특한 가상 인간 상호 작용을 경험할 수도 있습니다.



AI Goudan은 또한 의인화, 지식, 다중 양식, 시간 인식 및 기타 측면에서 통합 기능을 입증했습니다. Soul 사이트의 많은 사용자는 강력한 의인화 상호 작용 기능에 놀랐습니다. 이것이 Soul 플랫폼에 많은 사용자가 있는 이유입니다. 솔선해서 "구단은 진짜 사람이 아닌 것 같아요."라는 글을 올리고 항의합니다.

게다가 소울도 소울에 의지하고 있다. 늑대인간에 대한 연설에는 불순종의 의미가 없다.

또 다른 예는 Soul이 메인 웹사이트 외부에서 처음으로 독립적인 새 애플리케이션인 "Echo of Another World"를 출시한 것입니다. AI 소셜 플랫폼으로서 사용자는 다양한 장면과 스타일의 가상 인간 캐릭터와 몰입형 실시간 커뮤니케이션에 참여할 수 있습니다. 이러한 캐릭터는 모두 이미지, 음성 및 성격 대화 기능을 갖추고 있습니다. 물론 사용자는 자신의 선호도에 따라 가상 캐릭터와 개인 설정(예: 배경 경험, 성격 등)을 맞춤 설정할 수 있으며 이는 매우 플레이하기 쉽습니다.

마찬가지로 자체 개발한 음성 대형 모델도 AI 고단, 늑대인간 팬텀, 이세계의 메아리 등의 장면에서 활약한다. 예를 들어, 다른 세계의 메아리에서는 음성 통화 기능이 지원됩니다. 실제 사람의 목소리를 지닌 가상 캐릭터는 사용자와 자연스럽게 실시간으로 소통하여 대화형 경험을 풍부하게 할 수 있습니다.



"이세계의 메아리" 실시간 음성통화 기능.

Soul은 지능형 대화, 게임, 음성 등 소셜 시나리오에서 AI 의인화 상호 작용을 계속 심화하는 것 외에도 시각 생성 분야에서 고유한 미학에 맞춰 다양한 그림 스타일을 생성하는 능력을 구축하여 AI 디지털 아바타를 제작하고 있습니다. , 그리고 다차원적인 포괄적인 상호작용 경험을 향해 나아가고 있습니다.

AI 감정 인식 분야에서 Soul의 레이아웃은 언어, 음성 및 시각적 다중 양식을 다루며 사회적 상호 작용과 밀접하게 관련된 텍스트, 그림, 오디오 및 비디오 장면에서 함께 작동하여 사용자가 3차원, 다감각적 인간-컴퓨터 상호작용을 통해 따뜻한 AI를 경험해보세요.

결론

2024년은 업계의 많은 사람들이 AIGC 적용 원년이라고 부르며, 더 이상 매개변수와 기본 역량에만 관심이 집중되지 않습니다. 모델 계층에서 애플리케이션 계층으로 이동하는 추세에 따라 수직 분야 및 시나리오에서 AI를 최초로 구현해야만 더 많은 사용자와 시장을 확보할 수 있습니다. 특히 C측 트랙의 경우 인간과 컴퓨터의 상호 작용이 사용자의 요구에 초점을 맞추는 것이 더 자연스럽습니다. 이는 사회 분야에 잘 반영됩니다.

앞서 에일리언챗 등 다수의 데이트 앱이 단종되면서 'AI에 푹 빠진 청춘 1호가 사랑에서 빠졌다'라는 토론 주제가 화제가 됐다. 그 이면에는 기능적 동질성이 이유이기도 하지만, 조수/NPC 역할에서 진정한 정서적 지지를 제공하는 동반자로의 경험이 바뀌지 않기 때문이기도 합니다. 이를 위해서는 소셜 분야에서 인간-컴퓨터 상호 작용 방법과 시나리오를 풍부하게 하여 AI가 모든 소셜 링크에 완전히 참여하고 사용자와 깊이 소통하며 정서적 가치를 제공할 수 있도록 해야 합니다.

이는 AI 사회 방향의 차세대 핵심 경쟁 포인트 중 하나일 수도 있다. Soul이 애플리케이션 레이어로서 왜 그렇게 자체 개발한 기술 역량 축적을 강조하는지 이해하는 것은 어렵지 않습니다. 과거에는 개인화되고 의인화되었으며 다양한 AI 기능을 만드는 데 주력해 온 반면, 소셜 경험 개선을 포함한 다차원에서 AI 네이티브 애플리케이션 구현을 가속화했습니다. AI 소셜 네트워킹, AI 게임 등 완전한 AI 제품 체인을 형성하여 사용자에게 다양한 소셜 시나리오에서 AI 상호 작용의 즐거움을 제공합니다.

최근 몇 년간 Soul은 자체 개발한 언어 및 음성 대형 모델을 기반으로 일련의 제품 결과를 도출했으며, AI와 AI 간의 정서적 상호 작용 경험을 향상시키는 과정에서 풍부한 혁신 기술과 실무 경험을 축적했다고 할 수 있습니다. MER24의 성공에 기여한 모든 사용자. 챌린지에서 1위를 차지함으로써 전 세계의 우수한 참가 팀과 경쟁할 수 있는 기반이 마련되었습니다.

최근에는 CVPR 2024 워크숍의 NTIRE 2024 AIGC 품질평가 챌린지, 2023년과 2024년 2회 연속 MER 챌린지 등 이런 도전이 점점 많아지고 있다. 국내 기업들은 기술력에 의지해 좋은 결과를 거듭 달성해 왔다. 실제로 축적되었습니다. 예를 들어 지난해 MER23에서 1위를 차지한 센스타임(SenseTime)과 올해 1위를 차지한 소울(Soul)은 AIGC 기술과 애플리케이션에 대한 관심과 투자로 괄목할 만한 성과를 거뒀다.

앞으로도 기술과 제품 혁신을 고집하는 Soul과 같은 플랫폼은 AI 기능을 출시하는 과정에서 계속해서 사용자를 위한 가치를 창출할 것입니다. 그래야만 더욱 지속적이고 지속 가능한 콘텐츠와 커뮤니티 생태계를 달성할 수 있습니다. 다양한 비즈니스 가치.