Não se concentre apenas na versão ChatGPT dela, os jogadores nacionais também estão interessados na interação antropomórfica de IA multimodal

Não se concentre apenas na versão ChatGPT dela. Os jogadores domésticos também estão interessados na interação antropomórfica de IA multimodal.

2024-07-31

Máquina Coração Original

Autor: Du Wei

Quão avançada está a IA hoje na identificação de emoções humanas? No início deste mês, uma competição de alto nível desafiando uma IA mais emocional chegou ao fim!

Isso éO 2º Desafio Multimodal de Reconhecimento de Emoções (MER24), foi patrocinado conjuntamente pelo professor Tao Jianhua da Universidade de Tsinghua, Lian Zheng do Instituto de Automação da Academia Chinesa de Ciências, Björn W. Schuller do Imperial College, Zhao Guoying da Universidade de Oulu e Erik Cambra da Universidade Tecnológica de Nanyang na principal conferência de IA IJCAI2024 para explorar como usar texto, usar dados multimodais, como áudio e vídeo, para realizar o reconhecimento de emoções de IA e promover a aplicação de tecnologias relacionadas em cenários reais de interação humano-computador.

Site oficial da competição: https://zeroqiaoba.github.io/MER2024-website/#organization

Este desafio tem um total de três faixas, nomeadamente Semi (faixa de aprendizagem semissupervisionada), Noise (faixa de robustez de ruído) e Ov (faixa de reconhecimento de emoções de vocabulário aberto), entre as quaisA pista Semi tem o maior número de equipes participantes, é a mais difícil e tem a competição mais intensa.。

Tomando a trilha Semi como exemplo, as equipes participantes precisam usar uma pequena quantidade de dados de vídeo rotulados e uma grande quantidade de dados de vídeo não rotulados para treinar seus próprios modelos e avaliar o desempenho do modelo e a capacidade de generalização no conjunto de dados não rotulados. A chave para vencer este caminho é melhorar o desempenho do reconhecimento de emoções do modelo, melhorando a tecnologia de aprendizagem semissupervisionada, como a precisão da previsão de categorias de emoções.

Desde o lançamento da competição em maio, no espaço de dois meses, competiram quase uma centena de equipas de todo o mundo, incluindo universidades de renome e empresas inovadoras.emO primeiro lugar na pista Semi foi conquistado pela plataforma social Soul App, sua equipe de tecnologia de voz saiu vitoriosa com soluções técnicas viáveis e inovadoras.

No entanto, antes de revelar a solução técnica da equipa Soul, precisamos primeiro compreender as capacidades de reconhecimento de emoções da IA em múltiplas modalidades.

O próximo passo na interação humano-computador

Deixe a IA entender as emoções

A IA de hoje parece ser onipotente, incluindo comunicação conversacional, geração de imagens ou vídeos, resolução de problemas matemáticos, etc. Ela é capaz de realizar tarefas em diferentes níveis, como percepção, aprendizagem, raciocínio e tomada de decisão. Graças à bênção de grandes modelos, pode-se dizer que a IA é bastante inteligente, mas carece de aspectos emocionais, como empatia.

Na interação humano-computador, os usuários às vezes não só precisam da IA para seguir instruções e concluir tarefas, mas também para fornecer valor emocional suficiente para satisfazer necessidades emocionais. De "habilidades básicas" funcionais a "habilidades avançadas" emocionais, as habilidades que a IA precisa dominar devem ser atualizadas.

Portanto, o reconhecimento multimodal de emoções tornou-se um tópico de pesquisa ativo no campo da IA. A IA que pode ler e transmitir emoções tornou-se um novo tema quente na indústria e é considerada o próximo grande avanço no campo da IA. Nos últimos seis meses, algumas startups de IA e gigantes da indústria revelaram para nós novas formas de interação imersiva entre homem e máquina.

No início de abril, a Hume AI, startup estrangeira, lançou um robô de conversação por voz, o Empathetic Voice Interface (EVI), que analisa e identifica o tom e a emoção do interlocutor por meio da comunicação de voz, podendo detectar até 53 emoções. Além disso, pode simular diferentes estados emocionais, tornando a interação mais próxima de pessoas reais. Avanços no nível emocional da IA também permitiram que a startup recebesse rapidamente US$ 50 milhões em financiamento da Série B.

Em seguida, OpenAI fez um grande movimento. O modelo principal GPT-4o demonstrou funções de chamada de áudio e vídeo em tempo real e respondeu instantaneamente às emoções e ao tom do usuário. É chamada de versão ChatGPT "Her". usuários em um futuro próximo aberto. Desde então, a IA desenvolveu uma eloquência poderosa e a capacidade de perceber emoções, fazendo com que as pessoas a chamassem de chegada da era da ficção científica.

Empresas nacionais como a Microsoft Xiaoice e a Lingxin Intelligence também estão comprometidas com a criação de produtos emocionais de IA. Podemos ver uma tendência: as capacidades de reconhecimento de emoções estão cada vez mais envolvidas em aplicações de IA multimodais, como texto, áudio e vídeo. No entanto, se quisermos ir mais longe no campo do reconhecimento de emoções antropomórficas, ainda precisamos de resolver problemas como a escassez de dados rotulados e a instabilidade e imprecisão do reconhecimento subjetivo de emoções.

Portanto, tornou-se particularmente necessário promover a comunidade acadêmica e a indústria para prestar mais atenção ao campo do reconhecimento multimodal de emoções e acelerar a inovação e o progresso das tecnologias relacionadas. Atualmente, as principais conferências acadêmicas de IA, como ACM MM e AAAI, consideram a computação afetiva um importante tópico de pesquisa. As principais conferências, como CVPR e ACL, também realizaram desafios relacionados à computação afetiva. Especialmente face ao advento da era dos big data e dos grandes modelos, como utilizar uma grande quantidade de dados não rotulados e processar e integrar eficazmente diferentes informações modais no reconhecimento de emoções multimodais é um grande desafio enfrentado atualmente pela indústria. Este Desafio MER24 foi realizado. Esta é também a razão e o significado de.

A equipe Soul conquistou o primeiro lugar na categoria Semi. Por trás disso está o acúmulo de capacidade e inovação na compreensão de dados multimodais, algoritmos de reconhecimento de emoções, ferramentas de plataforma de otimização de modelos, construção de fluxo de trabalho interno, etc., bem como a colaboração eficiente do. equipe técnica.

Ganhou o primeiro lugar na pista mais difícil

O que a equipe Soul fez?

Já que se menciona que a pista Semi é a mais difícil, quais são os aspectos difíceis? E como o Team Soul conseguiu o primeiro lugar? Vamos olhar para baixo.

Os dados são um dos três principais elementos da IA. Sem treinamento suficiente, especialmente de alta qualidade, o modelo não pode garantir um bom desempenho. Confrontada com vários desafios provocados pela escassez de dados, a indústria deve não só expandir todos os tipos de dados, incluindo dados gerados por IA, mas também concentrar-se na melhoria das capacidades de generalização de modelos em cenários de dados escassos. O mesmo se aplica a tarefas de reconhecimento de emoções multimodais. Seu núcleo reside no suporte de dados de rótulos massivos. Diferentes tipos de conteúdo, como texto, áudio e vídeo, podem ser rotulados com emoções como alegria, raiva, tristeza, alegria e. tristeza. A realidade é que os dados rotulados emocionalmente na Internet são muito escassos.

A semi pista desta competiçãoApenas 5.030 dados rotulados são fornecidos e os 115.595 dados restantes são dados não rotulados. . Portanto, a escassez de dados rotulados tornou-se o primeiro problema encontrado por todas as equipes participantes, incluindo a equipe Soul.

Fonte da imagem: documento de base MER24: https://arxiv.org/pdf/2404.17113

Por outro lado, em comparação com as faixas Noise e Ov, a faixa Semi concentra-se em testar as principais tecnologias de backbone, ou seja, prestando mais atenção à seleção da arquitetura do modelo e às capacidades de generalização de extração de recursos, e à acumulação e inovação de multi- tecnologia modal de grande modelo Os requisitos sexuais são relativamente altos.

Tendo em conta as características da pista com menos dados de etiqueta e elevados requisitos técnicos, a equipa Soul fez preparativos pré-corrida suficientes com base em alguns módulos do grande modelo autodesenvolvido acumulados anteriormente, e determinou um conjunto de soluções técnicas inovadoras viáveis. A ideia geral é adotar a estratégia de "primeiro corpo principal e depois ajuste fino", primeiro focando em melhorar a generalização de cada modelo de extração de recursos principais e, em seguida, integrando-os durante o processo de implementação específico, os seguintes aspectos do trabalho; Foram realizadas. Estes constituem os seus principais pontos fortes.

Primeiro, concentre-se na extração de recursos multimodais no estágio inicial. Na arquitetura do modelo ponta a ponta, modelos pré-treinados são usados para extrair representações emocionais em diferentes modalidades de texto, fala e visão, prestando atenção aos pontos em comum e às diferenças nas emoções, melhorando assim o efeito de reconhecimento das emoções. Posteriormente, um método de fusão eficaz é proposto com base nas características de cada modalidade de múltiplas modalidades, e esses módulos são fundidos para formar uma arquitetura modelo. A fim de melhorar o desempenho de generalização do modelo pré-treinado, a equipe Soul propôs pela primeira vez o EmoVCLIP no campo de reconhecimento de emoções especificamente para modalidades de vídeo. EmoVCLIP é um modelo baseado em modelo grande CLIP combinado com tecnologia de aprendizagem imediata que possui. melhor desempenho de generalização no campo do reconhecimento de emoções em vídeo.

Além disso, a fim de melhorar as capacidades de reconhecimento de emoções das modalidades de texto, a equipe Soul usa GPT-4 para criar pseudo-rótulos emocionais para modalidades de texto, fazendo pleno uso das capacidades de atenção emocional do GPT-4 para melhorar a precisão do reconhecimento de emoções em modalidades de texto, para o futuro Foram lançadas bases melhores para uma maior fusão modal.

Em segundo lugar, em termos de fusão de recursos multimodais, a equipe Soul usou a estratégia Modality Dropout pela primeira vez na direção do reconhecimento de emoções multimodais e estudou o impacto no desempenho de diferentes taxas de abandono, a fim de aliviar o problema de competição entre. modalidades, durante o processo de treinamento do modelo Suprimir aleatoriamente uma determinada modalidade (modalidade de texto, fala ou vídeo) para obter melhor robustez e melhorar a capacidade de generalização do modelo em dados invisíveis além dos dados rotulados fornecidos.

Finalmente, a tecnologia de aprendizagem semissupervisionada entra em ação. A ideia básica é usar dados rotulados para treinar um modelo, depois prever os dados não rotulados e gerar pseudo-rótulos para os dados não rotulados com base nos resultados da previsão. Esses pseudo-rótulos são usados para treinar o modelo e melhorar continuamente o efeito do modelo. A equipe Soul usou a estratégia de autotreinamento no aprendizado semissupervisionado para adicionar ciclicamente pseudo-rótulos a mais de 110.000 dados não rotulados na trilha Semi e adicioná-los ao conjunto de treinamento, e atualizou iterativamente o modelo para obter o modelo final.

Plano técnico da equipe Soul para a competição.

Da ideia geral à fusão de recursos multimodais, aprendizagem contrastiva e autotreinamento de dados não rotulados, as soluções técnicas da equipe Soul trouxeram bons resultados.finalmenteEm termos de precisão de reconhecimento de emoções multimodais em voz, visão e texto, o sistema proposto pela equipe Soul melhorou 3,7% em comparação com o sistema de base, atingindo mais de 90% . Ao mesmo tempo, a equipe do Soul também pode distinguir melhor as emoções que possuem limites confusos no campo do reconhecimento de emoções (como preocupação e preocupação).

Fonte da imagem: documento de base MER24: https://arxiv.org/pdf/2404.17113

De uma perspectiva mais profunda, o sucesso da equipe Soul no Desafio MER24 é uma expressão concentrada de seu profundo cultivo de tecnologia de grandes modelos de IA no campo social, especialmente suas capacidades de interação emocional multimodal.

Interação antropomórfica multimodal inovadora

IA social é o próximo nível

O campo social requer naturalmente IA com emoções. Uma visão dominante sustenta que a essência da interação social é a troca de valores emocionais e que as emoções são diversas. Isto significa que se a IA quiser integrar-se perfeitamente em cenários sociais e funcionar de forma eficiente, deve fornecer feedback emocional rico e experiência como pessoas reais.

A base para realizar a IA empática é ter capacidades poderosas de reconhecimento de emoções multimodais e evoluir de um simples “executor de tarefas” para um “companheiro que atende às necessidades emocionais humanas”. No entanto, ainda é muito difícil para a IA compreender eficazmente as emoções. É fundamentalmente diferente dos humanos em termos de compreensão do contexto, detecção das emoções do utilizador, fornecimento de feedback emocional e pensamento. Portanto, a inovação contínua de tecnologias e algoritmos relacionados é importante.

Para a Soul, que está enraizada no campo social, focar na construção de IA com capacidades emocionais tornou-se uma proposta importante que precisa ser considerada. Quando foi lançado em 2016, o Soul pensou pela primeira vez em como usar tecnologias e produtos inovadores para melhor atender às necessidades dos usuários. A introdução da IA para resolver a necessidade de conexão das pessoas tornou-se a chave para sua posição no campo social e seu desenvolvimento. O "Lingxi Engine" lançado anteriormente usa algoritmos de recomendação inteligentes para extrair e analisar mapas de interesse dos usuários e recursos de todos os cenários no site, tornando mais fácil para eles encontrarem pessoas com quem possam conversar e o conteúdo de que mais precisam, formando um ecologia de usuário e conteúdo altamente pegajosa. Até o momento, os cenários de correspondência onde esse algoritmo mais “inteligente” é aplicado também são um dos recursos muito ativos dos usuários do Soul.

Com a experiência bem-sucedida de interação social precoce assistida por IA, nesta onda tecnológica de rápido desenvolvimento de grandes modelos, Soul explora ainda mais novas possibilidades de interação humano-computador com base no envolvimento da IA na interação social e em redes de relacionamento assistidas.

Desde o lançamento da pesquisa e desenvolvimento de algoritmos relacionados ao AIGC em 2020, o Soul tomou a multimodalidade como sua direção e acumulou capacidades de ponta em diálogo inteligente, geração de imagens, geração de voz e música, etc.Em comparação com as novas forças empreendedoras de IA puramente orientadas para a tecnologia, uma característica importante do Soul é a adoção de uma estratégia de "resposta integrada ao modelo" para promover simultaneamente grandes modelos e aplicações AIGC no lado C.Concentre-se na construção de IA com recursos de reconhecimento de emoções para obter feedback verdadeiramente caloroso em cenários ricos de interação antropomórfica。

Pode-se ver pelas ações da Soul nos últimos dois anos que ela acelerou o ritmo dos cenários sociais fortalecedores do AIGC. Em 2023, será lançado o Soul X, um grande modelo de linguagem autodesenvolvido, tornando-se uma importante infraestrutura para o layout social AIGC +. Com o impulso imediato do modelo, geração controlável condicional, compreensão de contexto, compreensão multimodal e outros recursos, o diálogo no local não é apenas suave e natural, mas também tem calor emocional.

O texto tornou-se o primeiro passo na implementação das capacidades de reconhecimento de emoções do Soul e gradualmente se estendeu de uma única modalidade para mais modalidades. Este ano, a Soul lançou um grande modelo de geração de fala e atualizou oficialmente o grande modelo de fala autodesenvolvido, abrangendo geração de fala, reconhecimento de fala, diálogo de voz, geração de música e outras subdivisões. ter capacidades de diálogo multiemocionais imersivas em tempo real.

É claro que, além dos esforços contínuos da Soul para desenvolver IA mais emocional no nível do modelo, ela também os colocou em uso nos diversos cenários sociais de sua plataforma para enriquecer e aprimorar ainda mais a experiência interativa de IA dos usuários.

Tomemos como exemplo o robô de diálogo antropomórfico "AI Goudan" do Soul. Ele se baseia no grande modelo de linguagem autodesenvolvido do Soul. Durante várias rodadas de comunicação, enviamos cuidados proativamente a eles com base na cena da conversa, como se fossem uma pessoa real. o outro lado da conversa. Ao mesmo tempo, os usuários também podem personalizar seus próprios ovos e experimentar uma interação humana virtual única.

AI Goudan também demonstrou suas capacidades de integração em antropomorfismo, conhecimento, multimodalidade, percepção de tempo e outros aspectos. Muitos usuários do site Soul ficaram maravilhados com suas poderosas capacidades de interação antropomórfica. tome a iniciativa de postar e reclamar: “Receio que Goudan não seja uma pessoa real”.

Além disso, Soul também depende de Soul. Não há sentimento de desobediência no discurso sobre Lobisomem.

Outro exemplo é que o Soul lançou seu primeiro novo aplicativo independente fora do site principal, “Echo of Another World”. Como uma plataforma social de IA, os usuários podem se envolver em comunicação imersiva em tempo real com personagens humanos virtuais em várias cenas e estilos. Todos esses personagens têm recursos de diálogo de imagem, voz e personalidade. Claro, os usuários podem personalizar personagens virtuais e configurações pessoais (como experiência de fundo, personalidade, etc.) de acordo com suas preferências, o que é muito jogável.

Da mesma forma, o grande modelo de voz autodesenvolvido também desempenha um papel em cenas como AI Goudan, Werewolf Phantom e Echoes of Another World. Por exemplo, a função de chamada de voz é suportada em Echoes of Another World. Personagens virtuais com vozes de pessoas reais podem se comunicar com os usuários de forma natural e em tempo real, enriquecendo a experiência interativa.

Função de chamada de voz em tempo real "Echo from Another World".

Além de continuar a aprofundar as interações antropomórficas de IA em cenários sociais, como diálogo inteligente, jogos e voz, a Soul também está construindo a capacidade de gerar diversos estilos de pintura alinhados com sua própria estética no campo da geração visual, criando avatares digitais de IA. e avançando em direção a uma experiência de interação abrangente multidimensional.

Pode-se observar que o layout do Soul no campo de reconhecimento de emoções por IA abrangeu multimodalidades de linguagem, voz e visuais, trabalhando em conjunto em texto, imagens, cenas de áudio e vídeo que estão intimamente relacionadas à interação social, permitindo aos usuários interagir em um interação homem-computador tridimensional e multissensorial Experimente IA quente durante a interação.

Conclusão

2024 é considerado o primeiro ano de aplicação do AIGC por muitas pessoas na indústria. O foco da atenção de todos não está mais apenas nos parâmetros e capacidades básicas. Com a tendência de passar da camada de modelo para a camada de aplicação, somente sendo os primeiros a implementar IA em campos e cenários verticais poderemos conquistar mais usuários e mercados. Especialmente a interação humano-computador para a via C-side, é mais natural focar nas necessidades do usuário. Isso se reflete bem no campo social.

Anteriormente, muitos aplicativos de namoro, como o AlienChat, foram descontinuados, e o tópico de discussão "O primeiro grupo de jovens que se apaixonaram pela IA se apaixonou" tornou-se um tópico de pesquisa popular. Por trás disso, a homogeneidade funcional é parte do motivo, mas também porque a experiência não muda do papel de assistente/NPC para um acompanhante que realmente fornece suporte emocional. Isto requer o enriquecimento de métodos e cenários de interação humano-computador no campo social, permitindo que a IA participe plenamente em todas as ligações sociais, comunique-se profundamente com os utilizadores e forneça-lhes valor emocional.

Este também pode ser um dos próximos pontos competitivos centrais na direção social da IA. Não é difícil entender por que o Soul, como camada de aplicação, dá tanta ênfase ao acúmulo de capacidades técnicas autodesenvolvidas. No último período, por um lado, esteve empenhada em criar capacidades de IA personalizadas, antropomórficas e diversificadas, por outro lado, acelerou a implementação de aplicações nativas de IA a partir de múltiplas dimensões, incluindo a melhoria da experiência social; Redes sociais de IA, jogos de IA, etc., formando Uma cadeia completa de produtos de IA oferece aos usuários a diversão da interação de IA em vários cenários sociais.

Pode-se dizer que nos últimos anos, a Soul gerou uma série de resultados de produtos baseados em seus grandes modelos de linguagem e fala autodesenvolvidos e acumulou tecnologias ricas e inovadoras e experiência prática no processo de melhorar a experiência de interação emocional entre IA e usuários, todos os quais contribuíram para seu sucesso no MER24. Ganhar o primeiro lugar no desafio abriu caminho para competir com equipes participantes de alta qualidade de todo o mundo.

Nos últimos anos, tem havido cada vez mais desafios desse tipo, como o Desafio de Avaliação de Qualidade NTIRE 2024 AIGC no Workshop CVPR 2024 e os dois Desafios MER consecutivos em 2023 e 2024. As empresas nacionais têm repetidamente alcançado bons resultados confiando na tecnologia acumulado na prática. Por exemplo, SenseTime, que ficou em primeiro lugar no MER23 no ano passado, e Soul, que ficou em primeiro lugar este ano, alcançaram resultados notáveis na sua atenção e investimento em tecnologia e aplicações AIGC.

É previsível que, no futuro, plataformas como a Soul, que insistem na inovação tecnológica e de produtos, continuem a criar valor para os utilizadores no processo de libertação de capacidades de IA. Só assim poderão alcançar conteúdos e ecologia comunitária mais duradouros e mais sustentáveis. valor comercial diversificado.

notícias

Não se concentre apenas na versão ChatGPT dela. Os jogadores domésticos também estão interessados na interação antropomórfica de IA multimodal.

Introdução

minhas informações de contato

notícias

Não se concentre apenas na versão ChatGPT dela. Os jogadores domésticos também estão interessados ​​na interação antropomórfica de IA multimodal.

Introdução

minhas informações de contato

Não se concentre apenas na versão ChatGPT dela. Os jogadores domésticos também estão interessados na interação antropomórfica de IA multimodal.