notícias

Nanyang Polytechnic cria conjuntos de dados de tarefas e benchmarks de teste para melhorar os recursos de conclusão de tarefas do agente web

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Recentemente, usando modelos grandes como GPT-4v e Gemini-pro, Zhang Ziniu, estagiário da Universidade Tecnológica de Nanyang, e sua equipe descobriram que as capacidades atuais dos agentes de páginas da web ainda são muito deficientes, especialmente ao completar tarefas que misturam múltiplos subtarefas.

Para melhorar a capacidade do agente de operar em páginas da web, a equipe de pesquisa criou um conjunto de dados de tarefas e realizou testes de benchmark.

Com a ajuda deste conjunto de dados, o agente precisa processar informações multimodais da página web e realizar tarefas por meio de operações em diferentes páginas web, de modo a estar mais próximo das operações das pessoas nas páginas web em situações reais.

Ao mesmo tempo, a equipe descobriu que o agente tinha grandes defeitos de memória, o que afetava seriamente a precisão dos problemas de multi-hop. Em resposta, eles propuseram um módulo de memória para melhorar os problemas acima.

No geral, este resultado melhorará as capacidades de conclusão de tarefas do agente e fornecerá uma referência de teste para trabalhos subsequentes.

Segundo relatos, essa conquista faz parte de uma série de trabalhos. Inicialmente, Zhang Ziniu, Tian Shulin, Chen Liangyu e outros reproduziram o benchmark de teste monomodal de salto único Webarena criado pela equipe da Carnegie Mellon University nos Estados Unidos.

Mais tarde, através de uma análise cuidadosa das capacidades de tarefas do Webarena e da conclusão das tarefas pelo agente, eles descobriram que ainda havia muito que valeria a pena explorar.

Por exemplo, por que a tarefa não está suficientemente próxima da realidade? Por que a capacidade do agente inteligente é relativamente deficiente?

Lendo outros artigos relacionados a agentes web. A equipe considerou estender a tarefa da modalidade única para a multimodalidade.

Anteriormente, quando os agentes web processavam informações em páginas web, geralmente não olhavam apenas o texto. Para tal, tentaram extrair informação de imagens de alguns sites online que contêm imagens, como os sites oficiais de alguns museus de arte.

No entanto, devido às suas próprias medidas de protecção, muitas páginas web não conseguem extrair informações de imagem dos seus ficheiros HTML.

Mais tarde, eles passaram a extrair informações de imagens de sites de compras e da Wikipedia e criaram algumas tarefas multimodais para agentes da web.

Então, a equipe expandiu a tarefa para tarefas multi-hop e decidiu usar a tarefa de viagem como exemplo para realizar pesquisas. Eles então testaram o agente no conjunto de dados.

Em termos de processamento de informações visuais, eles também usam uma variedade de métodos: por exemplo, fornecendo imagens diretamente como prompts ao agente, ou primeiro fornecendo imagens para grandes modelos multimodais para processamento e, em seguida, mesclando os resultados do processamento ao agente, etc.

Durante este período, descobriram que o método de avaliação utilizado anteriormente para a tarefa global não era adequado para tarefas multi-hop. Portanto, eles propuseram um novo método de avaliação para tarefas multi-hop.

Ao analisar os resultados experimentais do agente, constatou-se que a capacidade de memória do agente era muito fraca, por isso foi proposto um módulo de aprimoramento de memória para melhorar a capacidade do agente, e um experimento de ablação foi realizado sobre este.

Recentemente, um artigo relacionado foi publicado no arXiv sob o título "MMInA: Benchmarking Multihop Multimodal Internet Agents".


Figura | Artigos relacionados (Fonte: arXiv)

Ao mesmo tempo, a equipe também está atenta aos mais recentes desenvolvimentos em agentes web. No futuro, a equipe de pesquisa pode planejar fornecer capturas de tela de toda a página da web como entrada para o agente.