nouvelles

Nanyang Polytechnic crée des ensembles de données de tâches et des tests de référence pour améliorer les capacités d'exécution des tâches des agents Web.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Récemment, en utilisant de grands modèles tels que GPT-4v et Gemini-pro, Zhang Ziniu, stagiaire à l'Université technologique de Nanyang, et son équipe ont découvert que les capacités actuelles des agents de pages Web font encore très défaut, notamment lors de l'exécution de tâches mêlant plusieurs sous-tâches.

Afin d'améliorer la capacité de l'agent à fonctionner sur les pages Web, l'équipe de recherche a créé un ensemble de données de tâches et effectué des tests de référence.

À l'aide de cet ensemble de données, l'agent doit traiter les informations multimodales des pages Web et effectuer des tâches via des opérations sur différentes pages Web, afin d'être plus proche des opérations des personnes sur les pages Web dans des situations réelles.

Dans le même temps, l'équipe a découvert que l'agent présentait d'importants défauts de mémoire, ce qui affectait sérieusement la précision des problèmes multi-sauts. En réponse, ils ont proposé un module de mémoire pour améliorer les problèmes ci-dessus.

Dans l'ensemble, ce résultat améliorera les capacités d'exécution des tâches de l'agent et fournira une référence de test pour les travaux ultérieurs.

Selon certaines informations, cette réalisation fait partie d'une série de travaux. Initialement, Zhang Ziniu, Tian Shulin, Chen Liangyu et d'autres ont reproduit le test de référence monomodal à saut unique Webarena créé par l'équipe de l'Université Carnegie Mellon aux États-Unis.

Plus tard, grâce à une analyse minutieuse des capacités de Webarena et de l'accomplissement des tâches par l'agent, ils ont découvert qu'il y avait encore beaucoup de choses à explorer.

Par exemple, pourquoi la tâche n’est-elle pas assez proche de la réalité ? Pourquoi la capacité de l’agent intelligent est-elle relativement insuffisante ?

En lisant d'autres articles liés aux agents Web. L’équipe a envisagé d’étendre la tâche d’une modalité unique à une multimodalité.

Auparavant, lorsque les agents Web traitaient des informations sur des pages Web, ils ne se contentaient généralement pas de consulter le texte. À cette fin, ils ont tenté d’extraire des informations sur les images de certains sites Web en ligne contenant des images, tels que les sites Web officiels de certains musées d’art.

Cependant, en raison de leurs propres mesures de protection, de nombreuses pages Web ne peuvent pas extraire les informations relatives aux images de leurs fichiers HTML.

Plus tard, ils se sont tournés vers l’extraction d’informations d’images à partir de sites Web commerciaux et de Wikipédia, et ont créé des tâches multimodales pour les agents Web.

Ensuite, l’équipe a étendu la tâche aux tâches à sauts multiples et a décidé d’utiliser la tâche de déplacement comme exemple pour mener des recherches. Ils ont ensuite testé l'agent sur l'ensemble de données.

En termes de traitement des informations visuelles, ils utilisent également diverses méthodes : par exemple, fournir directement des images comme invites à l'agent, ou fournir d'abord des images à de grands modèles multimodaux pour le traitement, puis fusionner les résultats du traitement à l'agent, etc.

Au cours de cette période, ils ont découvert que la méthode d’évaluation précédemment utilisée pour la tâche globale n’était pas adaptée aux tâches multi-sauts. Par conséquent, ils ont proposé une nouvelle méthode d’évaluation pour les tâches multi-sauts.

Lors de l'analyse des résultats expérimentaux de l'agent, il a été constaté que la capacité de mémoire de l'agent était très faible, c'est pourquoi un module d'amélioration de la mémoire a été proposé pour améliorer la capacité de l'agent, et une expérience d'ablation a été réalisée à ce sujet.

Récemment, un article connexe a été publié sur arXiv sous le titre « MMInA : Benchmarking Multihop Multimodal Internet Agents ».


Figure | Documents connexes (Source : arXiv)

Dans le même temps, l’équipe est également attentive aux derniers développements en matière d’agents Web. À l’avenir, l’équipe de recherche pourrait envisager de fournir des captures d’écran de l’intégralité de la page Web en guise d’entrée à l’agent.