noticias

El Politécnico de Nanyang crea conjuntos de datos de tareas y puntos de referencia de prueba para mejorar las capacidades de finalización de tareas de los agentes web

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Recientemente, al utilizar modelos grandes como GPT-4v y Gemini-pro, Zhang Ziniu, pasante de la Universidad Tecnológica de Nanyang, y su equipo descubrieron que las capacidades actuales de los agentes de páginas web todavía son muy deficientes, especialmente cuando se completan tareas que combinan múltiples subtareas.

Para mejorar la capacidad del agente para operar en páginas web, el equipo de investigación creó un conjunto de datos de tareas y realizó pruebas comparativas.

Con la ayuda de este conjunto de datos, el agente necesita procesar información de páginas web multimodal y completar tareas a través de operaciones en diferentes páginas web, para estar más cerca de las operaciones de las personas en páginas web en situaciones reales.

Al mismo tiempo, el equipo descubrió que el agente tenía grandes defectos de memoria, lo que afectaba gravemente la precisión de los problemas de saltos múltiples. En respuesta, propusieron un módulo de memoria para mejorar los problemas anteriores.

En general, este resultado mejorará las capacidades de finalización de tareas del agente y proporcionará un punto de referencia de prueba para trabajos posteriores.

Según los informes, este logro es uno más de una serie de trabajos. Inicialmente, Zhang Ziniu, Tian Shulin, Chen Liangyu y otros reprodujeron el punto de referencia de prueba monomodal de un solo salto Webarena creado por el equipo de la Universidad Carnegie Mellon en los Estados Unidos.

Más tarde, a través de un análisis cuidadoso de las capacidades de las tareas de Webarena y la finalización de las tareas por parte del agente, descubrieron que todavía había mucho que vale la pena explorar.

Por ejemplo, ¿por qué la tarea no se acerca lo suficiente a la realidad? ¿Por qué la capacidad del agente inteligente es relativamente escasa?

Leyendo otros artículos relacionados con agentes web. El equipo consideró ampliar la tarea de una modalidad única a una multimodalidad.

Anteriormente, cuando los agentes web procesaban información en páginas web, normalmente no solo miraban el texto. Para ello, intentaron extraer información de imágenes de algunos sitios web en línea que contienen imágenes, como los sitios web oficiales de algunos museos de arte.

Sin embargo, debido a sus propias medidas de protección, muchas páginas web no pueden extraer información de imágenes de sus archivos HTML.

Más tarde, se dedicaron a extraer información de imágenes de sitios web de compras y Wikipedia, y crearon algunas tareas multimodales para agentes web.

Luego, el equipo amplió la tarea a tareas de múltiples saltos y decidió utilizar la tarea de viaje como ejemplo para realizar la investigación. Luego probaron el agente en el conjunto de datos.

En términos de procesamiento de información visual, también utilizan una variedad de métodos: por ejemplo, proporcionar imágenes directamente como indicaciones al agente, o primero proporcionar imágenes a modelos grandes multimodales para su procesamiento y luego fusionar los resultados del procesamiento con el agente. etc.

Durante este período, descubrieron que el método de evaluación utilizado anteriormente para la tarea general no era adecuado para tareas de múltiples saltos. Por lo tanto, propusieron un nuevo método de evaluación para tareas de múltiples saltos.

Al analizar los resultados experimentales del agente, se encontró que la capacidad de memoria del agente era muy pobre, por lo que se propuso un módulo de mejora de la memoria para mejorar la capacidad del agente y se realizó un experimento de ablación sobre esto.

Recientemente, se publicó un artículo relacionado en arXiv con el título "MMInA: Benchmarking Multihop Multimodal Internet Agents".


Figura | Artículos relacionados (Fuente: arXiv)

Al mismo tiempo, el equipo también está atento a los últimos desarrollos en agentes web. En el futuro, el equipo de investigación puede planear proporcionar capturas de pantalla de toda la página web como información para el agente.