Controle simultáneamente teléfonos móviles y computadoras, 100 tareas y puntos de referencia de evaluación de agentes entre sistemas están disponibles

2024-08-14

La columna Ixiv es una columna donde Machine Heart publica contenido académico y técnico. En los últimos años, la columna Heart of the Machine AIxiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. Si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informar. Correo electrónico de envío: [email protected]; [email protected];

CRAB, un punto de referencia de agentes multimodales y multiplataforma, está dirigido por la comunidad CAMEL AI y desarrollado conjuntamente por investigadores de Oxford, Stanford, Harvard, KAUST, Eigent AI y otras instituciones. El marco CAMEL desarrollado por la comunidad CAMEL AI es el primer proyecto de código abierto de múltiples agentes basado en grandes modelos de lenguaje. Por lo tanto, la mayoría de los miembros de la comunidad son investigadores e ingenieros con una rica investigación científica y experiencia práctica en el campo de los agentes inteligentes.

Los agentes de IA son una de las direcciones de investigación más atractivas en la gran comunidad de modelos lingüísticos. Los usuarios solo necesitan presentar sus propias necesidades.El marco del agente puede programar múltiples LLM y admitir múltiples agentes para completar las tareas asignadas por el usuario de manera colaborativa o competitiva.。

Actualmente, los agentes se han combinado cada vez más con modelos multimodales a gran escala (MLM).Admite la ejecución de tareas en entornos de interfaz gráfica de usuario (GUI) en una variedad de sistemas operativos, incluidos la web, computadoras de escritorio y teléfonos inteligentes.. Sin embargo, los puntos de referencia actuales para este tipo de evaluación del desempeño de los agentes todavía tienen muchas limitaciones, como la complejidad de la creación de tareas y entornos de prueba, y la unicidad de los indicadores de evaluación.

En respuesta a estos problemas, este artículo propone un nuevo marco de referencia de agentes entre entornos CRAB.CRAB adopta un enfoque de evaluación detallado basado en gráficos y proporciona herramientas eficientes de construcción de tareas y evaluadores. El equipo de investigación de este artículo también desarrolló un conjunto de datos de prueba multiplataforma CRAB Benchmark-v0 basado en el marco CRAB, que cubre 100 tareas que se pueden realizar en entornos de PC y teléfonos inteligentes, incluidas tareas tradicionales de plataforma única y tareas complejas cruzadas. Tareas de plataforma que deben completarse operando múltiples dispositivos simultáneamente.

Título de la tesis: CRAB: Punto de referencia de agentes multientorno para agentes de modelos de lenguaje multimodal
Dirección del artículo: https://arxiv.org/abs/2407.01511
Repositorio de código: https://github.com/camel-ai/crab

El autor seleccionó cuatro modelos multimodales actualmente populares para realizar experimentos preliminares. Los resultados experimentales muestran que la estructura de agente único que utiliza GPT-4o como motor de inferencia tiene la tasa de finalización de puntos de prueba más alta del 35,26%.

introducción

Como nuevo marco de referencia de evaluación de agentes, CRAB (Cross-environment Agent Benchmark) se utiliza principalmente para evaluar el desempeño de agentes basados en modelos de lenguaje multimodal (MLM) en tareas entre entornos.CRAB puede simular escenarios del mundo real en los que usuarios humanos utilizan varios dispositivos simultáneamente para completar tareas complejas.Como se muestra en la demostración, CRAB se puede utilizar para evaluar el proceso de un agente que manipula simultáneamente un sistema de escritorio Ubuntu y un sistema de teléfono móvil Android para completar el envío de información.

https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce2b4ea89253&chksm=84e43848b393b15e1503 92aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

Imagine que si un agente inteligente tiene la capacidad de operar con precisión computadoras y teléfonos móviles al mismo tiempo de acuerdo con instrucciones humanas, el agente inteligente puede completar muchas operaciones de software complicadas, mejorando así la eficiencia general del trabajo.Para lograr este objetivo, necesitamos construir un entorno de prueba multiplataforma más completo y realista para los agentes, especialmente la necesidad de admitir la operación simultánea de múltiples dispositivos y proporcionar suficientes mecanismos de retroalimentación de evaluación.. El marco CRAB en este artículo intenta resolver los siguientes problemas prácticos:

Evaluación de tareas entre entornos:Los puntos de referencia existentes generalmente solo se centran en un único entorno (como web, Android o sistema operativo de escritorio) [1][2][3][4], ignorando la complejidad de los escenarios de colaboración entre dispositivos en el mundo real.. El marco CRAB admite encapsular la interacción de un dispositivo o aplicación en un entorno. Al admitir tareas multientorno, proporciona a los agentes un espacio operativo más rico y está más cerca de los escenarios de aplicaciones reales.
Métodos de evaluación detallados:Los métodos de evaluación tradicionales se centran únicamente en la consecución del objetivo final (orientado a objetivos) o comparan estrictamente la trayectoria de la operación (orientado a trayectorias) [1][2][3]. Ambos métodos tienen limitaciones y no pueden reflejar completamente el desempeño del agente.CRAB propone un método de evaluación basado en gráficos, que no solo puede proporcionar indicadores de evaluación detallados, sino que también se adapta a una variedad de rutas efectivas de finalización de tareas.
Complejidad de la construcción de tareas: a medida que aumenta la complejidad de las tareas, se vuelve cada vez más difícil crear tareas y evaluadores manualmente.CRAB propone un método basado en la combinación de subtareas para simplificar el proceso de construcción de tareas entre entornos
Evaluación de la estructura del sistema de agentes:Este artículo también explora el impacto de diferentes estructuras del sistema de agentes (agente único, agente múltiple basado en la división funcional del trabajo, agente múltiple basado en la división ambiental del trabajo) en los resultados de finalización de tareas., que proporciona una base empírica para diseñar sistemas de agentes más eficientes.

La tabla anterior muestra la comparación entre el marco CRAB propuesto en este artículo y otros marcos de referencia de agentes existentes.CRAB puede admitir entornos operativos multiplataforma, como computadoras y teléfonos móviles, al mismo tiempo, y puede simular escenarios de uso más realistas.。

Para CRAB, muchos internautas han elogiado mucho.

Algunas personas dicen que AGI se logró porque un modelo de lenguaje grande (en referencia a CRAB) aprendió cómo salir de Vim.

"¿Puedes salir de Vim?" Esta pregunta suele ser una broma en la comunidad técnica o de programación porque puede resultar difícil para los principiantes salir de Vim, especialmente si no están familiarizados con los modos de funcionamiento de Vim. (Aporta un emoticón aquí)

Algunas personas dicen que es difícil creer que un agente pueda completar la serie de tareas de "verificar el calendario, abrir Vim, ingresar al modo de inserción, ingresar a la lista de eventos, salir del modo de inserción y usar: wq para guardar".

Algunos internautas también concluyeron que la próxima generación de automatización de procesos robóticos (RPA) será más como "por favor ayúdenme a completar las siguientes tareas" sin la necesidad de registrar cada paso y luego fallar cuando se ejecute en unos pocos días.

Alguien también mencionó que Graph Evaluator en CRAB es una forma muy inteligente de manejar el estado del agente en el entorno.

Algunas personas incluso elogiaron a CRAB como el futuro de las PC con IA, creyendo que es la combinación perfecta de LLM con PC y dispositivos móviles. “Es una IA similar a RabbitOS que permite que las PC y dispositivos móviles existentes tengan las funciones de prueba de referencia de CRAB. Permite probar la efectividad y utilidad de los agentes del modelo de lenguaje multimodal en el mundo real".

Cada nodo en GDT puede representar una subtarea (m,i,r), donde m es el entorno en el que se ejecuta la subtarea, i es la instrucción en lenguaje natural y r es la función de recompensa.Se utiliza para evaluar el estado del entorno m y generar un valor booleano para determinar si la subtarea está completa. Los bordes en GDT representan la relación secuencial entre subtareas.。

marco cangrejo

Interacción de agentes entre entornos

CRAB introduce por primera vez el concepto de tareas entre entornos, combinando múltiples entornos (como teléfonos inteligentes y computadoras de escritorio) en un conjunto de entornos, lo que permite a los agentes coordinar operaciones entre múltiples dispositivos para completar tareas complejas.

El proceso operativo de utilizar un sistema multiagente basado en la división ambiental del trabajo en el marco CRAB se muestra en la figura anterior.El flujo de trabajo avanza a través de un bucle. Primero, el agente principal observa el entorno y especifica un plan para los subagentes. Luego, todos los subagentes realizan operaciones en sus respectivos entornos.. Luego, un evaluador de gráficos monitorea el estado de cada subtarea en el entorno y actualiza continuamente la finalización de la tarea a lo largo del flujo de trabajo.Este método de evaluación puede acercarse a la escena real para probar la capacidad de razonamiento del agente., lo que requiere que el agente pueda manejar mensajes complejos y un conocimiento profundo de situaciones del mundo real.

Evaluador de gráficos

El evaluador gráfico integrado de CRAB tiene en cuenta las ventajas de la evaluación tanto orientada a objetivos como a trayectorias., Primero descompone tareas complejas en múltiples subtareas para formar una estructura de gráfico acíclico dirigido.Luego se define un mecanismo de activación de nodos, es decir, los nodos (subtareas) en el gráfico deben activarse gradualmente en función de la finalización de las tareas anteriores., asegurando la ejecución secuencial de las tareas. Cada nodo está asociado con una función de verificación para comprobar estados intermedios clave en el entorno.En comparación con los puntos de referencia de evaluación anteriores, el evaluador gráfico CRAB introduce de manera innovadora una serie de nuevos indicadores de evaluación.：

Proporción de finalización (CR): la relación entre el número de nodos de subtareas completados y el número total de nodos, CR = C / N.
Eficiencia de ejecución (EE): la relación entre la tasa de finalización y el número de acciones ejecutadas, EE = CR / A, A es el número de acciones especificadas.
Eficiencia de costos (CE): la relación entre la tasa de finalización y la cantidad de tokens de modelo utilizados, CE = CR / T, T es la cantidad de tokens de modelo utilizados.

Estas métricas proporcionan un enfoque de evaluación más detallado y multidimensional para los puntos de referencia de los agentes.

Punto de referencia CRAB v0

Detalles de construcción de referencia

Basado en el marco CRAB propuesto,Este artículo crea un conjunto de pruebas de referencia específico CRAB Benchmark-v0 para futuras investigaciones por parte de la comunidad.. CRAB Benchmark-v0 es compatible tanto con teléfonos móviles con Android como con entornos de computadoras de escritorio Ubuntu Linux. Y se definen diferentes conjuntos de acciones para Ubuntu y Android para simular interacciones comunes en la vida real.Su espacio de observación consta de las interfaces del sistema de los dos entornos y el estado del entorno se obtiene en forma de capturas de pantalla.. Para facilitar la operación del agente en la GUI, el autor usa GroundingDINO [7] para ubicar íconos interactivos, usa EasyOCR para detectar y anotar texto interactivo y asigna una ID a cada elemento de detección para facilitar la referencia posterior en el espacio de operación. .

Tomemos una tarea específica como ejemplo. Por ejemplo, complete la siguiente tarea en el sistema Ubuntu: cree un nuevo directorio "/home/crab/assets_copy" y copie todos los archivos con la extensión "txt" especificada de "/home/crab". /assets" Copiar al directorio "/home/crab/assets_copy".

Esta tarea requiere varios pasos para completarse. La siguiente figura muestra cómo usar GPT-4 Turbo.Detalles experimentales cuando se utiliza como modelo de inferencia y se utiliza una estructura de agente único. El agente primero usa el comando search_application para encontrar el terminal y abrirlo.

Luego use el comando de Linux "mkdir -p /home/crab/assets_copy" para crear un nuevo directorio de destino.

Después de crear el directorio de destino, el agente ejecutó directamente el comando de copia en la terminal:

"cp /home/crab/assets/*.txt/home/crab/assets_copy" para completar la tarea, todo el proceso es fluido y fluido, sin errores.

efecto experimental

Luego, el autor realizó un experimento de referencia en CRAB Benchmark-v0.El núcleo del agente es el modelo de lenguaje multimodal back-end., que se utiliza para proporcionar comprensión del lenguaje natural y de las imágenes, conocimiento básico del dispositivo, planificación de tareas y capacidades de razonamiento lógico.Necesidad de admitir aportaciones mixtas multimodales y manejar múltiples rondas de diálogo al mismo tiempo., por lo que el autor seleccionó GPT-4o (gpt-4o-2024-05-13), GPT-4 Turbo (gpt-4-turbo-2024-04-09), Gemini 1.5 Pro (versión de mayo de 2024) y Claude 3 Opus (claude-3-opus-20240229) se utiliza como modelo de referencia.

Los resultados experimentales se muestran en la tabla anterior, en la que los modelos GPT-4o y GPT-4 Turbo lograron la tasa promedio de finalización de puntos de prueba (CR) más alta entre los modelos de prueba.En términos de eficiencia de ejecución (EE) y rentabilidad (CE), la serie GPT-4 también es mejor que los modelos de las series Gemini y Claude.。

, duración 02:37

Resumir

Este artículo presenta un nuevo punto de referencia de evaluación multiagente CRAB entre entornos.El marco CRAB proporciona una plataforma de evaluación comparativa más completa, flexible y realista para la evaluación de agentes autónomos mediante la introducción de tareas entre entornos, evaluadores de gráficos y métodos de construcción de tareas basados en combinaciones de subtareas.. En comparación con los puntos de referencia de agentes anteriores, CRAB reduce la carga de trabajo manual en los pasos de las tareas y mejora en gran medida la eficiencia de la construcción de puntos de referencia. Basado en CRAB, este artículo propone Crab Benchmark-v0, que admite simultáneamente a los agentes para realizar una variedad de tareas complejas entre entornos en sistemas Ubuntu y Android.No solo puede promover el desarrollo de sistemas de evaluación de agentes autónomos, sino que también puede proporcionar nueva inspiración para diseñar sistemas de agentes más eficientes en el futuro.。

referirse a:

[1] Shuyan Zhou et al. WebArena: un entorno web realista para construir agentes autónomos. 24 de octubre de 2023. URL: http://arxiv.org/abs/2307.13854. preimpresión.

[2] Chi Zhang et al. AppAgent: Agentes multimodales como usuarios de teléfonos inteligentes. 21 de diciembre de 2023. URL: http://arxiv.org/abs/2312.13771. preimpresión.

[3] Shunyu Yao et al. “Webshop: Hacia una interacción web escalable en el mundo real con agentes de lenguaje fundamentados”. En: Advances in Neural Information Processing Systems 35 (2022), págs. 20744–20757.

[4] Tianbao Xie et al. OSWorld: Evaluación comparativa de agentes multimodales para tareas abiertas en entornos informáticos reales. 11 de abril de 2024. URL: http://arxiv.org/abs/2404.07972. preimpresión.

[5] Lin, Fangru, et al. "Modelos de lenguaje grande mejorados con gráficos en razonamiento de planes asincrónicos". Preimpresión de arXiv arXiv:2402.02805 (2024).

[6] Tushar Khot et al. “Incitación descompuesta: un enfoque modular para resolver tareas complejas”. En: La undécima conferencia internacional sobre representaciones del aprendizaje. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.

[7] Shilong Liu et al. Grounding DINO: Combinando DINO con entrenamiento previo basado en tierra para la detección de objetos en entornos abiertos. arXiv.org. 9 de marzo de 2023.

noticias

Controle simultáneamente teléfonos móviles y computadoras, 100 tareas y puntos de referencia de evaluación de agentes entre sistemas están disponibles

Introducción

Mi información de contacto