휴대폰과 컴퓨터를 동시에 제어, 100가지 작업, 교차 시스템 에이전트 평가 벤치마크 이용 가능

휴대폰과 컴퓨터를 동시에 제어, 100가지 작업, 시스템 간 에이전트 평가 벤치마크 가능

2024-08-14

Ixiv 칼럼은 Machine Heart가 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 Heart of the Machine AIxiv 칼럼은 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 2,000개 이상의 보고서를 접수하여 학술 교류 및 보급을 효과적으로 촉진했습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: [email protected] [email protected]

크로스 플랫폼 다중 모드 에이전트 벤치마크인 CRAB는 CAMEL AI 커뮤니티가 주도하고 옥스퍼드, 스탠포드, 하버드, KAUST, Eigent AI 및 기타 기관의 연구원들이 공동으로 개발했습니다. CAMEL AI 커뮤니티가 개발한 CAMEL 프레임워크는 대규모 언어 모델을 기반으로 한 최초의 다중 에이전트 오픈 소스 프로젝트입니다. 따라서 커뮤니티 구성원의 대부분은 지능형 에이전트 분야에서 풍부한 과학적 연구와 실무 경험을 갖춘 연구원 및 엔지니어입니다.

AI 에이전트는 대규모 언어 모델 커뮤니티에서 가장 매력적인 연구 방향 중 하나입니다. 사용자는 자신의 요구 사항만 제시하면 됩니다.에이전트 프레임워크는 여러 LLM을 예약하고 다중 에이전트를 지원하여 협업 또는 경쟁 방식으로 사용자가 제공한 작업을 완료할 수 있습니다.。

현재 에이전트는 대규모 다중 모드 모델(MLM)과 점점 더 결합되고 있습니다.웹, 데스크톱, 스마트폰 등 다양한 운영 체제 전반의 그래픽 사용자 인터페이스(GUI) 환경에서 작업 실행을 지원합니다.. 그러나 이러한 유형의 에이전트 성능 평가를 위한 현재 벤치마크에는 작업 구축 및 테스트 환경의 복잡성, 평가 지표의 단일성 등 여전히 많은 한계가 있습니다.

이러한 문제에 대응하여 본 논문에서는 새로운 교차 환경 에이전트 벤치마크 프레임워크 CRAB를 제안합니다.CRAB는 세분화된 그래프 기반 평가 접근 방식을 채택하고 효율적인 작업 및 평가자 구성 도구를 제공합니다. 본 논문의 연구팀은 또한 CRAB 프레임워크를 기반으로 하는 크로스 플랫폼 테스트 데이터 세트 CRAB Benchmark-v0을 개발했는데, 이는 전통적인 단일 플랫폼 작업과 복잡한 크로스 플랫폼 작업을 모두 포함하여 PC와 스마트폰 환경에서 수행할 수 있는 100가지 작업을 포괄합니다. 여러 장치를 동시에 작동하여 완료해야 하는 플랫폼 작업입니다.

논문 제목: CRAB: 다중 모드 언어 모델 에이전트를 위한 교차 환경 에이전트 벤치마크
논문 주소: https://arxiv.org/abs/2407.01511
코드 저장소: https://github.com/camel-ai/crab

저자는 예비 실험을 위해 현재 널리 사용되는 다중 모드 모델 4개를 선택했으며, 실험 결과 GPT-4o를 추론 엔진으로 사용하는 단일 에이전트 구조가 35.26%의 가장 높은 테스트 포인트 완료율을 갖는 것으로 나타났습니다.

소개

새로운 에이전트 평가 벤치마크 프레임워크인 CRAB(Cross-environment Agent Benchmark)는 주로 교차 환경 작업에서 다중 모드 언어 모델(MLM)을 기반으로 에이전트의 성능을 평가하는 데 사용됩니다.CRAB은 인간 사용자가 여러 장치를 동시에 사용하여 복잡한 작업을 완료하는 실제 시나리오를 시뮬레이션할 수 있습니다., 데모에서 볼 수 있듯이 CRAB를 사용하면 에이전트가 Ubuntu 데스크톱 시스템과 Android 휴대폰 시스템을 동시에 조작하여 정보 전송을 완료하는 프로세스를 평가할 수 있습니다.

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce2b4ea89253&chksm=84e43848b393b15e1503 92aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

지능형 에이전트가 인간의 지시에 따라 컴퓨터와 휴대폰을 동시에 정확하게 작동할 수 있는 능력을 갖고 있다면 지능형 에이전트가 많은 복잡한 소프트웨어 작업을 완료하여 전반적인 작업 효율성을 향상시킬 수 있다고 상상해 보세요.이 목표를 달성하려면 에이전트를 위한 보다 포괄적이고 현실적인 크로스 플랫폼 테스트 환경을 구축해야 하며, 특히 여러 장치의 동시 작동을 지원하고 충분한 평가 피드백 메커니즘을 제공해야 합니다.. 이 문서의 CRAB 프레임워크는 다음과 같은 실제 문제를 해결하려고 시도합니다.

교차 환경 작업 평가:기존 벤치마크는 일반적으로 단일 환경(예: 웹, Android 또는 데스크톱 운영 체제)에만 초점을 맞추며[1][2][3][4] 실제 세계에서 장치 간 협업 시나리오의 복잡성을 무시합니다.. CRAB 프레임워크는 장치 또는 애플리케이션의 상호 작용을 환경에 캡슐화하는 것을 지원합니다. 다중 환경 작업을 지원함으로써 에이전트에 더 풍부한 운영 공간을 제공하고 실제 애플리케이션 시나리오에 더 가깝습니다.
세분화된 평가 방법:전통적인 평가 방법은 최종 목표의 완료에만 초점을 맞추거나(목표 지향), 운영 궤적을 엄격하게 비교합니다(궤적 지향)[1][2][3]. 두 방법 모두 한계가 있으며 에이전트의 성능을 완전히 반영할 수 없습니다.CRAB는 세분화된 평가 지표를 제공할 수 있을 뿐만 아니라 다양한 효과적인 작업 완료 경로에 적응할 수 있는 그래프 기반 평가 방법을 제안합니다.
작업 구성 복잡성: 작업 복잡성이 증가함에 따라 작업과 평가자를 수동으로 구성하는 것이 점점 더 어려워지고 있습니다.CRAB는 교차 환경 작업의 구성 프로세스를 단순화하기 위해 하위 작업 조합 기반 방법을 제안합니다.
에이전트 시스템 구조 평가:이 기사에서는 또한 다양한 에이전트 시스템 구조(단일 에이전트, 기능적 노동 분업 기반 다중 에이전트, 환경적 노동 분업 기반 다중 에이전트)가 작업 완료 결과에 미치는 영향을 살펴봅니다.이는 보다 효율적인 에이전트 시스템을 설계하기 위한 경험적 기반을 제공합니다.

위 표는 본 글에서 제안한 CRAB 프레임워크와 기존의 다른 에이전트 벤치마크 프레임워크를 비교한 것입니다.CRAB은 컴퓨터와 휴대폰 등 크로스 플랫폼 운영 환경을 동시에 지원할 수 있으며 보다 현실적인 사용 시나리오를 시뮬레이션할 수 있습니다.。

크랩에 대해서는 많은 네티즌들이 극찬을 아끼지 않았습니다.

어떤 사람들은 대규모 언어 모델(CRAB 참조)이 Vim 종료 방법을 학습했기 때문에 AGI가 달성되었다고 말합니다.

"Vim을 종료할 수 있습니까?" 이 질문은 프로그래밍이나 기술 커뮤니티에서 종종 농담으로 여겨지곤 합니다. 특히 Vim의 작동 모드에 익숙하지 않은 초보자가 Vim을 종료하기 어려울 수 있기 때문입니다. (여기에 이모티콘을 기부해주세요)

어떤 사람들은 에이전트가 "캘린더 확인, Vim 열기, 삽입 모드 진입, 이벤트 목록 입력, 삽입 모드 종료, :wq를 사용하여 저장"이라는 일련의 작업을 완료할 수 있다는 것이 믿기 어렵다고 말합니다.

일부 네티즌들은 또한 차세대 로봇 프로세스 자동화(RPA)가 모든 단계를 기록하고 며칠 내에 실행하면 충돌이 발생하지 않는 "다음 작업을 완료할 수 있도록 도와주세요"와 비슷할 것이라고 결론지었습니다.

누군가는 CRAB의 Graph Evaluator가 환경에서 에이전트의 상태를 처리하는 매우 현명한 방법이라고 언급했습니다.

어떤 사람들은 CRAB를 AI PC의 미래라고 칭찬하기도 했습니다. LLM과 PC 및 모바일 장치의 완벽한 조합이라고 생각합니다. “기존 PC와 모바일 장치에 CRAB의 벤치마크 테스트를 가능하게 하는 RabbitOS와 같은 AI입니다. 실제 세계에서 다중 모드 언어 모델 에이전트의 효율성과 유용성을 테스트할 수 있습니다.

GDT의 각 노드는 하위 작업(m,i,r)을 나타낼 수 있습니다. 여기서 m은 하위 작업이 실행되는 환경, i는 자연어 명령, r은 보상 함수입니다.환경 m의 상태를 평가하고 하위 작업이 완료되었는지 확인하기 위해 부울 값을 출력하는 데 사용됩니다. GDT의 모서리는 하위 작업 간의 순차적 관계를 나타냅니다.。

CRAB 프레임워크

환경 간 에이전트 상호 작용

CRAB는 여러 환경(예: 스마트폰 및 데스크톱 컴퓨터)을 일련의 환경으로 결합하여 에이전트가 여러 장치 간의 작업을 조정하여 복잡한 작업을 완료할 수 있도록 하는 교차 환경 작업 개념을 처음으로 도입했습니다.

CRAB 프레임워크에서 환경 분업 기반의 멀티 에이전트 시스템을 활용하는 운영 프로세스는 위 그림과 같다.워크플로는 루프를 통해 진행됩니다. 먼저 기본 에이전트가 환경을 관찰하고 하위 에이전트에 대한 계획을 지정합니다. 그런 다음 모든 하위 에이전트가 해당 환경에서 작업을 수행합니다.. 그런 다음 그래프 평가기는 환경의 각 하위 작업 상태를 모니터링하고 워크플로 전체에서 작업 완료를 지속적으로 업데이트합니다.이 평가 방법은 실제 현장에 가깝게 에이전트의 추론 능력을 테스트할 수 있습니다., 이를 위해서는 에이전트가 복잡한 메시지를 처리할 수 있어야 하고 실제 상황에 대한 깊은 이해가 필요합니다.

그래프 평가기

CRAB에 내장된 그래프 평가기는 목표 지향 평가와 궤적 지향 평가의 장점을 모두 고려합니다., 먼저 복잡한 작업을 여러 하위 작업으로 분해하여 방향성 비순환 그래프 구조를 형성합니다.그런 다음 노드 활성화 메커니즘이 정의됩니다. 즉, 그래프의 노드(하위 작업)는 이전 작업 완료에 따라 점진적으로 활성화되어야 합니다., 작업의 순차적 실행을 보장합니다. 각 노드는 환경의 주요 중간 상태를 확인하기 위한 검증 기능과 연결됩니다.CRAB 그래프 평가기는 이전 평가 벤치마크와 비교하여 일련의 새로운 평가 지표를 혁신적으로 도입합니다.：

완료율(CR): 총 노드 수에 대한 완료된 하위 작업 노드 수의 비율, CR = C/N.
실행 효율성(EE): 실행된 작업 수에 대한 완료율의 비율, EE = CR / A, A는 지정된 작업 수입니다.
비용 효율성(CE): 사용된 모델 토큰 수에 대한 완료율의 비율, CE = CR / T, T는 사용된 모델 토큰 수입니다.

이러한 측정항목은 상담사 벤치마크에 대한 보다 세밀하고 다차원적인 평가 초점을 제공합니다.

CRAB 벤치마크-v0

기준 빌드 세부정보

제안된 CRAB 프레임워크를 기반으로,이 문서에서는 커뮤니티의 추가 연구를 위해 특정 벤치마크 테스트 세트 CRAB Benchmark-v0을 구축합니다.. CRAB Benchmark-v0은 Android 휴대폰과 Ubuntu Linux 데스크톱 컴퓨터 환경을 모두 지원합니다. 그리고 실제 생활에서 일반적인 상호 작용을 시뮬레이션하기 위해 Ubuntu와 Android에 대해 다양한 작업 세트가 정의되어 있습니다.관찰 공간은 두 환경의 시스템 인터페이스로 구성되며, 환경 상태는 스크린샷 형식으로 획득됩니다.. GUI에서 에이전트의 작동을 용이하게 하기 위해 저자는 GroundingDINO [7]를 사용하여 대화형 아이콘을 찾고, EasyOCR을 사용하여 대화형 텍스트를 감지하고 주석을 달고, 각 감지 항목에 ID를 할당하여 작업 공간에서 후속 참조를 용이하게 합니다. .

특정 작업을 예로 들어 보겠습니다. Ubuntu 시스템에서 다음 작업을 완료합니다. "/home/crab/assets_copy"라는 새 디렉터리를 만들고 "/home/crab"에서 지정된 "txt" 확장자를 가진 모든 파일을 복사합니다. /assets" "/home/crab/assets_copy" 디렉터리에 복사합니다.

이 작업을 완료하려면 여러 단계가 필요합니다. 아래 그림은 GPT-4 Turbo를 사용하는 방법을 보여줍니다.추론 모델로 사용하고 단일 에이전트 구조를 사용할 때의 실험 세부 사항. 에이전트는 먼저 search_application 명령을 사용하여 터미널을 찾아 엽니다.

그런 다음 Linux 명령 "mkdir -p /home/crab/assets_copy"를 사용하여 새 대상 디렉터리를 만듭니다.

대상 디렉터리를 생성한 후 에이전트는 터미널에서 복사 명령을 직접 실행했습니다.

"cp /home/crab/assets/*.txt/home/crab/assets_copy" 작업을 완료하면 전체 프로세스가 실수 없이 원활하고 원활하게 진행됩니다.

실험적 효과

그런 다음 저자는 CRAB Benchmark-v0에 대한 기본 실험을 수행했습니다.에이전트의 핵심은 백엔드 다중 모달 언어 모델입니다.자연어 및 이미지 이해, 기본적인 장치 지식, 작업 계획 및 논리적 추론 능력을 제공하는 데 사용되는 ,다중 모드 혼합 입력을 지원하고 동시에 여러 라운드의 대화를 처리해야 함, 그래서 저자는 GPT-4o(gpt-4o-2024-05-13), GPT-4 Turbo(gpt-4-turbo-2024-04-09), Gemini 1.5 Pro(2024년 5월 버전) 및 Claude 3 Opus를 선택했습니다. (claude-3-opus-20240229)가 기본 모델로 사용됩니다.

실험 결과는 위의 표와 같으며, GPT-4o와 GPT-4 Turbo 모델은 테스트 모델 중 가장 높은 평균 테스트 포인트 완료율(CR)을 달성했습니다.실행 효율성(EE)과 비용 효율성(CE) 측면에서도 GPT-4 시리즈는 Gemini 및 Claude 시리즈 모델보다 우수합니다.。

, 지속 시간 02:37

요약

이 문서에서는 새로운 교차 환경 다중 에이전트 평가 벤치마크 CRAB를 소개합니다.CRAB 프레임워크는 하위 작업 조합을 기반으로 하는 교차 환경 작업, 그래프 평가기 및 작업 구성 방법을 도입하여 자율 에이전트 평가를 위한 보다 포괄적이고 유연하며 현실적인 벤치마킹 플랫폼을 제공합니다.. 이전 에이전트 벤치마크와 비교하여 CRAB는 작업 단계에서 수동 작업량을 줄이고 벤치마크 구성의 효율성을 크게 향상시킵니다. 이 기사에서는 CRAB를 기반으로 Ubuntu 및 Android 시스템에서 다양하고 복잡한 환경 간 작업을 수행할 수 있는 에이전트를 동시에 지원하는 Crab Benchmark-v0을 제안합니다.이는 자율 에이전트 평가 시스템의 개발을 촉진할 수 있을 뿐만 아니라 향후 보다 효율적인 에이전트 시스템을 설계하는 데 새로운 영감을 제공할 수도 있습니다.。

참조:

[1] Shuyan Zhou et al. WebArena: 자율 에이전트 구축을 위한 현실적인 웹 환경. 2023년 10월 24일. URL: http://arxiv.org/abs/2307.13854. 사전 인쇄본.

[2] Chi Zhang et al. AppAgent: 스마트폰 사용자로서의 멀티모달 에이전트. 2023년 12월 21일. URL: http://arxiv.org/abs/2312.13771. 사전 인쇄본.

[3] Shunyu Yao et al. "웹숍: 기반 언어 에이전트를 통한 확장 가능한 실제 웹 상호 작용을 향해". Neural Information Processing Systems 35(2022), pp. 20744–20757에서.

[4] Tianbao Xie et al. OSWorld: 실제 컴퓨터 환경에서 개방형 작업을 위한 멀티모달 에이전트 벤치마킹. 2024년 4월 11일. URL: http://arxiv.org/abs/2404.07972. 사전 인쇄본.

[5] Lin, Fangru 외. "비동기 계획 추론의 그래프 강화 대규모 언어 모델." arXiv 사전 인쇄본 arXiv:2402.02805(2024).

[6] Tushar Khot et al. "분해된 프롬프팅: 복잡한 과제를 해결하기 위한 모듈식 접근법". 2023년 제11회 학습 표현 국제 컨퍼런스에서. URL: https://openreview.net/forum?id=_nGgzQjzaRy.

[7] Shilong Liu et al. DINO 접지: 오픈 세트 객체 감지를 위한 접지 사전 학습과 DINO 결합. arXiv.org. 2023년 3월 9일.

소식

휴대폰과 컴퓨터를 동시에 제어, 100가지 작업, 시스템 간 에이전트 평가 벤치마크 가능

소개

내 연락처 정보