Одновременное управление мобильными телефонами и компьютерами, 100 задач, доступны тесты межсистемной оценки агентов

Одновременное управление мобильными телефонами и компьютерами, 100 задач, доступны тесты межсистемной оценки агентов.

2024-08-14

Колонка Ixiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет рубрика Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected]; [email protected];

Кроссплатформенный тест мультимодальных агентов CRAB возглавляется сообществом CAMEL AI и совместно разрабатывается исследователями из Оксфорда, Стэнфорда, Гарварда, KAUST, Eigent AI и других учреждений. Платформа CAMEL, разработанная сообществом CAMEL AI, является первым мультиагентным проектом с открытым исходным кодом, основанным на больших языковых моделях. Поэтому большинство членов сообщества — исследователи и инженеры с богатыми научными исследованиями и практическим опытом в области интеллектуальных агентов.

Агенты искусственного интеллекта — одно из наиболее привлекательных направлений исследований в большом сообществе языковых моделей. Пользователям нужно только выдвигать свои собственные потребности.Агентская среда может планировать несколько LLM и поддерживать работу нескольких агентов для выполнения поставленных пользователем задач в совместной или конкурентной манере.。

В настоящее время агенты все чаще комбинируются с крупномасштабными мультимодальными моделями (MLM).Поддерживает выполнение задач в средах графического пользовательского интерфейса (GUI) в различных операционных системах, включая Интернет, настольные компьютеры и смартфоны.. Однако текущие тесты для такого рода оценки производительности агентов по-прежнему имеют множество ограничений, таких как сложность задач построения и тестовых сред, единство показателей оценки и т. д.

В ответ на эти проблемы в данной статье предлагается новая система тестирования межсредовых агентов CRAB.CRAB использует детальный подход к оценке на основе графов и предоставляет эффективные инструменты построения задач и оценщиков. Исследовательская группа этой статьи также разработала кроссплатформенный набор тестовых данных CRAB Benchmark-v0 на основе платформы CRAB, который охватывает 100 задач, которые можно выполнять в средах ПК и смартфонов, включая как традиционные одноплатформенные задачи, так и сложные кросс-платформенные задачи. задачи платформы, которые необходимо выполнить, одновременно управляя несколькими устройствами.

Название диссертации: CRAB: Тест межсредового агента для агентов мультимодальной языковой модели
Адрес статьи: https://arxiv.org/abs/2407.01511.
Репозиторий кода: https://github.com/camel-ai/crab

Автор выбрал четыре популярные в настоящее время мультимодальные модели для проведения предварительных экспериментов. Результаты экспериментов показывают, что структура с одним агентом, использующая GPT-4o в качестве механизма вывода, имеет самый высокий показатель завершения тестовых точек — 35,26%.

введение

В качестве новой системы тестирования агентов CRAB (Cross-environment Agent Benchmark) в основном используется для оценки производительности агентов на основе мультимодальных языковых моделей (MLM) в межсредовых задачах.CRAB может моделировать реальные сценарии, в которых пользователи используют несколько устройств одновременно для выполнения сложных задач., Как показано в демонстрации, CRAB можно использовать для оценки процесса, когда агент одновременно манипулирует настольной системой Ubuntu и системой мобильного телефона Android для завершения отправки информации.

视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce2b4ea89253&chksm=84e43848b393b15e150 392aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

Представьте себе, что если интеллектуальный агент способен точно управлять компьютерами и мобильными телефонами одновременно в соответствии с инструкциями человека, интеллектуальный агент может выполнять многие сложные программные операции, тем самым повышая общую эффективность работы.Для достижения этой цели нам необходимо создать более комплексную и реалистичную среду кросс-платформенного тестирования для агентов, особенно с учетом необходимости поддержки одновременной работы нескольких устройств и обеспечения достаточных механизмов обратной связи по оценке.. Структура CRAB в этой статье пытается решить следующие практические проблемы:

Оценка межсредовой задачи:Существующие тесты обычно ориентированы только на одну среду (например, Интернет, Android или операционную систему настольного компьютера) [1][2][3][4], игнорируя при этом сложность сценариев взаимодействия между устройствами в реальном мире.. Платформа CRAB поддерживает инкапсуляцию взаимодействия устройства или приложения в среде. Поддерживая задачи в нескольких средах, она предоставляет агентам более обширное рабочее пространство и приближается к реальным сценариям приложений.
Методы детальной оценки:Традиционные методы оценки либо фокусируются только на достижении конечной цели (целеориентированные), либо строго сравнивают траекторию операции (траекторно-ориентированные) [1][2][3]. Оба метода имеют ограничения и не могут полностью отразить производительность агента.CRAB предлагает метод оценки на основе графиков, который может не только предоставлять детальные показатели оценки, но и адаптироваться к различным эффективным путям выполнения задач.
Сложность построения задач. По мере увеличения сложности задач вручную создавать задачи и оценщики становится все труднее.CRAB предлагает метод, основанный на сочетании подзадач, для упрощения процесса построения межсредовых задач.
Оценка структуры агентской системы:В данной статье также исследуется влияние различных структур агентных систем (один агент, мультиагент на основе функционального разделения труда, мультиагент на основе разделения труда по среде) на результаты выполнения задач., который обеспечивает эмпирическую основу для разработки более эффективных агентных систем.

В приведенной выше таблице показано сравнение платформы CRAB, предложенной в этой статье, с другими существующими платформами тестирования агентов.CRAB может одновременно поддерживать кросс-платформенные операционные среды, такие как компьютеры и мобильные телефоны, и моделировать более реалистичные сценарии использования.。

Многие пользователи сети дали высокую оценку CRAB.

Некоторые говорят, что AGI был достигнут потому, что большая языковая модель (имеется в виду CRAB) научилась выходить из Vim.

«Можете ли вы выйти из Vim?» Этот вопрос часто является шуткой в программном или техническом сообществе, поскольку новичкам может быть сложно выйти из Vim, особенно если они не знакомы с режимами работы Vim. (Добавьте сюда смайлик)

Некоторые люди говорят, что трудно поверить, что агент может выполнить ряд задач: «проверить календарь, открыть Vim, войти в режим вставки, войти в список событий, выйти из режима вставки и использовать :wq для сохранения».

Некоторые пользователи сети также пришли к выводу, что следующее поколение роботизированной автоматизации процессов (RPA) будет больше похоже на «пожалуйста, помогите мне выполнить следующие задачи» без необходимости записывать каждый шаг, а затем аварийно завершать работу при запуске в течение нескольких дней.

Кто-то также упомянул, что Graph Evaluator в CRAB — это очень умный способ обработки состояния агента в среде.

Некоторые люди даже похвалили CRAB как будущее ПК с искусственным интеллектом, полагая, что это идеальное сочетание LLM с ПК и мобильными устройствами. «Это искусственный интеллект, подобный RabbitOS, который позволяет существующим ПК и мобильным устройствам использовать функции искусственного интеллекта CRAB. Позволяет тестировать эффективность и полезность агентов мультимодальной языковой модели в реальном мире».

Каждый узел в GDT может представлять подзадачу (m,i,r), где m — среда, в которой выполняется подзадача, i — инструкция естественного языка, а r — функция вознаграждения.Используется для оценки состояния среды m и вывода логического значения, чтобы определить, завершена ли подзадача. Ребра в GDT представляют собой последовательные отношения между подзадачами.。

КРАБ-фреймворк

Межсредовое взаимодействие агентов

CRAB впервые представляет концепцию межсредовых задач, объединяя несколько сред (например, смартфоны и настольные компьютеры) в набор сред, позволяя агентам координировать операции между несколькими устройствами для выполнения сложных задач.

Рабочий процесс использования мультиагентной системы, основанной на экологическом разделении труда в рамках CRAB, показан на рисунке выше.Рабочий процесс проходит по циклу. Сначала главный агент наблюдает за средой и определяет план для субагентов. Затем все субагенты выполняют операции в своих соответствующих средах.. Затем Graph Evaluator отслеживает состояние каждой подзадачи в среде и постоянно обновляет информацию о завершении задачи на протяжении всего рабочего процесса.Этот метод оценки может быть близок к реальной сцене, чтобы проверить способность агента к рассуждению., что требует от агента способности обрабатывать сложные сообщения и глубокого понимания реальных ситуаций.

Оценщик графов

Встроенный графовый оценщик CRAB учитывает преимущества как целенаправленной, так и траекторно-ориентированной оценки., который сначала разбивает сложные задачи на несколько подзадач для формирования ориентированной ациклической графовой структуры.Затем определяется механизм активации узлов, то есть узлы (подзадачи) в графе необходимо постепенно активировать на основе выполнения предыдущих задач., обеспечивая последовательное выполнение задач. Каждый узел связан с функцией проверки для проверки ключевых промежуточных состояний в среде.По сравнению с предыдущими тестами оценки, графический оценщик CRAB инновационно представляет ряд новых показателей оценки.：

Коэффициент завершения (CR): отношение количества завершенных узлов подзадачи к общему количеству узлов, CR = C/N.
Эффективность выполнения (EE): отношение скорости выполнения к количеству выполненных действий, EE = CR/A, A — количество заданных действий.
Экономическая эффективность (CE): отношение степени завершения к количеству используемых жетонов модели, CE = CR / T, T — количество использованных жетонов модели.

Эти метрики обеспечивают более детальную и многомерную оценку тестов агентов.

CRAB Benchmark-v0

Детали базовой сборки

На основе предложенной структуры CRAB,В этой статье создается специальный набор тестов производительности CRAB Benchmark-v0 для дальнейших исследований сообщества.. CRAB Benchmark-v0 поддерживает как мобильные телефоны Android, так и настольные компьютеры Ubuntu Linux. Для Ubuntu и Android определены различные наборы действий для имитации общих взаимодействий в реальной жизни.Его пространство наблюдения состоит из системных интерфейсов двух сред, а состояние среды получается в виде снимков экрана.. Чтобы облегчить работу агента в графическом интерфейсе, автор использует GroundingDINO [7] для поиска интерактивных значков, использует EasyOCR для обнаружения и маркировки интерактивного текста и назначает идентификатор каждому элементу обнаружения для облегчения последующего обращения к нему в рабочем пространстве. .

В качестве примера возьмем конкретную задачу. Например, выполните следующую задачу в системе Ubuntu: Создайте новый каталог «/home/crab/assets_copy» и скопируйте все файлы с указанным расширением «txt» из «/home/crab». /assets» Скопируйте в каталог «/home/crab/assets_copy».

Для выполнения этой задачи требуется несколько шагов. На рисунке ниже показано, как использовать GPT-4 Turbo.Детали эксперимента при использовании в качестве модели вывода и использовании одноагентной структуры. Агент сначала использует команду search_application, чтобы найти терминал и открыть его.

Затем используйте команду Linux «mkdir -p /home/crab/assets_copy», чтобы создать новый целевой каталог.

После создания целевого каталога агент непосредственно выполнил команду копирования в терминале:

«cp /home/crab/assets/*.txt/home/crab/assets_copy» для выполнения задачи, весь процесс проходит гладко и плавно, без каких-либо ошибок.

Результаты эксперимента

Затем автор провел базовый эксперимент на CRAB Benchmark-v0.Ядром агента является серверная мультимодальная языковая модель., который используется для обеспечения понимания естественного языка и изображений, базовых знаний об устройствах, планирования задач и возможностей логического рассуждения,Необходимо поддерживать мультимодальный смешанный ввод и обрабатывать несколько раундов диалога одновременно., поэтому автор выбрал GPT-4o (gpt-4o-2024-05-13), GPT-4 Turbo (gpt-4-turbo-2024-04-09), Gemini 1.5 Pro (версия от мая 2024 г.) и Claude 3 Opus. (claude-3-opus-20240229) используется в качестве базовой модели.

Результаты экспериментов показаны в таблице выше, в которой модели GPT-4o и GPT-4 Turbo достигли самого высокого среднего показателя завершения контрольных точек (CR) среди тестовых моделей.С точки зрения эффективности исполнения (EE) и экономической эффективности (CE) серия GPT-4 также лучше моделей серий Gemini и Claude.。

, продолжительность 02:37

Подвести итог

В этом документе представлен новый эталонный тест CRAB для межсредовой многоагентной оценки.Структура CRAB обеспечивает более комплексную, гибкую и реалистичную платформу сравнительного анализа для оценки автономных агентов за счет внедрения межсредовых задач, графовых оценщиков и методов построения задач на основе комбинаций подзадач.. По сравнению с предыдущими тестами агентов, CRAB снижает ручную нагрузку на этапах выполнения задач и значительно повышает эффективность построения тестов. В этой статье, основанной на CRAB, предлагается Crab Benchmark-v0, который одновременно поддерживает агентов для выполнения множества сложных межсредовых задач в системах Ubuntu и Android.Это может не только способствовать развитию автономных систем оценки агентов, но и дать новое вдохновение для разработки более эффективных систем агентов в будущем.。

обратитесь к:

[1] Шуянь Чжоу и др. WebArena: реалистичная веб-среда для создания автономных агентов. 24 октября 2023 г. URL: http://arxiv.org/abs/2307.13854. препринт.

[2] Чи Чжан и др. AppAgent: Мультимодальные агенты как пользователи смартфонов. 21 декабря 2023 г. URL: http://arxiv.org/abs/2312.13771. препринт.

[3] Шунью Яо и др. «Интернет-магазин: на пути к масштабируемому реальному веб-взаимодействию с заземленными языковыми агентами». В: Достижения в области нейронных систем обработки информации 35 (2022), стр. 20744–20757.

[4] Тяньбао Се и др. OSWorld: Сравнительный анализ многомодальных агентов для открытых задач в реальных компьютерных средах. 11 апреля 2024 г. URL: http://arxiv.org/abs/2404.07972. препринт.

[5] Лин, Фангру и др. «Большие языковые модели с графическим расширением в асинхронном планировании рассуждений». Препринт arXiv arXiv:2402.02805 (2024).

[6] Тушар Хот и др. «Декомпозированное подсказывание: модульный подход к решению сложных задач». В: Одиннадцатая международная конференция по представлениям обучения. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.

[7] Шилун Лю и др. Заземление DINO: объединение DINO с заземленным предварительным обучением для обнаружения открытых объектов. arXiv.org. 9 марта 2023 г.

новости

Одновременное управление мобильными телефонами и компьютерами, 100 задач, доступны тесты межсистемной оценки агентов.

Введение

Моя контактная информация