Моя контактная информация
Почта[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Колонка Ixiv — это колонка, в которой Machine Heart публикует академический и технический контент. За последние несколько лет рубрика Heart of the Machine AIxiv получила более 2000 отчетов, охватывающих ведущие лаборатории крупнейших университетов и компаний по всему миру, что эффективно способствует академическому обмену и распространению информации. Если у вас есть отличная работа, которой вы хотите поделиться, пожалуйста, внесите свой вклад или свяжитесь с нами для отчета. Электронная почта для отправки: [email protected]; [email protected];
Кроссплатформенный тест мультимодальных агентов CRAB возглавляется сообществом CAMEL AI и совместно разрабатывается исследователями из Оксфорда, Стэнфорда, Гарварда, KAUST, Eigent AI и других учреждений. Платформа CAMEL, разработанная сообществом CAMEL AI, является первым мультиагентным проектом с открытым исходным кодом, основанным на больших языковых моделях. Поэтому большинство членов сообщества — исследователи и инженеры с богатыми научными исследованиями и практическим опытом в области интеллектуальных агентов.
Агенты искусственного интеллекта — одно из наиболее привлекательных направлений исследований в большом сообществе языковых моделей. Пользователям нужно только выдвигать свои собственные потребности.Агентская среда может планировать несколько LLM и поддерживать работу нескольких агентов для выполнения поставленных пользователем задач в совместной или конкурентной манере.。
В настоящее время агенты все чаще комбинируются с крупномасштабными мультимодальными моделями (MLM).Поддерживает выполнение задач в средах графического пользовательского интерфейса (GUI) в различных операционных системах, включая Интернет, настольные компьютеры и смартфоны.. Однако текущие тесты для такого рода оценки производительности агентов по-прежнему имеют множество ограничений, таких как сложность задач построения и тестовых сред, единство показателей оценки и т. д.
В ответ на эти проблемы в данной статье предлагается новая система тестирования межсредовых агентов CRAB.CRAB использует детальный подход к оценке на основе графов и предоставляет эффективные инструменты построения задач и оценщиков. Исследовательская группа этой статьи также разработала кроссплатформенный набор тестовых данных CRAB Benchmark-v0 на основе платформы CRAB, который охватывает 100 задач, которые можно выполнять в средах ПК и смартфонов, включая как традиционные одноплатформенные задачи, так и сложные кросс-платформенные задачи. задачи платформы, которые необходимо выполнить, одновременно управляя несколькими устройствами.
Автор выбрал четыре популярные в настоящее время мультимодальные модели для проведения предварительных экспериментов. Результаты экспериментов показывают, что структура с одним агентом, использующая GPT-4o в качестве механизма вывода, имеет самый высокий показатель завершения тестовых точек — 35,26%.
введение
В качестве новой системы тестирования агентов CRAB (Cross-environment Agent Benchmark) в основном используется для оценки производительности агентов на основе мультимодальных языковых моделей (MLM) в межсредовых задачах.CRAB может моделировать реальные сценарии, в которых пользователи используют несколько устройств одновременно для выполнения сложных задач., Как показано в демонстрации, CRAB можно использовать для оценки процесса, когда агент одновременно манипулирует настольной системой Ubuntu и системой мобильного телефона Android для завершения отправки информации.
视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce2b4ea89253&chksm=84e43848b393b15e150 392aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd
Представьте себе, что если интеллектуальный агент способен точно управлять компьютерами и мобильными телефонами одновременно в соответствии с инструкциями человека, интеллектуальный агент может выполнять многие сложные программные операции, тем самым повышая общую эффективность работы.Для достижения этой цели нам необходимо создать более комплексную и реалистичную среду кросс-платформенного тестирования для агентов, особенно с учетом необходимости поддержки одновременной работы нескольких устройств и обеспечения достаточных механизмов обратной связи по оценке.. Структура CRAB в этой статье пытается решить следующие практические проблемы:
В приведенной выше таблице показано сравнение платформы CRAB, предложенной в этой статье, с другими существующими платформами тестирования агентов.CRAB может одновременно поддерживать кросс-платформенные операционные среды, такие как компьютеры и мобильные телефоны, и моделировать более реалистичные сценарии использования.。
Многие пользователи сети дали высокую оценку CRAB.
Некоторые говорят, что AGI был достигнут потому, что большая языковая модель (имеется в виду CRAB) научилась выходить из Vim.
«Можете ли вы выйти из Vim?» Этот вопрос часто является шуткой в программном или техническом сообществе, поскольку новичкам может быть сложно выйти из Vim, особенно если они не знакомы с режимами работы Vim. (Добавьте сюда смайлик)
Некоторые люди говорят, что трудно поверить, что агент может выполнить ряд задач: «проверить календарь, открыть Vim, войти в режим вставки, войти в список событий, выйти из режима вставки и использовать :wq для сохранения».
Некоторые пользователи сети также пришли к выводу, что следующее поколение роботизированной автоматизации процессов (RPA) будет больше похоже на «пожалуйста, помогите мне выполнить следующие задачи» без необходимости записывать каждый шаг, а затем аварийно завершать работу при запуске в течение нескольких дней.
Кто-то также упомянул, что Graph Evaluator в CRAB — это очень умный способ обработки состояния агента в среде.
Некоторые люди даже похвалили CRAB как будущее ПК с искусственным интеллектом, полагая, что это идеальное сочетание LLM с ПК и мобильными устройствами. «Это искусственный интеллект, подобный RabbitOS, который позволяет существующим ПК и мобильным устройствам использовать функции искусственного интеллекта CRAB. Позволяет тестировать эффективность и полезность агентов мультимодальной языковой модели в реальном мире».
Каждый узел в GDT может представлять подзадачу (m,i,r), где m — среда, в которой выполняется подзадача, i — инструкция естественного языка, а r — функция вознаграждения.Используется для оценки состояния среды m и вывода логического значения, чтобы определить, завершена ли подзадача. Ребра в GDT представляют собой последовательные отношения между подзадачами.。
КРАБ-фреймворк
Межсредовое взаимодействие агентов
CRAB впервые представляет концепцию межсредовых задач, объединяя несколько сред (например, смартфоны и настольные компьютеры) в набор сред, позволяя агентам координировать операции между несколькими устройствами для выполнения сложных задач.
Рабочий процесс использования мультиагентной системы, основанной на экологическом разделении труда в рамках CRAB, показан на рисунке выше.Рабочий процесс проходит по циклу. Сначала главный агент наблюдает за средой и определяет план для субагентов. Затем все субагенты выполняют операции в своих соответствующих средах.. Затем Graph Evaluator отслеживает состояние каждой подзадачи в среде и постоянно обновляет информацию о завершении задачи на протяжении всего рабочего процесса.Этот метод оценки может быть близок к реальной сцене, чтобы проверить способность агента к рассуждению., что требует от агента способности обрабатывать сложные сообщения и глубокого понимания реальных ситуаций.
Оценщик графов
Встроенный графовый оценщик CRAB учитывает преимущества как целенаправленной, так и траекторно-ориентированной оценки., который сначала разбивает сложные задачи на несколько подзадач для формирования ориентированной ациклической графовой структуры.Затем определяется механизм активации узлов, то есть узлы (подзадачи) в графе необходимо постепенно активировать на основе выполнения предыдущих задач., обеспечивая последовательное выполнение задач. Каждый узел связан с функцией проверки для проверки ключевых промежуточных состояний в среде.По сравнению с предыдущими тестами оценки, графический оценщик CRAB инновационно представляет ряд новых показателей оценки.:
Эти метрики обеспечивают более детальную и многомерную оценку тестов агентов.
CRAB Benchmark-v0
Детали базовой сборки
На основе предложенной структуры CRAB,В этой статье создается специальный набор тестов производительности CRAB Benchmark-v0 для дальнейших исследований сообщества.. CRAB Benchmark-v0 поддерживает как мобильные телефоны Android, так и настольные компьютеры Ubuntu Linux. Для Ubuntu и Android определены различные наборы действий для имитации общих взаимодействий в реальной жизни.Его пространство наблюдения состоит из системных интерфейсов двух сред, а состояние среды получается в виде снимков экрана.. Чтобы облегчить работу агента в графическом интерфейсе, автор использует GroundingDINO [7] для поиска интерактивных значков, использует EasyOCR для обнаружения и маркировки интерактивного текста и назначает идентификатор каждому элементу обнаружения для облегчения последующего обращения к нему в рабочем пространстве. .
В качестве примера возьмем конкретную задачу. Например, выполните следующую задачу в системе Ubuntu: Создайте новый каталог «/home/crab/assets_copy» и скопируйте все файлы с указанным расширением «txt» из «/home/crab». /assets» Скопируйте в каталог «/home/crab/assets_copy».
Для выполнения этой задачи требуется несколько шагов. На рисунке ниже показано, как использовать GPT-4 Turbo.Детали эксперимента при использовании в качестве модели вывода и использовании одноагентной структуры. Агент сначала использует команду search_application, чтобы найти терминал и открыть его.
Затем используйте команду Linux «mkdir -p /home/crab/assets_copy», чтобы создать новый целевой каталог.
После создания целевого каталога агент непосредственно выполнил команду копирования в терминале:
«cp /home/crab/assets/*.txt/home/crab/assets_copy» для выполнения задачи, весь процесс проходит гладко и плавно, без каких-либо ошибок.
Результаты эксперимента
Затем автор провел базовый эксперимент на CRAB Benchmark-v0.Ядром агента является серверная мультимодальная языковая модель., который используется для обеспечения понимания естественного языка и изображений, базовых знаний об устройствах, планирования задач и возможностей логического рассуждения,Необходимо поддерживать мультимодальный смешанный ввод и обрабатывать несколько раундов диалога одновременно., поэтому автор выбрал GPT-4o (gpt-4o-2024-05-13), GPT-4 Turbo (gpt-4-turbo-2024-04-09), Gemini 1.5 Pro (версия от мая 2024 г.) и Claude 3 Opus. (claude-3-opus-20240229) используется в качестве базовой модели.
Результаты экспериментов показаны в таблице выше, в которой модели GPT-4o и GPT-4 Turbo достигли самого высокого среднего показателя завершения контрольных точек (CR) среди тестовых моделей.С точки зрения эффективности исполнения (EE) и экономической эффективности (CE) серия GPT-4 также лучше моделей серий Gemini и Claude.。
, продолжительность 02:37
Подвести итог
В этом документе представлен новый эталонный тест CRAB для межсредовой многоагентной оценки.Структура CRAB обеспечивает более комплексную, гибкую и реалистичную платформу сравнительного анализа для оценки автономных агентов за счет внедрения межсредовых задач, графовых оценщиков и методов построения задач на основе комбинаций подзадач.. По сравнению с предыдущими тестами агентов, CRAB снижает ручную нагрузку на этапах выполнения задач и значительно повышает эффективность построения тестов. В этой статье, основанной на CRAB, предлагается Crab Benchmark-v0, который одновременно поддерживает агентов для выполнения множества сложных межсредовых задач в системах Ubuntu и Android.Это может не только способствовать развитию автономных систем оценки агентов, но и дать новое вдохновение для разработки более эффективных систем агентов в будущем.。
обратитесь к:
[1] Шуянь Чжоу и др. WebArena: реалистичная веб-среда для создания автономных агентов. 24 октября 2023 г. URL: http://arxiv.org/abs/2307.13854. препринт.
[2] Чи Чжан и др. AppAgent: Мультимодальные агенты как пользователи смартфонов. 21 декабря 2023 г. URL: http://arxiv.org/abs/2312.13771. препринт.
[3] Шунью Яо и др. «Интернет-магазин: на пути к масштабируемому реальному веб-взаимодействию с заземленными языковыми агентами». В: Достижения в области нейронных систем обработки информации 35 (2022), стр. 20744–20757.
[4] Тяньбао Се и др. OSWorld: Сравнительный анализ многомодальных агентов для открытых задач в реальных компьютерных средах. 11 апреля 2024 г. URL: http://arxiv.org/abs/2404.07972. препринт.
[5] Лин, Фангру и др. «Большие языковые модели с графическим расширением в асинхронном планировании рассуждений». Препринт arXiv arXiv:2402.02805 (2024).
[6] Тушар Хот и др. «Декомпозированное подсказывание: модульный подход к решению сложных задач». В: Одиннадцатая международная конференция по представлениям обучения. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.
[7] Шилун Лю и др. Заземление DINO: объединение DINO с заземленным предварительным обучением для обнаружения открытых объектов. arXiv.org. 9 марта 2023 г.