новости

Самый могущественный агент Агент Q выпущен! Успех Llama 3 взлетел в три раза, а загадочная «клубника» OpenAI была перехвачена

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Монтажер: Цяо Ян такой сонный.

[Введение в новую мудрость]Стартап-компания MultiOn недавно выпустила Agent Q, который, по ее утверждению, является «самым мощным на данный момент» и может достигать 95,4% успеха в реальных задачах бронирования. Пользователи сети предположили, что за этим стоит загадочный проект OpenAI Q*.

Не дожидаясь выхода проекта OpenAI Q*/Strawberry, начинающая компания MultiOn первой выпустила агента по имени Q.


Мы очень рады сообщить, что Agent Q, наша работа за последние 6 месяцев, теперь доступна! Это структура агента с самоконтролем, которая может рассуждать и искать, а также может выполнять самостоятельную игру и обучение с подкреплением посредством реальных задач в Интернете для достижения самокоррекции и автономного улучшения!

Что привлекло еще больше внимания, так это то, что когда MultiOn Ляньчуан/генеральный директор Див Гарг упомянул агента Q в Твиттере, он никогда не забывал упомянуть об этом заметном имени.


Это привлекало постоянных зрителей из всех слоев общества. Некоторые предполагали, что главным боссом Agent Q был проект OpenAI Q*.

Мало того, MultiOn также открыла независимую учетную запись в Твиттере для агента Q, которая часто публикует различные странные высказывания, в которых «сложно отличить людей от машин».

Фоновая картинка и основная информация аккаунта полны клубники, а фотографии клубники в собственном саду, которые Ультрамен выкладывал ранее, были прямо вклеены.



Но самое удивительное то, что у этого загадочного аккаунта много последователей и KOL, в том числе генеральный директор Y-Combinator Гарри Тан, генеральный директор Quora Адам Д'Анджело, обозреватель New York Times Кевин Руз, профессор искусственного интеллекта Wharton Итан Моллик и несколько сотрудников OpenAI.

Даже Ультрамен недавно взял на себя инициативу взаимодействовать с этим загадочным аккаунтом и прокомментировал его пост, в котором высмеивалась фраза «AGI достигает уровня 2».


Является ли эта волна операций MultiOn чисто хайпом или же она связана с продвижением Q* со стороны OpenAI, зависит от мнения людей.


Либо это будет один из лучших ИИ-агентов, когда-либо выпущенных, либо Див Гарг испортит репутацию компании, ввязавшись в самую ужасную шумиху. В сообществе ИИ это контрпродуктивно.

Оставив в стороне все споры, давайте сначала посмотрим, насколько много технического контента у этого агента Q.

По словам генерального директора Дива Гарга, агент Q обладает не только способностями планирования и рассуждения, но и способностями к самовосстановлению. Всего за один день обучения они улучшили производительность Llama 3 при нулевой выборке на 340 %, достигнув 95,4 % успеха в реальных задачах бронирования.


Это важный шаг вперед для автономных агентов ИИ, позволяющих принимать сложные и надежные решения в реальных условиях.

В официальном демонстрационном видео агент Q может выполнять такие задачи, как бронирование ресторанов, встреч и авиабилетов, которые включают в себя многоэтапное планирование, рассуждения, принятие решений и взаимодействие с различными приложениями.

Хотя исследовательская группа MultiOn загрузила документ на официальный сайт, агент Q еще не открыт для испытаний, и вам необходимо зарегистрироваться в списке ожидания, чтобы подать заявку на возможность внутреннего тестирования.


Адрес статьи: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf.

На официальном сайте утверждается, что Agent Q будет открыт для разработчиков и пользователей MultiOn позднее в этом году.

Техническая интерпретация

В последние годы, хотя LLM полностью изменил сферу НЛП и добился выдающихся достижений, он по-прежнему сталкивается с серьезными проблемами в интерактивных средах, особенно в задачах многоэтапного рассуждения, таких как навигация по веб-страницам.

Существующие методы обучения, основанные на статических наборах языковых данных, недостаточны для адаптации этих моделей к динамическим взаимодействиям в реальном мире.

Появление агента Q является важной вехой в области агентов ИИ, которые сочетают в себе поиск, саморефлексию и обучение с подкреплением, чтобы иметь возможность планировать и самовосстанавливаться.

Представляя новую структуру обучения и вывода, Agent Q устраняет ограничения предыдущих методов обучения LLM, обеспечивая автономную веб-навигацию.


Расшифровка шагов агента Q при выполнении запланированных задач

Проблемы с текущими методами

Современные методы, такие как контролируемая точная настройка тщательно спланированных экспертных демонстраций, часто плохо справляются с многоэтапными задачами агента из-за накопленных ошибок и ограниченных данных исследования, что требует сложного принятия решений и адаптации в динамичных средах. Как вы узнаете, неоптимальные стратегии появляться.

Методы и компоненты Agent Q

Агент Q сочетает в себе управляемый поиск по дереву Монте-Карло (MCTS), саморефлексию искусственного интеллекта и итеративные методы точной настройки, используя при этом алгоритмы RLHF, такие как оптимизация прямых предпочтений (DPO), чтобы агенты LLM могли учиться на успешных и неудачных траекториях и улучшать множественное обобщение. умение поэтапно решать задачи.

Ключевые компоненты Agent Q включают в себя:

1. Управляемый поиск на основе MCTS: автономно генерируйте данные, изучая различные варианты поведения и веб-страницы, и находите баланс между исследованием и использованием.

MCTS использует более высокие температуры выборки и разнообразные слова-подсказки, чтобы расширить пространство поведения и гарантировать возможность сбора разнообразных и оптимальных траекторий.

2. Самокритика ИИ. На каждом этапе самокритика на основе ИИ может обеспечить ценную обратную связь для оптимизации принятия решений агентом. Эта обратная связь на уровне шагов имеет решающее значение для долгосрочных задач, поскольку редкие сигналы часто приводят к трудностям в обучении.


3. Прямая оптимизация предпочтений. Алгоритм DPO настраивает модель путем построения пар предпочтений на основе данных, сгенерированных MCTS. Этот метод обучения вне политики позволяет модели эффективно учиться на агрегированном наборе данных, включая неоптимальные ветви, исследованные в процессе поиска, тем самым повышая вероятность успеха в сложных средах.

Оценочный эксперимент

В задаче моделирования интернет-магазина, построенного на основе модели xLAM-v0.1-r, агенту необходимо осуществлять поиск конкретных товаров.

Хотя такие методы, как RFT, DPO и поиск луча, также могут обеспечить определенные улучшения, их величина не так высока, как у AgentQ.

Если одновременно использовать методы Agent Q и MCTS, вероятность успеха задачи может быть увеличена с 28,6% до 50,5%, что эквивалентно среднечеловеческому уровню 50%.


В реальной задаче бронирования Open Table агенту необходимо выполнить несколько шагов, включая поиск соответствующей страницы ресторана, выбор подходящей даты и времени, выбор подходящего места в соответствии с предпочтениями пользователя, отправку контактной информации пользователя и, наконец, заполнение задача.

Эта сложность, очевидно, на шаг выше Интернет-магазина. По статистике после эксперимента среднее количество шагов для выполнения задач Интернет-магазина составляет 6,8, а Открытого стола выросло в два раза и составило 13,9.

Поскольку Open Table — это не смоделированный набор данных, а реальная онлайн-среда, выполнить автоматическую оценку сложно. Поэтому в документе используется GPT-4-V в качестве оценщика для вознаграждения агента за каждый шаг операции на основе заранее определенных. индикаторы и отмечают, выполнено ли задание.


Агент Q увеличил показатель успеха LLaMa-3 с нулевой выборкой с 18,6% до 81,7%, при этом показатель увеличился на 340% всего после одного дня автономного сбора данных.

После добавления онлайн-поиска по дереву Монте-Карло вероятность успеха может быть увеличена до 95,4%.


Хотя агент Q продемонстрировал сильные возможности веб-навигации, поиска, рассуждения и планирования в приведенных выше оценочных экспериментах, остается еще много возможностей для обсуждения и улучшения методов, используемых в настоящее время:

- Разработка алгоритма рассуждения. Основная проблема агента Q в настоящее время заключается в его слабых способностях к рассуждению, что ограничивает стратегии исследования и поиска. Кроме того, при обучении стратегии агента модель критика в настоящее время находится в замороженном состоянии, что вводит дополнительные возможности; За счет тонкой настройки может быть прирост производительности.

- Агент Q предпочитает MCTS для поиска из-за предыдущего успешного опыта MCTS в решении задач по математике и кодированию, но может вызвать значительное количество рискованных взаимодействий в реальной среде. Изменение стратегии поиска может быть более подходящим вариантом.

- Онлайн-безопасность и взаимодействие: в настоящее время агент Q фактически обеспечивает большую степень автономного исследования и самооценки с ограниченным вмешательством человека. Однако в работе агента по-прежнему может возникать множество ошибок, особенно в таких важных задачах, как электронная почта, оплата и архивирование.

Если проблемы безопасности не будут решены, реальные сценарии развертывания агента Q будут значительно ограничены, и в будущем могут потребоваться дополнительные модели критики безопасности и настройки обучения человека в процессе работы.

Ссылки:

https://x.com/rm_rafailov/status/1823462897751875701

https://x.com/ai_for_success/status/1823447309008490730

https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities