Новости

Наньянский политехнический институт создает наборы данных задач и тестирует тесты для улучшения возможностей веб-агента по выполнению задач.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Недавно, используя большие модели, такие как GPT-4v и Gemini-pro, Чжан Цзинью, стажер Наньянского технологического университета, и его команда обнаружили, что текущих возможностей агентов веб-страниц все еще очень не хватает, особенно при выполнении задач, которые смешивают несколько подзадачи.

Чтобы улучшить возможности агента работать на веб-страницах, исследовательская группа создала набор данных для задач и провела контрольные тесты.

С помощью этого набора данных агенту необходимо обрабатывать мультимодальную информацию веб-страницы и выполнять задачи посредством операций на разных веб-страницах, чтобы быть ближе к действиям людей на веб-страницах в реальных ситуациях.

В то же время команда обнаружила, что у агента были большие дефекты памяти, которые серьезно влияли на точность многопрыжковых проблем. В ответ они предложили модуль памяти для устранения вышеуказанных проблем.

В целом этот результат улучшит возможности агента по выполнению задач и станет тестовым ориентиром для последующей работы.

По имеющимся данным, это достижение является одним из серии работ. Первоначально Чжан Цзинью, Тянь Шулинь, Чэнь Лянъюй и другие воспроизвели однопереходный одномодальный тестовый тест Webarena, созданный командой Университета Карнеги-Меллона в США.

Позже, тщательно проанализировав возможности Webarena и выполнение задач агентом, они обнаружили, что еще многое стоит изучить.

Например, почему задача недостаточно приближена к реальности? Почему способности интеллектуального агента относительно недостаточны?

Читая другие статьи, связанные с веб-агентами. Команда рассматривала возможность расширения задачи от одномодальной до мультимодальной.

Раньше, когда веб-агенты обрабатывали информацию на веб-страницах, они обычно не просто просматривали текст. С этой целью они попытались извлечь информацию об изображениях с некоторых онлайн-сайтов, содержащих изображения, например с официальных сайтов некоторых художественных музеев.

Однако из-за собственных мер защиты многие веб-страницы не могут извлекать информацию об изображениях из своих HTML-файлов.

Позже они обратились к извлечению информации об изображениях с торговых сайтов и Википедии, а также создали несколько мультимодальных задач для веб-агентов.

Затем команда расширила задачу до задач с несколькими перелетами и решила использовать задачу путешествия в качестве примера для проведения исследования. Затем они протестировали агент на наборе данных.

Что касается обработки визуальной информации, то они также используют различные методы: например, непосредственное предоставление изображений в качестве подсказок агенту или сначала предоставление изображений мультимодальным большим моделям для обработки, а затем слияние результатов обработки с агентом. и т. д.

В течение этого периода они обнаружили, что ранее использовавшийся метод оценки для общей задачи не подходит для многошаговых задач. Поэтому они предложили новый метод оценки для многошаговых задач.

При анализе экспериментальных результатов агента было обнаружено, что способность памяти агента была очень плохой, поэтому был предложен модуль улучшения памяти для улучшения способностей агента, и для этого был проведен эксперимент по абляции.

Недавно на arXiv был опубликован соответствующий документ под заголовком «MMInA: Сравнительный анализ многошаговых мультимодальных интернет-агентов».


Рисунок | Похожие статьи (Источник: arXiv)

В то же время команда также уделяет внимание последним разработкам в области веб-агентов. В будущем исследовательская группа может планировать предоставлять скриншоты всей веб-страницы в качестве входных данных для агента.