Nanyang Polytechnic은 웹 에이전트 작업 완료 기능을 개선하기 위해 작업 데이터 세트 및 테스트 벤치마크를 생성합니다

Nanyang Polytechnic은 웹 에이전트 작업 완료 기능을 개선하기 위해 작업 데이터 세트 및 테스트 벤치마크를 생성합니다.

2024-07-18

최근 난양기술대학교 인턴인 Zhang Ziniu와 그의 팀은 GPT-4v 및 Gemini-pro와 같은 대형 모델을 사용하여 특히 웹 페이지 에이전트의 현재 기능이 여전히 매우 부족하다는 사실을 발견했습니다. 여러 하위 작업을 혼합합니다.

연구팀은 웹페이지에서 에이전트의 동작 능력을 향상시키기 위해 태스크 데이터 세트를 생성하고 벤치마크 테스트를 실시했다.

이 데이터 세트의 도움으로 에이전트는 다중 모드 웹 페이지 정보를 처리하고 다양한 웹 페이지에서의 작업을 통해 작업을 완료해야 실제 상황에서 웹 페이지에서 사람들의 작업에 더 가까워질 수 있습니다.

동시에 팀은 에이전트에 대규모 메모리 결함이 있어 멀티 홉 문제의 정확성에 심각한 영향을 미친다는 사실을 발견했습니다. 이에 대응하여 위의 문제를 개선할 수 있는 메모리 모듈을 제안했습니다.

전반적으로 이 결과는 에이전트의 작업 완료 능력을 향상시키고 후속 작업에 대한 테스트 벤치마크를 제공합니다.

보도에 따르면 이번 성과는 일련의 작품 중 하나라고 한다. 처음에는 Zhang Ziniu, Tian Shulin, Chen Liangyu 등이 미국 Carnegie Mellon University 팀이 만든 단일 홉 단일 모달 테스트 벤치마크 Webarena를 재현했습니다.

나중에 Webarena의 작업 기능과 에이전트의 작업 완료에 대한 면밀한 분석을 통해 아직 탐색할 가치가 있는 부분이 많다는 사실을 발견했습니다.

예를 들어, 작업이 현실에 충분히 가깝지 않은 이유는 무엇입니까? 지능형 에이전트의 능력이 상대적으로 부족한 이유는 무엇입니까?

웹 에이전트와 관련된 다른 논문을 읽어보세요. 팀은 단일 양식에서 다중 양식으로 작업을 확장하는 것을 고려했습니다.

이전에는 웹 에이전트가 웹 페이지의 정보를 처리할 때 일반적으로 텍스트만 보지 않았습니다. 이를 위해 일부 미술관 공식 홈페이지 등 이미지가 포함된 일부 온라인 사이트에서 이미지 정보를 추출하려고 시도했다.

그러나 자체 보호 조치로 인해 많은 웹 페이지는 HTML 파일에서 이미지 정보를 추출할 수 없습니다.

나중에 그들은 쇼핑 웹사이트와 Wikipedia에서 이미지 정보를 추출하는 방식으로 전환하고 웹 에이전트를 위한 몇 가지 다중 모드 작업을 만들었습니다.

그러다가 팀은 과제를 멀티홉 과제로 확장하고, 여행 과제를 예로 들어 연구를 진행하기로 했다. 그런 다음 데이터 세트에서 에이전트를 테스트했습니다.

시각적 정보를 처리하는 측면에서도 다양한 방법을 사용합니다. 예를 들어 그림을 에이전트에게 프롬프트로 직접 제공하거나 먼저 처리를 위해 다중 모드 대형 모델에 그림을 제공한 다음 처리 결과를 에이전트에 병합하는 등의 방법을 사용합니다. 등.

이 기간 동안 그들은 이전에 전체 작업에 사용된 평가 방법이 다중 홉 작업에 적합하지 않다는 것을 발견했습니다. 따라서 그들은 다중 홉 작업에 대한 새로운 평가 방법을 제안했습니다.

에이전트의 실험 결과를 분석한 결과 에이전트의 기억 능력이 매우 떨어지는 것으로 나타났으므로 에이전트의 능력을 향상시키기 위한 기억 강화 모듈을 제안하고 이에 대한 절제 실험을 수행하였다.

최근 arXiv에는 "MMInA: Benchmarking Multihop Multimodal Internet Agents"라는 제목으로 관련 논문이 게재되었습니다.

그림 | 관련 논문 (출처: arXiv)

동시에 팀은 웹 에이전트의 최신 개발에도 주목하고 있습니다. 앞으로 연구팀은 에이전트에 대한 입력으로 전체 웹 페이지의 스크린샷을 제공할 계획을 세울 수도 있습니다.

소식

Nanyang Polytechnic은 웹 에이전트 작업 완료 기능을 개선하기 위해 작업 데이터 세트 및 테스트 벤치마크를 생성합니다.

소개

내 연락처 정보