Nachricht

Das Nanyang Polytechnic erstellt Aufgabendatensätze und Testbenchmarks, um die Aufgabenerledigungsfähigkeiten von Webagenten zu verbessern

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kürzlich haben Zhang Ziniu, ein Praktikant an der Nanyang Technological University, und sein Team mithilfe großer Modelle wie GPT-4v und Gemini-pro herausgefunden, dass die aktuellen Fähigkeiten von Webseitenagenten immer noch sehr mangelhaft sind, insbesondere bei der Erledigung von Aufgaben, die mehrere Aufgaben umfassen Teilaufgaben.

Um die Fähigkeit des Agenten zur Bearbeitung von Webseiten zu verbessern, erstellte das Forschungsteam einen Aufgabendatensatz und führte Benchmark-Tests durch.

Mithilfe dieses Datensatzes muss der Agent multimodale Webseiteninformationen verarbeiten und Aufgaben durch Vorgänge auf verschiedenen Webseiten erledigen, um den Vorgängen von Personen auf Webseiten in realen Situationen näher zu sein.

Gleichzeitig stellte das Team fest, dass der Agent große Speicherfehler aufwies, die die Genauigkeit von Multi-Hop-Problemen erheblich beeinträchtigten. Als Reaktion darauf schlugen sie ein Speichermodul zur Verbesserung der oben genannten Probleme vor.

Insgesamt verbessert dieses Ergebnis die Aufgabenerledigungsfähigkeiten des Agenten und bietet einen Test-Benchmark für nachfolgende Arbeiten.

Berichten zufolge ist diese Leistung Teil einer Reihe von Werken. Zunächst reproduzierten Zhang Ziniu, Tian Shulin, Chen Liangyu und andere den Single-Hop-Single-Modal-Test-Benchmark Webarena, der vom Team der Carnegie Mellon University in den USA erstellt wurde.

Später stellten sie durch eine sorgfältige Analyse der Aufgabenfähigkeiten von Webarena und der Erledigung der Aufgaben durch den Agenten fest, dass es noch viel zu erkunden lohnte.

Warum ist die Aufgabe beispielsweise nicht nah genug an der Realität? Warum sind die Fähigkeiten des intelligenten Agenten relativ gering?

Durch das Lesen anderer Artikel zum Thema Web-Agenten. Das Team erwog, die Aufgabe von einer Einzelmodalität auf eine Multimodalität auszudehnen.

Wenn Webagenten früher Informationen auf Webseiten verarbeiteten, schauten sie sich normalerweise nicht nur den Text an. Zu diesem Zweck versuchten sie, Bildinformationen von einigen Online-Websites zu extrahieren, die Bilder enthalten, beispielsweise den offiziellen Websites einiger Kunstmuseen.

Aufgrund ihrer eigenen Schutzmaßnahmen können viele Webseiten jedoch keine Bildinformationen aus ihren HTML-Dateien extrahieren.

Später wandten sie sich der Extraktion von Bildinformationen aus Shopping-Websites und Wikipedia zu und erstellten einige multimodale Aufgaben für Webagenten.

Anschließend erweiterte das Team die Aufgabe auf Multi-Hop-Aufgaben und beschloss, die Reiseaufgabe als Beispiel für die Recherche zu verwenden. Anschließend testeten sie den Agenten anhand des Datensatzes.

In Bezug auf die Verarbeitung visueller Informationen verwenden sie auch verschiedene Methoden: Beispielsweise stellen sie dem Agenten Bilder direkt als Aufforderung zur Verfügung oder stellen Bilder zunächst einem multimodalen großen Modell zur Verarbeitung zur Verfügung und führen dann die Verarbeitungsergebnisse dem Agenten zusammen. usw.

In diesem Zeitraum stellten sie fest, dass die bisher verwendete Bewertungsmethode für die Gesamtaufgabe nicht für Multi-Hop-Aufgaben geeignet war. Daher schlugen sie eine neue Bewertungsmethode für Multi-Hop-Aufgaben vor.

Bei der Analyse der experimentellen Ergebnisse des Agenten wurde festgestellt, dass die Gedächtnisfähigkeit des Agenten sehr schlecht war. Daher wurde ein Modul zur Gedächtnisverbesserung vorgeschlagen, um die Fähigkeit des Agenten zu verbessern, und ein Ablationsexperiment wurde dazu durchgeführt.

Kürzlich wurde auf arXiv ein verwandter Artikel mit dem Titel „MMInA: Benchmarking Multihop Multimodal Internet Agents“ veröffentlicht.


Abbildung |. Verwandte Artikel (Quelle: arXiv)

Gleichzeitig achtet das Team auch auf die neuesten Entwicklungen bei Web-Agenten. Zukünftig plant das Forschungsteam möglicherweise, Screenshots der gesamten Webseite als Eingabe für den Agenten bereitzustellen.