notizia

Il Nanyang Polytechnic crea set di dati sulle attività e test benchmark per migliorare le capacità di completamento delle attività dell'agente web

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Recentemente, utilizzando modelli di grandi dimensioni come GPT-4v e Gemini-pro, Zhang Ziniu, stagista presso la Nanyang Technological University, e il suo team hanno scoperto che le attuali capacità degli agenti di pagine web sono ancora molto carenti, soprattutto quando si completano attività che mescolano più attività secondarie.

Per migliorare la capacità dell'agente di operare sulle pagine web, il gruppo di ricerca ha creato un set di dati sulle attività e ha condotto test di benchmark.

Con l'aiuto di questo set di dati, l'agente deve elaborare le informazioni delle pagine Web multimodali e completare le attività attraverso operazioni su diverse pagine Web, in modo da essere più vicino alle operazioni delle persone sulle pagine Web in situazioni reali.

Allo stesso tempo, il team ha scoperto che l'agente aveva grossi difetti di memoria, che incidevano seriamente sulla precisione dei problemi multi-hop. In risposta, hanno proposto un modulo di memoria per migliorare i problemi di cui sopra.

Nel complesso, questo risultato migliorerà le capacità di completamento delle attività dell'agente e fornirà un punto di riferimento del test per il lavoro successivo.

Secondo i rapporti, questo risultato fa parte di una serie di lavori. Inizialmente, Zhang Ziniu, Tian Shulin, Chen Liangyu e altri hanno riprodotto il test benchmark monomodale single-hop Webarena creato dal team della Carnegie Mellon University negli Stati Uniti.

Successivamente, attraverso un'attenta analisi delle capacità di Webarena e del completamento delle attività da parte dell'agente, hanno scoperto che c'era ancora molto da esplorare.

Ad esempio, perché il compito non è abbastanza vicino alla realtà? Perché l'abilità dell'agente intelligente è relativamente carente?

Leggendo altri articoli relativi agli agenti web. Il team ha considerato di estendere il compito dalla modalità singola alla multimodalità.

In precedenza, quando gli agenti web elaboravano le informazioni sulle pagine web, di solito non si limitavano a guardare il testo. A tal fine, hanno cercato di estrarre informazioni sulle immagini da alcuni siti online che contengono immagini, come i siti ufficiali di alcuni musei d’arte.

Tuttavia, a causa delle proprie misure di protezione, molte pagine web non sono in grado di estrarre informazioni sulle immagini dai propri file HTML.

Successivamente, si sono dedicati all'estrazione di informazioni sulle immagini dai siti Web di acquisto e da Wikipedia e hanno creato alcune attività multimodali per gli agenti web.

Successivamente, il team ha esteso l'attività a attività multi-hop e ha deciso di utilizzare l'attività di viaggio come esempio per condurre la ricerca. Hanno quindi testato l'agente sul set di dati.

In termini di elaborazione delle informazioni visive, utilizzano anche una varietà di metodi: ad esempio, fornendo direttamente immagini come suggerimenti all'agente, o fornendo prima immagini a modelli multimodali di grandi dimensioni per l'elaborazione, e quindi unendo i risultati dell'elaborazione all'agente, eccetera.

Durante questo periodo, hanno scoperto che il metodo di valutazione precedentemente utilizzato per l'attività complessiva non era adatto per attività multi-hop. Pertanto, hanno proposto un nuovo metodo di valutazione per attività multi-hop.

Analizzando i risultati sperimentali dell'agente, si è scoperto che la capacità di memoria dell'agente era molto scarsa, quindi è stato proposto un modulo di potenziamento della memoria per migliorare la capacità dell'agente e su questo è stato eseguito un esperimento di ablazione.

Recentemente, un articolo correlato è stato pubblicato su arXiv con il titolo "MMInA: Benchmarking Multihop Multimodal Internet Agents".


Figura |. Articoli correlati (Fonte: arXiv)

Allo stesso tempo, il team presta attenzione anche agli ultimi sviluppi nel campo degli agenti web. In futuro, il team di ricerca potrebbe pianificare di fornire screenshot dell'intera pagina Web come input all'agente.