uutiset

Nanyang Polytechnic luo tehtävätietojoukkoja ja testivertailuja parantaakseen verkkoagentin tehtävien suorittamiskykyä

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Äskettäin käyttämällä suuria malleja, kuten GPT-4v ja Gemini-pro, Nanyangin teknologisen yliopiston harjoittelija Zhang Ziniu ja hänen tiiminsä havaitsivat, että verkkosivujen agenttien nykyiset kyvyt ovat edelleen erittäin puutteelliset, varsinkin kun suoritetaan tehtäviä, joihin liittyy useiden osatehtävien yhdistelmä.

Parantaakseen agentin kykyä toimia verkkosivuilla tutkimusryhmä loi tehtävätietojoukon ja suoritti vertailutestejä.

Tämän tietojoukon avulla agentin tulee käsitellä multimodaalisia verkkosivutietoja ja suorittaa tehtäviä eri verkkosivujen toimintojen kautta ollakseen lähempänä ihmisten toimintaa verkkosivuilla todellisissa tilanteissa.

Samaan aikaan ryhmä havaitsi, että agentilla oli suuria muistivirheitä, jotka vaikuttivat vakavasti monihyppyongelmien tarkkuuteen. Vastauksena he ehdottivat muistimoduulia edellä mainittujen ongelmien parantamiseksi.

Kaiken kaikkiaan tämä tulos parantaa agentin tehtävien suorittamiskykyä ja tarjoaa testivertailun myöhempää työtä varten.

Raporttien mukaan tämä saavutus on yksi teosten sarjasta. Aluksi Zhang Ziniu, Tian Shulin, Chen Liangyu ja muut toistivat yhden hopin singlemodaalisen testivertailu Webarenan, jonka loi Carnegie Mellon -yliopiston tiimi Yhdysvalloissa.

Myöhemmin, analysoimalla huolellisesti Webarenan tehtävävalmiuksia ja agentin tehtävien suorittamista, he havaitsivat, että paljon oli vielä tutkimisen arvoista.

Esimerkiksi miksi tehtävä ei ole tarpeeksi lähellä todellisuutta? Miksi älykkään agentin kyky on suhteellisen puutteellinen?

Lukemalla muita verkkoagentteihin liittyviä papereita. Ryhmä harkitsi tehtävän laajentamista yksittäisestä modaalisuudesta multimodaalisuuteen.

Aikaisemmin, kun verkkoagentit käsittelivät tietoja verkkosivuilla, he eivät yleensä katsoneet vain tekstiä. Tätä tarkoitusta varten he yrittivät poimia kuvatietoja joistakin kuvia sisältäviltä verkkosivustoilta, kuten joidenkin taidemuseoiden virallisilla verkkosivuilla.

Omien suojaustoimiensa vuoksi monet verkkosivut eivät kuitenkaan voi poimia kuvatietoja HTML-tiedostoistaan.

Myöhemmin he siirtyivät poimimaan kuvatietoja ostossivustoilta ja Wikipediasta ja loivat useita multimodaalisia tehtäviä verkkoagenteille.

Sitten ryhmä laajensi tehtävän monihyppyisiin tehtäviin ja päätti käyttää matkatehtävää esimerkkinä tutkimuksen tekemiseen. Sitten he testasivat agenttia tietojoukossa.

Visuaalisen tiedon käsittelyssä he käyttävät myös erilaisia ​​menetelmiä: esimerkiksi toimittavat kuvat suoraan kehotteina agentille tai ensin toimittavat kuvat multimodaalisiin suuriin malleihin käsittelyä varten ja sitten yhdistävät käsittelytulokset agenttiin, jne.

Tänä aikana he havaitsivat, että aiemmin käytetty kokonaistehtävän arviointimenetelmä ei sovellu monihyppyisiin tehtäviin. Siksi he ehdottivat uutta arviointimenetelmää monihyppyisiin tehtäviin.

Aineen kokeellisia tuloksia analysoitaessa havaittiin, että aineen muistikyky oli erittäin heikko, joten aineen kyvyn parantamiseksi ehdotettiin muistinlisäysmoduulia, jolle tehtiin ablaatiokoe.

Äskettäin arXiv-palveluun julkaistiin liittyvä artikkeli otsikolla "MMInA: Benchmarking Multihop Multimodal Internet Agents".


Kuva | Aiheeseen liittyvät paperit (Lähde: arXiv)

Samalla tiimi kiinnittää huomiota myös verkkoagenttien viimeisimpään kehitykseen. Jatkossa tutkimusryhmä voi suunnitella toimittavansa koko verkkosivun kuvakaappauksia agentille.