Ohjaa samanaikaisesti matkapuhelimia ja tietokoneita, 100 tehtävää, järjestelmienvälisten agenttien arvioinnin vertailuarvot ovat saatavilla

Ohjaa samanaikaisesti matkapuhelimia ja tietokoneita, 100 tehtävää, järjestelmien väliset agenttien arviointivertailut ovat saatavilla

2024-08-14

Ixiv-kolumni on sarake, jossa Machine Heart julkaisee akateemista ja teknistä sisältöä. Viime vuosina Heart of the Machine AIxiv -kolumni on saanut yli 2 000 raporttia, jotka kattavat tärkeimpien yliopistojen ja yritysten huippulaboratoriot ympäri maailmaa ja edistävät tehokkaasti akateemista vaihtoa ja levittämistä. Jos sinulla on erinomaista työtä, jonka haluat jakaa, ole hyvä ja osallistu tai ota meihin yhteyttä raportoidaksesi. Lähetyssähköposti: [email protected]; [email protected]

CAMEL AI -yhteisön johtama cross-platform multimodaalinen agenttivertailu CRAB on Oxfordin, Stanfordin, Harvardin, KAUSTin, Eigent AI:n ja muiden instituutioiden tutkijoiden yhdessä kehittämä. CAMEL AI -yhteisön kehittämä CAMEL-kehys on varhaisin suuriin kielimalleihin perustuva avoimen lähdekoodin moniagenttiprojekti. Siksi suurin osa yhteisön jäsenistä on tutkijoita ja insinöörejä, joilla on runsaasti tieteellistä tutkimusta ja käytännön kokemusta älykkäiden agenttien alalla.

Tekoälyagentit ovat yksi houkuttelevimmista tutkimussuunnista suuressa kielimalliyhteisössä. Käyttäjien tarvitsee vain esittää omia tarpeitaan.Agenttikehys voi ajastaa useita LLM:itä ja tukea useiden agenttien suorittamista käyttäjien antamien tehtävien suorittamisessa yhteistyössä tai kilpailullisesti.。

Tällä hetkellä agentteja on yhä enemmän yhdistetty suuren mittakaavan multimodaalisiin malleihin (MLM).Tukee tehtävien suorittamista graafisissa käyttöliittymissä (GUI) useissa käyttöjärjestelmissä, mukaan lukien web, pöytäkoneet ja älypuhelimet. Tämänkaltaisen agentin suorituskyvyn arvioinnin nykyisillä vertailuarvoilla on kuitenkin edelleen monia rajoituksia, kuten rakennustehtävien ja testiympäristöjen monimutkaisuus, arviointiindikaattoreiden yksinkertaisuus jne.

Vastauksena näihin ongelmiin tässä artikkelissa ehdotetaan uutta cross-environment agent benchmark-kehystä CRAB.CRAB käyttää hienorakeista kaaviopohjaista arviointitapaa ja tarjoaa tehokkaita tehtävä- ja arvioijien rakennustyökaluja. Tämän artikkelin tutkijaryhmä kehitti myös CRAB-kehykseen perustuvan cross-platform-testitietojoukon CRAB Benchmark-v0, joka kattaa 100 tehtävää, jotka voidaan suorittaa PC- ja älypuhelinympäristöissä, mukaan lukien sekä perinteiset yhden alustan tehtävät että monimutkaiset cross- alustatehtävät, jotka on suoritettava käyttämällä useita laitteita samanaikaisesti.

Opinnäytetyön nimi: CRAB: Cross-Environment Agent Benchmark for Multimodal Language Model Agents
Paperiosoite: https://arxiv.org/abs/2407.01511
Koodivarasto: https://github.com/camel-ai/crab

Kirjoittaja valitsi neljä tällä hetkellä suosittua multimodaalimallia suorittamaan alustavia kokeita. Kokeilutulokset osoittavat, että yhden agentin rakenteella, joka käyttää päättelymoottorina GPT-4o:ta, on korkein testipisteen valmistumisaste, 35,26 %.

esittely

Uutena agenttien arvioinnin benchmark-kehyksenä CRAB:ia (Cross-environment Agent Benchmark) käytetään pääasiassa multimodaalisiin kielimalleihin (MLM) perustuvien agenttien suorituskyvyn arvioimiseen ympäristöjen välisissä tehtävissä.CRAB voi simuloida todellisia skenaarioita, joissa käyttäjät käyttävät useita laitteita samanaikaisesti monimutkaisten tehtävien suorittamiseen., Kuten esittelystä näkyy, CRAB:ia voidaan käyttää arvioimaan prosessia, jossa agentti käsittelee samanaikaisesti Ubuntu-työpöytäjärjestelmää ja Android-matkapuhelinjärjestelmää tietojen lähettämisen loppuunsaattamiseksi.

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce258ech e150392aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

Kuvittele, että jos älykäs agentti pystyy ohjaamaan tietokoneita ja matkapuhelimia tarkasti samaan aikaan ihmisen ohjeiden mukaan, älykäs agentti voi suorittaa monia monimutkaisia ohjelmistotoimintoja, mikä parantaa yleistä työn tehokkuutta.Tämän tavoitteen saavuttamiseksi meidän on rakennettava kattavampi ja realistisempi eri alustojen testausympäristö agenteille, erityisesti tarve tukea useiden laitteiden samanaikaista toimintaa ja tarjota riittäviä arvioinnin palautemekanismeja.. Tämän artikkelin CRAB-kehys yrittää ratkaista seuraavat käytännön ongelmat:

Poikkiympäristötehtävien arviointi:Nykyiset vertailuarvot keskittyvät yleensä vain yhteen ympäristöön (kuten verkkoon, Androidiin tai työpöytäkäyttöjärjestelmään) [1][2][3][4], mutta eivät huomioi todellisen maailman laitteiden välisten yhteistyöskenaarioiden monimutkaisuutta.. CRAB-kehys tukee laitteen tai sovelluksen vuorovaikutuksen kapseloimista ympäristöön Tukemalla usean ympäristön tehtäviä, se tarjoaa agenteille rikkaamman toimintatilan ja on lähempänä todellisia sovellusskenaarioita.
Hienojakoiset arviointimenetelmät:Perinteiset arviointimenetelmät joko keskittyvät vain lopullisen tavoitteen saavuttamiseen (tavoitteellinen) tai verraavat tiukasti toimintarataa (ratasuuntautuneita) [1][2][3]. Molemmilla menetelmillä on rajoituksia, eivätkä ne voi täysin kuvastaa agentin suorituskykyä.CRAB ehdottaa kaaviopohjaista arviointimenetelmää, joka ei voi ainoastaan tarjota hienojakoisia arviointiindikaattoreita, vaan myös mukautua useisiin tehokkaisiin tehtävien suorittamispolkuihin.
Tehtävän rakentamisen monimutkaisuus: Tehtävän monimutkaisuuden kasvaessa tehtävien ja arvioijien manuaalinen rakentaminen muuttuu yhä vaikeammaksi.CRAB ehdottaa alitehtävien yhdistämiseen perustuvaa menetelmää, joka yksinkertaistaa ympäristöjen välisten tehtävien rakennusprosessia
Agenttijärjestelmän rakenteen arviointi:Tässä artikkelissa tutkitaan myös eri agenttijärjestelmärakenteiden (yksi agentti, toiminnalliseen työnjakoon perustuva moniagentti, ympäristötyönjakoon perustuva moniagentti) vaikutusta tehtävien suorittamisen tuloksiin., joka tarjoaa empiirisen perustan tehokkaampien agenttijärjestelmien suunnittelulle.

Yllä oleva taulukko näyttää vertailun tässä artikkelissa ehdotetun CRAB-kehyksen ja muiden olemassa olevien agenttien vertailukehysten välillä verrattuna muihin vertailuarvoihin.CRAB voi tukea monialustaisia käyttöympäristöjä, kuten tietokoneita ja matkapuhelimia, samanaikaisesti ja simuloida realistisempia käyttöskenaarioita.。

CRAB:lle monet verkkokäyttäjät ovat antaneet paljon kiitosta.

Jotkut sanovat, että AGI on saavutettu, koska suuri kielimalli (viitaten CRAB:iin) on oppinut poistumaan Vimistä.

"Voitko poistua Vimistä?" Tämä kysymys on usein vitsi ohjelmointi- tai teknisessä yhteisössä, koska aloittelijan voi olla vaikea poistua, varsinkin jos he eivät tunne Vimin toimintatiloja. (Anna hymiö tähän)

Jotkut sanovat, että on vaikea uskoa, että agentti voi suorittaa sarjan tehtäviä: "tarkista kalenteri, avaa Vim, siirry lisäystilaan, siirry tapahtumaluetteloon, poistu lisäystilasta ja käytä :wq tallentamiseen".

Jotkut verkkokäyttäjät päättelivät myös, että seuraavan sukupolven robottiprosessiautomaatio (RPA) on enemmän kuin "auta minua suorittamaan seuraavat tehtävät" ilman, että sinun tarvitsee tallentaa jokaista vaihetta ja kaatua muutaman päivän kuluessa.

Joku mainitsi myös, että CRAB:n Graph Evaluator on erittäin älykäs tapa käsitellä agentin tilaa ympäristössä.

Jotkut jopa ylistivät CRAB:a tekoälytietokoneiden tulevaisuudeksi uskoen, että se on täydellinen yhdistelmä LLM:tä tietokoneiden ja mobiililaitteiden kanssa "Se on RabbitOS:n kaltainen tekoäly, joka mahdollistaa CRABin vertailutestin Mahdollistaa multimodaalisten kielimalliagenttien tehokkuuden ja hyödyllisyyden testaamisen todellisessa maailmassa."

Jokainen solmu GDT:ssä voi edustaa alitehtävää (m,i,r), jossa m on ympäristö, jossa alitehtävä suoritetaan, i on luonnollisen kielen käsky ja r on palkkiofunktio.Käytetään ympäristön m tilan arvioimiseen ja Boolen arvon tulostamiseen sen määrittämiseksi, onko alitehtävä suoritettu. GDT:n reunat edustavat alitehtävien välistä peräkkäistä suhdetta.。

CRAB-kehys

Ympäristötekijöiden välinen vuorovaikutus

CRAB esittelee ensimmäistä kertaa ympäristöjen välisten tehtävien käsitteen yhdistämällä useita ympäristöjä (kuten älypuhelimet ja pöytätietokoneet) joukoksi ympäristöjä, jolloin agentit voivat koordinoida toimintoja useiden laitteiden välillä monimutkaisten tehtävien suorittamiseksi.

Ympäristötyönjakoon perustuvan moniagenttijärjestelmän käyttöprosessi CRAB-kehyksessä on esitetty yllä olevassa kuvassa.Työnkulku etenee silmukan kautta. Ensin pääagentti tarkkailee ympäristöä ja määrittää aliagenteille suunnitelman. Sitten kaikki aliagentit suorittavat toimintoja vastaavissa ympäristöissään.. Graph Evaluator valvoo sitten kunkin alitehtävän tilaa ympäristössä ja päivittää jatkuvasti tehtävän valmistumista koko työnkulun ajan.Tämä arviointimenetelmä voi olla lähellä todellista kohtausta agentin päättelykyvyn testaamiseksi., mikä edellyttää agentilta kykyä käsitellä monimutkaisia sanomia ja syvällistä ymmärrystä todellisista tilanteista.

Kaavion arvioija

CRAB:n sisäänrakennettu graafinen arvioija ottaa huomioon sekä tavoitteellisen että lentoratasuuntautuneen arvioinnin edut., joka ensin hajottaa monimutkaiset tehtävät useiksi alitehtäviksi suunnatun asyklisen graafirakenteen muodostamiseksi.Sitten määritellään solmun aktivointimekanismi, eli graafin solmut (alitehtävät) on aktivoitava asteittain edellisten tehtävien suorittamisen perusteella., varmistaen tehtävien peräkkäisen suorittamisen. Jokainen solmu on liitetty varmennustoimintoon, joka tarkistaa ympäristön keskeiset välitilat.Verrattuna aikaisempiin arvioinnin vertailuarvoihin CRAB-kaavion arvioija tuo innovatiivisesti joukon uusia arviointiindikaattoreita.：

Valmistussuhde (CR): Valmistettujen alitehtävän solmujen lukumäärän suhde solmujen kokonaismäärään, CR = C / N.
Toteutustehokkuus (EE): valmistumisasteen suhde suoritettujen toimien määrään, EE = CR / A, A on määritettyjen toimien lukumäärä.
Kustannustehokkuus (CE): Valmistumisasteen suhde käytettyjen mallimerkkien määrään, CE = CR / T, T on käytettyjen mallimerkkien lukumäärä.

Nämä mittarit tarjoavat tarkemman ja moniulotteisemman arviointikohteen agentin vertailuarvoille.

CRAB Benchmark-v0

Perusrakenteen yksityiskohdat

Ehdotettuun CRAB-kehykseen perustuenTämä artikkeli rakentaa erityisen vertailutestisarjan CRAB Benchmark-v0 yhteisön lisätutkimuksia varten.. CRAB Benchmark-v0 tukee sekä Android-matkapuhelimia että Ubuntu Linux -pöytätietokoneympäristöjä. Ja Ubuntulle ja Androidille on määritelty erilaisia toimintasarjoja yhteisten vuorovaikutusten simuloimiseksi tosielämässä.Sen havaintotila koostuu kahden ympäristön järjestelmäliitännöistä ja ympäristön tila saadaan kuvakaappausten muodossa. Agentin toiminnan helpottamiseksi graafisessa käyttöliittymässä kirjoittaja käyttää GroundingDINOa [7] interaktiivisten kuvakkeiden paikallistamiseen, EasyOCR:n avulla interaktiivisen tekstin havaitsemiseen ja merkitsemiseen ja määrittää jokaiselle tunnistuskohdalle tunnuksen myöhemmän viittauksen helpottamiseksi toimintatilassa. .

Otetaan esimerkkinä tietty tehtävä. Suorita esimerkiksi seuraava tehtävä Ubuntu-järjestelmässä: Luo uusi hakemisto "/home/crab/assets_copy" ja kopioi kaikki tiedostot määritetyllä "txt"-tunnisteella hakemistosta "/home/crab". /assets" Kopioi hakemistoon "/home/crab/assets_copy".

Tämä tehtävä vaatii useita vaiheita. Alla oleva kuva näyttää, kuinka GPT-4 Turboa käytetäänKokeelliset yksityiskohdat käytettäessä päättelymallina ja yhden agentin rakennetta. Agentti käyttää ensin hakusovelluskomentoa terminaalin etsimiseen ja avaamiseen.

Luo sitten uusi kohdehakemisto Linux-komennolla "mkdir -p /home/crab/assets_copy".

Kohdehakemiston luomisen jälkeen agentti suoritti suoraan kopiokomennon päätteessä:

"cp /home/crab/assets/*.txt/home/crab/assets_copy" suorittaaksesi tehtävän loppuun, koko prosessi on sujuvaa ja sujuvaa, ilman virheitä.

Kokeelliset tulokset

Kirjoittaja suoritti sitten peruskokeen CRAB Benchmark-v0:lla.Agentin ydin on multimodaalinen taustakielimalli, jota käytetään luomaan luonnollisen kielen ja kuvan ymmärtäminen, laitteen perustiedot, tehtäväsuunnittelu ja loogiset päättelyominaisuudet,On tuettava multimodaalista sekoitettua syöttöä ja käsiteltävä useita keskustelukierroksia samanaikaisesti, joten kirjoittaja valitsi GPT-4o (gpt-4o-2024-05-13), GPT-4 Turbo (gpt-4-turbo-2024-04-09), Gemini 1.5 Pro (toukokuu 2024 versio) ja Claude 3 Opus (claude-3-opus-20240229) käytetään perusmallina.

Kokeilutulokset on esitetty yllä olevassa taulukossa, jossa GPT-4o- ja GPT-4 Turbo-mallit saavuttivat testimalleista korkeimman keskimääräisen testipisteen valmistumisasteen (CR).GPT-4-sarja on myös suoritustehokkuuden (EE) ja kustannustehokkuuden (CE) suhteen parempi kuin Gemini- ja Claude-sarjan mallit.。

, kesto 02:37

Tee yhteenveto

Tämä artikkeli esittelee uuden ympäristöjen välisen monen agentin arvioinnin vertailuarvon CRAB:n.CRAB-kehys tarjoaa kattavamman, joustavamman ja realistisemman benchmarking-alustan autonomisten tekijöiden arviointiin ottamalla käyttöön ympäristöjen välisiä tehtäviä, graafin arvioijia ja tehtävänrakennusmenetelmiä, jotka perustuvat osatehtävien yhdistelmiin.. Verrattuna aikaisempiin agenttien vertailuarvoihin, CRAB vähentää manuaalista työmäärää tehtävävaiheissa ja parantaa huomattavasti vertailuarvojen rakentamisen tehokkuutta. CRAB:iin perustuen tässä artikkelissa ehdotetaan Crab Benchmark-v0:a, joka samanaikaisesti tukee agentteja suorittamaan erilaisia monimutkaisia ympäristöjen välisiä tehtäviä Ubuntu- ja Android-järjestelmissä.Se ei voi ainoastaan edistää autonomisten agenttien arviointijärjestelmien kehittämistä, vaan myös tarjota uutta inspiraatiota tehokkaampien agenttijärjestelmien suunnitteluun tulevaisuudessa.。

viitata:

[1] Shuyan Zhou et ai. WebArena: Realistinen verkkoympäristö autonomisten agenttien rakentamiseen. 24. lokakuuta 2023. URL-osoite: http://arxiv.org/abs/2307.13854. esipainettu.

[2] Chi Zhang et ai. AppAgent: Multimodaaliset agentit älypuhelimen käyttäjinä. 21. joulukuuta 2023. URL-osoite: http://arxiv.org/abs/2312.13771. esipainettu.

[3] Shunyu Yao et ai. "Verkkokauppa: Kohti skaalautuvaa todellista verkkovuorovaikutusta maadoitettujen kieliagenttien kanssa". Julkaisussa: Advances in Neural Information Processing Systems 35 (2022), s. 20744–20757.

[4] Tianbao Xie et ai. OSWorld: Multimodaalisten agenttien benchmarking avoimiin tehtäviin todellisissa tietokoneympäristöissä. 11. huhtikuuta 2024. URL-osoite: http://arxiv.org/abs/2404.07972. esipainettu.

[5] Lin, Fangru, et ai. "Kaavioparannetut suuret kielimallit asynkronisen suunnitelman perusteluissa." arXiv preprint arXiv:2402.02805 (2024).

[6] Tushar Khot et ai. "Hajotettu kehotus: Modulaarinen lähestymistapa monimutkaisten tehtävien ratkaisemiseen". Julkaisussa: The Eleventh International Conference on Learning Representations. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.

[7] Shilong Liu et ai. Maadoitus DINO: DINO:n yhdistäminen maadoitetun esikoulutuksen kanssa avoimen objektin havaitsemiseen. arXiv.org. 9. maaliskuuta 2023.

uutiset

Ohjaa samanaikaisesti matkapuhelimia ja tietokoneita, 100 tehtävää, järjestelmien väliset agenttien arviointivertailut ovat saatavilla

Johdanto

Yhteystietoni