Kontrol ponsel dan komputer secara bersamaan, 100 tugas, tolok ukur evaluasi agen lintas sistem tersedia

2024-08-14

Kolom Ixiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan. Email pengiriman: [email protected]; [email protected]

CRAB, tolok ukur agen multi-modal lintas platform, dipimpin oleh komunitas CAMEL AI dan dikembangkan bersama oleh para peneliti dari Oxford, Stanford, Harvard, KAUST, Eigent AI, dan institusi lainnya. Kerangka kerja CAMEL yang dikembangkan oleh komunitas CAMEL AI adalah proyek sumber terbuka multi-agen paling awal yang didasarkan pada model bahasa besar. Oleh karena itu, sebagian besar anggota komunitas adalah peneliti dan insinyur dengan penelitian ilmiah yang kaya dan pengalaman praktis di bidang agen cerdas.

Agen AI adalah salah satu arah penelitian yang paling menarik dalam komunitas model bahasa yang besar. Pengguna hanya perlu mengemukakan kebutuhan mereka sendiri.Kerangka kerja agen dapat menjadwalkan beberapa LLM dan mendukung multi-agen untuk menyelesaikan tugas yang diberikan pengguna secara kolaboratif atau kompetitif.。

Saat ini, agen semakin banyak dikombinasikan dengan model multimodal skala besar (MLM).Mendukung pelaksanaan tugas di lingkungan antarmuka pengguna grafis (GUI) di berbagai sistem operasi, termasuk web, desktop, dan ponsel cerdas. Namun, tolok ukur saat ini untuk evaluasi kinerja agen semacam ini masih memiliki banyak keterbatasan, seperti kompleksitas tugas pembangunan dan lingkungan pengujian, serta indikator evaluasi yang tunggal.

Menanggapi masalah ini, makalah ini mengusulkan kerangka kerja benchmark agen lintas lingkungan yang baru, CRAB.CRAB mengadopsi pendekatan evaluasi berbasis grafik yang terperinci dan menyediakan alat konstruksi tugas dan evaluator yang efisien. Tim peneliti artikel ini juga mengembangkan kumpulan data pengujian lintas platform CRAB Benchmark-v0 berdasarkan kerangka CRAB, yang mencakup 100 tugas yang dapat dilakukan di lingkungan PC dan ponsel cerdas, termasuk tugas platform tunggal tradisional dan lintas kompleks yang kompleks. tugas platform yang harus diselesaikan dengan mengoperasikan beberapa perangkat secara bersamaan.

Judul Skripsi: CRAB: Tolok Ukur Agen Lintas Lingkungan untuk Agen Model Bahasa Multimodal
Alamat makalah: https://arxiv.org/abs/2407.01511
Repositori kode: https://github.com/camel-ai/crab

Penulis memilih empat model multi-modal yang saat ini populer untuk melakukan eksperimen awal. Hasil eksperimen menunjukkan bahwa struktur agen tunggal yang menggunakan GPT-4o sebagai mesin inferensi memiliki tingkat penyelesaian titik pengujian tertinggi sebesar 35,26%.

perkenalan

Sebagai kerangka tolok ukur evaluasi agen baru, CRAB (Cross-environment Agent Benchmark) terutama digunakan untuk mengevaluasi kinerja agen berdasarkan model bahasa multi-modal (MLM) dalam tugas lintas lingkungan.CRAB dapat mensimulasikan skenario dunia nyata di mana pengguna manusia menggunakan beberapa perangkat secara bersamaan untuk menyelesaikan tugas-tugas kompleks., Seperti yang ditunjukkan dalam Demo, CRAB dapat digunakan untuk mengevaluasi proses agen yang memanipulasi sistem desktop Ubuntu dan sistem ponsel Android secara bersamaan untuk menyelesaikan pengiriman informasi.

Alamat：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=5&sn=057238b4b5ba7a27cc76ce2b4ea89253&chksm=84e43848b393b15e1 50392aa0315c8dc9771cff17a4624e665eb5e5345bcbf780b7fd2844134&token=2010422951&lang=zh_CN#rd

Bayangkan jika agen cerdas memiliki kemampuan untuk mengoperasikan komputer dan ponsel secara akurat pada saat yang sama sesuai dengan instruksi manusia, banyak operasi perangkat lunak yang rumit dapat diselesaikan oleh agen cerdas, sehingga meningkatkan efisiensi kerja secara keseluruhan.Untuk mencapai tujuan ini, kita perlu membangun lingkungan pengujian lintas platform yang lebih komprehensif dan realistis bagi agen, terutama kebutuhan untuk mendukung pengoperasian beberapa perangkat secara bersamaan dan menyediakan mekanisme umpan balik evaluasi yang memadai.. Kerangka CRAB pada artikel ini mencoba memecahkan masalah praktis berikut:

Penilaian tugas lintas lingkungan:Tolok ukur yang ada biasanya hanya berfokus pada satu lingkungan (seperti web, Android, atau sistem operasi desktop) [1][2][3][4], dan mengabaikan kompleksitas skenario kolaborasi lintas perangkat di dunia nyata. Kerangka kerja CRAB mendukung enkapsulasi interaksi perangkat atau aplikasi ke dalam suatu lingkungan. Dengan mendukung tugas multi-lingkungan, kerangka ini memberi agen ruang operasi yang lebih kaya dan lebih dekat dengan skenario aplikasi sebenarnya.
Metode evaluasi terperinci:Metode evaluasi tradisional hanya berfokus pada penyelesaian tujuan akhir (berorientasi tujuan), atau secara ketat membandingkan lintasan operasi (berorientasi lintasan) [1][2][3]. Kedua metode tersebut memiliki keterbatasan dan tidak dapat sepenuhnya mencerminkan kinerja agen.CRAB mengusulkan metode evaluasi berbasis grafik, yang tidak hanya dapat memberikan indikator evaluasi yang terperinci, namun juga beradaptasi dengan berbagai jalur penyelesaian tugas yang efektif.
Kompleksitas konstruksi tugas: Seiring dengan meningkatnya kompleksitas tugas, pembuatan tugas dan evaluator secara manual menjadi semakin sulit.CRAB mengusulkan metode berdasarkan kombinasi subtugas untuk menyederhanakan proses konstruksi tugas lintas lingkungan
Evaluasi struktur sistem agen:Artikel ini juga mengeksplorasi dampak struktur sistem agen yang berbeda (agen tunggal, multi-agen berdasarkan pembagian kerja fungsional, multi-agen berdasarkan pembagian kerja lingkungan) terhadap hasil penyelesaian tugas, yang memberikan dasar empiris untuk merancang sistem agen yang lebih efisien.

Tabel di atas menunjukkan perbandingan antara kerangka CRAB yang diusulkan dalam artikel ini dan kerangka acuan agen lain yang ada Dibandingkan dengan tolok ukur lainnya.CRAB dapat mendukung lingkungan operasi lintas platform seperti komputer dan ponsel secara bersamaan, dan dapat mensimulasikan skenario penggunaan yang lebih realistis.。

Untuk CRAB, banyak netizen yang memberikan pujian tinggi.

Beberapa orang mengatakan bahwa AGI tercapai karena model bahasa besar (mengacu pada CRAB) telah mempelajari cara keluar dari Vim.

“Bisakah Anda keluar dari Vim?” Pertanyaan ini sering menjadi lelucon dalam komunitas pemrograman atau teknis karena Vim mungkin sulit untuk keluar dari Vim, terutama jika mereka tidak terbiasa dengan mode operasi Vim. (Kontribusikan emotikon di sini)

Beberapa orang mengatakan bahwa sulit dipercaya bahwa agen dapat menyelesaikan serangkaian tugas "periksa kalender, buka Vim, masuk ke mode penyisipan, masuk ke daftar acara, keluar dari mode penyisipan, dan gunakan :wq untuk menyimpan".

Beberapa netizen juga menyimpulkan bahwa otomatisasi proses robot (RPA) generasi berikutnya akan lebih seperti "tolong bantu saya menyelesaikan tugas-tugas berikut" tanpa perlu mencatat setiap langkah dan kemudian crash saat dijalankan dalam beberapa hari.

Seseorang juga menyebutkan bahwa Graph Evaluator di CRAB adalah cara yang sangat cerdas untuk menangani keadaan agen di lingkungan.

Beberapa orang bahkan memuji CRAB sebagai masa depan PC AI, percaya bahwa ini adalah kombinasi sempurna antara LLM dengan PC dan perangkat seluler. “Ini adalah AI mirip RabbitOS yang memungkinkan PC dan perangkat seluler yang ada memiliki fungsi benchmark AI Memungkinkan pengujian efektivitas dan kegunaan agen model bahasa multimodal di dunia nyata."

Setiap node di GDT dapat mewakili subtugas (m,i,r), dengan m adalah lingkungan di mana subtugas dijalankan, i adalah instruksi bahasa alami, dan r adalah fungsi penghargaan.Digunakan untuk mengevaluasi status lingkungan m dan menghasilkan nilai Boolean untuk menentukan apakah subtugas telah selesai. Tepi di GDT mewakili hubungan berurutan antar subtugas.。

kerangka KEPITING

Interaksi agen lintas lingkungan

CRAB memperkenalkan konsep tugas lintas lingkungan untuk pertama kalinya, menggabungkan beberapa lingkungan (seperti ponsel cerdas dan komputer desktop) ke dalam serangkaian lingkungan, memungkinkan agen mengoordinasikan operasi antara beberapa perangkat untuk menyelesaikan tugas yang kompleks.

Proses pengoperasian penggunaan sistem multi-agen berdasarkan pembagian kerja lingkungan dalam kerangka CRAB ditunjukkan pada gambar di atas.Alur kerja berlangsung melalui satu putaran. Pertama, agen utama mengamati lingkungan dan menentukan rencana untuk sub-agen, kemudian semua sub-agen melakukan operasi di lingkungannya masing-masing.. Penilai grafik kemudian memantau status setiap subtugas di lingkungan dan terus memperbarui penyelesaian tugas di seluruh alur kerja.Metode evaluasi ini dapat mendekati keadaan sebenarnya untuk menguji kemampuan penalaran agen., yang mengharuskan agen untuk mampu menangani pesan yang kompleks dan pemahaman mendalam tentang situasi dunia nyata.

Penilai Grafik

Penilai grafik bawaan CRAB memperhitungkan keunggulan evaluasi berorientasi tujuan dan berorientasi lintasan., yang pertama-tama menguraikan tugas kompleks menjadi beberapa subtugas untuk membentuk struktur grafik asiklik terarah.Kemudian ditentukan mekanisme aktivasi node, yaitu node (subtugas) pada grafik perlu diaktifkan secara bertahap berdasarkan penyelesaian tugas sebelumnya., memastikan pelaksanaan tugas secara berurutan. Setiap node dikaitkan dengan fungsi verifikasi untuk memeriksa status perantara utama di lingkungan.Dibandingkan dengan tolok ukur evaluasi sebelumnya, evaluator grafik CRAB secara inovatif memperkenalkan serangkaian indikator evaluasi baru：

Rasio Penyelesaian (CR): Rasio jumlah node subtugas yang diselesaikan dengan jumlah total node, CR = C/N.
Efisiensi Eksekusi (EE): rasio tingkat penyelesaian terhadap jumlah tindakan yang dijalankan, EE = CR / A, A adalah jumlah tindakan yang ditentukan.
Efisiensi Biaya (CE): Rasio tingkat penyelesaian terhadap jumlah token model yang digunakan, CE = CR/T, T adalah jumlah token model yang digunakan.

Metrik ini memberikan fokus evaluasi yang lebih terperinci dan multidimensi untuk tolok ukur agen.

Benchmark CRAB-v0

Detail pembuatan dasar

Berdasarkan kerangka CRAB yang diusulkan,Artikel ini membuat kumpulan pengujian benchmark khusus CRAB Benchmark-v0 untuk penelitian lebih lanjut oleh komunitas.. CRAB Benchmark-v0 mendukung ponsel Android dan lingkungan komputer desktop Ubuntu Linux. Dan rangkaian tindakan yang berbeda ditentukan untuk Ubuntu dan Android untuk mensimulasikan interaksi umum dalam kehidupan nyata.Ruang pengamatannya terdiri dari antarmuka sistem kedua lingkungan, dan status lingkungan diperoleh dalam bentuk tangkapan layar. Untuk memfasilitasi pengoperasian agen di GUI, penulis menggunakan GroundingDINO [7] untuk menemukan ikon interaktif, menggunakan EasyOCR untuk mendeteksi dan menandai teks interaktif, dan memberikan ID ke setiap item deteksi untuk memfasilitasi referensi selanjutnya di ruang operasi .

Mari kita ambil tugas tertentu sebagai contoh, selesaikan tugas berikut pada sistem Ubuntu: Buat direktori baru "/home/crab/assets_copy" dan salin semua file dengan ekstensi "txt" yang ditentukan dari "/home/crab /assets" Copy ke direktori "/home/crab/assets_copy".

Tugas ini memerlukan beberapa langkah untuk diselesaikan. Gambar di bawah menunjukkan cara menggunakan GPT-4 TurboDetail eksperimental saat digunakan sebagai model inferensi dan menggunakan struktur agen tunggal. Agen pertama-tama menggunakan perintah search_application untuk menemukan terminal dan membukanya.

Kemudian gunakan perintah Linux "mkdir -p /home/crab/assets_copy" untuk membuat direktori target baru.

Setelah membuat direktori target, agen langsung menjalankan perintah salin di terminal:

"cp /home/crab/assets/*.txt/home/crab/assets_copy" untuk menyelesaikan tugas, seluruh proses lancar dan lancar, tanpa ada kesalahan.

Efek eksperimental

Penulis kemudian melakukan percobaan dasar pada CRAB Benchmark-v0.Inti dari agen adalah model bahasa multi-modal back-end, yang digunakan untuk memberikan pemahaman bahasa dan gambar alami, pengetahuan perangkat dasar, perencanaan tugas, dan kemampuan penalaran logis,Perlu mendukung masukan campuran multi-modal dan menangani beberapa putaran dialog pada saat yang bersamaan, maka penulis memilih GPT-4o (gpt-4o-2024-05-13), GPT-4 Turbo (gpt-4-turbo-2024-04-09), Gemini 1.5 Pro (versi Mei 2024) dan Claude 3 Opus (claude-3-opus-20240229) digunakan sebagai model dasar.

Hasil eksperimen ditunjukkan pada tabel di atas, di mana model GPT-4o dan GPT-4 Turbo mencapai rata-rata tingkat penyelesaian titik uji (CR) tertinggi di antara model pengujian.Dari segi efisiensi eksekusi (EE) dan efisiensi biaya (CE), seri GPT-4 juga lebih baik dibandingkan model seri Gemini dan Claude.。

, durasi 02:37

Meringkaskan

Makalah ini memperkenalkan CRAB tolok ukur evaluasi multi-agen lintas lingkungan yang baru.Kerangka kerja CRAB menyediakan platform pembandingan yang lebih komprehensif, fleksibel dan realistis untuk evaluasi agen otonom dengan memperkenalkan tugas lintas lingkungan, evaluator grafik, dan metode konstruksi tugas berdasarkan kombinasi sub-tugas.. Dibandingkan dengan tolok ukur agen sebelumnya, CRAB mengurangi beban kerja manual dalam langkah-langkah tugas dan sangat meningkatkan efisiensi konstruksi tolok ukur. Berdasarkan CRAB, artikel ini mengusulkan Crab Benchmark-v0, yang secara bersamaan mendukung agen untuk melakukan berbagai tugas lintas lingkungan yang kompleks pada sistem Ubuntu dan Android.Hal ini tidak hanya mendorong pengembangan sistem evaluasi agen otonom, tetapi juga memberikan inspirasi baru untuk merancang sistem agen yang lebih efisien di masa depan.。

lihat:

[1] Shuyan Zhou et al. WebArena: Lingkungan Web Realistis untuk Membangun Agen Otonom. 24 Oktober 2023. URL: http://arxiv.org/abs/2307.13854. pracetak.

[2] Chi Zhang et al. AppAgent: Agen Multimodal sebagai Pengguna Ponsel Cerdas. 21 Desember 2023. URL: http://arxiv.org/abs/2312.13771. pracetak.

[3] Shunyu Yao dkk. “Webshop: Menuju interaksi web dunia nyata yang dapat diskalakan dengan agen bahasa yang membumi”. Dalam: Kemajuan dalam Sistem Pemrosesan Informasi Neural 35 (2022), hlm. 20744–20757.

[4] Tianbao Xie dkk. OSWorld: Benchmarking Agen Multimodal untuk Tugas Terbuka di Lingkungan Komputer Nyata. 11 April 2024. URL: http://arxiv.org/abs/2404.07972. pracetak.

[5] Lin, Fangru, dkk. "Model Bahasa Besar yang Ditingkatkan Grafik dalam Penalaran Rencana Asinkron." Pracetak arXiv arXiv:2402.02805 (2024).

[6] Tushar Khot dkk. “Decomposed Prompting: Pendekatan Modular untuk Memecahkan Tugas Kompleks”. Dalam: Konferensi Internasional Kesebelas tentang Representasi Pembelajaran. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.

[7] Shilong Liu dkk. Grounding DINO: Menggabungkan DINO dengan Grounded Pre-Training untuk Deteksi Objek Open-Set. arXiv.org. 9 Maret 2023.

berita

Kontrol ponsel dan komputer secara bersamaan, 100 tugas, tolok ukur evaluasi agen lintas sistem tersedia

Perkenalan

Informasi kontak saya