berita

Politeknik Nanyang membuat kumpulan data tugas dan tolok ukur pengujian untuk meningkatkan kemampuan penyelesaian tugas agen web

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baru-baru ini, dengan menggunakan model besar seperti GPT-4v dan Gemini-pro, Zhang Ziniu, seorang magang di Universitas Teknologi Nanyang, dan timnya menemukan bahwa kemampuan agen halaman web saat ini masih sangat kurang, terutama saat menyelesaikan tugas yang menggabungkan banyak hal. subtugas.

Untuk meningkatkan kemampuan agen dalam beroperasi di halaman web, tim peneliti membuat kumpulan data tugas dan melakukan uji benchmark.

Dengan bantuan kumpulan data ini, agen perlu memproses informasi halaman web multi-modal dan menyelesaikan tugas melalui operasi di halaman web yang berbeda, agar lebih dekat dengan operasi orang di halaman web dalam situasi nyata.

Pada saat yang sama, tim menemukan bahwa agen tersebut memiliki cacat memori yang besar, yang sangat mempengaruhi keakuratan masalah multi-hop. Sebagai tanggapan, mereka mengusulkan modul memori untuk memperbaiki masalah di atas.

Secara keseluruhan, hasil ini akan meningkatkan kemampuan penyelesaian tugas agen dan memberikan tolok ukur pengujian untuk pekerjaan selanjutnya.

Kabarnya, pencapaian tersebut merupakan salah satu dari serangkaian karya. Awalnya, Zhang Ziniu, Tian Shulin, Chen Liangyu, dan lainnya mereproduksi benchmark pengujian modal tunggal single-hop Webarena yang dibuat oleh tim Universitas Carnegie Mellon di Amerika Serikat.

Kemudian, melalui analisis cermat terhadap kemampuan tugas Webarena dan penyelesaian tugas agen, mereka menemukan bahwa masih banyak hal yang perlu ditelusuri.

Misalnya, mengapa tugas tersebut tidak cukup mendekati kenyataan? Mengapa kemampuan agen cerdas relatif kurang?

Dengan membaca makalah lain yang berhubungan dengan web agen. Tim mempertimbangkan untuk memperluas tugas dari modalitas tunggal ke multimodalitas.

Sebelumnya, ketika agen web memproses informasi di halaman web, mereka biasanya tidak hanya melihat teks saja. Untuk itu, mereka mencoba mengekstrak informasi gambar dari beberapa situs online yang memuat gambar, seperti situs resmi beberapa museum seni.

Namun, karena tindakan perlindungannya sendiri, banyak halaman web tidak dapat mengekstrak informasi gambar dari file HTML-nya.

Kemudian, mereka beralih ke mengekstraksi informasi gambar dari situs belanja dan Wikipedia, dan menciptakan beberapa tugas multi-modal untuk agen web.

Kemudian, tim memperluas tugas tersebut ke tugas multi-hop dan memutuskan untuk menggunakan tugas perjalanan sebagai contoh untuk melakukan penelitian. Mereka kemudian menguji agen tersebut pada kumpulan data.

Dalam hal pemrosesan informasi visual, mereka juga menggunakan berbagai metode: misalnya, memberikan gambar secara langsung sebagai petunjuk kepada agen, atau terlebih dahulu memberikan gambar ke model multi-modal besar untuk diproses, dan kemudian menggabungkan hasil pemrosesan ke agen, dll.

Selama periode ini, mereka menemukan bahwa metode evaluasi yang sebelumnya digunakan untuk keseluruhan tugas tidak cocok untuk tugas multi-hop. Oleh karena itu, mereka mengusulkan metode evaluasi baru untuk tugas multi-hop.

Saat menganalisis hasil eksperimen agen, ditemukan bahwa kemampuan memori agen sangat buruk, sehingga modul peningkatan memori diusulkan untuk meningkatkan kemampuan agen, dan percobaan ablasi dilakukan terhadap hal ini.

Baru-baru ini, makalah terkait telah diposting di arXiv dengan judul "MMInA: Benchmarking Multihop Multimodal Internet Agents".


Gambar |. Makalah terkait (Sumber: arXiv)

Pada saat yang sama, tim juga memperhatikan perkembangan terkini di web agen. Di masa depan, tim peneliti mungkin berencana untuk memberikan tangkapan layar seluruh halaman web sebagai masukan kepada agen.