Informasi kontak saya
Surat[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Laporan Kebijaksanaan Baru
Editor: Qiao Yang sangat mengantuk
[Pengantar Kebijaksanaan Baru]Perusahaan start-up MultiOn baru-baru ini merilis Agen Q, yang diklaimnya sebagai "yang paling kuat saat ini" dan dapat mencapai tingkat keberhasilan 95,4% dalam tugas pemesanan sebenarnya. Netizen berspekulasi bahwa proyek Q* misterius OpenAI ada di baliknya.
Tanpa menunggu rilis proyek OpenAI Q*/Strawberry, sebuah perusahaan start-up bernama MultiOn merilis agen bernama Q terlebih dahulu.
Kami sangat gembira mengumumkan bahwa Agen Q, pekerjaan kami selama 6 bulan terakhir, kini telah ditayangkan! Ini adalah kerangka kerja agen yang diawasi sendiri yang dapat melakukan penalaran dan pencarian, dan dapat melakukan permainan mandiri dan pembelajaran penguatan melalui tugas nyata di Internet untuk mencapai koreksi diri dan peningkatan otonom!
Yang lebih menarik perhatian adalah ketika MultiOn Lianchuang/CEO Div Garg menyebut Agen Q di Twitter, dia tidak pernah lupa membawa yang mencolok ini.
Hal ini menarik perhatian terus-menerus dari semua lapisan masyarakat. Beberapa orang berspekulasi bahwa bos besar di balik Agen Q adalah proyek Q* OpenAI.
Tak hanya itu, MultiOn juga membuka akun Twitter independen untuk Agen Q yang kerap melontarkan berbagai komentar aneh yang "sulit dibedakan antara manusia dan mesin".
Gambar latar belakang dan informasi dasar akun tersebut penuh dengan stroberi, dan foto stroberi di kebun miliknya yang pernah diposting Ultraman sebelumnya langsung ditempel.
Namun yang menakjubkan adalah akun misterius ini memiliki banyak pengikut dan KOL, termasuk CEO Y-Combinator Garry Tan, CEO Quora Adam D'Angelo, kolumnis New York Times Kevin Roose, profesor Wharton AI Ethan Mollick, dan beberapa anggota staf OpenAI.
Bahkan Ultraman baru-baru ini berinisiatif berinteraksi dengan akun misterius tersebut dan mengomentari postingannya yang mengolok-olok "AGI mencapai Level 2".
Apakah gelombang operasi MultiOn ini murni hype, atau bersamaan dengan promosi Q* OpenAI, itu tergantung pada pendapat masyarakat.
Entah ini akan menjadi salah satu agen AI terbaik yang pernah dirilis, atau Div Garg akan merusak reputasi perusahaan dengan terlibat dalam hype yang paling buruk. Di komunitas AI, hal ini kontraproduktif.
Mengesampingkan semua kontroversi, pertama-tama mari kita lihat seberapa banyak konten teknis yang dimiliki Agen Q ini.
Menurut CEO Div Garg, Agen Q tidak hanya memiliki kemampuan perencanaan dan penalaran, tetapi juga kemampuan penyembuhan diri. Hanya dalam satu hari pelatihan, mereka meningkatkan kinerja tanpa sampel Llama 3 sebesar 340%, mencapai tingkat keberhasilan 95,4% dalam tugas pemesanan di dunia nyata.
Ini adalah langkah maju yang besar bagi agen AI otonom untuk membuat keputusan yang kompleks dan andal di lingkungan dunia nyata.
Dalam video demo resminya, Agen Q dapat melakukan tugas termasuk memesan restoran, rapat, dan tiket pesawat, yang semuanya melibatkan perencanaan multi-langkah, penalaran, pengambilan keputusan, dan interaksi dengan berbagai aplikasi.
Meskipun tim peneliti MultiOn telah mengunggah makalahnya di situs resminya, Agen Q belum dibuka untuk uji coba, dan Anda harus mendaftar di daftar tunggu untuk mengajukan peluang pengujian internal.
Alamat makalah: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
Situs resminya mengklaim bahwa Agen Q akan terbuka untuk pengembang dan pengguna MultiOn akhir tahun ini.
Interpretasi teknis
Dalam beberapa tahun terakhir, meskipun LLM telah sepenuhnya menumbangkan bidang NLP dan mencapai prestasi luar biasa, LLM masih menghadapi tantangan besar dalam lingkungan interaktif, terutama tugas penalaran multi-langkah, seperti navigasi halaman web.
Metode pelatihan saat ini yang mengandalkan kumpulan data bahasa statis tidak cukup untuk mengadaptasi model ini ke interaksi dinamis di dunia nyata.
Kemunculan Agen Q merupakan tonggak penting dalam bidang agen AI, yang menggabungkan pencarian, refleksi diri, dan pembelajaran penguatan untuk dapat merencanakan dan memperbaiki diri.
Dengan memperkenalkan kerangka pembelajaran dan inferensi baru, Agen Q mengatasi keterbatasan teknik pelatihan LLM sebelumnya, memungkinkan navigasi web otonom.
Perincian langkah-langkah Agen Q saat menjalankan tugas terjadwal
Masalah dengan metode saat ini
Metode saat ini, seperti penyempurnaan yang diawasi pada demonstrasi ahli yang direncanakan dengan cermat, sering kali memberikan kinerja yang buruk pada tugas multi-langkah agen karena kesalahan yang terakumulasi dan data eksplorasi yang terbatas, sehingga memerlukan pengambilan keputusan yang rumit dan adaptasi dalam lingkungan yang dinamis. Saat Anda mempelajari, strategi yang kurang optimal muncul.
Metode dan komponen Agen Q
Agen Q menggabungkan Pencarian Pohon Monte Carlo Terpandu (MCTS) dan refleksi diri AI serta metode penyempurnaan berulang, sambil menggunakan algoritme RLHF seperti Pengoptimalan Preferensi Langsung (DPO) untuk memungkinkan agen LLM belajar dari lintasan yang berhasil dan gagal serta meningkatkan beberapa Generalisasi kemampuan dalam tugas penalaran langkah demi langkah.
Komponen utama Agen Q meliputi:
1. Pencarian terpandu berdasarkan MCTS: menghasilkan data secara mandiri dengan menjelajahi berbagai perilaku dan halaman web, dan mencapai keseimbangan antara eksplorasi dan eksploitasi.
MCTS menggunakan suhu pengambilan sampel yang lebih tinggi dan kata-kata cepat yang beragam untuk memperluas ruang perilaku dan memastikan bahwa lintasan yang beragam dan optimal dapat dikumpulkan.
2. Kritik diri AI: Dalam setiap langkah, kritik diri berbasis AI dapat memberikan umpan balik yang berharga untuk mengoptimalkan pengambilan keputusan agen. Umpan balik tingkat langkah ini sangat penting untuk tugas jangka panjang karena sinyal yang jarang sering kali menyebabkan kesulitan belajar.
3. Optimalisasi preferensi langsung: Algoritme DPO menyempurnakan model dengan membuat pasangan data preferensi yang dihasilkan oleh MCTS. Metode pelatihan di luar kebijakan ini memungkinkan model untuk belajar secara efektif dari kumpulan data agregat, termasuk cabang sub-optimal yang dieksplorasi selama proses pencarian, sehingga meningkatkan tingkat keberhasilan dalam lingkungan yang kompleks.
Eksperimen evaluasi
Dalam tugas simulasi toko online yang dibangun berdasarkan model xLAM-v0.1-r, agen perlu melakukan pencarian untuk menemukan produk tertentu.
Meskipun metode seperti RFT, DPO, dan beam search juga dapat mencapai peningkatan tertentu, besarnya tidak sebesar AgentQ.
Jika metode Agen Q dan MCTS digunakan secara bersamaan, tingkat keberhasilan tugas dapat ditingkatkan dari 28,6% menjadi 50,5%, yang setara dengan rata-rata tingkat manusia sebesar 50%.
Dalam tugas pemesanan Open Table yang sebenarnya, agen perlu melakukan beberapa langkah, termasuk menemukan halaman restoran yang sesuai, memilih tanggal dan waktu yang sesuai, memilih kursi yang sesuai dengan preferensi pengguna, mengirimkan informasi kontak pengguna, dan terakhir menyelesaikan tugas.
Kompleksitas ini jelas satu langkah di atas Webshop. Menurut statistik setelah percobaan, jumlah rata-rata langkah untuk menyelesaikan tugas Webshop adalah 6,8, sedangkan Open Table meningkat dua kali lipat menjadi 13,9.
Karena Open Table bukanlah kumpulan data simulasi, melainkan lingkungan online nyata, maka sulit untuk melakukan evaluasi otomatis berdasarkan pada yang telah ditentukan sebelumnya. indikator. dan tandai apakah tugas telah selesai.
Agen Q meningkatkan tingkat keberhasilan tanpa sampel LLaMa-3 dari 18,6% menjadi 81,7%, dengan peningkatan skor sebesar 340%, setelah hanya satu hari pengumpulan data otonom.
Setelah menambahkan pencarian pohon Monte Carlo online, tingkat keberhasilan dapat ditingkatkan menjadi 95,4%.
Meskipun Agen Q telah menunjukkan kemampuan navigasi web, penelusuran, penalaran, dan perencanaan yang kuat dalam eksperimen evaluasi di atas, masih banyak ruang untuk diskusi dan perbaikan dalam metode yang saat ini digunakan:
- Desain algoritma penalaran: Tantangan inti Agen Q saat ini terletak pada kemampuan penalarannya yang lemah, yang membatasi strategi eksplorasi dan pencarian; selain itu, saat melatih strategi agen, model kritik saat ini dalam keadaan beku, yang memperkenalkan tambahan Mungkin ada peningkatan kinerja dari penyesuaian.
- Agen Q lebih memilih MCTS untuk penelusuran karena pengalaman sukses MCTS sebelumnya dalam tugas matematika dan pengkodean, namun dapat menyebabkan sejumlah besar interaksi berisiko di lingkungan nyata. Mengubah strategi pencarian Anda mungkin merupakan pilihan yang lebih tepat.
- Keamanan dan interaksi online: Saat ini, Agen Q sebenarnya mengizinkan eksplorasi otonom dan penilaian mandiri dalam jumlah besar, dengan intervensi manusia yang terbatas. Namun, banyak kesalahan yang mungkin masih terjadi dalam pengoperasian agen, terutama dalam tugas-tugas penting seperti email, pembayaran, dan pengarsipan.
Jika masalah keamanan tidak diatasi, skenario tugas Agen Q yang dapat diterapkan akan sangat terbatas, dan model kritik keamanan tambahan serta pengaturan pelatihan human-in-the-loop mungkin diperlukan di masa mendatang.
Referensi:
https://x.com/rm_rafailov/status/1823462897751875701
https://x.com/ai_for_success/status/1823447309008490730
https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generasi-of-ai-agents-with-planning-and-self-healing-capabilities