Ketika Agen mulai menciptakan dirinya sendiri, apakah ledakan produk AI masih menjadi mimpi belaka?

2024-08-21

TencentPenulis teknologi Hao Boyang

Editor Zheng Kejun

2024,Kecerdasan buatan Topik terhangat di bidang ini tidak diragukan lagi adalah Agen.

“modelnya besarKeren, tapi apa yang bisa saya lakukan dengannya? “Ini adalah pertanyaan penerapan AI tahunan pada tahun 2023. Pada tahun 2024, agen telah menjadi obat yang paling menjanjikan untuk masalah ini.

Agen cerdas dapat digunakan melalui proses dan alat yang kompleks, memungkinkan model besar menangani tugas yang lebih kompleks dan disesuaikan, yang pada akhirnya menghasilkan entitas perangkat lunak atau entitas fisik dengan otonomi, persepsi, pengambilan keputusan, dan kemampuan tindakan. Ng Enda, Jim Fan dan nama-nama besar lainnya di industri ini telah bergabung untuk membuktikan keefektifan agen cerdas ini.

Profesor Ng Enda mengusulkan dalam blognya pada bulan Maret tahun ini agar digunakan dalam kumpulan data HumanEval GPT-3.5Akurasi tes (Zero-shot) adalah 48,1%. GPT-4(Tembakan nol) adalah 67,0%. Dengan bekerja sama dengan alur kerja Agen, GPT-3.5 mencapai tingkat akurasi 95,1%.

(Catatan gambar: Eksperimen Ng Enda, di bawah teknologi agen cerdas,GPT 3,5 kinerja jauh melebihi GPT4 asli)

Oleh karena itu, selama setahun terakhir, semua pihak mulai dari perusahaan besar hingga pakar swasta telah membangun badan cerdas. cukup besarMicrosoftCopilit, peramalan AI yang tidak masuk akal, alat untuk membangun kerangka agen cerdas seperti Langchain, Coze, dan Dify juga bermunculan seperti jamur setelah hujan, dan popularitas mereka terus meningkat.

(Catatan gambar: Perusahaan terkait agen dan proses otomatisasi AI yang disusun oleh INSIGHT)

Andrew Karpathy, mantan ilmuwan di OpenAI, pernah mengatakan bahwa orang biasa, wirausahawan, dan geek cenderung tidak membuat agen AI dibandingkanBuka AIPerusahaan seperti itu bahkan punya keuntungan.

Apakah era baru manajer produk berdasarkan alur kerja agen AI akan datang? Belum tentu, karena AI mungkin lebih baik dalam membangun agen cerdas dibandingkan manusia.

Logika loop otomatis

Pada 19 Agustus, tiga peneliti dari Universitas British Columbia menerbitkan makalah berjudul "Desain Sistem Agen Otomatis". Dalam makalah ini, ia merancang sebuah sistem yang memungkinkan AI menemukan dan membangun agen sendiri, dan dapat melakukan iterasi sendiri.

Ingat definisi klasik OpenAI tentang agen. Agen adalah produk yang dapat menyimpan pengetahuan, merencanakan, dan menerapkan alat.

Saat kami menggunakan alur kerja untuk membangun agen, kami juga menggunakan pengetahuan yang ada (pengetahuan tentang bentuk agen) untuk merencanakan sendiri (membangun proses) dan menggunakan alat (mengakses API) untuk akhirnya mengeksekusi output agen itu sendiri.

Jadi mengapa tidak membangun agen yang dapat menemukan dan merancang agen secara otomatis?

Penulis makalah mengikuti ide ini dan menyebut perancang sebagai agen meta, yang ia minta untuk merancang agen baru. Tambahkan agen yang dirancang ke database sebagai data, dan terus ulangi versi agen yang baru dan lebih kuat.

Seluruh rangkaian metode ini mereka sebut ADAS (Desain Otomatis Sistem Cerdas).

Jadi, bagaimana sebenarnya sistem ini bisa diterapkan?

Biarkan rantainya berputar

Proses menghasilkan agen baru dalam sistem ADAS dapat dibagi menjadi tiga bagian:

Bagian pertama menetapkan ruang pencarian, yang dapat dipahami sebagai penggunaan beberapa alat dan aturan dasar untuk merancang agen baru yang potensial.

Bagian kedua adalah menjalankan pencarianalgoritma, yang menetapkan bagaimana agen meta menggunakan ruang pencarian dan menggunakan elemennya untuk secara khusus membangun agen baru.

Bagian terakhir adalah menjalankan fungsi evaluasi, yang akan mengevaluasi agen yang dibangun berdasarkan kinerja dan tujuan lainnya.

Para peneliti menjelaskan langkah demi langkah bagaimana membangun ketiga bagian inti di atas dalam makalah.

Pertama, elemen dasar untuk membangun ruang pencarian harus ditentukan. Para peneliti percaya bahwa metode terbaik adalah kode.

Ini karena kode Turing sudah lengkap dan dapat mengungkapkan semua kemungkinan. Jadi, secara teori, agen meta dapat menemukan kemungkinan blok penyusun (seperti petunjuk, penggunaan alat, aliran kontrol) dan sistem agen yang menggabungkan blok penyusun ini dengan cara apa pun.

Lebih penting lagi, berbagai alur kerja yang sudah ada di situs web seperti Langchain untuk agen bangunan telah dikodifikasi. Oleh karena itu, data yang relevan ada di ujung jari Anda dan tidak perlu mengonversinya lagi. Panggilan alat, seperti RAG (retrieval augmented generation) dan komponen kemampuan lainnya sudah memiliki basis kode yang sangat memadai.

Menggunakan kode untuk membangun ruang pencarian juga berarti bahwa agen yang dihasilkan oleh ADAS dapat dijalankan secara langsung untuk memperbaiki kesalahan dan menjalankan skor tanpa intervensi manual.

Setelah menentukan ruang pencarian, peneliti mulai merancang algoritma pencarian, yang memungkinkan agen meta mengeksplorasi cara-cara yang mungkin untuk menyelesaikan tugas. Proses ini pada dasarnya diselesaikan dengan mengandalkan proyek kata cepat.

Yang pertama adalah memberinya serangkaian kata-kata perintah sistem.

Lalu, letakkan yang dasarMengingatkanInformasi yang disebutkan diberikan kepada agen meta, termasuk

1. Deskripsi dasar tugas.

2. Kode kerangka kerja paling dasar, seperti perintah pemformatan, enkapsulasi, dan nama operasi lainnya, serta kemampuan untuk memanggil model dasar (FM) dan API lainnya.

(Catatan gambar: bagian dari kode kerangka kerja)

3. Format dan contoh input dan output tugas.

4. Contoh perpustakaan yang dibentuk oleh beberapa agen yang dihasilkan dalam iterasi asli, termasuk hasil pengujian dasar mereka.

(Catatan gambar: Contoh di perpustakaan agen cerdas)

Berdasarkan petunjuk dasar ini, ADAS dapat mulai beroperasi dan menghasilkan agen cerdas untuk memecahkan masalah tertentu.

Dalam proses ini, agen meta akan melakukan dua putaran refleksi untuk memastikan bahwa agen yang dihasilkan adalah baru dan benar. Ia memeriksa apakah kerangka kode yang baru dibuat memiliki kesalahan dan apakah cukup inovatif dibandingkan dengan hasil sebelumnya di perpustakaan contoh agen.

Agen meta juga perlu melakukan evaluasi awal terhadap agen yang dihasilkan berdasarkan "pemahaman" tentang kemampuan kinerja praktis untuk menentukan apakah kinerjanya lebih baik daripada agen sebelumnya.

Ketika beberapa kondisi ini tidak terpenuhi, agen meta harus memodifikasi agen yang dihasilkan atau membuatnya ulang.

(Permintaan untuk refleksi putaran pertama)

Setelah dua putaran refleksi dan modifikasi, agen meta akan mengirimkan agen baru yang dirasa baru dan bagus ke sistem evaluasi pada langkah ketiga.

Sistem evaluasi akan memberikan skor obyektif terhadap kemampuan agen berdasarkan tes dasar, dan kemudian mengembalikannya ke perpustakaan contoh agen.

Agen meta akan terus mengoptimalkan iterasi berikutnya berdasarkan hasil penilaian sebelumnya dan contoh sebelumnya di perpustakaan contoh untuk mencapai skor kinerja tugas yang lebih tinggi.

Seluruh rantai yang sepenuhnya otomatis lahir dalam proses ini. Untuk menghasilkan agen yang sangat efektif, mungkin diperlukan lebih dari dua digit iterasi.

Melampaui kecerdasan yang hanya sekedar menggosok tangan

Seberapa rumitkah agen cerdas yang diperoleh dengan mengotomatiskan proses melalui metode ADAS? Gambar di bawah adalah kerangka agen yang dihasilkan setelah 14 iterasi.

Ada lima rantai pemikiran dalam struktur agen ini yang memberikan jawaban awal. Setelah mendapat masukan dari tiga model pakar ahli dan model yang meniru evaluasi manusia, jawabannya dimodifikasi dan ditingkatkan tiga kali selama tahap proses optimasi. Terakhir, tiga hasil disaring setelah evaluasi dan digabungkan untuk memberikan jawaban akhir.

Jika manusia mengoperasikan tingkat kerumitan ini, mungkin akan memakan waktu seminggu. Ini hanyalah waktunya untuk menulis petunjuk dan merancang arsitektur, belum lagi pengujian dan perbandingan horizontal.

Tentu saja, ini juga merupakan hasil dari iterasi terus menerus dalam desain meta-agent.

Selama proses berulang, kemampuannya untuk menghasilkan agen cerdas juga meningkat pesat seiring dengan jumlah iterasi. Pada iterasi ketiga, agen meta mempelajari strategi rantai multi-pemikiran sendiri, dan pada iterasi keempat, agen belajar menggunakan memori dinamis untuk mengoptimalkan jawaban. Pada ke-14 kalinya, agen yang dihasilkannya mencapai kompleksitas yang disebutkan di atas.

Pada akhirnya, kemampuan solusi optimalnya dapat ditingkatkan lebih dari 250% dibandingkan dengan model bahasa besar sederhana yang asli, dan ditingkatkan sebesar 75% dibandingkan dengan agen manual berperforma terbaik COT-SC (rantai multi-pikiran jawaban) metode.

Tidak hanya ARC, agen yang dihasilkan dalam mode ADAS secara signifikan lebih kuat dalam semua aspek daripada semua agen dasar terkuat saat ini, seperti COT, Debat LLM, dan Self-Refine. Dan semakin kompleks tugas dan aplikasi lintas domain yang diproses, semakin kuat agen cerdas yang dihasilkan oleh ADAS.

Selain itu, agen yang dihasilkan ini sendiri memiliki kemampuan migrasi tertentu. Misalnya, agen yang dapat memecahkan masalah ilmiah juga dapat mencapai hasil yang baik dalam matematika. Oleh karena itu, kerangka kerja yang optimal kemungkinan besar mampu menyelesaikan permasalahan terkait di banyak bidang.

Meski era agen gosok tangan akan segera berakhir, namun era penemuan paradigma agen mungkin akan terus berlanjut. Dalam pengujian keseluruhan, ADAS tidak menemukan metode konstruksi baru di luar paradigma konstruksi agen cerdas saat ini, melainkan mengatur ulang dan menggunakan metode tersebut.

Namun, bagi rata-rata pengembang Agen AI, ini sudah cukup untuk menggantikan pekerjaan mereka.

Namun, popularitas ADAS mungkin masih perlu mengatasi kendala yang ada, yaitu masalah biaya.

Menurut para peneliti, OpenAI API berharga sekitar $500 untuk pencarian dan evaluasi di ARC, dan sekitar $300 untuk sekali proses di bidang penalaran dan pemecahan masalah. Itu sekitar $20 per iterasi. Dibandingkan dengan biaya yang tinggi, tenaga kerja masih memiliki keunggulan tertentu pada tahap ini.

Namun para peneliti juga mengatakan karena mempelajarinya sejak awal, mereka menggunakan model "gpt-3.5-turbo-0125". Model GPT-4 terbaru "gpt-4o-mini" kurang dari sepertiga harga "gpt-3.5-turbo-0125" dan memiliki performa yang lebih baik. Selain itu, eksperimen menunjukkan bahwa agen yang diiterasi dengan kemampuan GPT 3.5 akan mengalami hambatan performa setelah sejumlah iterasi tertentu, dan semua iterasi setelah empat belas kali akan sia-sia. Oleh karena itu, desain dengan evaluasi dan pengelolaan sumber daya yang lebih baik juga dapat mengurangi biaya secara signifikan.

Tentu saja, keunggulan harga tenaga kerja tidak dapat dipertahankan dalam waktu lama.

Apakah ledakan kecerdasan telah benar-benar dimulai?

Mengapa teknologi otomatis ini begitu penting?

Di era Internet seluler, berbagai aplikasi untuk berbagai lagu bermunculan, yang bersama-sama menciptakan era kemakmuran teknologi. Namun karena alat-alat baru pada saat itu memerlukan pembelajaran, pengembangan aplikasi seluler juga melalui tahap penetrasi yang panjang sebelum akhirnya dapat ditampung oleh cukup banyak pengembang.

Pada era sebelumnya, hal ini lebih lambat. Menurut teori "menyeberangi jurang" yang dikemukakan oleh Geoffrey Moore berdasarkan pengalaman komputer pribadi pada tahun 1990-an, pada tahun-tahun awal kemunculan teknologi, hanya sekitar 13,5% pengguna awal yang akan menggunakan teknologi ini .

Oleh karena itu, kekurangan pengembang mungkin menjadi hambatan penting dalam promosi teknologi.

Tentu saja, kecepatan pengembangan dan penetrasi konstruksi agen cerdas mungkin jauh lebih cepat. Karena jauh lebih sederhana dibandingkan pengembangan software sebelumnya. Misalnya, Wordware, yang menjadi populer beberapa waktu lalu, memungkinkan pengguna biasa menyelesaikan konstruksi agen cerdas menggunakan bahasa alami, sehingga menurunkan ambang batas.

Namun, desain seperti rantai pemikiran dan putaran multi-langkah masih sangat kompleks, dan diperlukan lebih banyak alat dalam prosesnya. Oleh karena itu, tidak banyak orang yang benar-benar dapat mengabdikan dirinya pada pengembangan agen cerdas dan memanfaatkan alat ini dengan baik.

Zuckerberg pernah berkata dalam percakapan dengan Huang Renxun bahwa meskipun teknologi model skala besar tidak lagi berkembang, diperlukan waktu lima tahun untuk sepenuhnya memahami potensi agen cerdas.

Oleh karena itu, dibandingkan dengan teknologi, pengembang mungkin menjadi penghambat utama bagi agen cerdas yang belum meledak. Masih terlalu sedikit orang yang mampu melakukan hal ini.

Namun, ada banyak Agen.

Jika teknologi yang menghasilkan agen penyetelan otomatis ini diadopsi dan dioptimalkan oleh lebih banyak perusahaan komersial, hambatan tenaga teknis awal secara alami tidak akan ada lagi. Kecepatan di mana agen dapat mengeksplorasi cakupan dan kedalaman kemampuan di berbagai bidang akan meningkat pesat.

Mungkin tahun depan, Aplikasi AI Pembunuh pertama dalam sejarah manusia akan diluncurkan, dan pembuatnya adalah seorang AI.

berita