berita

Pasukan AI telah mengambil alih enam raksasa teknologi besar, dan bos serta pekerjanya semuanya AI! Tiru struktur organisasi Microsoft dan raih efisiensi kerja yang luar biasa

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Taozi

[Pengantar Kebijaksanaan Baru]Pernahkah Anda berpikir bahwa mungkin suatu hari nanti, pasukan AI akan mampu mengemban tugas penting perusahaan, dan akankah manusia hanya berperan sebagai pendukung?

Xiao Zha sangat yakin bahwa "di masa depan, akan ada lebih banyak agen AI daripada manusia di dunia."


Lantas, apa jadinya jika AI tersebut juga memiliki budaya perusahaan?

Apakah mereka seperti manusia? Ada AI yang memiliki kekuatan dalam mengambil keputusan dan AI yang bekerja keras.

Beberapa bulan yang lalu, terungkap bahwa OpenAI secara internal telah menetapkan rute AGI lima tingkat, L5 - Penyelenggara: AI yang dapat menyelesaikan pekerjaan organisasi.

Yang dibicarakan di sini mungkin adalah bagan organisasi perusahaan masa depan.


Karena kerja sama berbagai agen cerdas sedang meningkat.

Sebelumnya, sebuah penelitian menunjukkan bahwa sistem dengan 30+ agen AI mengungguli panggilan LLM sederhana di hampir semua tugas, sekaligus mengurangi halusinasi dan meningkatkan akurasi.


Alamat makalah: https://arxiv.org/pdf/2402.05120

Namun, bagaimana seharusnya banyak agen berkolaborasi?

Saat mencari cara untuk meningkatkan kinerja AI dalam tugas rekayasa perangkat lunak, Alex Sima mendapat pencerahan:

Apa jadinya jika interaksi antar agen AI dilembagakan dan dibuat serupa dengan “bagan organisasi” raksasa teknologi?


Selanjutnya, Alex membiarkan AI mengambil alih enam raksasa teknologi besar—Amazon, Google, Microsoft, Apple, Meta, dan Oracle—untuk melihat bagaimana mereka berkolaborasi.

Mari kita berfoto terlebih dahulu untuk merasakannya.


Poin-poin penting

Berikut adalah beberapa poin penting yang diperoleh Alex setelah mengorganisir agen AI ke dalam struktur perusahaan yang mirip dengan Apple, Microsoft, dan Google:

- Perusahaan dengan banyak tim yang "bersaing" (yaitu bersaing untuk menghasilkan produk akhir terbaik), seperti Microsoft dan Apple, mengungguli hierarki terpusat.

- Sistem dengan satu titik kegagalan (seperti seorang pemimpin yang membuat keputusan penting), seperti Google, Amazon, dan Oracle, memiliki kinerja yang buruk.

- Struktur organisasi perusahaan teknologi besar memiliki dampak yang sederhana namun signifikan terhadap kemampuan pemecahan masalah.


Agen AI dan Organisasi Raksasa Teknologi

Metode peningkatan kinerja sebelumnya hanya dengan menambah jumlah agen AI, seperti SWE-bench, belum mencapai hasil yang signifikan.

Hal ini menunjukkan bahwa hanya mengandalkan jumlah yang terus bertambah tidak akan menyelesaikan masalah.


Jadi, apa saja cara lain untuk membuat agen AI lebih baik dalam rekayasa perangkat lunak?

Tiga minggu lalu, Alex menemukan artikel James Huckle tentang "Hukum Conway" - perangkat lunak dan arsitektur produk ditakdirkan untuk mencerminkan struktur organisasi yang menciptakannya.

James menunjukkan ilustrasi yang mengungkapkan struktur organisasi dramatis Amazon, Google, Facebook, Microsoft, Apple, dan Oracle dan menyarankan sebuah ide:

Seperti halnya manusia di perusahaan teknologi besar, struktur komunikasi multi-agen dapat membentuk pendekatan pemecahan masalah.


Alex terinspirasi untuk menguji hipotesis James di bangku SWE.

Pengaturan eksperimental

Penulis mengatur agen AI ke dalam struktur perusahaan yang berbeda dan mengevaluasi enam struktur organisasi yang berbeda pada subset "mini" 13-instance dari SWE-bench-lite.

Dalam membangun enam organisasi ini, ia merancang struktur organisasi multi-agen berdasarkan beberapa pengamatan inti:

Amazon

Ada pohon biner "manajer" di tingkat atas.

Untuk mereplikasi struktur ini, Alex menggunakan sejumlah besar agen yang melakukan pencarian basis kode, dan satu agen yang pada akhirnya melakukan pembaruan basis kode.


Google

Mirip dengan struktur pohon Amazon, tetapi dengan lebih banyak koneksi antar lapisan tengah.

Alex menyalin semua hasil agen dengan agregasi dalam satu lapisan dan meneruskannya ke lapisan agen berikutnya.


Meta (Facebook)

Ia tidak memiliki struktur hierarki, namun masih merupakan organisasi jaringan dengan banyak koneksi antar agen.

Alex memodifikasi desain agen asli dengan meningkatkan kemungkinan konversi antar agen yang berbeda.


Microsoft

Penekanan pada tim kompetitif, masing-masing dengan tingkatannya sendiri.

Pada dasarnya, Alex merestrukturisasi Amazon (mengurangi jumlah agen) dan menggunakan metode pemungutan suara kesamaan vektor untuk memilih solusi “terbaik” dari tiga proses terpisah (dengan sedikit penyesuaian pada hierarki di setiap proses).


apel

Banyak tim kompetitif kecil, masing-masing memiliki struktur minimalnya sendiri.

Alex menggunakan pendekatan "solusi terbaik" yang sama seperti Microsoft, tetapi melakukan lebih banyak proses tanpa tingkat agen (setiap proses memiliki transformasi yang berbeda).


Peramal

Ada dua tim yang berbeda, pohon biner "legal" yang lebih besar dan pohon teknik yang lebih kecil.

Alex menjelaskan tim hukum sebagai agen yang mencari basis kode dan mengambil konteks kunci, sedangkan tim teknik terdiri dari agen yang benar-benar menulis kode.

Struktur kedua tim mirip dengan Amazon, dengan satu agen di posisi teratas yang mengoordinasikan aliran informasi antara "Legal" dan "Teknik".


Hasil penilaian

Untuk mengevaluasi setiap rangkaian patch pada SWE-bench, penulis menggunakan evaluasi SWE-bench.

Hasilnya adalah sebagai berikut:


Analisis Kinerja Bagan Organisasi

Berikut beberapa pengamatan penulis tentang bagaimana struktur perusahaan yang berbeda mempengaruhi kinerja:

- Tim yang kompetitif meningkatkan peluang keberhasilan.

Dua perusahaan dengan kinerja terbaik (Microsoft dan Apple) memiliki banyak tim yang bersaing untuk menyelesaikan masalah, sementara perusahaan lain tampaknya hanya memiliki satu tim besar yang memproduksi satu patch.

Banyaknya tim memungkinkan peningkatan keragaman pendekatan pemecahan masalah, sehingga meningkatkan kemungkinan penyelesaian masalah.

- Struktur dengan titik keruntuhan tunggal memiliki kinerja yang buruk.

Ketika mengacu pada satu titik kegagalan, yang kami maksud adalah perusahaan (seperti Google, Amazon, dan Oracle) yang memiliki manajer/agen tingkat tinggi yang dapat sepenuhnya mengubah hasil operasi.

Saat mengoordinasikan interaksi antara beberapa agen, masalah yang umum terjadi adalah salah satu agen gagal - yang mengarah pada kemungkinan bahwa satu agen mengubah arah strategi pemecahan masalah tim.

Perusahaan dengan satu titik kegagalan rentan terhadap permasalahan ini.

Selain itu, dua perusahaan dengan kinerja terbaik, Microsoft dan Apple, merupakan dua perusahaan teknologi terbesar di dunia berdasarkan kapitalisasi pasar.

Ternyata struktur organisasi yang tampaknya berfungsi paling baik di dunia nyata juga berfungsi baik bagi agen AI.


Tangkapan layar dari CompaniesMarketCap, 25 Juli 2024

Pemikiran tentang kemajuan bangku SWE

Melihat hasil untuk struktur perusahaan yang berbeda, hal ini diharapkan terjadi pada benchmark Mini ini.

Secara keseluruhan, tampaknya dalam tugas yang rumit seperti rekayasa perangkat lunak, menambahkan lebih banyak agen, atau mengubah cara agen tersebut diorganisir, hanya akan menghasilkan peningkatan kinerja yang kecil.

Meskipun makalah Lebih Banyak Agen Adalah Yang Anda Butuhkan menemukan peningkatan akurasi yang cukup besar (sekitar 20%), dalam tes GSM8K (matematika sekolah dasar), kinerjanya mendatar secara signifikan setelah 30 agen.

Studi ini juga menemukan bahwa tugas-tugas yang terlalu rumit (seperti yang ada di bangku SWE) mungkin melebihi kemampuan penalaran model, sehingga mengakibatkan berkurangnya peningkatan kinerja.

Duduk di SIMA juga mengkonfirmasi temuan ini, dengan peningkatan paling banyak hanya 2-3% dibandingkan arsitektur dasar (menggunakan lebih dari 40 agen).

Dia berharap peningkatan kecil ini dapat konsisten pada arsitektur non-multi-agen lainnya.

Para penulis berpendapat bahwa mencapai kemajuan yang lebih besar dalam tolok ukur memerlukan perubahan kemampuan penalaran logis aktual dari agen, atau strategi dan metode yang dapat mereka adopsi (atau diberikan) untuk memecahkan masalah perangkat lunak.

Hal ini dapat dicapai melalui model dasar yang lebih kuat (GPT-5) atau dengan memberikan alat yang lebih luas kepada agen.

Hal yang sama terjadi pada operasional perusahaan.

Intinya adalah, jika Anda tidak mempekerjakan karyawan yang lebih cerdas atau memberi mereka sumber daya yang lebih baik, hasil kerja mereka tidak akan meningkat, tidak peduli bagaimana Anda mengatur mereka atau berapa banyak orang yang Anda miliki.

Memang benar, kinerja 13 instance mungkin jauh dari kinerja sebenarnya dari benchmark penuh.

Perbedaan pada subset mini ini saja sudah cukup signifikan untuk diperhatikan (~50% peningkatan dari Google ke Apple).

Model/alat yang mendasarinya mungkin menjadi faktor pembatas dalam rekayasa perangkat lunak agen, namun seiring dengan peningkatan model yang mendasarinya, eksplorasi struktur komunikasi agen (baik dalam organisasi korporat atau tidak) harus diuji.

Seperti yang dikatakan James Huckle, konsep ini mungkin menjadi "hiperparameter utama" dalam desain agen AI, dan struktur organisasi yang berbeda mungkin lebih cocok untuk tugas yang berbeda.

Referensi:

https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures