2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Uusi viisausraportti
Toimittaja: Taozi
[Johdatus uuteen viisauteen]Oletko koskaan ajatellut, että ehkä joskus tulevaisuudessa tekoälyarmeija voi ottaa yrityksen tärkeät tehtävät ja pelkistyvätkö ihmiset tukirooleihin?
Xiao Zha uskoo vakaasti, että "tulevaisuudessa maailmassa on enemmän tekoälyagentteja kuin ihmisiä".
Joten mitä tapahtuu, jos näillä tekoälyillä on myös yrityskulttuuria?
Ovatko he ihmisten kaltaisia. On tekoälyjä, joilla on päätöksentekovalta, ja tekoälyjä, jotka työskentelevät kovasti?
Muutama kuukausi sitten paljastettiin, että OpenAI oli sisäisesti määritellyt viisitasoisen AGI-reitin, L5 - Organizer: AI, joka voi suorittaa organisatoriset työt.
Tämä voi olla tulevan yrityksen organisaatiokaavio.
Koska useiden älykkäiden agenttien yhteistyö on nousussa.
Aikaisemmin tutkimus osoitti, että järjestelmä, jossa oli yli 30 tekoälyagenttia, suoriutui yksinkertaisista LLM-kutsuista lähes kaikissa tehtävissä, samalla vähentäen hallusinaatioita ja parantaen tarkkuutta.
Paperiosoite: https://arxiv.org/pdf/2402.05120
Mutta kuinka useiden agenttien pitäisi itse asiassa tehdä yhteistyötä?
Kun Alex Sima tutki tapoja parantaa tekoälyn suorituskykyä ohjelmistosuunnittelutehtävissä, hän koki loiston:
Mitä tapahtuisi, jos tekoälyagenttien välinen vuorovaikutus vakiinnutetaan ja tehdään samankaltaiseksi kuin teknologiajätin "organisaatiokaavio"?
Seuraavaksi Alex antoi tekoälyn ottaa haltuunsa kuusi suurta teknologiajättiä – Amazon, Google, Microsoft, Apple, Meta ja Oracle – nähdäkseen, kuinka ne tekevät yhteistyötä.
Otetaan ensin kuva, jotta saat tuntuman.
Keskeiset takeawayt
Seuraavassa on joitain avainkohtia, jotka Alex sai organisoituaan tekoälyagentit Applen, Microsoftin ja Googlen kaltaisiin yritysrakenteisiin:
- Yritykset, joissa on useita "kilpailevia" tiimejä (eli kilpailevat parhaan lopputuotteen tuottamisesta), kuten Microsoft ja Apple, ylittävät keskitetyt hierarkiat.
- Järjestelmät, joissa on vain yksi vika (kuten yksi johtaja tekee tärkeitä päätöksiä), kuten Google, Amazon ja Oracle, toimivat huonosti.
- Suurten teknologiayritysten organisaatiorakenteella on vaatimaton, mutta merkittävä vaikutus ongelmanratkaisukykyyn.
Tekoälyagentit ja teknologiajättiorganisaatiot
Aiemmat menetelmät suorituskyvyn parantamiseksi yksinkertaisesti lisäämällä tekoälyagenttien määrää, kuten SWE-penkki, eivät ole tuottaneet merkittäviä tuloksia.
Tämä osoittaa, että pelkkä kasvaviin lukuihin luottaminen ei ratkaise ongelmaa.
Joten mitä muita tapoja parantaa tekoälyagentteja ohjelmistosuunnittelussa?
Kolme viikkoa sitten Alex törmäsi James Hucklen artikkeliin "Conwayn laista" - ohjelmiston ja tuotearkkitehtuurin on tarkoitus heijastaa sen luonutta organisaatiorakennetta.
James näytti kuvan, joka paljasti Amazonin, Googlen, Facebookin, Microsoftin, Applen ja Oraclen dramaattiset organisaatiorakenteet ja ehdotti ideaa:
Kuten ihmisten isoissa teknologiayrityksissä, usean agentin viestintärakenteet voivat muokata ongelmanratkaisumenetelmiä.
Alex inspiroitui testaamaan Jamesin hypoteesia SWE-penkkiinstanssilla.
Kokeellinen asennus
Kirjoittajat järjestävät tekoälyagentit erilaisiin yritysrakenteisiin ja arvioivat kuutta erilaista organisaatiorakennetta SWE-bench-liten 13-instanssin "mini"-alajoukossa.
Rakentaessaan näitä kuutta organisaatiota hän suunnitteli usean toimijan organisaatiorakenteen muutamien ydinhavaintojen perusteella:
Amazon
Ylimmällä tasolla on "johtajien" binääripuu.
Tämän rakenteen replikoimiseksi Alex käyttää suurta määrää agentteja, jotka suorittavat koodipohjahakuja, ja yhtä agenttia, joka suorittaa viime kädessä koodipohjan päivitykset.
Samanlainen kuin Amazonin puurakenne, mutta enemmän yhteyksiä keskikerrosten välillä.
Alex kopioi kaikki agenttitulokset yhdistämällä yhteen kerrokseen ja välittää ne seuraavalle agenttikerrokselle.
Meta (Facebook)
Siitä puuttuu hierarkkinen rakenne, mutta se on silti verkko-organisaatio, jossa on monia yhteyksiä agenttien välillä.
Alex muokkasi alkuperäistä agenttisuunnittelua lisäämällä mahdollisuutta muuntamiseen eri agenttien välillä.
Microsoft
Painopiste kilpailevissa joukkueissa, jokaisella on oma tasonsa.
Pohjimmiltaan Alex rakensi Amazonin uudelleen (vähensi agenttien määrää) ja käytti vektorin samankaltaisuusäänestysmenetelmää valitakseen "paras" ratkaisun kolmesta erillisestä ajosta (pieniä muutoksia hierarkiaan jokaisessa ajossa).
omena
Monet pienet kilpailevat joukkueet, joilla jokaisella on oma minimaalinen rakenne.
Alex käytti samaa "paras ratkaisu" -lähestymistapaa kuin Microsoft, mutta suoritti enemmän ajoja ilman agenttitasoa (jokaisella ajolla oli eri muunnoksia).
Oraakkeli
On kaksi eri tiimiä, suurempi "laillinen" binääripuu ja pienempi suunnittelupuu.
Alex selitti lakitiimin agentteina, jotka etsivät koodikannasta ja hakevat avainkontekstin, kun taas suunnittelutiimi koostuu agenteista, jotka todella kirjoittavat koodin.
Näiden kahden ryhmän rakenne on samanlainen kuin Amazonissa, ja yksi agentti huipulla koordinoi tiedonkulkua "Legalin" ja "Engineeringin" välillä.
Arvioinnin tulokset
Jokaisen SWE-penkin korjaussarjan arvioimiseksi kirjoittaja käyttää SWE-penkkiarviointia.
Tulos on seuraava:
Organisaatiokaavion suorituskykyanalyysi
Tässä on joitain kirjoittajan havaintoja siitä, kuinka erilaiset yritysrakenteet vaikuttavat suorituskykyyn:
- Kilpailevat joukkueet lisäävät menestymisen mahdollisuuksia.
Kaksi parasta menestystä (Microsoft ja Apple) kilpailevat ongelman ratkaisemisesta, kun taas muilla yrityksillä näyttää olevan vain yksi valtava tiimi, joka tuottaa yhden korjaustiedoston.
Useat tiimit mahdollistavat ongelmanratkaisumenetelmien monipuolisuuden, mikä lisää ongelmanratkaisun todennäköisyyttä.
- Rakenteet, joissa on yksi vikapiste, toimivat huonosti.
Kun viitataan yksittäisiin epäonnistumispisteisiin, tarkoitamme yrityksiä (kuten Google, Amazon ja Oracle), joilla on korkean tason johtajat/agentit, jotka voivat muuttaa toiminnan tuloksia täysin.
Useiden agenttien välistä vuorovaikutusta koordinoitaessa yleinen ongelma on, että yksi agentti epäonnistuu, mikä johtaa siihen, että yksi agentti muuttaa ryhmän ongelmanratkaisustrategian suuntaa.
Yritykset, joissa on vain yksi epäonnistuminen, ovat haavoittuvia näille ongelmille.
Lisäksi kaksi huippusuoritusta, Microsoft ja Apple, ovat markkina-arvoltaan maailman kaksi suurinta teknologiayritystä.
Osoittautuu, että todellisessa maailmassa parhaiten toimivat organisaatiorakenteet toimivat hyvin myös tekoälyagenteille.
Kuvakaappaus CompaniesMarketCapista, 25. heinäkuuta 2024
Ajatuksia SWE-penkin etenemisestä
Kun tarkastellaan eri yritysrakenteiden tuloksia, tämä on odotettavissa tällä Mini-vertailulla.
Kaiken kaikkiaan näyttää siltä, että niinkin monimutkaisessa tehtävässä kuin ohjelmistosuunnittelu, agenttien lisääminen tai agenttien järjestelyn muuttaminen johtaa vain marginaalisiin suorituskyvyn parannuksiin.
Vaikka artikkeli More Agents Is All You Need havaitsi huomattavan parannuksen tarkkuudessa (noin 20 %), GSM8K-testissä (alkeiskoulun matematiikka) suorituskyky heikkeni merkittävästi 30 agentin jälkeen.
Tutkimuksessa havaittiin myös, että liian monimutkaiset tehtävät (kuten SWE-penkin tehtävät) voivat ylittää mallin päättelykyvyn, mikä johtaa suorituskyvyn heikkenemiseen.
SIMA:ssa istuminen vahvisti myös tämän havainnon, korkeintaan vain 2-3 % parannus perusarkkitehtuuriin (yli 40 agenttia käyttämällä).
Hän odottaa tämän pienen parannuksen olevan johdonmukainen muissa ei-multiagent-arkkitehtuureissa.
Kirjoittajat väittävät, että suuremman edistyksen saavuttaminen vertailuarvoissa edellyttää agenttien todellisten loogisten päättelykykyjen tai strategioiden ja menetelmien muuttamista, joita he voivat omaksua (tai antaa) ohjelmisto-ongelmien ratkaisemiseksi.
Tämä voidaan saavuttaa tehokkaammalla perusmallilla (GPT-5) tai antamalla agentille laajemmat työkalut.
Sama asia on yritystoiminnan kanssa.
Lopputulos on, että jos et palkkaa älykkäämpiä työntekijöitä tai anna heille parempia resursseja, heidän tuotoksensa ei parane riippumatta siitä, kuinka järjestät heidät tai kuinka monta henkilöä sinulla on.
Tosin 13 esiintymän suorituskyky on todennäköisesti kaukana täyden vertailuarvon todellisesta suorituskyvystä.
Ero tässä minialajoukossa yksin on tarpeeksi merkittävä, jotta se on huomion arvoinen (noin 50 % parannus Googlesta Appleen).
Taustalla oleva malli/työkalut voivat olla rajoittava tekijä agenttiohjelmistosuunnittelussa, mutta taustalla olevan mallin parantuessa agenttiviestintärakenteiden tutkiminen (olipa yritysorganisaatio tai ei) kannattaa ehdottomasti testata.
Kuten James Huckle sanoi, tästä konseptista voi tulla "avainhyperparametri" tekoälyagenttien suunnittelussa, ja erilaiset organisaatiorakenteet voivat olla sopivampia erilaisiin tehtäviin.
Viitteet:
https://alexsima.substack.com/p/ai-multi-agents-with-corporate-structures