uutiset

Tehokkain agentti Agent Q on julkaistu! Llama 3:n onnistumisprosentti nousi kolme kertaa, ja OpenAI:n salaperäinen "mansikka" pysäytettiin

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Uusi viisausraportti

Toimittaja: Qiao Yang on niin uninen

[Johdatus uuteen viisauteen]Aloitusyritys MultiOn julkaisi äskettäin Agent Q:n, jonka se väittää olevan "tällä hetkellä tehokkain" ja voi saavuttaa 95,4 prosentin onnistumisasteen todellisissa varaustehtävissä. Netizenit ovat spekuloineet, että sen takana on OpenAI:n salaperäinen Q*-projekti.

Odotamatta OpenAI:n Q*/Strawberry-projektin julkaisua MultiOn-niminen startup-yritys julkaisi ensimmäisenä agentin nimeltä Q.


Olemme erittäin innoissamme voidessamme ilmoittaa, että agentti Q, työmme viimeisen 6 kuukauden ajalta, on nyt live-tilassa! Tämä on itseohjattu agenttikehys, joka osaa päätellä ja etsiä sekä suorittaa itsepeli- ja vahvistusoppimista todellisten tehtävien kautta Internetissä saavuttaakseen itsekorjauksen ja itsenäisen parannuksen!

Vielä enemmän huomiota herätti se, että kun MultiOn Lianchuang/toimitusjohtaja Div Garg mainitsi Agent Q:n Twitterissä, hän ei koskaan unohtanut tuoda esiin tätä näkyvää.


Tämä houkutteli jatkuvasti katsojia kaikilta elämänaloilta. Jotkut ihmiset arvelivat, että agentti Q:n takana oleva iso pomo oli OpenAI:n Q*-projekti.

Paitsi, että MultiOn avasi myös itsenäisen Twitter-tilin agentti Q:lle, joka usein tuottaa erilaisia ​​outoja huomautuksia, joita on "vaikea erottaa ihmisten ja koneiden välillä".

Tilin taustakuva ja perustiedot ovat täynnä mansikoita, ja Ultramanin aiemmin julkaisemat kuvat hänen oman puutarhansa mansikoista on liitetty suoraan.



Mutta hämmästyttävää on, että tällä salaperäisellä tilillä on monia seuraajia ja KOL:ia, mukaan lukien Y-Combinatorin toimitusjohtaja Garry Tan, Quoran toimitusjohtaja Adam D'Angelo, New York Timesin kolumnisti Kevin Roose, Wharton AI -professori Ethan Mollick ja useat OpenAI:n työntekijät.

Jopa Ultraman teki äskettäin aloitteen ollakseen vuorovaikutuksessa tämän salaperäisen tilin kanssa ja kommentoi sen viestiä, jossa naurettiin "AGI saavuttaa tason 2".


Se, onko tämä MultiOnin toiminta-aalto puhtaasti hypeä vai liittyykö se OpenAI:n Q*-promootioon, riippuu ihmisten mielipiteistä.


Joko tämä on yksi parhaista koskaan julkaistuista tekoälyagenteista tai Div Garg pilaa yrityksen maineen osallistumalla pahimpaan mahdolliseen hypetykseen. AI-yhteisössä tämä on haitallista.

Kaikki kiistat syrjään katsotaanpa ensin, kuinka paljon teknistä sisältöä tällä agentti Q:lla on.

Toimitusjohtaja Div Gargin mukaan agentti Q:lla ei ole vain suunnittelu- ja päättelykykyä, vaan myös itsensä parantamiskykyjä. Vain yhdessä koulutuspäivässä he paransivat Llama 3:n nollanäytteen suorituskykyä 340 % ja saavuttivat 95,4 %:n onnistumisprosentin todellisissa varaustehtävissä.


Tämä on suuri askel eteenpäin autonomisille tekoälyagenteille monimutkaisten ja luotettavien päätösten tekemisessä todellisissa ympäristöissä.

Virallisella esittelyvideolla agentti Q voi suorittaa tehtäviä, kuten ravintoloiden, kokousten ja lentolippujen varaamisen, jotka kaikki sisältävät monivaiheisen suunnittelun, päättelyn, päätöksenteon ja vuorovaikutuksen eri sovellusten kanssa.

Vaikka MultiOnin tutkimusryhmä on ladannut paperin viralliselle verkkosivustolle, agentti Q ei ole vielä avoin kokeilulle, ja sinun on rekisteröidyttävä jonotuslistalle hakeaksesi sisäisiä testausmahdollisuuksia.


Paperiosoite: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

Virallinen verkkosivusto väittää, että Agent Q on avoinna MultiOn-kehittäjille ja käyttäjille myöhemmin tänä vuonna.

Tekninen tulkinta

Vaikka LLM on viime vuosina täysin horjuttanut NLP:n alan ja saavuttanut merkittäviä saavutuksia, sillä on edelleen suuria haasteita interaktiivisissa ympäristöissä, erityisesti monivaiheisissa päättelytehtävissä, kuten web-sivujen navigoinnissa.

Nykyiset koulutusmenetelmät, jotka perustuvat staattisiin kielitietosarjoihin, eivät riitä mukauttamaan näitä malleja dynaamisiin reaalimaailman vuorovaikutuksiin.

Agent Q:n ilmestyminen on merkittävä virstanpylväs tekoälyagenttien alalla, joka yhdistää haun, itsetutkiskelun ja vahvistusoppimisen voidakseen suunnitella ja korjata itsensä.

Esittelemällä uuden oppimis- ja päättelykehyksen Agent Q korjaa aiempien LLM-koulutustekniikoiden rajoitukset mahdollistaen itsenäisen verkkonavigoinnin.


Agentti Q:n vaiheiden erittely ajoitettuja tehtäviä suoritettaessa

Ongelmia nykyisissä menetelmissä

Nykyiset menetelmät, kuten valvottu hienosäätö huolellisesti suunniteltujen asiantuntijaesittelyjen yhteydessä, toimivat usein huonosti agenttien monivaiheisissa tehtävissä kertyneiden virheiden ja rajallisten tutkimustietojen vuoksi, mikä edellyttää monimutkaista päätöksentekoa ja mukautumista dynaamisissa ympäristöissä Kuten opit, strategiat eivät ole optimaalisia. esiin.

Agent Q -menetelmät ja komponentit

Agent Q yhdistää ohjatun Monte Carlo Tree Searchin (MCTS) ja tekoälyn itseheijastuksen ja iteratiiviset hienosäätömenetelmät samalla kun se käyttää RLHF-algoritmeja, kuten Direct Preference Optimization (DPO), jotta LLM-agentit voivat oppia onnistuneista ja epäonnistuneista liikeradoista ja parantaa moninkertaista yleistämistä. kykyä askel askeleelta päättelytehtävissä.

Agent Q:n avainkomponentteja ovat:

1. Ohjattu haku perustuu MCTS:ään: luo tietoja itsenäisesti tutkimalla erilaisia ​​käyttäytymismalleja ja web-sivuja ja löydä tasapaino tutkimisen ja hyödyntämisen välillä.

MCTS käyttää korkeampia näytteenottolämpötiloja ja erilaisia ​​kehotussanoja laajentaakseen käyttäytymisavaruutta ja varmistaakseen, että voidaan kerätä erilaisia ​​ja optimaalisia lentoratoja.

2. Tekoälyn itsekritiikki: Tekoälypohjainen itsekritiikki voi jokaisessa vaiheessa antaa arvokasta palautetta agentin päätöksenteon optimoimiseksi. Tämä askeltasoinen palaute on ratkaisevan tärkeää pitkäaikaisissa tehtävissä, koska harvat signaalit johtavat usein oppimisvaikeuksiin.


3. Suora mieltymysten optimointi: DPO-algoritmi hienosäätää mallia rakentamalla MCTS:n generoimista tiedoista preferenssipareja. Tämä politiikan ulkopuolinen koulutusmenetelmä antaa mallille mahdollisuuden oppia tehokkaasti aggregoidusta tietojoukosta, mukaan lukien hakuprosessin aikana tutkitut alioptimaaliset haarat, mikä parantaa onnistumisprosenttia monimutkaisissa ympäristöissä.

Arviointikoe

Tehtävässä simuloida verkkokauppaa, joka on rakennettu xLAM-v0.1-r malliin, agentin täytyy etsiä tiettyjä tuotteita.

Vaikka menetelmillä, kuten RFT, DPO ja sädehaku, voidaan myös saavuttaa tiettyjä parannuksia, suuruus ei ole yhtä suuri kuin AgentQ.

Jos Agent Q- ja MCTS-menetelmiä käytetään samanaikaisesti, tehtävän onnistumisprosenttia voidaan nostaa 28,6 %:sta 50,5 %:iin, mikä vastaa ihmisen keskimääräistä 50 %:n tasoa.


Varsinaisessa Open Table -varaustehtävässä agentin on suoritettava useita vaiheita, mukaan lukien vastaavan ravintolasivun löytäminen, sopivan päivämäärän ja kellonajan valinta, sopivan paikan valitseminen käyttäjän mieltymysten mukaan, käyttäjän yhteystietojen lähettäminen ja lopuksi viimeistely. tehtävää.

Tämä monimutkaisuus on ilmeisesti askel Webshopin yläpuolella. Kokeilun jälkeisten tilastojen mukaan keskimääräinen askelmäärä verkkokauppatehtävien suorittamiseen on 6,8, kun taas Open Table on kaksinkertaistunut 13,9:ään.

Koska Open Table ei ole simuloitu tietojoukko, vaan todellinen online-ympäristö, on vaikea suorittaa automaattista arviointia. Siksi paperi käyttää GPT-4-V:tä arvioijana palkitsemaan agentti jokaisesta toiminnan vaiheesta ennalta määritettyjen perusteella. osoittimet ja merkitse, onko tehtävä suoritettu.


Agentti Q nosti LLaMa-3:n nollanäytteen onnistumisastetta 18,6 %:sta 81,7 %:iin ja pistemäärä kasvoi 340 % vain yhden päivän itsenäisen tiedonkeruun jälkeen.

Kun olet lisännyt Monte Carlo -puuhaun, onnistumisprosenttia voidaan edelleen nostaa 95,4 prosenttiin.


Vaikka agentti Q on osoittanut vahvoja web-navigointi-, haku-, päättely- ja suunnittelukykyjä yllä olevissa arviointikokeissa, tällä hetkellä käytettävissä menetelmissä on vielä paljon keskustelun ja kehittämisen varaa:

- Päättelyalgoritmin suunnittelu: Agent Q:n ydinhaasteena on tällä hetkellä sen heikko päättelykyky, joka rajoittaa etsintä- ja hakustrategioita. Lisäksi kriitikkomalli on agenttistrategiaa opetettaessa tällä hetkellä jäädytetyssä tilassa, mikä tuo lisää Hienosäätö voi parantaa suorituskykyä.

- Agentti Q suosii MCTS:ää haussa MCTS:n aiemman onnistuneen kokemuksen vuoksi matemaattisista ja koodaustehtävistä, mutta voi aiheuttaa huomattavan määrän riskialttiita vuorovaikutuksia todellisessa ympäristössä. Hakustrategian muuttaminen voi olla sopivampi vaihtoehto.

- Online-suojaus ja vuorovaikutus: Tällä hetkellä agentti Q mahdollistaa suuren osan itsenäisestä tutkimisesta ja itsearvioinnista, mutta ihmisen puuttuminen on rajoitettua. Agentin toiminnassa voi kuitenkin edelleen esiintyä monia virheitä, erityisesti kriittisissä tehtävissä, kuten sähköposti, maksu ja arkistointi.

Jos tietoturvaongelmiin ei puututa, Agent Q:n todelliset käyttöönotettavissa olevat tehtäväskenaariot ovat huomattavasti rajalliset, ja tulevaisuudessa voidaan tarvita lisää tietoturvakritiikkimalleja ja in-the-loop -koulutusasetuksia.

Viitteet:

https://x.com/rm_rafailov/status/1823462897751875701

https://x.com/ai_for_success/status/1823447309008490730

https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities