Uusia tuloksia Applen suuresta mallista: kohtauksen tarkastus ison mallin työkalukutsu, nettimies: Sirin on myös tehtävä hard

Uudet tulokset Applen suuresta mallista: kohtauksen tarkastus suuren mallin työkalupuhelu, nettimies: Sirin on myös tehtävä lujasti töitä

2024-08-14

Crecy tulee Aofein temppelistä
Qubits |. Julkinen tili QbitAI

Apple-tiimi on julkaissut uuden avoimen lähdekoodin saavutuksen - joukon vertailuarvoja mahdollisuudelle kutsua suuria mallityökaluja.

Tämä Benchmark käyttää innovatiivisestiSkenaariopohjainen arviointimenetelmä, joka voi paremmin kuvastaa mallin tasoa todellisessa ympäristössä.

Se esittelee myös tärkeitä skenaarioita, joihin ei kiinnitetä huomiota perinteisissä standardeissa, kuten dialogivuorovaikutus ja valtioriippuvuus.

Tämä testivertailusarja on nimeltään ToolSandbox, ja tutkimustyöhön osallistui myös Applen perusmallitiimin johtaja Pang Ruoming.

ToolSandbox korvaa olemassa olevien testistandardien skenaariopohjaisen arvioinnin puutteen ja kaventaa testiolosuhteiden ja todellisten sovellusten välistä kuilua.

Vuorovaikutuksen suhteen kirjoittaja antaa GPT-4o:n toimia käyttäjänä ja puhua testattavan mallin kanssa, mikä simuloi todellisia skenaarioita.

Kerro esimerkiksi GPT-4o:lle, että et ole enää avustaja, mutta haluat pelata käyttäjää A, joka puhuu käyttäjän B kanssa, ja tee sitten sarja erityisiä pyyntöjä.

Lisäksi kirjoittaja käytti ToolSandboxia myös joidenkin yleisten mallien ja tulosten testaamiseenSuljetun lähdekoodin mallit saavat korkeammat pisteet kuin avoimen lähdekoodin mallit, joista vahvin on GPT-4o.

iOS-sovelluskehittäjä Nick Dobos sanoi, että Applen standardit ovat ytimekäs ja selkeä.

Samalla hän huomautti, että ChatGPT on jo jonkin verran venynyt kolmen työkalun edessä. Jos Siri haluaa hallita kymmeniä tai satoja sovelluksia matkapuhelimissa, sen on myös parannettava työkalupuheluominaisuuksia.

Seurauksena on, että ToolSandboxin tutkimus saattaa selventää Sirin tulevan tutkimuksen ja kehityksen suuntaa.

Testaa mallia skenaariossa

Kuten edellä mainittiin, ToolSandbox käyttää skenaariopohjaista ja interaktiivista testausmenetelmää.

Tarkemmin sanottuna ToolSandbox sisältää yhteensä lähes 2 000 skenaariota seitsemässä tyypissä, mukaan lukien yhden/usean työkalun kutsuminen, yksi/useita keskustelukierroksia, tilariippuvuus, standardointi ja riittämätön tieto.

Edelliset ovat suhteellisen helppoja ymmärtää. Tässä on joitain selityksiä seuraavalle kolmelle kohtaustyypille:

Tilariippuvuus: Työkalun suoritus riippuu tietyistä globaaleista tiloista, ja tätä tilaa on ensin muutettava muilla työkaluilla;
Standardointi: Muunna luonnollisen kielen lausekkeet työkalun vaatimaan vakiomuotoon, mikä saattaa vaatia muiden työkalujen apua;
Riittämätön tieto: Tehtävän suorittamiseen tarvittavat keskeiset työkalut puuttuvat tarkoituksella. Tarkista, pystyykö malli tunnistamaan tilanteet, joissa sitä ei voida suorittaa.

Näissä skenaarioissa ToolSandbox keskittyy kolmeen mallin indikaattoriin:

Kokonaissuorituskyky eli keskimääräinen samankaltaisuus ennalta asetettujen vastausten kanssa eri skenaarioissa
Vahvuus, käytä erilaisia menetelmiä työkalun muokkaamiseen ja häiritsemiseen sekä tarkkaile mallin suorituskykyä tässä ympäristössä
Tehokkuus, eli tehtävien suorittamiskierrosten keskimääräinen lukumäärä

Työkalujen osalta kirjoittaja valitsi työkaluiksi 34 yhdistettävää Python-toimintoa, jotka ovat verrattavissa todellisten skenaarioiden monimutkaisuuteen.

Se sisältää sekä alkuperäiset Python-työkalut että joitain integroituja RapidAPI-työkaluja, joiden toiminnot kattavat monia yleisiä alueita, kuten haun, dialogin, navigoinnin, sään ja kuvankäsittelyn.

Prosessin kannalta ensimmäinen vaihe on testausskenaarion valmistelu. Tutkijat määrittelevät ja tallentavat alkuperäisen maailmantilan ja käyttävät samalla kalibroitua GPT-4o-mallia alkuperäisen käyttäjäviestin luomiseen.

Sitten siirryttäessä interaktiiviseen suoritusvaiheeseen, järjestelmä alustaa ensin viestiväylän roolien väliseksi viestintäkanavaksi ja konfiguroi mallin, joka esittää käyttäjää ja testattavan mallin.

Kun keskustelusilmukka alkaa, käyttäjää simuloiva malli lähettää alustavan viestin, ja testattava malli vastaanottaa viestin ja päättää seuraavasta toimenpiteestä – joko vastaamalla suoraan käyttäjälle tai kutsumalla työkalun vuorovaikutukseen ympäristön kanssa.

Jos malli päättää kutsua työkalua, se tarjoaa tarvittavat parametrit JSON-muodossa, ja suoritusympäristö sitten tulkitsee ja suorittaa tämän kutsun, mahdollisesti päivittää maailmantilan ja käsitellä mahdollisia rinnakkaisten puheluiden ehtoja.

Kun suoritustulokset palautetaan testattavaan malliin, testattava malli määrittää seuraavan toimenpiteen uudelleen. Tämä prosessi jatkuu, kunnes käyttäjäsimulaattori uskoo, että tehtävä on valmis (tai sitä ei voida suorittaa loppuun), jolloin se kutsuu end_conversationin. työkalu keskustelun lopettamiseen.

Koko vuorovaikutusprosessin aikana järjestelmä tallentaa kaikki viestit ja tilamuutokset muodostaen täydellisen "dialogiraidan", joka sitten siirtyy arviointivaiheeseen.

Arviointi käyttää ennalta määritettyjä "virstanpylväitä" ja "miinankenttiä" agenttimallin suorituskyvyn mittaamiseen.

virstanpylväsKeskeiset tapahtumat tehtävän suorittamiseksi määritellään muodostaen suunnatun asyklisen graafin heijastamaan aikariippuvuuksia.

Järjestelmä etsii parasta yhteensopivuutta tapahtumien ja virstanpylväiden välillä lentoradalla säilyttäen samalla virstanpylväiden topologisen järjestyksen.

miinakenttäSe määrittelee kielletyt tapahtumat ja sitä käytetään pääasiassa havaitsemaan, onko malli hallusinaatioita riittämättömän tiedon vuoksi.

Esimerkiksi alla olevassa kuvassa on esimerkki miinakentän arvioinnista "riittämätöntä tietoa" -skenaariossa.

Tässä tehtävässä, koska nykyinen aikaleima ei ole käytettävissä, mallin ei pitäisi kutsua työkalua timestamp_diff, mutta malli arvaa väärin nykyisen aikaleiman ja kutsuu työkalua, jolloin tuloksena on 0 tälle kierrokselle.

Lopulta järjestelmä laskee yhdistelmäpisteen, joka on keskimääräisen virstanpylvään ottelun tuloksen ja miinakentän rangaistuksen tulo.

Lisäksi järjestelmä laskee myös keskimääräisen tehtävän suorittamiseen tarvittavien kierrosten määrän lisämittarina mallin tehokkuuden arvioimiseksi.

Monimutkaiset vuorovaikutusskenaariot ovat edelleen haaste

Kaiken kaikkiaanSuljetun lähdekoodin mallit toimivat paremmin kuin avoimen lähdekoodin mallit työkalukutsujen suhteen。

Korkein keskimääräinen pistemäärä on GPT-4o, jonka pistemäärä on 73,0. Se on ainoa, joka ylittää 70 ja saavutti korkeimman pistemäärän neljässä kirjoittajan asettamasta seitsemästä skenaariosta.

Lisäksi GPT-4o on myös erittäin vankka. Kirjoittaja käytti työkalun muokkaamiseen 8 menetelmää, joista GPT-4o oli korkein.

Sitä seuraa tiiviisti Claude 3-Opus, jonka keskimääräinen pistemäärä on 69,2, joka ylittää GPT-4o:n kohtauksissa, joissa ei ole riittävästi tietoa, ja sitten jotkut muut versiot GPT:stä ja Claudesta.

Googlen Gemini on suhteellisen jäljessä 1,5 Pron pistemäärä on 60,4, mikä on vain ohimenevä, mutta se ei toimi yhtä hyvin kuin yksittäinen riittämätön tieto.

Avoimen lähdekoodin mallin korkein keskimääräinen pistemäärä on vain 31,4. Niistä kuuluisa Mistral-7B pistemäärä on 29,8, mutta se saavutti parhaan pistemäärän 76,8 yhdellä riittämättömän tiedon kohdalla.

Jopa jotkin avoimen lähdekoodin malleista, kuten Gorilla ja Command-R, eivät pysty käsittelemään työkaluvastauksia ollenkaan tai voivat suorittaa vain tuskin yhden työkalukutsukierroksen.

Lisäanalyysi osoitti senAvoimen lähdekoodin mallit eivät tunnista, milloin on aika käyttää työkaluja, pitäen ongelmaa mieluummin pelkkänä tekstin luontitehtävänä.

Tehtäväulottuvuuden mukaan suuri malli toimii hyvin yksittäisissä/useissa työkalukutsuissa ja yhden kierroksen käyttäjän pyynnöissä, muttaEtu heikkenee monivuoropuheluissa ja tilariippuvaisissa tehtävissä。

GPT:ssä, Claude, Gemini ja muut perheet,Suuremmilla malleilla on selvempiä etuja usean työkalun kutsumisessa ja usean käännöksen dialogitehtävissä.;muttaTilariippuvaisissa tehtävissä, pienissä ja keskisuurissa malleissa(如GPT-3.5、Claude-3-Sonnet)Päinvastoin, se on parempi kuin suuri malli(GPT-4, Claude-3-Opus)suoriutua paremmin。

Lisäksi normalisointi on suuri haaste kaikille malleille, erityisesti skenaarioille, jotka vaativat työkaluja normalisointiin, ja myös aikaan liittyvien parametrien normalisointi on erittäin vaikeaa.

Robustisuustutkimus osoittaa, että mallin herkkyys työkalukuvauksen, parametritietojen jne. muutoksille vaihtelee suuresti, eikä selviä sääntöjä löydy.

Tehokkuuden kannalta vahvemmat mallit ovat yleensä tehokkaampia, mutta poikkeuksiakin löytyy. Esimerkiksi Claude-sarjan mallien tehokkuus on yleensä parempi kuin GPT.

Lyhyesti sanottuna suuret mallit kohtaavat edelleen monia haasteita käytettäessä työkaluja monimutkaisten vuorovaikutusskenaarioiden käsittelemiseen todellisessa maailmassa.

Tietoja kirjoittajasta

ToolSandbox-tiimin jäsenet tulevat Applen koneoppimisen, datatieteen, perussuuren mallin ja muista tiimeistä.

Ensimmäinen kirjoittaja on kiinalainen koneoppimisinsinööriJiarui Lu, valmistui Tsinghuan yliopistosta kandidaatin tutkinnon aikana. Hän toimi myös tutkimusassistenttina professori Zhu Junin laboratoriossa.

Myöhemmin Lu suoritti koneoppimisen maisterin tutkinnon Carnegie Mellonin yliopistosta ja liittyi Applen palvelukseen vuonna 2020 valmistumisen jälkeen.

Mukaan lukien Lu, allekirjoitettu12 kirjoittajasta 10 on kiinalaisia, ja kaikilla on taustat arvostetuista kouluista.

Mukana on myös suuren perusmallitiimin päällikköPang Ruoming(Ruoming Pang).

Lisäksi insinöörijohtaja, joka on työskennellyt Applella 8 vuottaBernhard Aumayerosallistui myös tähän projektiin.

Paperiosoite:
https://arxiv.org/abs/2408.04682

uutiset

Uudet tulokset Applen suuresta mallista: kohtauksen tarkastus suuren mallin työkalupuhelu, nettimies: Sirin on myös tehtävä lujasti töitä

Testaa mallia skenaariossa

Monimutkaiset vuorovaikutusskenaariot ovat edelleen haaste

Tietoja kirjoittajasta

Johdanto

Yhteystietoni