uutiset

openai o1 -malli ilmestyy, viisitasoinen agi murtaa jälleen! mies, jolla on supertohtorin tutkinto järkeilyssä, kiinalainen fudanin yliopistosta pohjois-qing-dynastiasta, joka on tehnyt ansiokkaita tekoja

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

juuri nyt openai:n tehokkaimmat o1-sarjan mallit tulivat yhtäkkiä verkkoon. ilman varoitusta openai heitti tämän ukkonen.

mansikkamalli, jonka kerrottiin olevan verkossa kahdessa viikossa, saapui itse asiassa kahdessa päivässä!

tästä päivästä alkaen o1-preview otetaan käyttöön kaikille plus- ja team-käyttäjille chatgpt:ssä sekä tason 5 kehittäjille api:ssa.

samaan aikaan openai julkaisi myös o1-minin - kustannustehokkaan päättelymallin, joka on erittäin hyvä stemissä, erityisesti matematiikassa ja koodauksessa.

o1-mallissa on edelleen puutteita ja rajoituksia, ja se on vaikuttavampi ensimmäisellä käyttökerralla kuin pitkällä aikavälillä.

uuden o1-sarjan suorituskyky monimutkaisessa päättelyssä on nostettu aivan uudelle tasolle. sillä voidaan sanoa olevan todellisia universaaleja päättelykykyjä.

vertailutestien sarjassa o1 on jälleen tehnyt valtavan parannuksen gpt-4o:han verrattuna. se on pystynyt voittamaan kultamitalin fysiikan, biologian ja kemian ongelmien vertailutesteissä. ihmisten tohtorintutkintojen taso!

openai-tutkija jason wei sanoi, että o1-mini on yllättävin tutkimustulos, jonka hän on nähnyt viimeisen vuoden aikana. pieni malli saavutti itse asiassa yli 60 % pistemäärän aime-matematiikkakilpailussa.

kuitenkin openai-artikkelin liitteen perusteella tällä kertaa julkaistu esikatselu ja mini näyttävät olevan vain o1:n "kastroituja versioita".

päätelmien skaalaus avaa uuden paradigman

nvidia:n vanhempi tutkija jim fan analysoi edelleen o1-mallin taustalla olevia periaatteita.

hän sanoi, että päätelmien aikaskaalauksen uusi paradigma on laajalti suosittu ja otettu käyttöön. kuten sutton sanoi "a bitter lessonissa", on vain kaksi tekniikkaa, jotka voivat skaalata laskentatehoa rajattomasti: oppiminen ja haku.

nyt on aika kääntää huomiomme jälkimmäiseen.

1. päätelmien tekemiseen ei tarvita suuria malleja.

2. siirrä suuri määrä laskelmia esi-/jälkikoulutuksesta päättelypalveluihin

3. openai on täytynyt löytää päättelyn skaalaussäännön hyvin varhain, mutta akateeminen yhteisö on vasta hiljattain alkanut havaita sen.

4. o1:n käyttöönotto käytännössä on paljon vaikeampaa kuin menestyminen akateemisissa mittareissa

5. mansikasta voi helposti tulla datan vauhtipyörä

openai:n aiemmasta luokittelusta päätellen o1 on saavuttanut l2-tason päättelykyvyn.

joku testasi sitä ja havaitsi, että o1 kirjoitti onnistuneesti erittäin vaikean runon. prosessissa tämän tehtävän onnistuneeseen suorittamiseen tarvittava suunnittelu ja ajattelu oli hullua, ja päättelyajan laskeminen oli erittäin siistiä.

tekoälyguru karpathy valitti kuitenkin testattuaan o1-miniä: "se on kieltäytynyt ratkaisemasta minulle riemannin hypoteesia. mallin laiskuus on edelleen suuri ongelma, mikä on todella surullista."

nyu:n apulaisprofessori xie saining yritti myös testata klassista kysymystä "kumpi on isompi, 9.11 vai 9.8?" o1-esikatselu sai yllättäen silti väärän vastauksen.

klassinen ongelma "kuinka monta r:tä mansikassa on" ei tietenkään ole ongelma o1:lle.

big v matthew sabia sanoi, että pelottavin asia on, että gpt-5 on 69 kertaa tehokkaampi kuin o1-malli. tavalliset ihmiset eivät yksinkertaisesti ymmärrä norsujen päättelyä ja loogisia kykyjä.

ovatko ihmiset todella valmiita?

ihmisiä hämmentävät loogiset päättelyongelmat ratkaistaan ​​o1:llä

tiedämme kaikki, että looginen päättely oli vaikea vuori ylittää aiemmille llm:ille.

mutta tällä kertaa o1-mallin kyky ratkaista monimutkaisia ​​loogisia ongelmia on yllättävää.

esimerkiksi seuraava logiikkakysymys -

prinsessan ikä on sama kuin prinssin ikä jossain vaiheessa tulevaisuudessa, kun prinsessan ikä on kaksi kertaa prinssin ikä jossain menneisyydessä, ja tuolloin menneisyydessä prinsessan ikä on puolet summasta nykyisen ikänsä. minkä ikäisiä prinsessa ja prinssi ovat nyt? anna kaikki ratkaisut tähän ongelmaan.

tämä kysymys on äärimmäisen vaikea lausua jopa ihmisiltä vaatisi paljon vaivaa kääntää ja ymmärtää kysymyksen oikein.

järkyttävää kyllä, o1-malli todella antoi oikean vastauksen muutaman ajattelun jälkeen!

vaiheiden, kuten muuttujien määrittelyn, ongelmien ymmärtämisen ja yhtälöiden ratkaisemisen kautta päätetään, että prinsessan ikä on 8 000 vuotta ja prinssin ikä on 6 000 vuotta, missä k on positiivinen kokonaisluku.

toisessa demossa jason wei näytti meille, kuinka o1 ohjelmoi videopelin kehotteiden perusteella.

kuten näet, hän kopioi kehotteen o1-malliin.

tämän jälkeen malli ajatteli 21 sekuntia ja näytti koko ajatteluvaiheet.

tämän jälkeen mallille annetaan koodi.

koodin suorittamisen jälkeen peli osoittautui erittäin sujuvaksi!

annoimme jopa o1:lle joukon hämmentäviä korealaisia ​​lauseita ja pyysimme sitä kääntämään ne englanniksi, ja se todella teki sen.

koska vaikka lause on kieliopillisesti epäselvä, o1 purkaa sen silti askel askeleelta.

lopulta o1 antoi vastauksen ja sanoi humoristisesti: kukaan planeetan kääntäjä ei pysty siihen, mutta korealaiset voivat helposti tunnistaa sen. tämä on tapa salata korea vokaalien ja konsonanttien avulla.

sitä vastoin gpt-4o oli täysin hämmentynyt eikä kyennyt ymmärtämään.

voidaan nähdä, että o1:n supersuorituskyky on nostanut loogisen päättelyn uudelle tasolle.

miten se tehdään?

vahvistusoppiminen tekee suuria saavutuksia, suuren alphago-mallin aika on tulossa

ero o1-sarjan mallien ja menneisyyden välillä on se, että se viettää enemmän aikaa "ongelman miettimiseen" ennen kuin vastaa kysymykseen, aivan kuten ihmiset.

koulutuksen kautta he oppivat jalostamaan ajatteluprosessejaan, kokeilemaan erilaisia ​​strategioita ja tunnistamaan virheitä itse.

tämän takana tehokas "vahvistusoppimisalgoritmi" on antanut suuren panoksen. silloin, kun alphago voitti shakinpelaajia, sen takana käytettiin rl-algoritmia.

se täydentää tehokkaan koulutuksen korkean tason datalla ja opettaa llm:ää ajattelemaan tuottavasti cot:n avulla.

jason wei, cot:n ja openai-tutkijan ehdotuksen takana oleva kehittäjä, sanoi, että o1 ei suorita cot:tä pelkästään kehotteiden kautta, vaan käyttää rl-koulutusmalleja ketjuajattelun suorittamiseksi lopulta paremmin.

lisäksi openai-tiimi löysi myös "uuden lain" mallin skaalauslaista.

o1:n suorituskyky paranee edelleen, kun panostetaan enemmän vahvistusoppimiseen (harjoitusaikalaskelmat) ja enemmän ajatteluaikaa (koeaikalaskelmat).

tämän menetelmän rajoitukset skaalauksen aikana ovat aivan erilaisia ​​kuin llm-esikoulutuksen rajoitukset.

o1:n suorituskyky paranee tasaisesti harjoitus- ja testausvaiheen laskelmien määrän kasvaessa.

luettelo kultamitalijoukkueista

päättelytutkimus

perustajatyöntekijöiden joukossa on selkeästi listattu ilja sutskever, joka jätti työnsä perustaakseen yrityksen, mutta häntä ei ole listattu johtajuuteen (executive leadership) greg brockmanin ja muiden kanssa. perustan loi varmasti hänen aiemman tutkimustyönsä o1:lle.

iljan eron jälkeen openai kaivoi esiin myös monia hänen kirjoituksiaan ja alkoi julkaista niitä, kuten gpt-4-mallin tulkittavuutta koskevaa tutkimusta.

nykyään hänen perustamansa ssi kukoistaa. se on kerännyt 1 miljardin dollarin rahoitusta ilman edes tuotetta, ja sen arvo on 5 miljardia dollaria.

hongyu ren

hongyu ren valmistui pekingin yliopistosta tietojenkäsittelytieteen kandidaatiksi ja suoritti tohtorin tutkinnon stanfordista. hän on työskennellyt openai:ssa viime vuoden heinäkuusta lähtien.

jason wei

jason wei työskentelee tällä hetkellä openai:n tutkijana. hän työskenteli google brainissa vuosina 2020–2023, ehdotti kuuluisaa cot:tä, ohjeiden hienosäätöä ja julkaisi paperin suurten mallien syntykyvystä.

kevin yu

kevin yu työskentelee tällä hetkellä openai:n tutkijana. hän suoritti maisterin tutkinnon fysiikasta ja astrofysiikasta ja tohtorin tutkinnon neurologista uc berkeleystä vuonna 2014 ja 2021.

shengjia zhao

shengjia zhao valmistui tsinghuan yliopistosta ja sai myös tohtorin tutkinnon stanfordista valmistuttuaan kesäkuussa 2022, hän liittyi openai:n tekniseen tiimiin.

wenda zhou

wenda zhou liittyi openai:hen viime vuonna. aiemmin hän oli moore-sloan fellow new yorkin yliopiston data science centerin laboratoriossa.

hän suoritti maisterin tutkinnon cambridgen yliopistosta vuonna 2015 ja tohtorin tutkinnon columbia universitystä vuonna 2020.

francis laulu

francis song suoritti kandidaatin tutkinnon fysiikassa harvardin yliopistosta ja tohtorin tutkinnon yalen yliopistosta. hän liittyi openai:hen vuonna 2022. hän toimi aiemmin tutkijana deepmindissä ja apulaistutkijana new yorkin yliopistossa.

mark chen

mark chen on toiminut frontier researchin johtajana siitä lähtien, kun hän liittyi openai:han vuonna 2018, ja hän on ohjannut työryhmää tutkimuksen varatoimitusjohtaja bob mcgrew'n johdolla.

valmistuttuaan mit:stä chen suoritti kaksinkertaisen kandidaatin tutkinnon matematiikassa ja tietojenkäsittelytieteessä.

tällä hetkellä hän toimii myös amerikkalaisen ioi-koulutusjoukkueen valmentajana.

the information spekuloi kerran, että mark chenistä tulee tulevaisuudessa openai:n johdon jäsen.

lisäksi johtoryhmään kuuluvat myös jakub pachocki, johtava tutkija, joka otti tehtävänsä ilyalta, ja wojciech zaremba, yksi harvoista jäljellä olevista openai:n perustajista.

perustelua teknisestä turvallisuudesta

jieqi yu

jieqi yu valmistui fudanin yliopistosta elektroniikkatekniikan kandidaatin tutkinnolla. hän meni hongkongin tiede- ja teknologiayliopistoon vaihtoon ja sai sitten tohtorin tutkinnon princetonin yliopistosta. hän työskenteli facebookissa 12 vuotta, siirtyen ohjelmistosuunnittelijasta ohjelmistosuunnittelupäälliköksi ja liittyi openai:hun suunnittelupäälliköksi viime vuoden elokuussa.

kai xiao

xiao kai valmistui mit:stä sekä perustutkintonsa että tohtorintutkintonsa. hän kävi myös oxfordin yliopistossa akateemisissa vierailijoissa, kuten deepmindissä ja microsoftissa liittyi openai:hen syyskuussa 2022.

lilian weng

lilian weng on tällä hetkellä openai-tietoturvajärjestelmän päällikkö ja keskittyy pääasiassa koneoppimiseen, syväoppimiseen ja muuhun tutkimukseen.

hän valmistui pekingin yliopistosta kandidaatin tutkinnolla tietojärjestelmistä ja tietojenkäsittelytieteestä. hän meni hongkongin yliopistoon lyhytaikaiseen vaihtoon ja suoritti sitten tohtorin tutkinnon indiana university bloomingtonista.

mark chenin tavoin liliania pidetään nousevana tähtenä openai:n johtajuudessa.

täydellinen joukkueiden lista on seuraava:

biokemiallinen fysiikka ihmisen tohtoritason ulkopuolella

mikä on o1:n vahvuus openai:n luomana uutena mallisarjana?

sijalla 89 %:ssa kilpailuohjelmointiongelmista (codeforces sijoittui 500 parhaan opiskelijan joukkoon american mathematical olympiad competition qualifiersissa (aime).

mikä tärkeintä, se ylittää ihmisen phd-tason fysiikan, biologian ja kemian ongelmien (gpqa) vertailutestissä.

yleisesti käytetyissä benchmark-testeissä, kuten math ja gsm8k päättelyyn, o1 ja monet viimeaikaiset huippumallit ovat saavuttaneet kylläisen suorituskyvyn ja niitä on vaikea erottaa toisistaan. siksi openai valitsee pääasiassa aime:n arvioimaan myös mallin matemaattisia ja päättelykykyjä. kuten muutkin ihmistestit ja benchmark.

aime on suunniteltu haastamaan yhdysvaltojen parhaiden lukiolaisten matemaattiset kyvyt vuoden 2024 aime-kokeessa gpt-4o ratkaisi keskimäärin vain 12 % (1,8/15).

o1:n parannus on kuitenkin varsin merkittävä, sillä se ratkaisee keskimäärin 74 % (11,1/15) kysymyksistä ja saavutti 83 % (12,5/15), kun enemmistöäänestys suoritetaan 64 otoksessa. jos käytämme pisteytystoimintoa ja järjestämme 1000 näytettä uudelleen, tarkkuus on jopa 93 % (13,9/15).

pistemäärä 13,9 tarkoittaa, että o1:n taso on saavuttanut maan 500 parhaan opiskelijan joukossa ja ylittänyt yhdysvaltain matemaattisten olympialaisten finalistipisteet.

haastavissa tehtävissä, kuten codeforces ja gpqa diamond, o1 ylittää huomattavasti gpt-4o:n.

o1 on huomattavasti parempi kuin gpt-4o haastavassa johtopäätöksessä

gpqa diamond testaa asiantuntemusta kemian, fysiikan ja biologian aloilla. vertaakseen mallia ihmisiin tiimi rekrytoi asiantuntijoita, joilla oli tohtorintutkintoja vastaamaan sen kysymyksiin.

tämän seurauksena o1 suoritti nämä ihmisasiantuntijat (69,7) (78,0) ja siitä tuli ensimmäinen malli, joka ohitti ihmiset tällä vertailulla.

tämä tulos ei kuitenkaan tarkoita, että o1 olisi kaikilta osin vahvempi kuin tohtorintutkinnon suorittanut ihminen, se osoittaa vain, että se osaa ratkaista joitain vastaavan tason ongelmia taitavammin.

lisäksi o1 päivitti sotaa myös vertailutesteissä, kuten math, mmlu ja mathvista.

visuaalisen havaintokyvyn mahdollistamisen jälkeen o1 saavutti mmmu:ssa 78,1 %:n pistemäärän. siitä tuli ensimmäinen malli, joka kilpailee ihmisasiantuntijoiden kanssa, ohittaen gpt-4o:n 54:ssä 57:stä mmlu-alaluokasta.

o1 ylittää gpt-4o:n useissa vertailuissa, mukaan lukien 54/57 mmlu-alaluokat

ajatusketju

vahvistusoppimisen avulla o1 oppi tunnistamaan ja korjaamaan omat virheensä ja pilkkomaan monimutkaiset vaiheet yksinkertaisempiin.

se myös yrittää eri menetelmiä, kun nykyinen ei toimi. tämä prosessi parantaa merkittävästi mallin päättelykykyä.

otetaan esimerkki "salauksesta".

kysymys kuuluu: "ajattele askel askeleelta" salauksen jälkeen vastaa sanaa "oyfjdnisdr rtqwainr acxz mynzbhhx", kysyy, mitä "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz" tarkoittaa.

voidaan nähdä, että gpt-4o on täysin avuton tällaisessa ongelmassa.

o1 perusteli salauslaskentamenetelmää tunnettujen tietojen perusteella ja antoi lopulta oikean vastauksen - mansikassa on kolme r:tä.

gpt-4o

o1-esikatselu

ohjelmointi

tässä arvioinnissa openai koulutti edelleen o1:een perustuvaa ohjelmointitehostettua mallia.

vuoden 2024 international olympiad in informaticsissa (ioi) uusi malli sai 213 pistettä ja sijoittui 49 prosentin sijalle.

kurssin aikana malleilla on kymmenen tuntia aikaa ratkaista kuusi haastavaa algoritmista tehtävää, joista 50 tehtävää kohden.

kun lähetysrajoituksia kevennetään, mallin suorituskykyä voidaan parantaa merkittävästi. kun 10 000 palautetta per kysymys sallittiin, malli saavutti pistemäärän 362,14, mikä ylitti kultamitalikynnyksen.

lopuksi openai simuloi myös codeforcesin isännöimää kilpailullista ohjelmointikilpailua noudattaen tiukasti sääntöjä ja sallien 10 lähetystä.

gpt-4o:n elo-pistemäärä on 808, mikä on 11 % ihmispelaajista. uusi malli ylitti huomattavasti gpt-4o:n ja o1:n saavuttaen korkean pistemäärän 1807, mikä ylitti 93 % pelaajista.

ohjelmointikilpailujen o1 parannettu edelleen hienosäätö: parannettu malli sijoittui kilpailusääntöjen mukaan 49. prosenttipisteeseen vuoden 2024 kansainvälisessä tietotekniikan olympialaisessa

ihmisen mieltymysten arviointi

kokeiden ja akateemisten vertailuarvojen lisäksi openai arvioi ihmisten mieltymyksiä o1-preview:lle verrattuna gpt-4o:han haastavissa, avoimissa kehotteissa useilla eri aloilla.

tässä arvioinnissa ihmiset näkevät anonyymejä vastauksia o1-preview- ja gpt-4o-sanoihin ja äänestävät siitä, kumpaa vastausta he haluavat.

päättelyä vaativissa luokissa, kuten data-analyysi, ohjelmointi ja matematiikka, ihmiset valitsevat todennäköisemmin o1-esikatselun. mutta joissakin luonnollisen kielen tehtävissä gpt-4o on parempi.

toisin sanoen o1-esikatselu ei tällä hetkellä sovellu kaikkiin käyttöskenaarioihin.

alueilla, joilla päättelykyky on tärkeämpää, ihmiset valitsevat todennäköisemmin o1-esikatselun

o1-mini on erittäin kustannustehokas

voidakseen tarjota kehittäjille tehokkaampia ratkaisuja openai julkaisi o1-minin - nopeamman ja halvemman päättelymallin.

pienempänä mallina o1-mini on 80 % halvempi kuin o1-preview.

tämä on tehokas ja kustannustehokas malli sovelluksille, jotka vaativat perusteluja, mutta jotka eivät vaadi yleistä maailmantietoa.

nykyinen o1-sarja on kuitenkin vielä alkuvaiheessa, eikä ominaisuuksia, kuten verkkolaajennuksia, pitkän matkan tiedostojen siirtoa ja kuvia, ole vielä integroitu. lyhyellä aikavälillä gpt-4o on edelleen vahvin pelaaja.

viitteet:

https://openai.com/index/learning-to-reason-with-llms/