openai mansikkamalli ratsastaa myöhään illalla! fysiikka ja kemia saavuttaa jatko-opiskelijoiden tason, paljon paremmin kuin gpt-4o, chatgpt on saatavilla

2024-09-13

kirjoittaja |

toimittaja |. li shuiqing

zhidongxi raportoi 13. syyskuuta, että varhain tänä aamuna openai julkaisi yhtäkkiä legendaarisen"mansikka" malliosittainen esikatselu -openai o1 esikatseluversio. tämä on sarja uusia tekoälymalleja, jotka voivat pohtia monimutkaisia tehtäviä ja ratkaista ongelmia, jotka ovat vaikeampia kuin aiemmat tieteelliset, ohjelmointi- ja matemaattiset mallit.

▲openai julkaisee o1-mallin

openai o1 on ensimmäinen uudessa tekoälymallisarjassa。aiemmista malleista poiketen onkehittynyt päättelykyky, tulee olemaan mukanamieti tarkkaan ennen kuin vastaat, tuottaa pitkänsisäinen ajatteluketju, ranking kilpailuohjelmointikysymyksissänro 89, sijoittui yhdysvaltain matematiikan olympialaisten karsintaturnaukseenensimmäiset 500, tarkkuus fysiikan, biologian ja kemian ongelmien vertailutesteissäylittää ihmisen tohtoritason！

toinen äskettäin julkaistuo1 minion nopeampi, pienempi malli, koulutettu käyttämällä samanlaista kehystä kuin o1. o1 mini on hyvä tieteissä ja tekniikassa, erityisesti matematiikassa ja ohjelmoinnissa.hinta on 80 % halvempi kuin o1-esikatseluversio。

openai pitää näitä kahta mallia suurena edistysaskeleena monimutkaisissa päättelytehtävissä, joten ne on nimetty o1:ksi laskurin nollaamiseksi eikä gpt-sarjan jatkoksi.

kuitenkin o1-mallin päätelmiä tehostettu versio epäonnistui silti surkeasti "korkean asteen ongelmassa" vertailla kokoja 9.9 ja 9.11.

▲o1-malli vastaa kysymykseen "kokosuhteesta"

andrej karpathy, openai:n perustajajäsen ja entinen tesla ai:n vanhempi johtaja, joka on lähtenyt openai:sta perustaakseen yrityksen, valitti tänä aamuna: "o1-mini on aina kieltäytynyt ratkaisemasta riemannin hypoteesia minulle. mallin laiskuus on edelleen merkittävä tekijä. ongelma 😞"

▲andrej karpathy valitti o1 minin "laiskuudesta"

openai on testannut ja arvioinut tarkasti o1-esikatseluversion varmistaakseen, että malli voidaan julkaista turvallisesti. chatgpt plus- ja team-käyttäjät voivat valita kaksi uutta mallia tänään, ja tier 5 -kehittäjät saavat myös ensimmäisenä api-käyttöoikeuden uusiin malleihin.

openai ilmoitti myös o1-mallin takana olevat ydintiimin jäsenet, mukaan lukien 21 perusavustajaa, mukaan lukien entinen openai:n päätutkija ilya sutskever, joka on lähtenyt perustamaan yrityksen, ja 7 tiiminjohtajaa.

1. mmlu on verrattavissa ohjelmointitaitojen ihmisasiantuntijoihin8kaksinkertainen tappogpt-4o

kuten aiemmin paljastettiin, openai o1 on koulutettu malliksi, joka viettää enemmän aikaa ongelmien pohtimiseen ennen reagoimista. se ajattelee ennen vastaamista ja tuottaa aerittäin pitkä sisäinen ajatusketjuja voi olla kuin ihmisetparanna ajatteluprosessiasi，jatka uusien strategioiden kokeilemistaja ymmärrä virheesi.

varhaisena esikatselumallina openai o1 tällä hetkellätukee vain tekstikeskusteluja, sillä ei ole multimodaalisia ominaisuuksia, kuten verkon selaamista tiedon hankkimiseksi, tiedostojen ja kuvien lataamista jne.

suorituskyvyn suhteen openai o1 onfysiikka, kemia ja biologiasuorituskyky benchmark-tehtävissä jatohtoriopiskelijaihan ja sisällämatematiikka ja ohjelmointierinomainen suorituskyky.

▲openai o1 -arvioinnin vertailuarvot matematiikan ja ohjelmoinnin alalla

kansainvälisen matematiikan olympiadin (imo) karsintakokeessa openai:n edellisen sukupolven mallin gpt-4o tarkkuus oli 13 %, kun taas openai o1:n tarkkuus oli 13 %.tavoita 83 %. koodauskilpailussa codeforces, openai o1'spisteet ovat 89, kun taas gpt-4o:ssa on vain 11. jopa o1-preview-mallin esikatseluversio toimii useita kertoja paremmin kuin gpt-4o.

o1 toimii huomattavasti paremmin kuin gpt-4o useimmissa vertailuarvoissa, ja se kattaa 54 57 mmlu-alakategoriasta. visuaalisen havainnointitoiminnon käyttöönoton jälkeen o1 sai 78,2 % mmlu:sta, muuttuenensimmäinen malli, joka kilpailee ihmisasiantuntijoiden kanssa。

▲ suorituskykyvertailu o1-esikatseluversion ja gpt-4o:n välillä

tässä on muutamia esimerkkejä openai o1 -esikatseluversiosta:

1. ratkaise monimutkainen logiikkatehtävä

syötä amonimutkainen ikäpalapeli: prinsessa on yhtä vanha kuin prinssi, kun hän on kaksi kertaa prinssiä vanhempi ja kun hänen ikänsä on puolet heidän nykyisten ikänsä summasta. kuinka vanhoja prinssi ja prinsessa ovat? anna kaikki ratkaisut tähän ongelmaan.

malli alkoi vastata yli 20 sekuntia ajateltuaan. hänen vastauksensa logiikka on hyvin johdonmukainen. ensimmäinen askel on määrittää ikäyhtälö, muuntaa annetut lauseet matemaattisiksi yhtälöiksi ja löytää kaikki mahdolliset ratkaisut, jotka täyttävät nämä yhtälöt. aloita sitten ongelman analysointi vaihe vaiheelta:

ensimmäinen askel on määrittää muuttujat käyttämällä p:tä edustamaan prinsessaa. toinen vaihe on ymmärtää ongelman kaksi ehtoa. neljäs vaihe on ratkaista; yhtälö vaihe 1 käyttää näitä arvoja kaikkien ehtojen tarkistamiseen, vaihe 6 antaa kaikki mahdolliset ratkaisut.

lopulta tuli johtopäätös:

2. käännä lauseita, joissa on virheitä

ylimääräisten tarpeettomien konsonanttien lisääminen vaikuttaa korean lukemiseen. se ei lue luonnollisesti äidinkielenään puhuville, jotka automaattisesti muuttavat ja ymmärtävät tekstiä nähdessään tällaiset lauseet. mutta tämä on mallille vaikea haaste.

syötä avakavasti vahingoittuneet korealaiset kehotussanatlopulta openai o1 tajusi ensin, että syöttöteksti sisälsi vääriä tai väärin kohdistettuja korealaisia merkkejä, ja kysyi käyttäjältä, haluaisivatko he tarkistaa syöttövirheet.

o1-malli ymmärtää ensin taustalla olevan rakenteen ja noin 10 sekunnin ajattelun jälkeen se purkaa sotkuisen tekstin, tulkitsee tekstin, tehostaa käännöstä, ymmärtää käsitteen ja muuntaa sen takaisin yhtenäiseksi kieleksi.

toisin kuin gpt-4o, o1-malli ajattelee kysymystä ennen vastauksen tulostamista, tarkistaa tekstin ja muuttaa sen sitten oikeaksi lauseeksi kuin se murtaisi vastauksen. noin 15 sekunnin pohdinnan jälkeen o1 antoi lopullisen optimoidun version käännöksestä.

tämä osoittaa, että päättelytaidoista tulee tehokas työkalu ongelmanratkaisuun.

3. vastaa tunnettuun vaikeaan ongelmaan suurissa kielimalleissa: kirjainten laskeminen sanoissa

tämä esimerkki on hyvin yksinkertainen, kirjoita sana strawberry ja anna mallin vastata tähänkuinka monta r-kirjainta sanassa on?。

tämän seurauksena gpt-4o antoi väärän vastauksen: "2."

miksi niin kehittynyt malli tekisi niin yksinkertaisen virheen? tämä johtuu siitä, että malli, kuten gpt-4o, on rakennettu käsittelemään tekstiä, ei merkkejä tai sanoja, joten se voi tehdä virheitä, kun se kohtaa ongelmia, joihin liittyy merkkien ja sanojen käsitteen ymmärtäminen.

uusi päättelyyn perustuva malli o1 voi antaa oikean vastauksen muutaman sekunnin miettimisen jälkeen:

4. videopelien ohjelmointi

anna mallin käyttää pygameatee videopeli nimeltä squirrel finder, ja syötä seuraavat vaatimukset: käyttäjän on ohjattava "koala"-kuvaketta näytöllä painamalla nuolinäppäimiä, vältettävä kelluvia mansikoita ja löydettävä orava 3 sekunnin aikarajan sisällä voittaakseen.

tämä oli vaikeampaa aiemmissa malleissa, mutta o1-esikatseluversio on pystynyt tekemään sen. o1 vietti 21 sekuntia ajatteluun ja käytti ajatteluprosessia koodirakenteen suunnitteluun, mukaan lukien pelin asettelun yksityiskohtien kerääminen, ohjeiden piirtäminen, näytön asettaminen jne. ja sitten lopullisen pelin ohjelmointikoodin tulostaminen.

kopioi ja liitä koodi sublime-tekstieditoriin suorituksen jälkeen näkyviin tulee muutama rivi lyhyitä kehotteita.

tämän jälkeen voit aloittaa pelin "etsitkö oravaa" pelaamisen.

o1-mallissa on huomattavasti paremmat suunnitteluominaisuudet verrattuna aikaisempiin malleihin.

2. miniversion nopeuden parantaminen3~5kertaa, hinta on vain vakioversio1/5

openai julkaistiin myös"pienen kupin versio" malli openai o1-mini,ettänopeampaa ja halvempaa, ja sillä on sama erinomainen suorituskyky matematiikassa ja ohjelmoinnissa kuin vakioversiossa.

openai o1-mini on optimoitu stem-päättelyyn (luonnontiede, teknologia, tekniikka ja matematiikka) esikoulutuksen aikana. kun o1-mini on koulutettu käyttämällä samaa laskennallisesti intensiivistä vahvistusoppimisprosessia (rl) kuin o1, se saavuttaa erinomaisen suorituskyvyn monissa päättelytehtävissä ja on samalla huomattavasti kustannustehokkaampi.

openai o1-mini80 % halvempi kuin openai o1:n esikatseluversio, sopii sovelluksiin, jotka vaativat perusteluja, mutta eivät vaadi laajaa maailmantuntemusta. joissakin älykkyyttä ja päättelyä vaativissa vertailutesteissä o1-mini toimii jopa paremmin kuin o1-esikatselu.

▲matemaattinen suorituskyky ja päättelyn kustannuskäyrä

lukion matematiikan kilpailussa aime o1-minin tarkkuus oli 70 %, mikä vastaa suunnilleen500 parasta lukiolaista yhdysvalloissa. samaan aikaan o1:n ja o1-esikatselun tarkkuus on 74,4% ja 44,6%, mutta o1-minin hinta on paljon halvempi kuin ne.

ihmisten mieltymysten arvioinnin osalta openai sai seuraavat testitulokset pyytämällä arvioitajia testaamaan o1-mini- ja o1-preview haastavia avoimen kehotteen sanoja eri aloilla ja vertaamaan niitä gpt-4o:han. kuten o1-esikatselu, o1-mini on suositumpi kuin gpt-4o alueilla, joilla on raskaita päättelytehtäviä, mutta sitä ei suosita kielikeskeisillä alueilla.

▲ihmisen mieltymysten arvioinnin tulokset

nopeuden suhteen gpt-4o, o1-mini ja o1-preview vievät aikaa vastatakseen samaan sanan perustelukysymykseen.3 sekuntia, 9 sekuntia, 32 sekuntia, mutta gpt-4o:n vastaus on väärä, ja kaksi jälkimmäistä vastausta ovat oikeita. voidaan nähdä, että nopeus o1-mini saada vastausnoin 3-5 kertaa nopeampi kuin o1。

▲gpt-4o, o1-mini ja o1-preview vastenopeus

tietenkin se on loppujen lopuksi "kastroitu versio", ja openai o1-minillä on myös tiettyjä rajoituksia. mitä tulee faktatietoon muista kuin stem-aiheista, kuten päivämääristä, elämäkerroista ja päivittäisistä trivioista, o1-mini on jonkin verran rajallinen ja toimii samalla tasolla kuin pienemmät mallit, kuten gpt-4o mini. openai sanoi parantavansa näitä rajoituksia tulevissa versioissa ja laajentavansa mallia muihin pääaineisiin ja modaliteeteihin stem:n lisäksi.

3. ota käyttöön päättelymerkkejä ja käytä ajatteluketjuja ongelmien ratkaisemiseen

ihmisten tavoin o1 ajattelee pitkään ennen kuin vastaa vaikeisiin kysymyksiin ja käyttötarkoituksiinajatusketju。

vahvistusoppimisen kautta o1 oppi parantamaan ajatteluketjua ja käyttämään strategioita. se on kyky tunnistaa ja korjata virheet, jakaa hankalat vaiheet yksinkertaisempiin ja kokeilla erilaisia lähestymistapoja, kun nykyinen ei toimi. tämä prosessi parantaa huomattavasti mallin päättelykykyä.

erityisesti o1-malli esitteleepäättelymerkki(päättelymerkit). näitä päättelymerkkejä käytetään "ajattelemaan", hajottamaan kehotteen sanan ymmärtäminen ja harkitsemaan useita tapoja luoda vastaus. kun johtopäätöslausekkeet on luotu, malli luo vastaukset näkyvinä valmistumislausekkeina ja hylkää päättelysanat kontekstistaan.

alla on esimerkki monivaiheisesta keskustelusta käyttäjän ja mallin välillä. kunkin vaiheen syöttö- ja lähtötunnisteet säilytetään, kun taas päättelytunnukset hylätään.

▲o1 mallin päättelyprosessi

on syytä huomata, että kun openai suoritti laajamittaisen vahvistusoppimisalgoritmikoulutuksen, havaittiin, ettäintensiivisen oppimis- ja ajatteluajan lisääntyessä, tai pikemminkinharjoitteluajan ja testiajan pidentyessä,，o1:n suorituskyky paranee edelleen. tämä on hyvin erilaista kuin suuren mallin esikoulutuksen skaalauslaki.

▲o1-suorituskyky paranee tasaisesti harjoitusaikaa ja testiaikaa laskettaessa

osoittaakseen o1:n saavuttaman harppauksen openai on paljastanut o1:n esikatseluversion synnyttämän ajatteluketjun ratkaistaessa ongelmia, kuten ohjelmointi, matematiikka, dekoodaus ja englanti.

esimerkiksi kun saat akysymysten dekoodaus, gpt-4o puristi ensin tulon, lähdön ja esimerkit ja alkoi sitten analysoida mahdollisia dekoodausmenetelmiä.

▲gpt-4o:n purkutulo, lähtö ja esimerkit

se arveli, että ensimmäinen lause saattoi noudattaa samaa rakennetta kuin esimerkki, sillä se ymmärsi, että syötetyt tekstit näyttivät jakautuvan luonnollisiin erotuksiin tai kuvioihin perustuviin ryhmiin, mutta lakkasi sitten toimimasta, koska se sanoi tarvitsevansa lisätietoja muunnuksista tai kirjainten siirroista, jotka saattavat olla olla mukana vähän kontekstissa.

▲gpt-4o sanoi, että lisätietoja tarvitaan

toisaalta openai o1-esikatselu kävi läpi ajatteluavastasi tarkasti。

▲o1-esikatselu vastaa oikein dekoodausongelmaan

vaikka esitetty lopullinen vastaus oli hyvin lyhyt, o1:n ajatteluprosessi oli hyvin pitkä ja hänen ajattelunsa ja sanamuotonsa olivat hyvin inhimillisiä. se alkaa kysymällä itseltään "mitä täällä tapahtuu" ja sittentoista pyyntö, aloita sittenerottele tehtäviä ja selvennä tavoitteita。

▲o1 ajatteluprosessi

sitten o1 alkaatarkkaile saamiasi tietoja,jaaskel askeleelta analyysi。

▲o1 ajatteluprosessi

pienen pohdinnan jälkeen o1 alkaakeksi erilaisia ratkaisuja. tämän prosessin aikana, kuten ihmiset, he sanovat yhtäkkiä "odota hetki, luulen..." ja alkavat sitten ajatella uudelleen.kokeilla uusia menetelmiä。

▲o1 ajatteluprosessi

sen lisäksi, että o1:n ajatteluprosessissa esiintyy jopa sellaisia sanoja kuin "um" ja "mielenkiintoinen".puhekielellinen, tunteellinenilmaisua.

▲o1 ajatteluprosessi

koko ajatusketju on hyvin pitkä, joten en mene tässä yksityiskohtiin. yleisesti ottaen, kuten openai sanoi, o1 voi jatkuvasti parantaa ajatteluprosessiaan ihmisten tavoin, kokeilla uusia strategioita, tunnistaa omat virheensä ja ratkaista ne. ja "kuten ihmiset" tässä ei rajoitu ajattelutapaan, vaan heijastuu myös sävyyn.

neljä,käytettävissä keskusteluun joka viikko30~50kertaa, ilja osallistui perusmaksuihin

aiemmin poiketen openai ei tällä kertaa listannut futuureja, vaansiirry suoraan verkkoonkaksi mallia.

tästä eteenpäin chatgpt plus- ja team-käyttäjät voivat käyttää o1-mallia chatgpt:ssä ja valita manuaalisesti o1-preview- tai o1-mini-mallinvalitsimen kautta yritys- ja koulutuskäyttäjät voivat käyttää sitä ensi viikosta alkaen, ja myös ilmaiset käyttäjät voivat saada käyttöoikeus tulevaisuudessa.

▲käyttäjät voivat käyttää o1-mallia chatgpt:ssä

mutta ehkä turvallisuus- tai kustannussyistä johtuen molemmat mallit rajoittavat tällä hetkellä viestien määrää, esikatseluversiota ja miniversiota.viestejä lähetetään viikossa 30 ja 50.. openai sanoi, että se työskentelee kovasti lisätäkseen kiintiötä ja mahdollistaakseen chatgpt:n valita automaattisesti sopivan mallin annettujen kehotteiden perusteella.

openai on myös julkaissut o1-mallin api:n (application programming interface). pätevät kehittäjät voivat nyt aloittaa prototyyppien tekemisen molempien mallien api:lla nopeusrajoituksella 20 rpm. nämä api:t eivät tällä hetkellä sisällä toimintokutsuja, suoratoistoa, järjestelmäviestien tukea ja muita toimintoja.

▲o1, o1 minimallin api

kuten api-dokumentaatiosta voidaan nähdä, nämä kaksi malliakontekstiikkunat ovat kaikki 128k, kun miniversion tulostusikkuna on pidempi,on kaksi kertaa suurempi kuin o1, lisäksi molempien mallien harjoitustiedot ovat lokakuulta 2023.

openai ilmoitti myös o1-mallin takana olevan tiiminydinryhmän jäseniä：

▲ o1-mallin takana olevat ydintiimin jäsenet

sisäänperusjäseniä on 21, mukaan lukien entinen openai:n päätutkija ilja sutskever, joka lähti perustamaan yritystä.

ryhmässä on 7 johtajaa, vastaavasti jakub pachocki, jerry tworek (kokonaisuutena), liam fedus, lukasz kaiser, mark chen, szymon sidor, wojciech zaremba. projektipäälliköt ovat lauren yang ja mianna chen.

ryhmän jäsenten mukaan päättely on kykyä muuntaa ajatteluaikaa parempiin tuloksiin. he panostivat aiempaa enemmän laskelmiin, kouluttaen mallin tuottamaan yhtenäisiä ideoita ja tuottamaan täysin erilaista suorituskykyä kuin ennen.

he harjoittelevat tekoälymallia vahvistusoppimisen avulla luomaan ja hiomaan omia ajatusketjujaan jopa paremmin kuin ihmisten sille ohjelmoimat ajatusketjut. tämä tapa kouluttaa tekoälymalli luomaan oma ajatteluprosessinsa parantaa merkittävästi sen kykyä ymmärtää ja korjata virheitä, ja varhaiset o1-mallit ovat jo saavuttaneet korkeampia pisteitä datatesteissä.

luettelo ydinkäyttäjistä ja muista avustajista on seuraava:

▲ luettelo o1:n ydinkäyttäjistä ja muista avustajista

hallinnollisiin johtajiin kuuluu 8 henkilöä, mukaan lukien openai:n toimitusjohtaja sam altman, presidentti greg brockman, toimitusjohtaja mira murati ja 8 tukijohtajaa.

▲o1 hallinnollinen johtaminen, tuki johtajuutta

uusi o1-malli voi päätellä ja hyödyntää tietoturvasääntöjä tehokkaammin kontekstuaalisesti. openai on suorittanut o1-esikatselun tiukan testauksen ja arvioinnin varmistaakseen, että malli voidaan julkaista turvallisesti ilman olemassa olevista resursseista mahdollisesti aiheutuvia riskejä.

johtopäätös: openai kääntää pöydän, "mansikka" rekonstruoi suuren mallikuvion?

salaperäisestä q*-mallista "mansikka"-malliin openai:n uusi malli on vihdoin saatavilla. openai:n "vallankaappauksen" alkamisesta viime marraskuussa tämä malli on paljastettu yhdeksi altmanin karkottamiseen johtaneista avaintekijöistä. tuolloin huhuttiin, että q*-mallin esittely oli liikkeellä openai:ssa, ja kehityksen nopeus järkytti joitain tekoälyn tietoturvatutkijoita.

toisin kuin gpt-4o, o1-mallivalinta avaa suoraan uuden numeroiden nimeämissarjan gpt:n jatkon sijaan, mikä osoittaa, että openai pitää sitä erittäin tärkeänä.

nyt kun monet suuret mallien valmistajat ovat alkaneet ottaa käyttöön multimodaalisia ja volyymisovelluksia, openai:n pelkkä tekstimalli o1 saattaa jälleen kerran kiinnittää yleisön huomion taustalla olevien mallien ominaisuuksien parantamiseen. nähtäväksi jää, rekonstruoidaanko suuri mallimaisema o1:n vaikutuksesta.

uutiset

openai mansikkamalli ratsastaa myöhään illalla! fysiikka ja kemia saavuttaa jatko-opiskelijoiden tason, paljon paremmin kuin gpt-4o, chatgpt on saatavilla

johdanto

yhteystietoni