openai:n uuden o1-mallin arviointi viidellä suurella ulottuvuudella: koodaus, pelituotanto ja muut kyvyt ovat "hämmästyttävää", mutta faktatieto on "käännetty"

openai:n uuden o1-mallin arviointi viidellä ulottuvuudella: koodaus, pelituotanto ja muut kyvyt ovat "hämmästyttävää", mutta faktatieto on "kumottu"

2024-09-18

legendaarinen "strawberry" -malli tuli yhtäkkiä verkkoon tänään ilman ennakkoilmoitusta!

uusin openai:n julkaisema malli on nimeltään o1, joka on ensimmäinen versio johtopäätösmallien sarjastao1-esikatselu (esikatseluversio) ja o1-mini (miniversio）。

tällä hetkellä o1-preview ja o1-mini ovat jo chatgpt plus- ja team-tilaajien saatavilla, kun taas enterprise- ja edu-käyttäjät saavat pääsyn ensi viikon alussa. openai sanoi aikovansa tarjota o1-mini-käyttöoikeuden kaikille ilmaisille chatgpt:n käyttäjille, mutta ei ole vielä asettanut julkaisupäivää.

openai:n mukaan o1-malli on lähempänä ihmisen ajattelua kuin mikään aikaisempi malli ongelmanratkaisukyvyn suhteen ja pystyy "järkemään" matemaattisiin, koodaus- ja tieteellisiin tehtäviin.

"daily economic news" -lehden toimittaja varmistaa, ovatko uuden mallin ominaisuudet yhtä tehokkaita kuin openai väittää.klassisesta "mansikkatestistä"”o1-esikatselumallia testattiin viidessä ulottuvuudessa: , koodin kirjoittaminen, minipelituotanto, matematiikka ja taloustiede sekä faktatieto.

tulokset osoittivat, että o1-preview osoitti ohjelmointi- ja matemaattisia päättelykykyjä, jotka ylittivät openai:n aiemmin julkaisemat suuret mallit. esimerkiksi o1- esikatselukyky kirjoittaa koodia, joka toimii sujuvasti ja silti miettiä ratkaisuja itse monimutkaisissa ympäristöissä. lisäksi toimittaja koki testiprosessin aikana myös, että o1-esikatselua on parannettu huomattavasti myös inhimillistymisen suhteen, ja se näyttää oikean henkilön ajattelun. uudessa mallissa ei kuitenkaan ole puutteita, ja se "kaosi" faktatietotestissä.

legendaarinen "mansikka" on täällä

syyskuun 12. päivänä, paikallista aikaa, openai julkaisi uuden mallin nimeltä o1, joka on ensimmäinen versio "päätelmä"-mallien sarjasta, jota se aikoo käyttää. se on myös "mansikka"-malli, josta on huhuttu alalla pitkään aikaan.

kuvan lähde: x platform

openai:lle o1 on uusi askel kohti tavoitetta ihmisen kaltaisesta tekoälystä. openai uskoo, että o1 edustaa täysin uutta kykyä, jota pidettiin niin tärkeänä, että yritys päätti aloittaa alusta nykyisestä gpt-4-mallista, hylkäämällä "gpt"-brändin kokonaan ja nimeämällä sen yhdestä.

openai sanoo aloittavansa alusta nykyisellä gpt-4-mallilla, "nollaamalla laskurin 1:een", ja jopa hylkäävän "gpt"-brändin, joka on tähän asti määritellyt chatbotit ja koko generatiivisen tekoälyhulluuden.o1 rakensi järjestelmän, joka pystyy ratkaisemaan ongelmat huolellisesti ja loogisesti useiden erillisten vaiheiden avulla, joista jokainen perustuu edelliseen vaiheeseen, samalla tavalla kuin ihmiset ajattelevat.

openai:n päätutkija jakub pachocki sanoi, että aiemmat mallit alkaisivat heti vastata käyttäjien tiedusteluihin saatuaan ne. "ja tämä malli (viittaen o1:een) vie aikansa. se pohtii ongelmaa ja yrittää hajottaa sen, löytää kulmia ja yrittää tarjota parhaan vastauksen. tämä on aivan kuten heidän vanhempansa kysyivät useimmilta." he olivat nuoria, ajattele ennen kuin puhut.

openai sanoi,o1 on 89. prosenttipiste kilpailuohjelmointiongelmissa (codeforces), yhdysvaltojen 500 parhaan opiskelijan joukossa american mathematics olympiadin (aime) karsinnassa ja gpqa:n (benchmark test for physics, biology and chemistry problems) tarkkuustestissä. joka ylittää ihmisen tohtorin tason。

openai:n julkaisemissa tutkimuksissa ja blogikirjoituksissa o1:llä näyttää olevan erittäin voimakkaita "päättelykykyjä" ja se voi paitsi ratkaista edistyneitä matematiikka- ja koodausongelmia, myös purkaa monimutkaisia salasanoja ja vastata asiantuntijoiden ja tutkijoiden kysymyksiin genetiikasta, taloudesta ja kvanttitieteestä. monimutkaiset fysiikan ongelmat. suuri määrä kaavioita osoittaa sensisäisissä arvioinneissa o1 on ohittanut gpt-4o:n, yrityksen kehittyneimmän kielimallin koodauksen, matematiikan ja eri tieteenalojen ongelmissa, ja on ehkä jopa ohittanut ihmiset.

kuvan lähde: openai:n virallinen verkkosivusto

varsinaisen testauksen viisi ulottuvuutta: koodaus, pelituotanto ja muut kyvyt ovat "hämmästyksiä", mutta "epäonnistuneita" faktatietotestissä

saadakseen syvemmälle ymmärryksen o1-mallin tehokkaista ominaisuuksista "daily economic news" -lehden toimittajat testasivat o1-esikatselumallia viidestä ulottuvuudesta: klassinen mansikkatestaus, koodin kirjoittaminen, minipelien tuotanto, matematiikka ja taloustiede, ja faktatietoa.

1) mansikkatesti

ensinnäkin toimittaja suoritti testin käyttämällä yksinkertaista kysymystä, jonka melkein kaikki suuret mallit ovat "kääntäneet" aiemmin, eli "kuinka monta r-kirjainta sanassa mansikka on?"”. syntyneistä tuloksista päätellen o1-preview toi silti pienen yllätyksen.

2) koodin kirjoittaminen

toimittaja kysyi ensin o1-esikatselusta tunnetuimmasta yksinkertaisesta algoritmikysymyksestä online-ohjelmointialustan leetcodessa: two sum (kahden luvun summa) -ongelmasta. o1 antoi erittäin yksityiskohtaisen perusteluprosessin ja vastaukset.

sitten toimittaja pyysi tarkoituksella optimoimaan vastauksen 9 sekunnin pohdinnan jälkeen o1 tajusi, että se, mitä hän tarjosi, oli jo optimaalinen ratkaisu, ja selitti sen lisäksi. aiemmissa toimittajien muiden mallien testeissä nämä mallit vain pyysivät anteeksi ja muuttivat sitten vastauksen alioptimaaliseen ratkaisuun.

3) minipelin tuotanto

o1-mallin esittelyssä openai osoitti toiminnon "kirjoittaa minipeli yhdellä lauseella". testausprosessin aikana toimittaja pyysi o1-previewia auttamaan esittelemään hyödyllisiä koodaustyökaluja ja auttamaan pingispelin kirjoittamisessa.

kesti vain 19 sekuntia o1-preview-koodin toimittamiseksi, joka voi toimia sujuvasti, ja siihen liitettiin opinto-opas ja rohkaisevia sanoja, jotka ovat erittäin käyttäjäystävällisiä.

estääkseen o1-preview:n huijaamisen ja muistikyvyn käyttämisen päättelykyvyn sijaan toimittaja pyysi myös o1-previewia muuttamaan koodin ajoympäristöä: jupyter note. tämä käyttöympäristö on python-ympäristö, joka on erikoistunut tietojen analysointiin. kehittäjät eivät periaatteessa käytä tätä ympäristöä pienten pelien kehittämiseen.

ajateltuaan asiaa o1 antoi silti koodin, joka voidaan ajaa. edelliseen koodiin verrattuna tässä vastauksessa on kuitenkin monia virheitä, mutta tämä osoittaa myös, että tämä on todellakin harkittu vastaus, eikä koulutusprosessin aikana lisätty vakiovastaus.

vahvistaakseen edelleen o1-previewin innovatiivisia päättelykykyjä toimittaja pyysi mallia kehittämään monimutkaisemman ja mielenkiintoisemman minipelin tämän minipelin pohjalta.

tällä kertaa o1:n suoritus on todellakin hieman yllättävää. tämä pingispelin törmäysmekanismiin perustuva malli toistaa ylöspäin hyppypeliä. yleensä muut suuret mallit vaativat käyttäjiä kuvailemaan tarpeitaan selkeästi, ennen kuin he voivat antaa paremman vastauksen. reportteri ei kuitenkaan antanut tässä testissä vastausta, joka toimii sujuvasti ja on riittävä toimittaja, hauska pikku peli.

4) luonnontieteellinen koe

tiedetestien osalta toimittaja keskittyi o1-preview:n suorituskyvyn testaamiseen matematiikassa ja taloudessa.

ensinnäkin toimittaja esitti matemaattisen päättelykysymyksen.o1-esikatselukysy mahdollisista tavoista ratkaista eulerin yhtälön äärellinen räjähdys (tämä on kuuluisan kiinalaisen matemaatikon ja fields-mitalin voittajan professori terence terun juuri tällä viikolla julkaisema keskusteluartikkeli).

vaikka o1 ei anna selkeää ratkaisua, se antaa idean ongelman ratkaisemiseksi.tämä ajatus on osittain yhdenmukainen professori tao zhexuanin artikkelin kanssa (tosin hyvin vähän)。

taloustieteen suuntaan toimittaja kysyi o1-esikatselusta monimutkaisesta talousjärjestelmäkysymyksestä. annetun palautteen perusteellapohjimmiltaan suuria ongelmia ei ole. kokonaislogiikka on selkeä ja ajattelun ulottuvuudet ovat myös erilaisia.。

5) asiatieto ja kielen ymmärtäminen

tässä istunnossa toimittaja kysyi o1-esikatselua mielenkiintoisista anekdooteista ming-dynastian ensimmäisestä keisarista, mutta o1 tulkitsi anekdootit asioiksi, jotka todella tapahtuivat historiassa ja kertoivat koko zhu yuanzhangin historiallisen tarinan.

samalla toimittaja heitti tämän kysymyksen myös gpt-4o-mallille vertailun vuoksi gpt-4o ymmärsi toimittajan kysymyksen hyvin ja kertoi kaksi laajalle levinnyttä kansantarinaa.

kaiken kaikkiaanopenai:n väite, että o1-malli voi lähestyä ihmisen tasoa, näyttää olevan totta joissain asioissa.。

eniten toimittajaa yllätti se, että openai näytti käyttäjälle malliajattelun prosessin tekstissä. suuressa mallissa käytettiin paljon "minä teen sitä".”sanat, kuten "ajattelen" ja "suunnittelen", tuntuvat antropomorfisemmilta, aivan kuin todellinen henkilö selittää ajattelulogiikkaansa käyttäjän edessä.

mutta tämä ei tarkoita, että o1-malli olisi täydellinen.openai myönsi myös, että o1 on paljon huonompi kuin gpt-4o suunnittelun, kirjoittamisen ja tekstin muokkauksen suhteen.o1:llä ei myöskään ole mahdollisuutta selata verkkoa tai käsitellä tiedostoja ja kuvia.

toimittajille vaikeinta on se, että jopa hyvin yksinkertaisessa pyynnöstä, kuten tulosten tulosten muuntamisessa kiinaksi, o1 viettää yli kymmenen sekuntia sen miettimiseen, kun taas gpt4o käsittelee pyynnön nopeasti.

jopa openai:n edullisilla alueilla o1-mallin suorituskyky heikkenee yhtäkkiä ja mallin tulos on laiska.karpathy, openai:n perustaja, joka on eronnut, valitti: "se on kieltäytynyt ratkaisemasta riemannin hypoteesia minulle. mallin laiskuus on edelleen suuri ongelma."

openai sanoi, että yritys käsittelee näitä ongelmia myöhemmissä päivityksissä, loppujen lopuksi tämä on vain varhainen esikatselu päättelymallista.

päivittäisiä talousuutisia

raportti/palaute

uutiset

openai:n uuden o1-mallin arviointi viidellä ulottuvuudella: koodaus, pelituotanto ja muut kyvyt ovat "hämmästyttävää", mutta faktatieto on "kumottu"

legendaarinen "mansikka" on täällä

varsinaisen testauksen viisi ulottuvuutta: koodaus, pelituotanto ja muut kyvyt ovat "hämmästyksiä", mutta "epäonnistuneita" faktatietotestissä

johdanto

yhteystietoni