openai julkaisee uuden o1-mallin: se on yhtä "huomiollinen" kuin humans

openai julkaisee uuden o1-mallin: se on yhtä "huomiollinen" kuin ihmiset

2024-09-13

kirjailija｜ sukhoi

ilman mitään varotoimia openai:n kauan odotettu "strawberry" -malli julkaistiin.

o1-mallin johdantokappale, lähde: openai

varhain tänä aamuna pekingin aikaa openai julkaisi uuden mallin nimeltä openai o1, joka oli myös aiemmin raportoitu "strawberry", mutta alun perin o1:n koodinimi oli "q*". openai:n toimitusjohtaja sam altman kutsui sitä "uuden paradigman alusta".

openai:n virallisista tiedoista päätellen,yhteenvetona voidaan todeta, että o1:n ominaisuudet ovat: suurempi, vahvempi, hitaampi ja kalliimpi.

vahvistusoppimisen (reinforcement learning) ansiosta openai o1 on edistynyt merkittävästi päättelykyvyssä. t&k-tiimi havaitsi, että harjoitusajan (lisäys vahvistusoppimisen) ja ajatteluajan (testauksen aikana laskettu) pidentyessä o1-mallin suorituskyky parani vähitellen. tämän lähestymistavan skaalaamisen haasteet eroavat suurten kielimallien (llm) esikoulutusta koskevista rajoituksista.

o1-suorituskyky paranee tasaisesti harjoitusajan ja testiajan laskennan myötä, lähde: openai

mitä tulee markkinoilla oleviin huhuihin, että "o1-malli pystyy itsenäisesti suorittamaan selain- tai järjestelmätason tehtäviä käyttäjille", tämänhetkisissä julkisissa tiedoissa ei mainita tätä toimintoa.

openai:n virkamies sanoi: "vaikka tässä alkuperäisessä mallissa ei vielä ole toimintoja, kuten tiedonhaku verkossa, tiedostojen ja kuvien lataaminen, se on edistynyt merkittävästi monimutkaisten päättelyongelmien ratkaisemisessa, mikä edustaa uutta tekoälyteknologian tasoa. joten me se oli päätti antaa tälle sarjalle uuden lähtökohdan ja nimetä sen openai o1:ksi.o1:n pääsovellus on edelleen keskittynyt kysymyksiin vastaamiseen ja analysointiin tekstivuorovaikutuksen kautta selaimen tai käyttöjärjestelmän suoran ohjaamisen sijaan.

toisin kuin aikaisemmissa versioissa,o1-malli "ajattelee syvästi" ennen kuin antaa vastauksen, kuten ihminen tekisi,kestää noin 10-20 sekuntia luoda pitkä ketju sisäisiä ideoita ja pystyä kokeilemaan erilaisia strategioita ja tunnistamaan omia virheitä.

tämä tehokas päättelykyky antaa o1:lle laajan valikoiman sovellusmahdollisuuksia useilla toimialoilla, erityisesti monimutkaisissa tieteellisissä, matemaattisissa ja ohjelmointitehtävissä. fysiikan, kemian ja biologian ongelmia käsiteltäessä o1:n suorituskyky on jopa verrattavissa alan tohtoriopiskelijoiden suoritukseen. international mathematical olympiad qualifying examination (aime) -kokeessa o1:n tarkkuusprosentti oli 83 %, ja se pääsi onnistuneesti yhdysvaltojen 500 parhaan opiskelijan joukkoon, kun taas gpt-4o-mallin tarkkuus oli vain 13 %.

altman jakoi myös o1:n x:ssä, lähde: x

openai tarjoaa joitain erityisiä käyttötapauksia. esimerkiksi lääketieteen tutkijat voivat käyttää o1:tä kvanttioptiikkaan tarvittavien monimutkaisten matemaattisten kaavojen luomiseen ja toteuttamiseen lisää.

o1-sarja sisältää kolme mallia, openai o1, openai o1-preview ja openai o1-mini. molemmat mallit ovat käyttäjien saatavilla tästä päivästä alkaen:

openai o1: kehittynyt päättelymalli, ei tilapäisesti avoinna yleisölle.

openai o1-esikatselu: tämä versio keskittyy enemmän perusteelliseen päättelyn käsittelyyn ja sitä voidaan käyttää 30 kertaa viikossa.

openai o1-mini: tämä versio on tehokkaampi ja kustannustehokkaampi, sopii koodaustehtäviin ja sitä voidaan käyttää 50 kertaa viikossa.

kehittäjät ja tutkijat voivat nyt käyttää näitä malleja chatgpt:n ja sovellusohjelmointirajapintojen kautta.

mitä tulee hintaan, the information julkaisi aiemmin uutisen, että openai:n johtajat keskustelevat sen tulevien uusien suurten mallien "strawberry" ja "orion" hinnasta us$2000 kuukaudessa, mikä herättää paljon valituksia ja tuomitsemista. mutta tänään joku huomasi, että chatgpt pro -jäsenyys on jo verkossa ja sen hinta on us$200 kuukaudessa. ero us$2000:sta us$200:een tekee vaikeaksi olla käyttämättä hyväkseen. openai on selvästi käynyt psykologisen sodankäynnin.

tämän vuoden toukokuussaaltman tapaa mit:n presidentin sally kornbluthinse mainittiin takkakeskustelussa,gpt-5 voi erottaa tiedot päättelymoottoreista.

"gpt-5:stä tai gpt-6:sta voi tulla paras päättelymoottori. tällä hetkellä ainoa tapa saavuttaa paras moottori on kouluttaa suuri määrä dataa."mutta itse asiassa malli tuhlaa paljon tietoresursseja käsitellessään tietoja.kuten gpt-4. se toimii myös tietokantana, paitsi että päättely on hidasta, kallista ja "vähemmän kuin ihanteellinen".nämä ongelmat ovat pohjimmiltaan resurssien tuhlausta, joka johtuu mallin suunnittelusta ja koulutuksesta.

"väistämättä tämä on sivuvaikutus ainoasta tavasta, jolla voimme tehdä päätelmämoottoreiden malleja, hän voi ennakoida uusia lähestymistapoja tulevaisuudessa."sen tarkoituksena on erottaa mallin päättelykyky big datan kysynnästä.

mutta tämänpäiväisessä julkaisussa gpt-5 ei ilmestynyt, ja myös ajatus tietojen ja päättelymoottorien erottamisesta puuttui.

mitä tulee hintaan, the information julkaisi aiemmin uutisen, että openai:n johtajat suunnittelivat uusien suurten mallien "strawberry" ja "orion" hinnaksi us$2000 kuukaudessa, mikä aiheutti paljon valituksia ja tuomitsemista. mutta tänään joku huomasi, että chatgpt pro -jäsenyys on jo verkossa ja sen hinta on us$200 kuukaudessa.

ero 2 000 dollarista 200 dollariin tekee käyttäjien vaikeaksi tuntea käyttävänsä etua. openai käy selvästi psykologista sotaa.

2. kiillota "ajatteluketju"

suuria malleja on aina arvosteltu "kyvyttömyydestään laskea".perimmäinen syy on se, että suurilla malleilla ei ole kykyä suorittaa jäsenneltyä päättelyä.

päättely on yksi ihmisen älykkyyden ydinkyvyistä.suuria malleja koulutetaan pääasiassa jäsentämättömällä tekstidatalla, joka sisältää yleensä uutisartikkeleita, kirjoja, verkkosivujen tekstiä jne. teksti on luonnollisen kielen muodossa, eikä se noudata tiukkoja loogisia tai rakenteellisia sääntöjä, joten malli oppii lähinnä sitä, kuinka luoda kielen kontekstin perusteella, eikä miten loogisesti järkeillä tai käsitellä tietoa kiinteitä sääntöjä noudattaen.

mutta monet monimutkaiset päättelytehtävät ovat rakenteellisia.

kuten looginen päättely, matemaattinen ongelmanratkaisu tai ohjelmointi. jos haluamme päästä ulos sokkelosta, meidän on noudatettava useita loogisia ja spatiaalisia sääntöjä löytääksemme uloskäynnin. tämän tyyppiset ongelmat edellyttävät, että malli pystyy ymmärtämään ja soveltamaan kiinteitä vaiheita tai sääntöjä, mikä puuttuu useimmilta suurilta malleilta.

siksi, vaikka mallit, kuten chatgpt ja bard, voivat tuottaa näennäisesti järkeviä vastauksia harjoitustietojen perusteella, ne ovat itse asiassa enemmän kuin "stokastista papukaijaa".he eivät useinkaan pysty ymmärtämään sen takana olevaa monimutkaista logiikkaa tai suorittamaan edistyneitä päättelytehtäviä.

muista, että suuret mallit toimivat hyvin strukturoimattoman luonnollisen kielen tekstin käsittelyssä, koska tämä on harjoitustietojen painopiste. mutta kun on kyse tehtävissä, jotka vaativat jäsenneltyä loogista päättelyä, ne usein kamppailevat suorittaakseen ihmisen kaltaisella tarkkuudella.

tämän ongelman ratkaisemiseksi openai ajatteli käyttääajatusketju (cot)tule "rikkomaan tilanne".

ajatusketjutus on tekniikka, joka auttaa tekoälymalleja järkeilemään. se toimii antamalla mallin selittää jokaisen päättelyprosessin vaiheen vaihe vaiheelta vastattaessa monimutkaisiin kysymyksiin sen sijaan, että se antaisi vastauksen suoraan. siksi, kun malli vastaa kysymykseen, se on kuin ihminen ongelmaa ratkaiseessaan, ensin miettien jokaisen vaiheen logiikkaa ja sitten vähitellen päätellen lopputulosta.

tekoälykoulutuksessa ajatusketjujen manuaalinen merkitseminen on kuitenkin aikaa vievää ja kallista. skaalauslain ohjaama datamäärä on ihmiselle periaatteessa mahdoton tehtävä.

tässä vaiheessa vahvistusoppimisesta tulee käytännöllisempi vaihtoehto.

vahvistusoppiminen mahdollistaa sen, että malli oppii itsestään harjoittelun ja yrityksen ja erehdyksen avulla. se ei vaadi manuaalista huomautusta siitä, miten jokainen vaihe otetaan, vaan se optimoi ongelmien ratkaisumenetelmän jatkuvan kokeilun ja palautteen avulla.

tarkemmin sanottuna malli säätää käyttäytymistään niiden toimien seurausten (hyvien tai huonojen) perusteella, joita se tekee yrittäessään ratkaista ongelman. näin malli voi itsenäisesti tutkia useita mahdollisia ratkaisuja ja löytää tehokkaimman menetelmän yrityksen ja erehdyksen kautta. esimerkiksi peleissä tai simulaatioympäristöissä tekoäly voi jatkuvasti optimoida strategioita itsepelaamalla ja lopulta oppia suorittamaan monimutkaisia tehtäviä tarkasti ilman manuaalista ohjausta jokaisessa vaiheessa.

esimerkiksi alphago, joka pyyhkäisi go-maailman vuonna 2016, yhdisti syväoppimisen ja vahvistavat oppimismenetelmät, optimoi jatkuvasti päätöksentekomalliaan useiden itsepelattavien pelien avulla ja pystyi lopulta voittamaan maailman parhaan go-pelaajan leen. sedol.

o1-malli käyttää samaa menetelmää kuin alphago ongelmien asteittaiseen ratkaisemiseen.

tässä prosessissa o1 parantaa jatkuvasti ajatteluprosessiaan vahvistavan oppimisen avulla, oppii tunnistamaan ja korjaamaan virheitä, pilkkoo monimutkaiset vaiheet yksinkertaisempiin osiin ja kokeilee uusia menetelmiä esteiden kohtaamisessa. tämä koulutusmenetelmä parantaa merkittävästi o1:n päättelykykyä ja antaa o1:lle mahdollisuuden ratkaista ongelmia tehokkaammin.

greg brockman, yksi openai:n perustajista, on "erittäin ylpeä" tästä.tämä on ensimmäinen kerta, kun olemme kouluttaneet mallia vahvistusoppimisen avulla." hän sanoi.

viipaletta brockmanin twiiteistä, lähde: x

brockmanin mukaan openai:n malli suoritti alun perin system 1 -ajattelua (nopea, intuitiivinen päätöksenteko), kun taas ajatteluketjuteknologia aloitti system 2 -ajattelun (varovainen, analyyttinen ajattelu).

system 1 -ajattelu soveltuu nopeaan reagointiin, kun taas system 2 -ajattelu käyttää "ajatteluketjun" tekniikkaa, jonka avulla malli voi järkeillä ja ratkaista ongelmia askel askeleelta. käytäntö on osoittanut, että jatkuvan yrityksen ja erehdyksen avulla mallin suorituskykyä voidaan parantaa huomattavasti kouluttamalla malli kokonaan alusta loppuun (kuten kun sitä käytetään peleissä, kuten go tai dota).

lisäksi vaikka o1-teknologia on vielä kehitysvaiheessa, se on toiminut hyvin turvallisuuden kannalta. parannetun mallin avulla voidaan esimerkiksi tehdä perusteellisia perusteluja strategiasta parantaakseen sen kestävyyttä hyökkäyksiä vastaan ja vähentääkseen hallusinaatioilmiöiden riskiä. tämä syvällinen päättelykyky alkaa jo näyttää myönteisiä tuloksia turvallisuusarvioinneissa.

"kehitimme uuden mallin, joka perustuu o1-malliin, annoimme sen osallistua 2024 international olympiad in informatics (ioi) -kilpailuun ja saimme 213 pistettä 49 prosentissa sijoituksista."

se kilpaili samoissa olosuhteissa kuin ihmiskilpailijat ja ratkaisi kuusi algoritmista tehtävää, joissa kussakin oli 50 lähetysmahdollisuutta. sen valintastrategian tehokkuus osoitetaan seulomalla useita ehdokkaita ja valitsemalla ehdotukset julkisten testitapausten, mallilla luotujen testitapausten ja pisteytystoimintojen perusteella, jolloin keskimääräiset pisteet ovat korkeammat kuin satunnaisten lähetysten.

kun vastausten määrää vähennettiin 10 000:een per kysymys, malli toimi paremmin ja pisteytti kultastandardin yläpuolelle. lopuksi malli osoitti "upeaa" koodauskykyä simuloidussa codeforces-ohjelmointikilpailussa. gpt-4o:n elo-luokitus on 808, mikä sijoittuu ihmiskilpailijoiden 11. prosenttipisteeseen. ja uudella mallillamme elo-luokitus on 1807, mikä ylittää 93 % kilpailijoista.

hienosäätö paransi o1-mallin suorituskykyä ohjelmointikilpailussa. lähde: openai

2. openai:n "levoton ajat"

ennen o1:n julkaisua openai oli ollut muutosten pilvessä yrityksen ydinjohdossa.

tämän vuoden helmikuussa andrej karpathy, openai:n perustajajäsen ja tutkija, ilmoitti x:ssä eronneensa yrityksestä. capas sanoi lähteneensä openai:sta ystävällisesti eikä "mitään erityistapauksen, ongelman tai draaman vuoksi".

entinen päätutkija ja perustaja ilja sutskever ilmoitti eroavansa toukokuussa, ja myös super alignment -tiimi hajotettiin.

oikealta ilja sutskvi, greg brockman, sam altman ja mira mulati. lähde: new york times

tuntia iljan ilmoituksen jälkeen jan leike, yksi rlhf:n keksijistä ja super alignment -tiimin johtaja, seurasi myös hänen jalanjäljänsä ja lähti, lisäten jälleen epävarmuutta openai:n tulevaisuuteen.

elokuussa openai:n perustaja ja tutkija john schulman paljasti lähtevänsä ja liittyi anthropiciin keskittyäkseen tekoälyn suuntaamisen syvälliseen tutkimukseen. hän selitti, että hänen lähtönsä oli keskittyä tekoälyn kohdistukseen ja tekniseen työhön, ei siksi, että openai ei tukenut kohdistustutkimusta. schulman kiitti openai:n kollegoitaan ja ilmaisi "täyden luottamuksen" sen tulevaan kehitykseen.

anthropicin perustivat veli ja sisar dario amodei, openai:n tutkimusjohtaja, joka erosi vuonna 2020, ja daniela amodei, joka oli silloinen turvallisuus- ja politiikkajohtaja.

brockman ilmoitti myös vuoden mittaisesta sapattivapaasta samassa kuussa, mikä on hänen "ensimmäinen pitkä lomansa" sen jälkeen, kun hän perusti openai:n yhdeksän vuotta sitten.

syyskuun 10. päivänä alexis conneau, joka johtaa openai gpt-4o- ja gpt-5-mallien äänivuorovaikutustutkimusta, ilmoitti eroavansa ja aloitti oman yrityksensä. conneaun tutkimus on omistettu "her"-elokuvassa esitettyjen ominaisuuksien toteuttamiseen äänivuorovaikutuskokemus, mutta siihen liittyvien tuotteiden julkaisu on toistuvasti viivästynyt.

perustamisestaan lähtien openai on herättänyt paljon huomiota voittoa tavoittelemattoman ja kaupallistamisen kaksoisstatuksestaan. kaupallistamisprosessin kiihtyessä sen voittoa tavoittelemattomaan tehtävään liittyvät sisäiset jännitteet tulivat yhä selvemmiksi, mikä myös vaikutti tiimin jäsenten uupumiseen. samaan aikaan elon muskin äskettäinen oikeusjuttu voi myös liittyä kulumiseen.

openai-tutkija daniel kokotajlo sanoi eronsa jälkeen tiedotusvälineille antamassaan eksklusiivisessa haastattelussa, että viime vuonna tapahtuneen "palatsitaistelun" aikana altman erotettiin hetkeksi ja hänet palautettiin nopeasti takaisin. "tämä antaa altmanille ja brockmanille mahdollisuuden vahvistaa valtaansa entisestään, kun taas ensisijaisesti agi-turvallisuudesta kiinnostuneet ovat marginalisoituneita. (altman) he poikkeavat yhtiön suunnitelmista vuodelle 2022."

lisäksi openai joutuu menemään jopa 5 miljardia dollaria ja käyttökustannukset jopa 8,5 miljardia dollaria, joista suurin osa on palvelimien vuokra- ja koulutuskustannuksia. selviytyäkseen kovasta toimintapaineesta openai etsii uutta rahoituskierrosta, jonka arvo voi ylittää 100 miljardia dollaria, ja mahdolliset sijoittajat, kuten microsoft, apple ja nvidia, ovat ilmaisseet kiinnostuksensa. yritysjohtajat etsivät investointeja maailmanlaajuisesti tukeakseen nopeasti kasvavia pääomatarpeitaan.

helpottaakseen taloudellista painetta openai hakee uutta rahoituskierrosta new york timesin 11. päivänä julkaiseman raportin mukaan openai toivoi saavansa viime viikolla noin 1 miljardin dollarin arvosta 100 miljardia dollaria. koska suurten tekoälyjärjestelmien rakentamiseen tarvittava laskentateho johtaa kuitenkin suurempiin kustannuksiin, yhtiö päätti äskettäin nostaa rahoitusmääränsä 6,5 miljardiin dollariin.

jotkut ulkomaiset tiedotusvälineet kuitenkin lainasivat asiaan perehtyneitä henkilöitä ja julkistamatonta sisäistä talousdata-analyysiä sanoneen, että openai voi kärsiä valtavia jopa 5 miljardin dollarin tappioita tänä vuonna ja kokonaiskäyttökustannusten odotetaan nousevan 8,5 miljardiin dollariin. niistä palvelinten vuokraus microsoftilta on jopa 4 miljardia dollaria ja datakoulutuksen kustannukset ovat 3 miljardia dollaria. yritykseen kohdistuvia taloudellisia paineita lisäävät entisestään kehittyneempien mallien, kuten strawberryn ja orionin, korkeammat käyttökustannukset.

(kansikuvan lähde: openai)

uutiset

openai julkaisee uuden o1-mallin: se on yhtä "huomiollinen" kuin ihmiset

johdanto

yhteystietoni