o1:n kultamitalitiimi paljastaa hämmästyttävän hetken, jolloin tekoäly ylittää ihmiset! koko 22 minuutin video on julkaistu public

o1:n kultamitalitiimi paljastaa hämmästyttävän hetken, jolloin tekoäly ylittää ihmiset! 22 minuutin videon täysi versio on nyt avoinna yleisölle

2024-09-22

uusi viisausraportti

toimittaja: tao zi qiao yang

[johdatus uuteen viisauteen】o1:n syntymä on openai-tiimin vallankumouksellisin hetki. 22-minuuttisessa koko haastatteluvideossa he jakoivat ajatuksensa uudesta mallista ja sen taustalla olevasta kehitystarinasta.

koko video openai o1 -tiimin haastattelusta on vihdoin verkossa!

project bob mcgrew'n järjestämä o1:n tutkimus- ja kehitystiimi vietti 22 minuutin ajan "aha"-hetken yhdessä.

jotkut mainitsivat, että uusi o1-malli vastaa useiden lääkäreiden "fuusiota" ja toimii usein paremmin kuin ihmiset. jotkut ihmiset sanoivat, että o1:n julkaisun jälkeen he tunsivat selvästi agi:n saapumisen.

"kun mallit ovat parempia kuin ihmiset sellaisilla aloilla kuin matematiikassa, koodauksessa, gossa ja shakissa, agi:n tulevaisuus tulee selkeämmäksi."

nathan lambert, allen-instituutin tiedemies, teki yhteenvedon tämän videon kohokohdista.

pisteitä on yhteensä 8:

1 o1 vahvistetulla oppimisella on parempi kuin ihminen löytämään uusia cot-päättelyvaiheita

2 itsekritiikin ilmaantuminen on o1:n voimakkain hetki

3 anna o1:n viimeistellä vastaus ennen "aikakatkaisua" ja saa sitten yhtäkkiä "aha"-hetki

4. parametrien koon skaalaus ja vahvistusoppimisalgoritmien kehittämisen tiellä jatkaminen

5 monet ihmiset mainitsivat, kuinka tärkeä infrastruktuuri on algoritmeihin verrattuna

6 suunnittelun ja virheenkorjauksen avulla o1 voi ratkaista uusia ongelmia maailmassa

7 uusi koulutusparadigma on täysin uusi lähestymistapa, joka tuo malliin enemmän laskentatehoa

8 o1koodia kirjoitettaessa, kun se tulostaa käytettävän koodin, sen on läpäistävä yksikkötestaus

katsotaanpa seuraavaksi tarkemmin o1-mallin tarinaa.

oppimisen + ajattelun vahvistaminen, o1 avaa uuden paradigman

uutena openai-sarjana suurin ero o1:n ja gpt-mallin välillä on päättelyssä.

pohjimmiltaan se on päättelymalli, mikä tarkoittaa, että se "ajattelee" enemmän kuin ennen.

openai:n tutkijoiden mukaan "ajattelu" on intuitiivisin tapa ajatella.

joskus kysyttäessä, mikä italian pääkaupunki on, voimme keksiä vastauksen lähes välittömästi, ajattelematta. mutta joskus, kun on kyse liiketoimintasuunnitelmista, romaanien kirjoittamisesta jne., se vaatii pitkän ajatteluprosessin.

tarpeetonta sanoa, että mitä kauemmin ajattelet sitä, sitä parempia tuloksia tulee.

siksi päättely on kykyä muuntaa ajatteluaika optimaalisiin tuloksiin.

mark chenin sanojen mukaan päättely on "primitiivistä" ja ainoa tapa saavuttaa luotettava ajatteluprosessi.

mitä tulee johtopäätöstutkimukseen, openai aloitti itse asiassa hyvin varhain. sen perustamisen alkuaikoina he näkivät alphagon mahdollisuudet voittaa ihmiset rl-algoritmien avulla ja suorittivat paljon tutkimusta.

esimerkiksi he avasivat vuonna 2016 pelien testausalustan "universe", joka on avoimen lähdekoodin alusta ai:n yleisen älykkyystason kouluttamiseen.

vuonna 2018 luotiin openai five -niminen ai-peli, joka voitti menestyksekkäästi maailmanmestari og-joukkueen kaksinkertaisessa dota2 international invitational -turnauksessa.

samaan aikaan datan ja robotiikan saralla skaalaus on edistynyt merkittävästi.

openai-tiimi alkoi pohtia: kuinka toteuttaa vahvistusoppimista yleisillä aloilla ja saavuttaa erittäin tehokas tekoäly?

eli gpt-sarjan avaama uusi paradigma. se on saavuttanut uskomattomia tuloksia ohjaamattoman oppimisen skaalauksessa.

ja siitä lähtien tutkijat ovat alkaneet tutkia, kuinka yhdistää nämä kaksi paradigmaa - vahvistava oppiminen ja ohjaamaton oppiminen.

on vaikea sanoa tarkalleen, milloin ponnistus alkoi, mutta se on ollut työn alla jo pitkään, tutkijat sanoivat.

"aha" hetki

videolla joku sanoi, että hänen mielestään siistein asia tutkimuksessa oli "aha"-hetki.

tietyssä vaiheessa tutkimuksessa tapahtui odottamaton läpimurto, ja kaikki tuli yhtäkkiä selväksi, kuin loppiaisena.

millaisia "aha" hetkiä tiimin jäsenet kokivat?

joku sanoi, että hänen mielestään mallin koulutusprosessissa oli kriittinen hetki, jolloin he investoivat aiempaa enemmän laskentatehoa ja tuottivat ensimmäistä kertaa erittäin yhtenäisen cot:n.

tällä hetkellä kaikki olivat iloisesti yllättyneitä: oli ilmeistä, että tämä malli erosi merkittävästi edellisestä.

toiset sanoivat, että kun harkitaan päättelykykyisen mallin kouluttamista, ensimmäinen asia, joka tulee mieleen, on antaa ihmisten tallentaa ajatteluprosessinsa ja harjoitella sen mukaisesti.

hänelle aha-hetki oli, kun hän huomasi, että mallin kouluttaminen vahvistusoppimisen avulla cot:n luomiseksi ja optimoimiseksi oli jopa parempi kuin ihmisten kirjoittama cot.

tämä hetki osoittaa, että voimme laajentaa ja tutkia mallin päättelykykyä tällä tavalla.

tämä tutkija sanoi, että hän on työskennellyt kovasti parantaakseen mallin kykyä ratkaista matemaattisia ongelmia.

hänen turhautunekseen malli ei koskaan näyttänyt kyseenalaistavan, mitä se oli tehnyt väärin aina, kun se tuotti tuloksen.

kuitenkin, kun he harjoittelivat yhtä varhaisista o1-malleista, he olivat yllättyneitä huomatessaan, että mallin pisteet matematiikan kokeessa paranivat yhtäkkiä merkittävästi.

lisäksi tutkijat voivat nähdä mallin tutkimusprosessin – se alkaa reflektoida itseään ja kyseenalaistaa itseään.

hän huudahti: teimme vihdoin jotain erilaista!

tämä tunne oli äärimmäisen vahva, ja sillä hetkellä kaikki tuntui sulautuvan yhteen.

toinen tutkija sanoi, että kun mallia pyydetään saattamaan ajattelunsa loppuun ennen "aikakatkaisua", prosessi on erittäin mielenkiintoinen.

se on kuin matematiikan kilpailuun osallistuminen.

hän sanoi, että tämä oli myös pääsyy, miksi hän astui tekoälykenttään, ja nyt sitä voidaan pitää hänelle "suljetun silmukan" hetkenä.

lisäksi o1-mallissa on hämmästyttävää, että se auttaa suuresti edistämään tieteellistä löytöä ja tekniikan kehitystä.

monille ihmisille agi näyttää erittäin abstraktilta ja kaukaa haetulta käsitteeltä, ennen kuin he näkevät tekoälyn tekevän asioita, joissa ihmiset ovat hyviä, he eivät voi uskoa agi:n tuloon.

ammattimaisille shakki- ja go-pelaajille ibm:n deep blue sekä deepmind alphago ja alphazero saivat heidät ymmärtämään tämän muutama vuosi sitten.

openai:n tiedemiehille, jotka ovat hyviä matematiikassa ja koodauksessa, o1-mallilla on samanlainen merkitys. vielä mielenkiintoisempaa on, että heidän työnsä vastaa tekoälyn luomista, joka voi ylittää heidän omat kykynsä.

mitä vaikeuksia kohtasit projektin aikana?

prosessin esteistä tutkijat totesivat suoraan, että llm-koulutus on pohjimmiltaan erittäin vaikeaa.

kuten raketin laukaiseminen maasta kuuhun, menestykseen on vain kapea tie, mutta epäonnistumiseen on lukemattomia polkuja, jos poikkeat vähänkin kulmasta, et pääse tavoitteeseen.

koulutusprosessi voi mennä pieleen tuhansilla tavoilla, ja jopa tämän lahjakkaan tutkijaryhmän käsissä jokaisella koulutuskierroksella kohdattiin satoja ongelmia.

lisäksi mallien, kuten usean tohtorin tutkinnon suorittaneita ihmisiä vastaavan o1:n, muuttuessa älykkäämmäksi, arvioinnista tulee yhä vaikeampaa.

joskus kestää kauan määrittää, toimiiko malli oikein, ja lopulta monet yleisesti käytetyt alan vertailuarvot kyllästyvät, ja heidän on löydettävä uudelleen o1:n ominaisuuksiin sopivat vertailuarvot.

mallin kehitysprosessin lisäksi tutkijoilta kysyttiin myös heidän suosikkikäyttötapauksistaan o1-mallille.

hyung won chung sanoi, että o1 voi olla hyvä koodausavustaja.

hän noudattaa työskennellessään yleensä tdd (test-driven development) -kehitysmenetelmää. o1:n avulla hän voi säästää itsensä yksikkötestien kirjoittamiselta.

lisäksi havaittu virheilmoitus voidaan lähettää suoraan o1:lle. vaikka joskus se ei pysty ratkaisemaan ongelmaa suoraan, se voi kysyä kääntäjää paremman kysymyksen ja auttaa sinua ratkaisemaan virheen.

jason wei sanoi, että hän käyttää usein o1:tä aivoriihikumppanina, ja keskustelujen kirjo on melko laaja, aina koneoppimisongelman ratkaisemisesta blogin tai twiitin laatimiseen.

hänen tämän vuoden toukokuussa kirjoittamansa llm-arvioinnin blogi pohjautui o1:n mielipiteisiin, kuten artikkelin rakenteeseen, erilaisten arviointikriteerien edut ja haitat sekä kirjoitustyyli.

millaista on työskennellä openai:ssa?

tässä asiassa monet puhuivat kaikkien älykkyydestä ja joukkueen ilmapiirin harmoniasta.

olin esimerkiksi etsimässä koodia viikon ajan, ja ohikulkiva kollega ratkaisi sen hetkessä, kun vietin aikaa erittäin älykkäiden kollegoiden kanssa joka päivä, minusta tuli vähitellen nöyrä.

mark chen kuvaili "mansikka" -projektia hyvin "orgaaniseksi" projektiksi, koska jokaisella on omat mielipiteensä ja mielipiteensä ammatillisista asioista, ja heillä kaikilla on ideoita, joita he haluavat edistää innolla.

kun nämä ideat yhdistyvät, kipinät puhkeavat ja lumipalloja kuin lumipalloja.

itsevarmuuden toinen puoli on kuitenkin se, että jokainen vaatii omia mielipiteitään, mutta he eivät ole itsepäisiä. he myös muuttavat mielensä, jos he näkevät objektiivisia tuloksia, jotka kumoavat heidän väitteensä.

vielä kiitettävää on, että tämä erittäin älykkäiden ihmisten ryhmä on myös erittäin mukavia ja valmiita auttamaan muita ratkaisemaan ongelmia. monet haastattelussa olleet tutkijat sanoivat suoraan: "täällä on erittäin mukavaa." kokea".

tarina o1-minin takana

motiivi o1-minin julkaisulle on tarjota useammalle tutkijalle malleja, joilla on pienemmät budjetit, mutta joilla on silti vahvat päättelyominaisuudet.

sitä voidaan kutsua "päättelyasiantuntijaksi" ja se on älykkäämpi kuin paras openai-malli aiemmin.

lisäksi kustannukset ja viive ovat erittäin alhaiset.

ehkä se ei välttämättä tunne kuuluisaa henkilöä syntymäajan perusteella, mutta hänellä on kyky järkeillä tehokkaasti ja paljon viisautta.

openai-tutkijat sanoivat parantavansa algoritmia edelleen, jotta se olisi verrattavissa parhaisiin pieniin malleihin.

lisäksi tutkijat ympäri maailmaa ovat investoineet enemmän tietojenkäsittelyyn ja laitteistoihin, mikä on aiheuttanut mallien kustannusten laskevan eksponentiaalisesti pitkän ajan kuluessa.

yksi puute on kuitenkin se, että emme käyttäneet enempää aikaa löytääksemme uutta tapaa kääntää asiat toisinpäin.

o1:n uusi paradigma on löytömme - päätelmien skaalaus, joka voi myös optimoida laskentatehoa.

mikä motivoi sinua tutkimaan?

mikä on syy siihen, miksi tämä "älykkäiden aivojen" ryhmä voi kokoontua yhteen innostaakseen heitä tekemään tutkimusta?

eräs tutkija sanoi, että oli kiehtovaa ajatella erilaisia tapoja, joilla hän voisi käyttää malliaan päätelmien tekemiseen.

toiset sanoivat: "kaikki hyvä tulee vaikeina aikoina."

se, että o1 osaa vastata niin nopeasti, on ensimmäinen askel kohti mallia, joka voi ajatella kysymyksiä pitkään. tulevaisuudessa kestää kuukausia tai jopa vuosia tutkimusta, jotta se siirretään seuraavalle matkalle.

"on erittäin jännittävää ja mielekästä ajatella, että pienellä osalla meistä voi olla vaikutusta, joka muuttaa maailmaa."

mielenkiintoisinta on, että uusi paradigma avaa tehtäviä, joita malli ei ole pystynyt suorittamaan ennen. tämä ei ole vain tiettyihin kysymyksiin vastaamista, vaan itse asiassa uusien ominaisuuksien yleistämistä suunnittelun ja virheiden korjaamisen kautta.

vielä enemmän o1 voi tuottaa uutta tietoa, mikä on tieteellisen löydön jännittävin osa.

tutkijat sanovat, että mallista tulee lyhyessä ajassa yhä voimakkaampi omaa kehitystään edistävä tekijä.

lopuksi, kun o1:stä vastaava henkilö kysyi: "onko muita mainitsemisen arvoisia havaintoja?"

jason wei kertoi: "mielenkiintoinen havainto on, että jokainen koulutettu malli on hieman erilainen ja sillä on omat omituisuutensa, kuten esine. tämä ainutlaatuisuus lisää ripauksen persoonallisuutta jokaiseen malliin.

videon täysi versio on seuraava:

uutiset

o1:n kultamitalitiimi paljastaa hämmästyttävän hetken, jolloin tekoäly ylittää ihmiset! 22 minuutin videon täysi versio on nyt avoinna yleisölle

johdanto

yhteystietoni