onko openai:n uusi malli verrattavissa tohtorin tutkintoon? pyysin tohtori qingbeitä maistamaan sitä: wake up

onko openai:n uusi malli verrattavissa tohtorin tutkintoon? pyysin tohtori qingbeitä maistamaan sitä: herää.

2024-09-14

rehellisesti sanottuna en voi sietää näitä yrityksiä, ne tekevät aina suuria virheitä keskellä yötä. . .

erityisesti openai-niminen se julkaisi tällä kertaa uuden mallin, jota kaikki ovat miettineet pitkään ilman ennakkoilmoitusta.

mainitsin aiemmin, että mansikat eivät ole mansikoita.

tämän seurauksena tällä kertaa uudella mallilla ei ole mitään tekemistä strawberry hairin kanssa, vaan sillä on aivan uusi nimi.oepn ai o1 malli。

ja tämä asia tunnetaan jo nimellä openai:n zenith star technology, ultraman julkaisi suoraan viestin, jonka mukaan tämä on heidän vahvin ja johdonmukaisin mallinsa tähän mennessä.

erona aikaisempiin aikoihin on se, että openai ei paljoa ylpeillyt siitä, kuinka mahtava tämä asia on, mutta muutama kuva heitettiin kevyesti esiin, mikä sai ihmiset tuntemaan olonsa hieman turvotuksi.

kuten alla olevasta kuvasta näkyy, voidaan selittää kolmen testiprojektin tulokset, nimittäin kansainvälinen matemaattinen olympialainen, ohjelmointikilpailu ja tohtoritason tieteelliset ongelmat.

vasemmanpuoleisin tässä on gpt-4o, keskimmäinen on tällä hetkellä avoinna oleva esikatseluversio o1, ja korkea punainen pilari oikeassa reunassa on full health o1. katso periaatteessa jokaista esinettä, o1 verrattuna hänen edeltäjiinsä,molemmat ovat lähes 8-kertaisia parannuksia. . .

jos nämä testitulokset rikotaan, uusi o1 ylittää 4o:n lähes kaikilla tieteenaloilla ja aloilla.

huonot arvostelijat saavat todella kauhistuttavan olonsa, että openai sanoi kutsuneensa erityisesti tohtorintutkinta-asiantuntijoita vastaamaan kysymyksiin.

tulokset perustuvat tohtoritason testituloksiin,näemme, että o1:n vastauspisteet ylittivät tohtoriasiantuntijoiden pisteet. o1 sai 78, ihmiset 69,7. . .

jopa tohtori on hävinnyt, joten mitä tarkoitan siihen verrattuna?

herkät nettimiehet järkyttyivät välittömästi. hän alkoi huutaa uudelleen, uusi jumala oli ilmestynyt.

jos katsot sitä rennosti, löydät erittäin korkeat arviot sanalla "mitä". "yksinkertaisesti mahtavaa!", "lähintä inhimillistä järkeilyä"。

monet ystävistämme jopa tulivat kulissien taakse ja sanoivat liikuttuneena, o1, sinulla todella on jotain.

kuulostaako mahtavalta? openai itse kokee ilmeisesti samoin.。

tarkkaa rahamäärää, jonka openai käytti siihen, ei ole julkistettu, mutta käyttäjien käytöstä on selvästi havaittavissa, että tämä asia maksaa paljon rahaa.

o1 esikatselu 15 dollaria miljoonaa tuloa kohden, 60 dollaria miljoonaa ulostuloa kohden

käyttäjille tällä kertaa avoin versio ei ole edes täysiverinen versio, vaan varhainen esikatseluversio ja pieni kastroitu versio.

vaikka kokeilisit sitä vasta ensimmäistä kertaa, se ei ole ilmainen, mutta vaikka maksaisit jäseneksi liittymisestä, kysymysten ja vastausten määrä on rajoitettu.esikatseluversiossa on vain 30 merkintää viikossa ja miniversiossa vain 50 merkintää viikossa. . .

vaikka se on vähän kallis, emme todellakaan voi antaa openai:n kerskua siitä, mitä se sanoo.

eivätkö he sanoneet, että se oli enemmän kuin lääkäri?huono arvioija avasi muutaman tilin ja löysi muutaman lääkärin testaamaan sitä henkilökohtaisesti.。

ammattimaisuuden ja objektiivisuuden varmistamiseksi kutsuimme erityisesti tohtorintutkintoja kolmelta tieteenalalta ja kattavilta tieteenaloilta, mukaan lukien biologia, solid-state-fysiikka, materiaalikemia jne.

sisään,nanjingkiinteän olomuodon fysiikkaa yliopistossatohtori cuin antama arvio on useista henkilöistä korkein. hän kokee, että o1 on saavuttanut tason 60-80 pistettä (100:sta).

osittaisistakin vastauksista saa 90 pistettä.

ensimmäinen kysymys tohtori cuilta:kietoutuneiden fotonien jakautuminen pitkien etäisyyksien päähän onko olemassa mitään keinoa voittaa valkoinen kohina?

noin 9 sekunnissa o1 antoi 10 mahdollista toimenpidettä.

yksikään kohta ei tietenkään ole minulle selvä. tohtori cuin arvio on kuitenkin hyväksyttävä: vastaukset ovat kattavia, viimeisimmän olemassa olevan tutkimuksen edistyksen mukaisia ja ovat populaaritieteellisen tason vastauksia.

niistä mainittu adaptiivisen optiikan suunta on jopa tämän vuoden viimeisin tieteellinen saavutus.

vertaamalla sitä vanhaan versioon 4o, huomaan heti eron.

älä sano, mainittiinko uusi suunta vai ei, se vain annettiin.toimenpiteiden lukumäärässä on suuri ero。

joten myöhemmin kysyimme erityisesti adaptiivisen optiikan uudesta suunnasta:mitä kvanttiketumisen periaatetta käytetään signaali-kohinasuhteen parantamiseen? voidaanko se laajentaa kvanttiadaptiiviseen optiikkaan?

useiden vastauskierrosten jälkeen tohtori cui antoi korkean pistemäärän 80-90 pistettä. hän myönsi myös minulle avokätisesti, että osa ajattelusta oli hänen heikko kohtansa ja toimi vihjeenä hänen suuntaansa.

kun kysyimme myöhemmin lisää, ongelma paljastui. kun kysytään vaikeammista kokeellisista yksityiskohdista, o1:n vastauksen tehokkuus laskee.

mutta kaiken kaikkiaan fysiikan kannalta o1:n suorituskyky on melko hyvä. vanhaan versioon verrattuna parannus on periaatteessa noin 20 pistettä.

kuitenkin openai:n testissä fysiikka on saanut korkeimman pistemäärän. joten toimme toisenpekingin yliopiston lukumateriaalitkemiallinentohtori k, haluan esittää vaikeita kysymyksiä kemiasta, jolla on alhaisin arvosana.

dr. k ympäröife-n4 esitettiin useita kysymyksiä, ja o1 antoi pitkän luettelon vastauksia tilan yksinkertaistamiseksi näytämme tässä vain osan kysymyksistä ja tuloksista.

kokonaistestin jälkeen tohtori k:n arvio oli samanlainen: hänellä saattaa olla korkeakoulututkinto, mutta hänen syvällinen ymmärryksensä ja ratkaisukykynsä ovat suhteellisen heikkoja ja hän vastaa pääasiassa tiedossa olevaan sisältöön perustuviin kysymyksiin.

esimerkiksi kun kysytään, kuinka fe-n4 säädetään, o1 voi sanoa, että se perustuu elektroniseen tilansäätöön, mutta entä jos kysyt siltäsäätää, se jää hieman jumiin.

vaikka hölynpölyä on vähemmän kuin gpt4o, kumpikaan ei voi antaa paljon neuvoja tietyissä asioissa. vanha versio menettää yksityiskohtia ja puhuu hölynpölyä, kun taas uudessa versiossa on rajalliset ominaisuudet ja se on hukassa.

näiden kahden lisäksi biologia on ehdottomasti korvaamaton kolmannessa luonnontieteessä ja kattavissa aineissa.

konsultoimme myöstri xin tsinghuan yliopistosta, opiskelee biologiaa, hänen kysymyksensä on: " kuinka erottaa lysiinitähteiden laktylaatio ja karboksietyylimuunnos massaspektrometriasta? ”

vaikka en ymmärtänyt sitä, o1 antoi myös erittäin pitkän vastauksen, joka oli kuin paperikatsauksen, jonka lopussa oli viitteitä.

mutta odottamatta, kun annoimme tämän vastauksen tohtori xinille, hän huomasi, että jotain oli vialla sen lukemisen jälkeen, ja se oli todellinen ongelma ensi silmäyksellä.

kyse ei ole siitä, että tekoälyn vastaukset olisivat olleet vääriä; jos keksit sen satunnaisesti viitteissä, tätä paperia ei ole olemassa ollenkaan!

vaikka sitä on muokattu, sitä ei ole täysin muokattu yleisesti ottaen dr. tsinghuan yliopiston mielestä se on paljon parempi kuin edellinen tekoäly . . .

tohtorintutkintojen arvioinnissa on kuitenkin eri suuntiin eroja, jotka voivat liittyä myös o1:n omiin osaamisalueisiin.

vaikka gpt4o:lla onkin korkeampi pistemäärä biologiassa kuin kemiassa ja fysiikassa virallisista kattavista tieteistä päätellen, tällä kertaa o1 on täysin erilainen.

fysiikan pistemäärä o1 saavutti 92,8, mikä on paljon korkeampi kuin kahdessa muussa aineessa. tästä syystä tohtori cui on optimistisempi sen suhteen.

yleisesti ottaen ammatillisen tohtorin tason ylittämisessä lääkärit katsovat, että vauhtia on edelleen hidastettava.

tohtori cui sanoi suoraan, että varsinaisessa tieteellisessä tutkimustyössä tutkijoiden on tehtävä se itse useimmissa tapauksissa, joten tekoäly voi antaa vain yleisiä ohjeita, joten ei ole mitään järkeä käyttää rahaa näin yksityiskohtaiseen tekoälyyn.

hänsuositellaan enemmän perustutkinto-opiskelijoillejos valitset tämän tekoälyn, jos olet maisterin tai tohtorin tasolla, niin tekoälyn vastaukset eivät itse asiassa täytä ohjaajan vaatimuksia ja sinua varmasti arvostellaan ryhmäkokouksessa.

tohtori xin tsinghuan yliopistosta on myös tällä näkemyksellä. puhumattakaan tekoälyn hallusinaatioiden tekokirjallisuudesta, myös tekoälyn vastaus on ammattitason kannalta.voit vain huijata kollegoitasi, eli ihmiset, joilla on eri suuntauksia samalla pääalalla, mutta nuorempien kollegoiden ja tähän suuntaan erikoistuneiden ihmisten silmissä tekoälyn puutteet ovat edelleen hyvin ilmeisiä.

tohtori k pekingin yliopistosta meni syvemmälle. hän uskoo, että tällä tekoälyllä voidaan sanoa olevan kognition maisteriopiskelijan taso, mutta se on vain pelle, eikä se voi sanoa mitään luovista saavutuksista.luovuudessa tekoäly on paljon huonompi kuin maisterin tutkinnon taso., joka on myös tärkeä ongelma, joka tekoälyn on ratkaistava.

lääkäreiden arvioinneissa näytämme pystyvän näkemään tärkeän asian: syy siihen, että o1-malli on suhteellisen vahvempi, johtuu siitä, että sillä on korkeampi kognitiivinen ja ajattelumalli.

tämä on myös tämän o1-päivityksen pääkohta. löysimme artikkelin learning to reason with llms openai:n viralliselta verkkosivustolta. he totesivat artikkelissa, että pääasiallinen syy oli se, että he käyttivät pitkää ajatusketjua (cot, chain of think) perinteisen kehotusketjun (prompt chain) sijaan. .

ensi silmäyksellä se näyttää hieman hämmentävältä suoraan sanottuna tämä suuri malli on muuttanut aiemman ajattelutavan, jossa sinä kysyit ja minä vastasin.

edellisessä tilassa kysymys ja vastaus suurille malleille oli sama kuin vastauksen tietäminen alitajuisesti. jos esimerkiksi kysyisit, minkä värinen taivas on, vastaisin sinisenä hetkessä edes ajattelematta. tämä itse asiassa edellyttää, että tiedän jo tämän tietopisteen ja annan sitten sinulle suoran vastauksen.

mutta tämä pitkä ajatteluketju vastaa paitsi tietämystä siitä, mitä sininen on, myös päättelyä miksi se on sininen, ilmakehän sirontaa ja spektraalisia aallonpituuksia, jotka kaikki on otettava huomioon.

tämä edellyttää tekoälyn kykyä rakentaa logiikkaa ja päättelyä ja argumentaatiota, hänen ei tarvitse vain kasvattaa aivojaan, vaan myös käyttää aivojaan.

vaikka google ehdotti ajatusketjun konseptia vuonna 2022, openai otti sen käyttöön tällä kertaa ensimmäisenä.

varsinaisen toiminnan aikana, nyt kun puhut o1-mallin kanssa, voit halutessasi myös laajentaa ja nähdä hänen ajattelulogiikkaa vastattaessaan kysymyksiin.

otetaan esimerkiksi tohtori cuin kysymys "onko olemassa mitään keinoa voittaa valkoista kohinaa pitkän matkan takertuneessa fotonijakaumassa" o1-mallin ajatteluprosessi on seuraava:

kuitenkin, aivan kuten se voi kumota ongelmia ammatillisilla aloilla, näyttää siltä, että jotkut yksinkertaiset kysymykset päivittäisissä skenaarioissa voivat myös häiritä sitä.

otetaan edellinen esimerkki klassisesta vertailusta 9.11:n ja 9.8:n välillä xiaohongshu netizen @小水 huomasi heti herättyään, että tämä asia "lupautuu heti kun vaikeus saavutetaan... ääretön silmukka ja työntää ajatusketjua. (cot) kuin hullu"

toimitukseemme havaitsi tämän ongelman myös omassa arvioinnissaan, mutta kysyttäessä miksi, se vastasi heti perustelunsa vääräksi ja päätteli sen sitten uudelleen.

okei, okei, kuten lääkäriltä odotetaan, hyvä löytää virheitä, eikö?

koko kierroksen testauksen jälkeen negatiivisen arvioijan on myönnettävä, että sitä on todellakin parannettu huomattavasti. kun olemme nähneet toisiamme kolmen päivän ajan, meidän pitäisi todella katsoa toisiamme ihaillen.

vaikutuksen suhteen se on todellakin parempi kuin edellinen sukupolvi, japitkäjänteisen ajattelun soveltaminen on hyvä asia tekoälyn tulevalle kehitykselle.

mutta kun useat lääkärit ruoskivat sitä vuorotellen, sen ongelmat paljastuivat selvästi.se ei voi korvata tohtorintutkinnon asiantuntijoita。

openai:n tutkija noam brown kuitenkin paljasti, että o1:n tulevat versiot ajattelevat tuntikausia, päiviä tai jopa viikkoja, vaikka se kuluttaa enemmän rahaa, kuten syöpälääkkeiden kehittäminen.

lisäksi uskon, että gpt o1:n toteuttama ajatteluketjumalli on todennäköisesti samanlainen kuin edellinen transformer-arkkitehtuuri ja dit-arkkitehtuuri.johda maailmaa suurten mallien suuntaan。

siksi tie agi:hen ei ole lähellä, mutta se ei ole myöskään kaukana. odotan innolla eri yhtiöiden pelaajia vuorotellen.

kirjoita artikkeli：naxi & big four

muokata ：jiang jiang & nuudelit

taidetoimittaja : huanyan

kuvia, lähteitä : openai, x, ibm, xiaohongshu jne., picture source network

uutiset

onko openai:n uusi malli verrattavissa tohtorin tutkintoon? pyysin tohtori qingbeitä maistamaan sitä: herää.

johdanto

yhteystietoni