nuntium

exemplar openai o1 exit, quinque-gradu agi iterum erumpit! vir super gradum doctoris in ratiocinando, a universitate fudan sinensi in qing dynastia septentrionali, qui opera meritoria fecit

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

modo, openai potissima exempla seriei o1 online subito pervenerunt. sine improviso, openai hoc tonitru proiecit.

exemplar fragum, quod in online intra duas septimanas esse dicebatur, actu in duobus diebus pervenit!

incipiens hodie, o1-praevisio evolvetur omnibus plus et teams usoribus in chatgpt, et ad 5 tincidunt in api ordo.

eodem tempore, openai etiam o1-mini dimisit — exemplum consequentiae gratuitae efficax quae apud stem valde bona est, praesertim mathematica et coding.

exemplar adhuc o1 menda et limitationes habet, et in primo usu gravius ​​quam detegere.

executio novae seriei in ratione multiplici ratione evectus ad totum novum gradum.

in serie probationum probationum, o1 iterum immensam emendationem comparatam gpt-4o fecit. facultatem habet numisma aureum in olympiade mathematica lucrandi humanam phds!

jason wei indagator openai dixit o1-mini esse mirabilem exitum investigationis anno praeterito videri. parva exemplar effecta sexaginta super 60% in aime mathematicae competition.

nihilominus, ex appendice in articulo openai, praevisio et mini emissa hoc tempore videntur "versiones castratae" o1 esse iustae.

consequentia scaling novum exemplar opens

nvidia senior physicus jim fan ulterior principia post o1 exemplar resolvit.

dixit novum paradigma illationis temporis scalae late divulgari et explicari. sicut sutton in "lectio amara" dixit, duae tantum technologiae sunt quae potentiam computandi infinite scandere possunt: ​​discendi et quaerendi.

nunc tempus est nos ad hos versari.

1. exempla consequentia ingentia non opus est.

2. transfer magnam quantitatem calculi ex prae-initiatione / post-exercitatione ad consequentiam officia

3. openai ratiocinationem adscendendi regulam valde mature detexisse oportet, sed communitas academica tantum nuper eam invenire incepit.

4. ponere o1 in usum practicum multo difficilius quam bene facere in academicis benchmarks

5. classic potest facile a data flywheel

iudicans ex priore classificatione openai, o1 facultatem rationis campestris ratiocinandi consecutus est.

aliquis illud temptavit et invenit quod o1 carmen difficillimum feliciter scripsit.

tamen, ai peritus karpathy conquestus est post experimentum o1-mini "riemann hypothesin solvere mihi recusavit. exemplar pigritiae maioris quaestionis adhuc est, quae vere tristis est."

nyu assistens professor xie saining etiam quaestionem classicam probare conatus est "quis maior est, 9.11 vel 9.8?"

quaestio classica de "quot r's ibi in fragum" naturaliter non est problema pro o1.

magnus v matthaeus sabia dixit rem terribilem esse gpt-5 69 temporibus potentiorem quam exemplar o1. plebs simplicium ratiocinationem et facultates logicas elephantorum non intelligit.

vere parati sunt homines?

logica ratiocinatio problemata quae homines confundunt solvuntur per o1

scimus omnes rationem logicam difficilem fuisse montem transire pro priore llms.

sed hoc tempore mirum est o1 exemplar facultatis multiplicis logicae problemata solvendi.

exempli gratia: quaestio logica sequens -

aetas reginae aequalis est aliquando principis aetate in futuro, quando aetas principis bis erit, quae principis aetas aliquando in praeteritum, et tunc in praeterito, aetas principis dimidia erit summa current saeculorum. quae sunt saecula princeps et princeps nunc? quaeso omnia solutiones huius problematis praebere.

haec quaestio difficillima est enuntiandi. etiam pro hominibus, multum operae esset sensum quaestionis recte interpretari et intellegere.

improbe, exemplar o1 rectam responsum actu dedit post aliquot gradus cogitandi!

per gradus ut variabiles definientes, problemata intelligenda et aequationes solvendas, concluditur aetatem principis 8k annos natam, aetatem principis 6k annos natam, ubi k integer positivus est.

in alio demomo, iason wei ostendit nobis quomodo o1 programmavit ludum video in promptu.

ut vides, promptum in o1 exemplar exscripsi.

postmodum exemplar cogitationum 21 secundarum totius cogitationis vestigia exhibuit.

exim exemplar postea in codice datum est.

post currentem signum, ipsum ludum esse lenis evasit!

etiam fasciculum sententias coreanas confundens in o1 abiecimus et petivimus ut eas in anglicam transferremus, et id quidem fecit.

quia, licet sententia grammatice lateat, o1 gradatim tamen decoquitur.

in fine, o1 responsum dedit et facete dixit: nullus interpres in planeta id facere potest, sed coreani eam facile cognoscere possunt.

e contra, gpt-4o omnino confusa erat et intelligere non poterat.

videri potest quod eximius agendi rationi logicam ad novum gradum excitavit.

quomodo factum est?

cognitionis supplementum res gestas magnas facit, tempus venit ad exemplar amplum alphago

differentia inter exempla seriei o1 et praeteritum est quod plus temporis erit "cogitare quaestionem" antequam quaestioni respondeat, sicut homines.

exercitationes suas cogitationis causas excolere discunt, rationes varias temptant, errores in seipsis agnoscunt.

post hoc, algorithmus potens "auxilium eruditionis" magnas contributiones fecit. retro ergo, cum alphago lusores latrunculorum humanos devicit, rl algorithmus post eum adhibitus est.

exercitationem efficientem summa rerum notitia complet et llm docet ut efficaciter utendo cot putet.

jason wei, elit post propositum cot et indagator openai, dixit o1 cot pure per suasiones non perficere, sed exempla formandi rl utitur ut catenam meliorem putet finaliter praestare.

praeterea turma openai in lege scala in exemplari etiam "novam legem" detexit.

executio o1 emendare pergit ut plus supplementi studiorum (in tempore disciplinae computandi) et tempus cogitationis (in tempore experimenti computatum) investitura sunt.

limitationes huius methodi in scaling longe diversae sunt ab limitibus llm prae- struendi.

effectio o1 constanter augetur cum incremento quantitatum calculi in institutione temporis et probationis periodo.

index auri numisma iugis

rationem studio

inter fundatores contributores, ilya sutskever, qui officium suum ad negotium ineundum reliquerat, evidenter recensetur, sed in principatu exsecutivo (praesidio exsecutivo) cum greg brockman et aliis non recensetur ad o1.

postquam ilya renuntiavit, etiam openai multas chartas suas effodit et eas evulgare coepit, ut investigatio de interpretatione exemplaris gpt-4.

hodie, ssi, quod instituit, etiam sonabant.

hongyu ren

hongyu ren ex peking universitate cum baccalaurei gradu in scientia computatrali lectus et ex stanford doctoratum accepit. ipse openai cum iulio anno proximo coniunxit.

jason wei

jason wei indagator in openai currently est. durante 2020-2023, apud google brain laboravit, clarum cot, disciplinam bene-tunandi proposuit, et chartam in magnarum exemplorum facultatibus cessum edidit.

kevin yu

kevin yu indagator in openai currently est. gradum domini sui in physica et astrophysics et doctoratum in neurologia accepit ab uc berkeley anno mmxiv et mmxxi, respective.

shengjia zhao

shengjia zhao lectus a tsinghua university cum adipiscing gradus et etiam phd ex stanford accepit.

wenda zhou

wenda zhou coniunxit openai ultimo anno. antea fuit socius moore-sloan apud datam scientiarum centrum laboratorium in universitate novi eboraci.

gradum domini in universitate cantabrigiensi anno 2015 accepit et phd in statistica e columbia universitatis anno 2020 accepit.

franciscus song

franciscus song accepit gradum baccalaurei in physicis ex universitate harvardiana et ph.d. openai anno 2022 se coniunxit et antea ut investigationis scientificae apud deepmind et adiutorem investigationis scientificae in universitate new york, functus est.

mark chen

mark chen directori limitis investigationis inservivit cum openai in mmxviii coniungens, invigilans coetus laborantium sub vice praeside research bob mcgrew.

postquam ab mit graduatus est, chen duplicem gradum baccalaurei in mathematicis et in scientia computatrum accepit.

nunc, etiam raeda ioi disciplinae quadrigis americanae inservit.

informationes semel cogitaverunt quod mark chen membrum ductui openai in futuro fiet.

praeterea turmas ductoris etiam jakub pachocki comprehendit, praecipuum physicum qui ab ilya et wojciech zaremba accepit, unum e paucis reliquiis co-auctoribus openai.

ratio technicae securitatis

jieqi yu

jieqi yu a fudan university lectus cum baccalaurei gradu in machinatione electronica perrexit. facebook annis xii operata est, transitus ab ingeniario programmate ad ipsum procuratorem programmatum, et openai procuratori suo augusto anno praeterito coniunxit.

kai xiao

xiao kai lectus ab mit cum eius adipiscing gradu et eius phd. etiam duplicem gradum mathematicae et scientiae computatricis accepit ut adipiscing coniunxit openai mense septembri mmxxii.

lilian weng

nunc lilian weng caput systematis securitatis openai est et maxime in machina discendi, profundae doctrinae aliisque investigationibus versatur.

illa ab universitate peking ad gradum baccalaureatus in informationibus systematis et scientia computatoria deducta est. ad universitatem hong kong breve tempus commutatio illa perrexit, et ab indiana university bloomington phd accepit.

sicut mark chen, stella ortu lilian habetur in ductu openai.

integrum indicem iunctorum talis est:

physica biochemica, ultra gradum doctoralem humanum

ut nova exemplorum series ab openai creata, quae vis o1?

praeferebantur in summo 89% certationis programmandi problematum (codeforces); inter summos 500 discipulos numerabantur in olympiade mathematica americanae competition qualifiers (aime).

maxime, excedit gradum humanum phd in probatio physicae, biologiae et problematum chemiae (gpqa).

probatio vulgo adhibita ut math et gsm8k ratiocinandi, o1 et multa exempla recentia incisura perducta sunt ad satietatem perficiendi et difficile distinguere. ergo openai maxime eligit aime aestimare mathematicos et ratiocinandi facultates exemplaris, tam ut alii homines probat et probatio.

aime destinatur ad facultates mathematicas optimus princeps scholae studentium in civitatibus foederatis provocare.

nihilominus, emendatio o1 satis significativa est, solvendo 74% (11.1/15) de quaestionibus in mediocris, et ad 83% (12.5/15) cum maioritas suffragii fit in 64 exemplaria. si munus scor- pionis et reordinationis 1000 exempla utimur, accuratio etiam ad 93% (13.9/15).

octoginta 13.9 significat quod o1 gradus ad summum 500 discipulorum in patria pervenerit et ultimum sexaginta olympias mathematicae americanae excesserit.

in provocandis muneribus ut codeforces et gpqa diamond, o1 longe gpt-4o excedit.

o1 valde outperforms gpt-4o provocantes consequentia velit fermentum

gpqa diamond experientiam probat in campis chemiae, physicae et biologiae. exemplar hominibus comparare, manipulus peritis cum phds conscriptis suis quaestionibus respondere debet.

quam ob rem, o1 hi periti homines (69.7) (78.0) effecti sunt, primum exemplum fiebat ut homines in hoc probatio antecellerent.

nihilominus, hic effectus non significat o1 fortiorem esse quam hominem cum phd in omnibus aspectibus, tantum ostendit se posse aliquas quaestiones aequitates respondentes sollertius solvere.

praeterea o1 etiam sota refecit in probationibus probatio ut math, mmlu, et mathvista.

postquam facultates visivae perceptionis emisit, o1 septuaginta milia 78,1% in mmmu consecuta est, primum exemplar factus est cum peritis humanis certandi, superans gpt-4o in 54 of 57 mmlu subcategoriae.

o1 outperforms gpt-4o in amplis benchmarks, inter 54/57 mmlu subclasses

cogitatio catenae

in supplemento doctrinae, o1 didicit sua errata agnoscere ac corrigere, ac multiplicia in simpliciora dissolvere vestigia.

diversas quoque rationes probabit cum praesens non operatur. hic processus signanter ampliat facultatem consequentiae exemplaris.

exemplum sumamus "cryptographiae".

quaeritur: "cogita gradatim" encryptum esse et respondet "oyfjdnisdr rtqwainr acxz mynzbhhx".

perspici potest quod gpt-4o in huiusmodi problemate omnino inops est.

o1 de encryption methodo calculi in notis informationibus fundata disputavit, et tandem rectam responsum dedit - sunt tres r's in argento.

gpt-4o

o1-praevius

programming

in hac aestimatione, openai adhuc exemplar programmatis amplificatum ex o1.

in anno 2024 internationalis olympias in informaticis (ioi), novum exemplar ccxiii puncta laceratum et in xlix% positione ponebant.

per cursum, exempla habent decem horas ad solvendas sex difficultates algorithmicos provocantes, cum 50 animadversionibus pro singulis quaestionibus permissis.

cum restrictiones oboedientiae remittuntur, effectio exemplaris signanter emendari potest. cum 10,000 submissionibus per interrogationem permittens, exemplum consecutus est sexaginta 362,14 - limina numismatis aurei excedente.

denique openai etiam aemulationem competitive programmationis a codeforces hosted simulavit - regulas stricte secutus ac permittens 10 submissionibus.

gpt-4o score elo 808, ordo 11% hominum lusorum est. novum exemplar longe gpt-4o et o1 superavit, altum score 1807 attingens, 93% scaenicorum formans.

amplius subtiliter emendavit o1 in programmandis certationibus: exemplar emendatum in xlix cento sub certaminis normas anno mmxxiv internationalis olympiadis in informaticis ponebatur.

humana preference taxatio

praeter probationes et probationes academicas, openai optiones humanas aestimandas pro o1-praevisione versus gpt-4o provocantes, prompta verba aperta per amplis ditionibus.

in hac aestimatione homines responsiones anonymas vident ut verba prompta ex o1-praevisione et gpt-4o et suffragio quibus responsio praeponunt.

in categoriis ratiocinando gravia sicut analysin, programmatio et mathematica, homines magis verisimile est eligere o1-praevisionem. sed in quodam sermone naturali pensa, gpt-4o melius est.

aliis verbis, o1-praevisio, nunc omnibus missionibus usui non convenit.

in locis in quibus facultas ratiocinandi potior est, homines magis verisimile est eligere o1-praevisionem

o1-mini maxime sumptus efficens

ut tincidunt solutiones efficaciores praebeant, openai o1-mini dimittuntur - exemplum coniecturae citius et vilius.

ut exemplum minoris, o1-minium 80% vilius est quam o1-praevisio.

hoc exemplum efficax et sumptus ad applicationes quae ratiocinationem requirunt, sed notionem universalem mundi non requirunt.

autem, series hodierna o1 adhuc in ineunte aetate est, et facultates ut obturaculum retiale, fasciculi longi intervallum translationis, imagines nondum integrae sunt. in brevi termino, gpt-4o adhuc fortissimus lusor est.

notae:

https://openai.com/index/learning-to-reason-with-llms/