ICML2024 oratio viral!

2024-08-05

AIxiv columna columna est ubi Machina Cordis contenta academica et technica publicat. Praeteritis his annis, Cor Machinae AIxiv columnam plus quam 2.000 reportavit, tecta laboratatoria a maioribus universitatibus et societatibus circum orbem terrarum, efficaciter promovens permutationes academicas et disseminationem. Si egregium opus habes quod communicare vis, libenter senties nos conferendi vel nuntiandi contactum. Submissio inscriptio: [email protected];

Quomodo magna lingua exemplar (LLM) problemata mathematica solvit? Estne per memoriam templates, an vere ratiocinari? Quid est processus mentis arithmeticus ad exemplar? Quas artes ratiocinatio disci potest? Idem cum hominibus, an supra homines? Discere solum unum genus quaestionis mathematicae adiuvabit progressionem intelligentiae generalis? Cur LLMs errores ratiocinantes? Quantum profundum LLM facit rationem facere?

Charta inscriptio: https://arxiv.org/abs/2407.20311

Nuper quadrigae quadrigae Meta aequi, CMU et MBZUAI, inter Ye Tian, Xu Zicheng, Li Yuanzhi, et Zhu Zeyuan, ultimam chartam arXiv "Language Exemplar Physicae Pars 2.1: Scholae Mathematicae et Processus Occultus "Per experimenta moderata ut quaestiones supra quaestiones respondeat. Twitter usoris @xlr8harder commentatus est, "Hoc semel et pro omnibus quiescit, disceptatio de LLM an facultas ratiocinandi facultatem habeat an temere psittacus".

Nota editor: Tota series "Language Physicae exemplar" invitata est ut duos horas speciales relationes daret in ICML 2024 Internationalis Machina Learning Top Conference on July 22. Responsum alacer erat, et ferunt continuam applausum fuisse. interueniunt. Hic tibi expono seriem 2.1 .

figure 1

Explicatio charta

Imprimis, secundum conventionem huius seriei, auctor credit non esse coniecturam de modo cogitandi loquendo ad exempla magna ut GPT-4. scientia interiorem cogitationem de GPT-4.

Praeterea, ex notitia rerum prospectu, solum plene accessu praescriptionum exemplarium scire possumus quas interrogationes exemplar viderit et quas per coniecturam edocti sunt. Etiamsi exemplar ustulo GSM8k attingit, signum propositio 8000 elementorum scholae mathematicae quaesitorum est, difficile est dicere an viderit illarum quaestionum variationes (quales varietates in diversis linguis an GPT-4 rescribens).

Ad hunc finem, auctor iGSM creavit, synthetica institutio quaestionum cogitandi quae scholam primariam mathematicam aequare simulat, et exemplar praeeudiatur in iGSM de integro ad regendum genera quaestionum, quod exemplar est obnoxium. Notatu dignum est iGSM notitias sensus communes non continere, tantum additionem, subtractionem et multiplicationem intra 23 extensionem, omnesque calculi gradatim per CoT peragi. Cum iGSM, experimenta moderata deduci possunt ut facultates consequentiae speciatim student exemplar, neglectis aliis factoribus (ut magnis arithmeticis integris). Figura 2 simplex exemplum ostendit.

figure 2

Hac data copia usus, auctor primum exsecutionem GPT2 (versio RoPE) temptavit. Usus op ad repraesentandum numerum mathematicorum operationis gradus ad problema solvendum requiritur, auctor invenit, cum in quaestionibus op≤21 eruditus sit, exemplum non solum 99% accurationis consequi, sed etiam meliores eventus in difficilioribus quaestionibus assequi (ut ut op=32 ) accurationem rate of 83% (vide Figure 3). Ex quo patet quod exemplar aliquas artes ratiocinationes didicit, postquam omnes, numquam quaestionem cum op>21 vidit. (Obiter GPT-4o quaestiones tantum cum op=10 in hac notitia statuto tractare potest. Quidquid ultra hanc difficultatem est quasi caeca coniecturalis est. De hac re in fine articuli disputabimus.)

Quales igitur artes ratiocinandi exemplar didicit? Duo saltem sunt modi cogitandi de solvendis mathematicis quaestionibus iGSM. unum est quod vocat auctor "Level 0 Ratio hoc est, "vehemens ratio iniri potest." Cum variabiles in quaestionis implicatas dependentias habere possunt, quidam directe computari possunt, alii vero primum computari debent. Exempli gratia, si Xiao Zhang habet III tempora plures fructus quam Xiao Wang, tunc primum computare debet quot mala et pira. Xiao Wang habet. "Ratio 0 ratio" est omnes variabiles quam maxime enumerare, passim calculabilem variabilem singulis temporibus invenire, eventum computare et permanere.

Et secundum hoc est "Level I Ratio ": Per genus topologicum, incipe a problemate et opere retrogrado determinare quae variabiles computari oportet, et tunc a nodis folium folium incipe et sursum computare ad contendendum pro "brevissima responsione". Communia problematum mathematicae solutiones plerumque in gradu 1 ratiocinando utuntur et "variabilitates necessariae" non computant. Pro exemplo, Xiao Zhang habet ter fructus quam Xiao Wang. Si quaeris Xiao Zhang quot fructus habet, ergo Xiao Li numerus malorum est necesse variabilis, cum Xiao Wang numerus mala et pira sunt necessaria.

Ut in Figura III ostensum est, auctor invenit GPT-2 aequam 1 rationem discere posse et brevissimam responsionem dare omni fere tempore. Hoc est valde simplex! Quia exemplar ante primam sententiam generat, necesse est totum genus topologicum in mente eius fieri - alioquin quomodo sciret quas variabiles esse non necessarias? Si exemplar generat "Xiao Li habet 7 poma" ab initio, nulla ratione regredi et brevissima responsio haberi non potest.

imago 3

Quomodo ergo exemplar discit "gradum 1 rationem"? Ad hunc finem auctor perscrutandis exemplaribus parametris internis perscrutatur (cf. figura 4). Conclusio ostendit (vide chartam ad singula per modum probandi) quod antequam exemplar generat primam sententiam, iam definitum est quae variabilis A sit "necessaria" per arithmeticam mentalem (nece (A)=Verum). Simul, singulis sententiis, exemplar etiam mente computat omnes variabiles sequentes "computabiles" A (cannext (A)=Verum). Exemplar igitur solum necessarium est ut logices ET operationes in nece et cannexte continue praestent, et processus calculi completus gradatim incipiendo a nodis folium tribui potest.

Egregie hae facultates multiplices mentis arithmeticae in institutione positae non apparuerunt. Exemplar solum notitiae iGSM expositum est et solum "linguam" partem (quaestiones et responsa) vidit, sed sine processu cogitationis humanam (ratio mentis) et ad optimam solutionem pervenit!Aliis verbis, haec investigatio nostram famam redarguit per hebdomadam ante in "Lingua Cogitandi, magna exempla ratiocinationem discere non possunt: natura articulus AI communitatis explodere" fecit et methodis scientificis utens probavit.Exempla magna quidem per linguam discere possunt cogitare。

Quod magis mirum est quam exemplum discit. In schemate 4, auctor invenit exemplar mentis multam informationem quae ad problema solvendum inutile est. Exempli gratia, postquam relatio variabilis modo descripta est vel etiam antequam quaeritur, exemplar iam scit an dependentia recursiva sit inter quaslibet binas variabiles A et B - etsi hae variabiles nihili sunt ad problema solvendum. Homines enim plerumque a interrogatione et opere retrogrado incipimus, variabilium supervacaneis neglectis, sed exemplar linguae quasi GPT-2 pectet per totam graphi relationem ad quaestiones tractandas quae in futurum quaeri possunt. Hanc facultatem vocat auctor "Level II Ratio」。

Etsi Level 2 Ratio solvendae quaestionis non requiritur, ars certe communior est. Exemplar adiuvat facultates parallelas ad faciendum magnam copiam causae et effectus genus informationis. Haec facultas linguarum exemplar vincitur cum quaestiones solvendas discit. Auctor speculatur hanc esse potentialem originem vocabuli "universalis" in intelligentia generali artificiali (AGI), hoc est, exempla linguarum magis posse discere facultates generales ultra artes quae a notitia statuto edoctae sunt.

Figure 4

Deinde inspexerunt auctores cur erroris exemplar fecerit. In summa, in notitia iGSM posita, exemplar fere solum duos genera errorum facit: unum variabiles superfluas computat, et altera variabilium computat quae nunc inaestimabiles sunt, ut in Figura 5 ostenditur.

Secundum illud, auctor invenit errorem calculi mentalis si exemplar facit antequam responsio generare et falso credit certam variabilem A esse "necessarium" (nece (A) = Verum), exemplar verisimile est vim calculare A cum generans responsum. Haec inventio valde interesting est et suggerit multos errores systematicos esse et exemplum convincitur quod errabit (via rimatur) antequam os suum aperiat antequam primum signum generatur. Hoc genus erroris nihil ad fortuiti pertinet in processu generationis vel radiophonico inquisitionis.

Quod ad posterius attinet, auctor etiam eam attribuit erroribus mentalibus arithmeticis, ac totam partem 2.2 chartam sequitur, ut arithmeticam mentis exemplar arithmeticam facultatem specifice emendaret, ut tandem accurationem problema solvendi emendaret. Charta nondum emissa est, et attendere faciemus et in tabula publica referre.

Figure 5

Proxima conclusio est quod auctor "tantum magnum unum" in lucem proposuit in lege magnarum exemplorum, hoc est, in executione exemplaris solum ad numerum parametri referri, et nihil ad latitudinem vel ad latitudinem pertinet. profundum. Haec sententia primum ab OpenAI's Scaling Lex charta proposita est et in omnibus fere investigationibus subsequentibus secuta est.

Auctor experimentum moderatum per notitias iGSM posuit, ut in Figura VI ostensum est. Comparando exempla minora et altiora cum exemplaribus maioribus et latioribus, invenimus problemata mathematica solvenda in iGSM;Exemplar profunditas manifesto maior est quam latitudo . Exempli gratia, exemplar capitis 20-circulis multo melius facit quam exemplar capitis 4-straminis 30-capitis, quamvis hic bis tot parametros habeat.

Ulterius auctor invenitAltitudine fiducia oritur ex multiplicitate arithmeticae mentis exemplar . Auctor in diversis profundis exemplaris per exploranda studia invenit quod pro iis variabilibus A, quae procul absunt a problemate, arithmetica mentalis nece (A) saepe plures stratis requirit. In specie, si distantia inter variabiles A et problema variabile est t, tum t gradus arithmeticae mentis necessarii sunt ad cognoscendum nece (A)=Verum. Quo maior t est, eo magis strata exemplar requirit, ut in Figura VI ostensum est.

Auctor enucleat exemplum dependentiae ab imo non posse a Chain-of-CoT defigi. Re quidem vera, problema mathematica in iGSM solvendo quam maxime CoT usus est, hoc est, omnes calculi in gradatim deminuti sunt. Ita, exemplar etiamnum oportet ut arithmeticam mentalem ad propositum disponat quis primus gradus CoT sit - et haec arithmetica mentalis processus adhuc multiplices gradus requirat. Inde patet exemplum profunditatis dependentiae.

Figure 6

Ad summam, dissimile plusquam 99% chartarum quae processus humanitatis LLM student, auctor huius articuli novam accipit accessionem et processum mentis LLM cum solvendis mathematicis quaestionibus, quae novas perceptiones intelligentiae LLM praebet. prospectum.

In fine articuli, auctor demonstrat etiam GPT-4 tantum praestare posse usque ad 10 gradus ratiocinationis in notitia certa iGSM. Inde patet, etiam potissima exempla hodierna, quae uti videntur omnia interreti notitia, adhuc plus quam 10 gradus illationis accurate complere posse. Hoc implicat notitias pretrain usu magnarum exemplorum existentes adhuc multum spatii emendandi habere possunt. Per modum huius articuli, potest nova possibilitas artificiose synthesim condere notitias ad augendam facultatem ratiocinandi et informationes sui generis facultatem.

nuntium

ICML2024 oratio viral!

Introductio

mihi contactus notitia