le modèle openai o1 sort, l'agi à cinq niveaux perce à nouveau ! un super médecin doté d'un raisonnement extrême, un chinois de l'université fudan du nord de la dynastie qing a accompli des actes méritoires

le modèle openai o1 sort, l'agi à cinq niveaux perce à nouveau ! un homme titulaire d'un super doctorat en raisonnement, un chinois de l'université fudan de la dynastie qing du nord qui a accompli des actes méritoires

2024-09-13

tout à l'heure, les modèles de la série o1 les plus puissants d'openai ont soudainement été mis en ligne. sans prévenir, openai a lancé ce tonnerre.

le modèle fraise, qui était censé être en ligne d'ici deux semaines, est en réalité arrivé en deux jours !

à partir d'aujourd'hui, o1-preview sera déployé auprès de tous les utilisateurs plus et team de chatgpt, ainsi que des développeurs de niveau 5 dans l'api.

dans le même temps, openai a également publié o1-mini, un modèle d'inférence rentable qui est très performant en stem, en particulier en mathématiques et en codage.

le modèle o1 présente encore des défauts et des limites, et il est plus impressionnant à la première utilisation qu'à long terme.

les performances de la nouvelle série o1 en raisonnement complexe ont été portées à un tout nouveau niveau. on peut dire qu'elle possède de véritables capacités de raisonnement universelles.

dans une série de tests de référence, o1 a encore une fois fait une énorme amélioration par rapport à gpt-4o. il a la capacité de remporter une médaille d'or aux olympiades mathématiques. dans les tests de référence sur les problèmes de physique, de biologie et de chimie, il surpasse directement le test de référence. niveau des doctorats humains !

jason wei, chercheur à openai, a déclaré que o1-mini était le résultat de recherche le plus surprenant qu'il ait vu au cours de l'année écoulée. un petit modèle a effectivement obtenu un score de plus de 60 % au concours de mathématiques aime.

cependant, à en juger par l'annexe de l'article openai, l'aperçu et le mini publiés cette fois semblent n'être que des "versions castrées" de o1.

la mise à l'échelle d'inférence ouvre un nouveau paradigme

jim fan, scientifique principal chez nvidia, a analysé plus en détail les principes qui sous-tendent le modèle o1.

il a déclaré que le nouveau paradigme de mise à l’échelle du temps d’inférence est largement popularisé et déployé. comme l'a dit sutton dans « a bitter lesson », il n'existe que deux technologies capables d'adapter la puissance de calcul à l'infini : l'apprentissage et la recherche.

il est maintenant temps de nous concentrer sur ce dernier.

1. vous n’avez pas besoin d’énormes modèles pour faire des inférences.

2. transférer une grande quantité de calculs de la pré-formation/post-formation aux services d'inférence

3. openai a dû découvrir très tôt la règle de mise à l’échelle du raisonnement, mais la communauté universitaire n’a commencé à la découvrir que récemment.

4. mettre o1 en pratique est beaucoup plus difficile que de réussir selon les critères académiques

5. strawberry peut facilement devenir un volant de données

à en juger par la classification précédente d'openai, o1 a atteint des capacités de raisonnement de niveau l2.

quelqu'un l'a testé et a découvert qu'o1 avait réussi à écrire un poème très difficile. dans le processus, la planification et la réflexion nécessaires pour réussir cette tâche étaient folles, et le calcul du temps de raisonnement était très cool.

cependant, l'expert en ia karpathy s'est plaint après avoir testé o1-mini : "il a refusé de résoudre l'hypothèse de riemann pour moi. la paresse des modèles reste un problème majeur, ce qui est vraiment triste."

le professeur adjoint de nyu, xie saining, a également essayé de tester la question classique « qui est le plus grand, 9.11 ou 9.8 ? » de manière inattendue, o1-preview a toujours obtenu la mauvaise réponse.

le problème classique du « combien de r y a-t-il dans la fraise » n'est naturellement pas un problème pour o1.

big v matthew sabia a déclaré que le plus terrifiant est que le gpt-5 est 69 fois plus puissant que le modèle o1. les gens ordinaires ne comprennent tout simplement pas le raisonnement et les capacités logiques des éléphants.

les humains sont-ils vraiment prêts ?

les problèmes de raisonnement logique qui confondent les humains sont résolus par o1

nous savons tous que le raisonnement logique était une montagne difficile à franchir pour les précédents llm.

mais cette fois, la capacité du modèle o1 à résoudre des problèmes logiques complexes est surprenante.

par exemple, la question logique suivante :

l'âge de la princesse est égal à l'âge du prince à un moment donné dans le futur, alors que l'âge de la princesse sera le double de celui du prince à un moment donné dans le passé, et à ce moment-là dans le passé, l'âge de la princesse sera la moitié de celui-ci ; somme de leurs âges actuels. quels sont les âges de la princesse et du prince maintenant ? veuillez fournir toutes les solutions à ce problème.

cette question est extrêmement difficile à prononcer, même pour les humains, il faudrait beaucoup d’efforts pour traduire et comprendre correctement le sens de la question.

étonnamment, le modèle o1 a en fait donné la bonne réponse après quelques étapes de réflexion !

grâce à des étapes telles que la définition de variables, la compréhension de problèmes et la résolution d'équations, il est conclu que l'âge de la princesse est de 8 000 ans et celui du prince de 6 000 ans, où k est un entier positif.

dans une autre démo, jason wei nous a montré comment o1 programmait un jeu vidéo à partir d'invites.

comme vous pouvez le voir, il a copié l'invite dans le modèle o1.

par la suite, le modèle a réfléchi pendant 21 secondes et a affiché l’intégralité des étapes de réflexion.

par la suite, le modèle reçoit le code.

après avoir exécuté le code, le jeu s'est avéré très fluide !

nous avons même lancé un tas de phrases coréennes déroutantes à o1 et lui avons demandé de les traduire en anglais, et il l'a effectivement fait.

car, même si la phrase n’est pas claire grammaticalement, o1 la décode quand même étape par étape.

à la fin, o1 a donné la réponse et a dit avec humour : aucun traducteur sur la planète ne peut le faire, mais les coréens peuvent facilement l'identifier. il s'agit d'une méthode de cryptage du coréen grâce à divers changements de voyelles et de consonnes.

en revanche, gpt-4o était complètement confus et incapable de comprendre.

on peut voir que les super performances de o1 ont élevé le raisonnement logique à un nouveau niveau.

comment ça se fait ?

l'apprentissage par renforcement réalise de grandes réalisations, l'heure du grand modèle alphago approche

la différence entre les modèles de la série o1 et le passé est qu'ils passeront plus de temps à « réfléchir au problème » avant de répondre à la question, tout comme les humains.

grâce à la formation, ils apprennent à affiner leur processus de pensée, à essayer différentes stratégies et à reconnaître par eux-mêmes les erreurs.

derrière cela, le puissant algorithme « d’apprentissage par renforcement » a apporté de grandes contributions. à l’époque, lorsqu’alphago battait des joueurs d’échecs humains, l’algorithme rl était utilisé derrière.

il complète une formation efficace avec des données de haut niveau et apprend à llm à penser de manière productive en utilisant cot.

jason wei, le développeur à l'origine de la proposition du chercheur cot et openai, a déclaré qu'o1 ne complète pas cot uniquement par le biais d'invites, mais utilise des modèles de formation rl pour finalement mieux effectuer la réflexion en chaîne.

de plus, l’équipe openai a également découvert une « nouvelle loi » dans la loi de mise à l’échelle du modèle.

les performances de o1 continuent de s'améliorer à mesure que davantage d'apprentissage par renforcement (calculé en temps de formation) et plus de temps de réflexion (calculé en temps de test) sont investis.

les limites de cette méthode lors du scaling sont assez différentes des limites de la pré-formation llm.

les performances de o1 s'améliorent régulièrement avec l'augmentation du nombre de calculs pendant la phase de formation et la phase de test.

liste des équipes médaillées d'or

étude du raisonnement

parmi les contributeurs fondateurs, ilya sutskever, qui a quitté son emploi pour démarrer une entreprise, est clairement répertorié, mais il n'est pas répertorié dans le leadership exécutif (direction exécutive) avec greg brockman et d'autres. ce sont sans doute ses travaux de recherche antérieurs qui ont jeté les bases. pour o1.

après la démission d'ilya, openai a également extrait plusieurs de ses articles et a commencé à les publier, comme des recherches sur l'interprétabilité du modèle gpt-4.

aujourd'hui, ssi, qu'il est en train de créer, est également en plein essor. elle a levé 1 milliard de dollars de financement sans même avoir de produit, avec une valorisation de 5 milliards de dollars.

hongyu ren

hongyu ren est diplômé de l'université de pékin avec une licence en informatique et un doctorat de stanford. il a rejoint openai depuis juillet de l'année dernière. il a auparavant travaillé dans des entreprises telles que google, apple, nvidia et microsoft.

jason wei

jason wei est actuellement chercheur à openai. de 2020 à 2023, il a travaillé chez google brain, a proposé le fameux cot, le réglage fin des instructions, et a publié un article sur la capacité d'émergence des grands modèles.

kevin yu

kevin yu est actuellement chercheur à openai. il a obtenu sa maîtrise en physique et en astrophysique et son doctorat en neurologie à l'uc berkeley en 2014 et 2021, respectivement.

shengjia zhao

shengjia zhao est titulaire d'un diplôme de premier cycle de l'université tsinghua et a également obtenu un doctorat de stanford. après avoir obtenu son diplôme en juin 2022, il a rejoint l'équipe technique d'openai. il est également l'un des auteurs de gpt-4.

wenda zhou

wenda zhou a rejoint openai l'année dernière. auparavant, il était moore-sloan fellow au data science center laboratory de l'université de new york.

il a obtenu une maîtrise de l'université de cambridge en 2015 et un doctorat en statistiques de l'université de columbia en 2020.

chanson de françois

francis song est titulaire d'une licence en physique de l'université harvard et d'un doctorat en physique de l'université yale. il a rejoint openai en 2022 et a auparavant été chercheur scientifique chez deepmind et chercheur adjoint à l'université de new york.

marc chen

mark chen est directeur de frontier research depuis qu'il a rejoint openai en 2018, supervisant un groupe de travail dirigé par le vice-président de la recherche bob mcgrew.

après avoir obtenu son diplôme du mit, chen a obtenu un double baccalauréat en mathématiques et en informatique. pendant ses études universitaires, il a effectué un stage chez microsoft et trading et a été chercheur invité à l'université de harvard.

actuellement, il est également entraîneur de l’équipe de formation américaine ioi.

l'information a déjà émis l'hypothèse que mark chen deviendrait membre de la direction d'openai à l'avenir.

en outre, l'équipe de direction comprend également jakub pachocki, le scientifique en chef qui a succédé à ilya, et wojciech zaremba, l'un des rares co-fondateurs restants d'openai.

raisonnement sur la sécurité technique

jieqi yu

jieqi yu est diplômée de l'université de fudan avec un baccalauréat en ingénierie électronique. elle est allée à l'université des sciences et technologies de hong kong pour un échange, puis a obtenu un doctorat de l'université de princeton. elle a travaillé chez facebook pendant 12 ans, passant d'ingénieur logiciel à responsable de l'ingénierie logicielle, et a rejoint openai en tant que responsable de l'ingénierie en août de l'année dernière.

kai xiao

xiao kai est diplômé du mit avec son diplôme de premier cycle et son doctorat. il a également obtenu un double diplôme en mathématiques et en informatique en tant qu'étudiant de premier cycle. il est allé à l'université d'oxford pour des visites universitaires et a effectué des stages dans des entreprises telles que deepmind et microsoft he. a rejoint openai en septembre 2022.

lilian weng

lilian weng est actuellement à la tête du système de sécurité openai et est principalement engagée dans l'apprentissage automatique, l'apprentissage profond et d'autres recherches.

elle est diplômée de l'université de pékin avec une licence en systèmes d'information et informatique. elle est allée à l'université de hong kong pour un échange à court terme, puis a obtenu son doctorat à l'université d'indiana à bloomington.

comme mark chen, lilian est considérée comme une étoile montante dans le leadership d’openai.

la liste complète des équipes est la suivante :

physique biochimique, au-delà du niveau doctoral humain

en tant que nouvelle série de modèles créés par openai, quelle est la force d'o1 ?

classé parmi les 89 % des meilleurs problèmes de programmation du concours (codeforces) ; classé parmi les 500 meilleurs étudiants lors des qualifications de la compétition de l'american mathematical olympiad (aime).

plus important encore, il dépasse le niveau de doctorat humain dans le test de référence des problèmes de physique, de biologie et de chimie (gpqa).

sur les tests de référence couramment utilisés tels que math et gsm8k pour le raisonnement, o1 et de nombreux modèles de pointe récents ont atteint des performances saturées et sont difficiles à distinguer. par conséquent, openai choisit principalement aime pour évaluer également les capacités mathématiques et de raisonnement du modèle. comme d'autres tests humains et benchmark.

aime est conçu pour mettre à l'épreuve les capacités mathématiques des meilleurs lycéens des états-unis. lors de l'examen aime 2024, gpt-4o n'a résolu que 12 % (1,8/15) des questions en moyenne.

cependant, l'amélioration de o1 est assez significative, résolvant 74 % (11,1/15) des questions en moyenne, et atteignant 83 % (12,5/15) lorsque le vote majoritaire est effectué sur 64 échantillons. si nous utilisons la fonction de notation et réordonnons 1 000 échantillons, la précision atteint même 93 % (13,9/15).

un score de 13,9 signifie que le niveau d'o1 a atteint les 500 meilleurs étudiants du pays et a dépassé le score final de l'olympiade mathématique américaine.

sur des tâches difficiles telles que codeforces et gpqa diamond, o1 dépasse de loin gpt-4o.

o1 surpasse largement gpt-4o sur un test d'inférence difficile

gpqa diamond teste l'expertise dans les domaines de la chimie, de la physique et de la biologie. pour comparer le modèle aux humains, l’équipe a recruté des experts titulaires d’un doctorat pour répondre à ses questions.

en conséquence, o1 a surpassé ces experts humains (69,7) (78,0), devenant ainsi le premier modèle à surpasser les humains sur cette référence.

cependant, ce résultat ne signifie pas que o1 est plus fort qu'un humain titulaire d'un doctorat dans tous les aspects, cela montre seulement qu'il peut résoudre plus habilement certains problèmes de niveau correspondant.

de plus, o1 a également actualisé sota dans des tests de référence tels que math, mmlu et mathvista.

après avoir activé les capacités de perception visuelle, o1 a obtenu un score de 78,1 % sur mmmu, devenant ainsi le premier modèle à rivaliser avec des experts humains, dépassant gpt-4o dans 54 des 57 sous-catégories mmlu.

o1 surpasse gpt-4o sur un large éventail de tests, y compris les sous-classes 54/57 mmlu

chaîne de pensée

grâce à l'apprentissage par renforcement, o1 a appris à reconnaître et à corriger ses propres erreurs et à décomposer les étapes complexes en étapes plus simples.

il essaiera également différentes méthodes lorsque la méthode actuelle ne fonctionne pas. ce processus améliore considérablement les capacités d'inférence du modèle.

prenons l’exemple de la « cryptographie ».

la question est : « pensez étape par étape » est cryptée et correspond à « oyfjdnisdr rtqwainr acxz mynzbhhx ». demandez quelle est la signification de « oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz ».

on voit que gpt-4o est totalement impuissant face à ce genre de problème.

o1 a raisonné sur la méthode de calcul du cryptage sur la base des informations connues et a finalement donné la bonne réponse : il y a trois r dans la fraise.

gpt-4o

o1-aperçu

programmation

dans cette évaluation, openai a approfondi la formation d'un modèle de programmation amélioré basé sur o1.

lors de l'olympiade internationale d'informatique (ioi) 2024, le nouveau modèle a marqué 213 points et s'est classé à 49 %.

pendant le cours, les modèles disposent de dix heures pour résoudre six problèmes algorithmiques difficiles, avec 50 soumissions autorisées pour chaque problème.

lorsque les restrictions de soumission sont assouplies, les performances du modèle peuvent être considérablement améliorées. en autorisant 10 000 soumissions par question, le modèle a obtenu un score de 362,14, dépassant le seuil de la médaille d'or.

enfin, openai a également simulé un concours de programmation compétitif organisé par codeforces, en suivant strictement les règles et en autorisant 10 soumissions.

le score elo de gpt-4o est de 808, ce qui représente 11 % des joueurs humains. le nouveau modèle a largement dépassé les gpt-4o et o1, atteignant un score élevé de 1 807, surpassant 93 % des joueurs.

affinement ultérieur de l'o1 amélioré dans les concours de programmation : le modèle amélioré s'est classé dans le 49e centile selon les règles du concours lors de l'olympiade internationale d'informatique 2024

évaluation des préférences humaines

en plus des examens et des références académiques, openai a évalué les préférences humaines pour o1-preview par rapport à gpt-4o sur des mots d'invite difficiles et ouverts dans un large éventail de domaines.

dans cette évaluation, les humains voient les réponses anonymes aux mots d'invite de o1-preview et gpt-4o et votent pour la réponse qu'ils préfèrent.

dans les catégories exigeant beaucoup de raisonnement telles que l’analyse de données, la programmation et les mathématiques, les gens sont plus susceptibles de choisir o1-preview. mais dans certaines tâches en langage naturel, gpt-4o est meilleur.

en d’autres termes, o1-preview n’est actuellement pas adapté à tous les scénarios d’utilisation.

dans les domaines où la capacité de raisonnement est plus importante, les gens sont plus susceptibles de choisir o1-preview

o1-mini est extrêmement rentable

afin de fournir aux développeurs des solutions plus efficaces, openai a publié o1-mini, un modèle d'inférence plus rapide et moins cher.

en tant que modèle plus petit, le o1-mini est 80 % moins cher que le o1-preview.

il s’agit d’un modèle puissant et rentable pour les applications qui nécessitent un raisonnement mais ne nécessitent pas de connaissances générales du monde.

cependant, la série o1 actuelle en est encore à ses débuts et des fonctionnalités telles que les plug-ins réseau, le transfert de fichiers longue distance et les images n'ont pas encore été intégrées. à court terme, gpt-4o reste l’acteur le plus puissant.

références :

https://openai.com/index/learning-to-reason-with-llms/

nouvelles

le modèle openai o1 sort, l'agi à cinq niveaux perce à nouveau ! un homme titulaire d'un super doctorat en raisonnement, un chinois de l'université fudan de la dynastie qing du nord qui a accompli des actes méritoires

introduction

mes coordonnées