des raids de modèles de fraises openai tard dans la nuit ! la physique et la chimie atteint le niveau des doctorants, bien mieux que gpt-4o, chatgpt est disponible

des raids de modèles de fraises openai tard dans la nuit ! la physique et chimie atteint le niveau des doctorants, bien mieux que gpt-4o, chatgpt est disponible

2024-09-13

auteur | vanille

editeur | li shuiqing

zhidongxi a rapporté le 13 septembre que tôt ce matin, openai a soudainement publié le légendairemodèle "fraise"aperçu partiel de -version préliminaire d'openai o1. il s’agit d’une série de nouveaux modèles d’ia capables de raisonner sur des tâches complexes et de résoudre des problèmes plus difficiles que les modèles scientifiques, de programmation et mathématiques précédents.

▲openai publie le modèle o1

openai o1 est le premier d'une nouvelle série de modèles d'ia。contrairement aux modèles précédents, il possèdecapacités de raisonnement évoluées, sera dansréfléchissez bien avant de répondre, génère un longchaîne de pensée interne, classement sur des questions de programmation compétitivesn ° 89, classé dans le tournoi de qualification de l'olympiade mathématique des états-unis500 premiers, précision dans les tests de référence sur les problèmes de physique, de biologie et de chimiedépasser le niveau du doctorat humain！

un autre récemment publiéo1 miniest un modèle plus rapide et plus petit, formé en utilisant un cadre similaire à o1. o1 mini est bon en sciences et en ingénierie, en particulier en mathématiques et en programmation.le coût est 80 % moins cher que la version préliminaire o1。

ces deux modèles sont considérés par openai comme une avancée majeure dans les tâches de raisonnement complexes, c'est pourquoi ils sont nommés o1 pour réinitialiser le compteur plutôt que comme une continuation de la série gpt.

cependant, la version améliorée par inférence du modèle o1 a encore lamentablement échoué sur le « problème d'ordre supérieur » de la comparaison des tailles de 9,9 et 9,11.

▲le modèle o1 répond à la question du « rapport taille »

andrej karpathy, membre fondateur d'openai et ancien directeur principal de tesla ai, qui a quitté openai pour démarrer une entreprise, s'est plaint ce matin : « o1-mini a toujours refusé de résoudre l'hypothèse de riemann à ma place. la paresse des modèles reste un problème majeur. problème 😞"

▲andrej karpathy s'est plaint du fait que o1 mini était « paresseux »

openai a rigoureusement testé et évalué la version préliminaire o1 pour garantir que le modèle peut être publié en toute sécurité. les utilisateurs de chatgpt plus et team peuvent choisir deux nouveaux modèles aujourd'hui, et les développeurs de niveau 5 seront également les premiers à obtenir un accès api aux nouveaux modèles.

openai a également annoncé les membres de l'équipe principale derrière le modèle o1, dont 21 contributeurs de base, dont l'ancien scientifique en chef d'openai ilya sutskever, parti pour démarrer une entreprise, et 7 chefs d'équipe.

1. mmlu est comparable aux experts humains en termes de capacité de programmation8double tueriegpt-4o

comme exposé précédemment, openai o1 est formé pour être un modèle qui passe plus de temps à réfléchir aux problèmes avant de réagir. il réfléchit avant de répondre, produisant untrès longue chaîne d’idées interne, et peut être comme les humainsaméliorez votre processus de réflexion，continuez à essayer de nouvelles stratégieset réalisez vos erreurs.

en tant que premier modèle d'aperçu, openai o1 actuellementprend uniquement en charge les conversations textuelles, ne dispose pas de fonctionnalités multimodales telles que la navigation sur le web pour obtenir des informations, le téléchargement de fichiers et d'images, etc.

en termes de performances, openai o1 estphysique, chimie et biologieperformance sur les tâches de référence etdoctoranttout à fait et dansmathématiques et programmationexcellentes performances.

▲référentiels d'évaluation openai o1 en mathématiques et programmation

lors de l'examen de qualification de l'olympiade internationale de mathématiques (omi), le modèle gpt-4o de la génération précédente d'openai avait un taux de précision de 13 %, tandis qu'openai o1 étaitatteindre 83 %. dans le cadre du concours de codage codeforces, openai o1le score est de 89, alors que gpt-4o n’en a que 11. même la version préliminaire du modèle o1-preview fonctionne plusieurs fois mieux que gpt-4o.

o1 fonctionne nettement mieux que gpt-4o sur la plupart des benchmarks, couvrant 54 des 57 sous-catégories mmlu. après avoir activé la fonction de perception visuelle, o1 a obtenu un score de 78,2 % sur mmlu, devenant ainsile premier modèle à rivaliser avec les experts humains。

▲ comparaison des performances entre la version préliminaire o1 et gpt-4o

voici quelques exemples de la version préliminaire d’openai o1 :

1. résolvez un casse-tête logique complexe

entrez unpuzzle d'âge complexe: une princesse est aussi vieille que le prince lorsqu'elle est deux fois plus âgée que le prince, et lorsque son âge est la moitié de la somme de leurs âges actuels. quel âge ont le prince et la princesse ? donnez toutes les solutions à ce problème.

le modèle a commencé à répondre après avoir réfléchi pendant plus de 20 secondes. la logique de sa réponse est très cohérente. la première consiste à déterminer l’équation de l’âge, à convertir les énoncés donnés en équations mathématiques et à trouver toutes les solutions possibles qui satisfont à ces équations. commencez ensuite à analyser le problème étape par étape :

la première étape consiste à définir les variables, en utilisant p pour représenter le prince et q pour représenter la princesse ; la deuxième étape consiste à comprendre les deux conditions du problème ; la troisième étape consiste à convertir les conditions en équations ; la quatrième étape consiste à résoudre ; l'équation ; la cinquième étape l'étape 1 utilise ces valeurs pour vérifier toutes les conditions ; l'étape 6 donne toutes les solutions possibles.

je suis finalement arrivé à la conclusion :

2. traduisez les phrases contenant des erreurs

l'ajout de consonnes supplémentaires inutiles affecte la lecture du coréen. il ne sera pas lu naturellement par les locuteurs natifs, qui modifieront et comprendront automatiquement le texte lorsqu'ils verront de telles phrases. mais c’est un défi difficile à relever pour le modèle.

entrez unmots d'invite coréens gravement endommagésenfin, openai o1 s'est d'abord rendu compte que le texte saisi contenait des caractères coréens tronqués ou mal alignés et a demandé à l'utilisateur s'il souhaitait vérifier les erreurs de saisie.

le modèle o1 comprendra d'abord la structure sous-jacente, et après environ 10 secondes de réflexion, il décodera le texte tronqué, déchiffrera le texte, améliorera la traduction, comprendra le concept et le reconvertira en un langage cohérent.

contrairement à gpt-4o, le modèle o1 réfléchit à la question avant de générer la réponse, vérifie le texte, puis le modifie en la phrase correcte comme s'il déchiffrait la réponse. après environ 15 secondes de réflexion, o1 a donné la version finale optimisée de la traduction.

cela démontre que les capacités de raisonnement deviennent un outil puissant pour résoudre des problèmes.

3. répondez au problème difficile bien connu des grands modèles de langage : compter les lettres dans les mots

cet exemple est très simple, entrez le mot fraise et laissez le modèle répondre à cette question.combien y a-t-il de r dans le mot ?。

en conséquence, gpt-4o a donné la mauvaise réponse : « 2 ».

pourquoi un modèle aussi avancé commettrait-il une erreur aussi simple ? en effet, un modèle comme gpt-4o est conçu pour traiter du texte, et non des caractères ou des mots, de sorte qu'il peut commettre des erreurs lorsqu'il rencontre des problèmes impliquant la compréhension du concept de caractères et de mots.

le nouveau modèle o1 basé sur le raisonnement peut donner la bonne réponse après quelques secondes de réflexion :

4. programmation de jeux vidéo

laissez le modèle utiliser pygamecréez un jeu vidéo appelé squirrel finder, et entrez les conditions suivantes : l'utilisateur doit guider l'icône "koala" sur l'écran en appuyant sur les touches fléchées, éviter les fraises flottantes et trouver un écureuil dans le délai de 3 secondes pour gagner.

c'était plus difficile avec les modèles précédents, mais la version préliminaire o1 a été capable de le faire. o1 a passé 21 secondes à réfléchir et a utilisé le processus de réflexion pour planifier la structure du code, y compris la collecte des détails de la disposition du jeu, le dessin des instructions, la configuration de l'écran, etc., puis la sortie du code de programmation final du jeu.

copiez et collez le code dans l'éditeur sublime text. après l'exécution, il y aura quelques lignes de brèves invites.

ensuite, vous pouvez commencer à jouer au jeu "à la recherche d'un écureuil".

le modèle o1 présente des capacités de planification considérablement améliorées par rapport aux modèles précédents.

2. amélioration de la vitesse de la version mini3~5fois, le coût est uniquement la version standard1/5

openai a également publiémodèle "version petite tasse" openai o1-mini,queplus rapide et moins cher, et offre les mêmes performances exceptionnelles en mathématiques et en programmation que la version standard.

openai o1-mini est optimisé pour le raisonnement stem (science, technologie, ingénierie et mathématiques) pendant la pré-formation. après avoir été formé à l'aide du même pipeline d'apprentissage par renforcement (rl) intensif en calcul que o1, o1-mini atteint des performances supérieures sur de nombreuses tâches d'inférence tout en étant nettement plus rentable.

openai o1-mini80 % moins cher que la version préliminaire d'openai o1, adapté aux applications qui nécessitent un raisonnement mais ne nécessitent pas une connaissance approfondie du monde. dans certains tests de référence qui nécessitent intelligence et raisonnement, o1-mini fonctionne même mieux que o1-preview.

▲ performance mathématique et courbe de coût du raisonnement

lors du concours de mathématiques du lycée aime, le taux de précision de o1-mini était de 70 %, ce qui équivaut à peu près àtop 500 des lycéens aux états-unis. dans le même temps, les taux de précision de o1 et o1-preview sont respectivement de 74,4 % et 44,6 %, mais o1-mini est beaucoup moins cher qu'eux.

en termes d'évaluation des préférences humaines, openai a obtenu les résultats de test suivants en demandant aux évaluateurs humains de tester o1-mini et o1-preview sur des mots d'invite ouverts difficiles dans différents domaines, et en les comparant avec gpt-4o. semblable à o1-preview, o1-mini est plus populaire que gpt-4o dans les domaines où les tâches d'inférence sont lourdes, mais n'est pas favorisé dans les domaines centrés sur le langage.

▲résultats de l'évaluation des préférences humaines

en termes de vitesse, gpt-4o, o1-mini et o1-preview mettent respectivement du temps à répondre à la même question de raisonnement.3 secondes, 9 secondes, 32 secondes, mais la réponse de gpt-4o est fausse et les deux dernières réponses sont correctes. on peut voir que la vitesse de o1-mini pour obtenir la réponseenviron 3 à 5 fois plus rapide que o1。

▲ vitesse de réponse gpt-4o, o1-mini et o1-preview

bien sûr, il s'agit après tout d'une "version castrée", et openai o1-mini a également certaines limitations. en ce qui concerne les connaissances factuelles sur des sujets non stem tels que les dates, les biographies et les anecdotes quotidiennes, o1-mini est quelque peu limité et fonctionne à égalité avec des modèles plus petits tels que gpt-4o mini. openai a déclaré qu'il améliorerait ces limitations dans les versions futures et étendrait le modèle à d'autres majors et modalités au-delà de stem.

3. introduire des marqueurs de raisonnement et utiliser des chaînes de réflexion pour résoudre des problèmes

semblable aux humains, o1 réfléchit longuement avant de répondre à des questions et utilisations difficiles.chaîne de pensée。

grâce à l'apprentissage par renforcement, o1 a appris à améliorer la chaîne de réflexion et à utiliser des stratégies. c'est la capacité d'identifier et de corriger les erreurs, de décomposer les étapes délicates en étapes plus simples et d'essayer différentes approches lorsque celle actuelle ne fonctionne pas. ce processus améliore considérablement les capacités de raisonnement du modèle.

plus précisément, le modèle o1 introduitmarque d'inférence(jetons de raisonnement). ces marqueurs d'inférence sont utilisés pour « penser », décomposer la compréhension des mots de l'invite et envisager plusieurs façons de générer une réponse. une fois les jetons d'inférence générés, le modèle génère des réponses sous forme de jetons d'achèvement visibles et supprime les jetons d'inférence de leur contexte.

vous trouverez ci-dessous un exemple de conversation en plusieurs étapes entre un utilisateur et un modèle. les jetons d'entrée et de sortie pour chaque étape sont conservés, tandis que les jetons d'inférence sont supprimés.

▲o1 processus d'inférence de modèle

il convient de noter que lorsque openai a mené une formation à grande échelle sur les algorithmes d'apprentissage par renforcement, il a été constaté queavec l'augmentation du temps d'apprentissage intensif et de réflexion,, ou plutôtà mesure que le temps de formation et le temps de test augmentent,，les performances de o1 continueront de s'améliorer. ceci est très différent de la loi de mise à l'échelle dans la pré-formation sur les grands modèles.

les performances ▲o1 s'améliorent régulièrement avec le calcul du temps d'entraînement et du temps de test

afin de montrer le saut réalisé par o1, openai a divulgué la chaîne de pensée générée par la version préliminaire de o1 lors de la résolution de problèmes tels que la programmation, les mathématiques, le décodage et l'anglais.

par exemple, lorsque vous recevez unquestions de décodage, gpt-4o a d'abord démonté l'entrée, la sortie et les exemples, puis a commencé à analyser les méthodes de décodage possibles.

▲ gpt-4o démantèlement des entrées, sorties et exemples

il a deviné que la première phrase pourrait suivre la même structure que l'exemple, se rendant compte que le texte saisi semblait être divisé en groupes basés sur des séparations ou des modèles naturels, mais a ensuite cessé de fonctionner, affirmant qu'il avait besoin de plus d'informations sur les conversions ou les changements de lettres qui pourraient être impliqué.

▲gpt-4o indique que davantage d'informations sont nécessaires

d'un autre côté, openai o1-preview a fait l'objet d'une réflexiona donné la réponse avec précision。

▲o1-preview répond correctement au problème de décodage

bien que la réponse finale présentée ait été très courte, le processus de réflexion d'o1 a été très long, et sa pensée et ses paroles étaient très humaines. il commence par se demander « que se passe-t-il ici » et ensuiterépétez la demande, puis commencezdécomposer les tâches et clarifier les objectifs。

▲o1 processus de réflexion

ensuite, o1 démarreobservez les informations que vous obtenez,etanalyse étape par étape。

▲o1 processus de réflexion

après quelques raisonnements, o1 démarreproposer différentes solutions. au cours de ce processus, comme les humains, ils diront soudainement « attendez une minute, je pense… » puis recommenceront à réfléchir.essayez de nouvelles méthodes。

▲o1 processus de réflexion

non seulement cela, il y a même des mots tels que « euh » et « intéressant » qui apparaissent dans le processus de réflexion d'o1.familière, émotiveexpression.

▲o1 processus de réflexion

la chaîne de réflexion complète est très longue, je n’entrerai donc pas dans les détails ici. en général, comme le dit openai, o1 peut continuellement améliorer son processus de réflexion comme les humains, essayer de nouvelles stratégies, reconnaître ses propres erreurs et les résoudre. et « comme les humains » ne se limite pas ici à la façon de penser, mais se reflète également dans le ton.

quatre,disponible pour discuter chaque semaine30~50fois, ilya a participé aux contributions de base

contrairement au passé, cette fois, openai n'a pas répertorié les contrats à terme, maisallez en ligne directementdeux modèles.

à partir de maintenant, les utilisateurs de chatgpt plus et team peuvent accéder au modèle o1 dans chatgpt et sélectionner manuellement o1-preview ou o1-mini via le sélecteur de modèle ; les utilisateurs d'entreprise et d'éducation pourront l'utiliser à partir de la semaine prochaine, et les utilisateurs gratuits pourront également le faire. obtenir l’accès dans le futur.

▲les utilisateurs peuvent accéder au modèle o1 sur chatgpt

mais peut-être pour des raisons de sécurité ou de coût, les deux modèles limitent actuellement le nombre de messages, la version préliminaire et la version mini.le nombre de messages envoyés par semaine est respectivement de 30 et 50.. openai a déclaré qu'il travaillait dur pour augmenter le quota et permettre à chatgpt de sélectionner automatiquement le modèle approprié en fonction des mots d'invite donnés.

openai a également lancé l'api (interface de programmation d'application) du modèle o1. les développeurs qualifiés peuvent désormais commencer le prototypage à l'aide de l'api pour les deux modèles avec une limite de débit de 20 tr/min. ces api n'incluent actuellement pas les appels de fonction, le streaming, la prise en charge des messages système et d'autres fonctions.

▲ api du mini modèle o1, o1

comme le montre la documentation de l'api, ces deux modèlesles fenêtres contextuelles font toutes 128 ko, alors que la fenêtre de sortie de la version mini est plus longue,est le double de celui de o1, de plus, les données d'entraînement des deux modèles datent d'octobre 2023.

openai a également annoncé l'équipe derrière le modèle o1membres de l'équipe principale：

▲les principaux membres de l'équipe derrière le modèle o1

dansil y a 21 membres contributeurs de base, dont l'ancien scientifique en chef d'openai ilya sutskever, qui est parti créer une entreprise.

il y a 7 chefs d'équipe, respectivement jakub pachocki, jerry tworek (au total), liam fedus, lukasz kaiser, mark chen, szymon sidor, wojciech zaremba. les chefs de projet sont lauren yang et mianna chen.

selon les membres de son équipe, le raisonnement est la capacité de convertir le temps de réflexion en de meilleurs résultats. ils ont investi plus de calculs qu'auparavant, entraînant le modèle à produire des idées cohérentes et produisant une performance complètement différente qu'auparavant.

ils utilisent l'apprentissage par renforcement pour entraîner le modèle d'ia à générer et à perfectionner ses propres chaînes de pensée encore mieux que les chaînes de pensée programmées pour lui par les humains. cette façon d’entraîner un modèle d’ia à générer son propre processus de réflexion améliore considérablement sa capacité à comprendre et à corriger les erreurs, et les premiers modèles o1 ont déjà obtenu des scores plus élevés aux tests de données.

la liste des principaux contributeurs et autres contributeurs est la suivante :

▲liste des principaux contributeurs o1 et autres contributeurs

les dirigeants administratifs comprennent 8 personnes, dont le pdg d'openai, sam altman, le président greg brockman, la pdg mira murati et 8 dirigeants de soutien.

▲o1 leadership administratif, leadership de soutien

le nouveau modèle o1 peut déduire et exploiter contextuellement les règles de sécurité plus efficacement. openai a effectué des tests et une évaluation rigoureux de o1-preview pour garantir que le modèle peut être publié en toute sécurité sans augmenter les risques pouvant découler des ressources existantes.

conclusion : openai renverse la table, « strawberry » reconstruit le modèle du grand modèle ?

du mystérieux modèle q* au modèle « fraise », le nouveau modèle d'openai est enfin disponible. depuis le début du « coup d’état » d’openai en novembre dernier, ce modèle a été révélé comme l’un des facteurs clés ayant conduit à l’expulsion d’altman. à cette époque, la rumeur courait qu'une démonstration du modèle q* circulait au sein d'openai, et la rapidité du développement avait choqué certains chercheurs en sécurité de l'ia.

contrairement à gpt-4o, le modèle o1 choisit d'ouvrir directement une nouvelle série de dénomination de numéros plutôt qu'une continuation de gpt, ce qui montre qu'openai y attache une grande importance.

maintenant que de nombreux grands fabricants de modèles commencent à déployer des applications multimodales et en volume, la sortie par openai du modèle de texte pur o1 pourrait une fois de plus attirer l'attention du public sur l'amélioration des capacités du modèle sous-jacent. reste à savoir si le grand paysage modèle sera reconstruit sous l’influence de o1.

nouvelles

des raids de modèles de fraises openai tard dans la nuit ! la physique et chimie atteint le niveau des doctorants, bien mieux que gpt-4o, chatgpt est disponible

introduction

mes coordonnées