l'évaluation du nouveau modèle o1 d'openai dans cinq dimensions principales : le codage, la production de jeux et d'autres capacités sont « étonnantes », mais les connaissances factuelles sont « renversées »

évaluation du nouveau modèle o1 d'openai en cinq dimensions : le codage, la production de jeux et d'autres capacités sont « incroyables », mais les connaissances factuelles sont « renversées »

2024-09-18

le légendaire modèle "strawberry" a été soudainement mis en ligne aujourd'hui sans aucun préavis !

le dernier modèle publié par openai s'appelle o1, qui est la première version d'une série de modèles d'inférence actuellement lancés.o1-preview (version préliminaire) et o1-mini (version mini）。

actuellement, o1-preview et o1-mini sont déjà disponibles pour les abonnés chatgpt plus et team, tandis que les utilisateurs enterprise et edu y auront accès au début de la semaine prochaine. openai a annoncé son intention de fournir un accès o1-mini à tous les utilisateurs gratuits de chatgpt, mais n'a pas encore fixé de date de sortie.

selon openai, le modèle o1 est plus proche de la pensée humaine que tout modèle précédent en termes de capacités de résolution de problèmes et est capable de « raisonner » pour des tâches mathématiques, de codage et scientifiques.

afin de vérifier si les capacités du nouveau modèle sont aussi puissantes que le prétend openai, un journaliste du « daily economic news »du classique "strawberry test"”le modèle o1-preview a été testé dans cinq dimensions : l'écriture de code, la production de mini-jeux, les mathématiques et l'économie, ainsi que les connaissances factuelles.

les résultats ont montré que o1-preview démontrait des capacités de programmation et de raisonnement mathématique qui dépassaient les grands modèles d'openai précédemment publiés. par exemple, o1-aperçucapacité à écrire du code qui s'exécute de manière fluide tout en réfléchissant par vous-même sur des solutions dans des environnements complexes. de plus, le journaliste a également estimé au cours du processus de test que o1-preview avait également été grandement amélioré en termes d'humanisation, montrant une réflexion réelle. cependant, le nouveau modèle n'est pas sans défauts et il s'est « renversé » lors du test de connaissances factuelles.

la légendaire "fraise" est là

le 12 septembre, heure locale, openai a publié un nouveau modèle appelé o1, qui est la première version d'une série de modèles « d'inférence » qu'elle prévoit d'utiliser. c'est aussi le modèle « fraise » qui a fait l'objet de rumeurs dans l'industrie. longue durée.

source de l'image : plateforme x

pour openai, o1 représente une nouvelle étape vers son objectif d’une ia de type humain. openai estime que o1 représente une toute nouvelle capacité, considérée comme si importante que la société a décidé de repartir du modèle gpt-4 actuel, en abandonnant complètement la marque « gpt » et en la nommant à partir de 1.

openai affirme qu'il recommencera avec le modèle gpt-4 actuel, « remettant le compteur à 1 », et abandonne même la marque « gpt » qui a jusqu'à présent défini les chatbots et tout l'engouement pour l'ia générative.o1 a construit un système capable de résoudre des problèmes avec soin et logiquement à travers une série d'étapes discrètes, chaque étape s'appuyant sur l'étape précédente, de la même manière que la façon dont les humains raisonnent.

jakub pachocki, scientifique en chef d'openai, a déclaré que les modèles précédents commenceraient immédiatement à répondre aux demandes des utilisateurs dès leur réception. "et ce modèle (en référence à o1) prend son temps. il réfléchit au problème et essaie de le décomposer, de trouver des angles et d'essayer de fournir la meilleure réponse. c'est exactement ce que leurs parents ont demandé à la plupart des gens." ils étaient jeunes, réfléchissez avant de parler.

openai a dit :o1 se classe dans le 89e percentile pour les problèmes de programmation compétitifs (codeforces), parmi les 500 meilleurs étudiants aux états-unis lors des qualifications de l'american mathematics olympiad (aime) et dans le test de référence pour la précision des problèmes de physique, de biologie et de chimie (gpqa). qui dépasse le niveau du doctorat humain.。

dans les recherches et les articles de blog publiés par openai, o1 semble avoir des capacités de « raisonnement » très puissantes. il peut non seulement résoudre des problèmes avancés de mathématiques et de codage, mais également décrypter des mots de passe complexes et répondre aux questions d'experts et d'universitaires sur la génétique, l'économie et la science quantique. . problèmes complexes en physique. un grand nombre de graphiques montrent quelors d'évaluations internes, o1 a surpassé gpt-4o, le modèle de langage le plus avancé de l'entreprise, sur des problèmes de codage, de mathématiques et dans divers domaines scientifiques, et pourrait même avoir surpassé les humains.

source de l'image : site officiel d'openai

cinq dimensions des tests réels : le codage, la production de jeux et d'autres capacités sont "incroyables", mais "ont échoué" au test de connaissances factuelles

afin de mieux comprendre les puissantes capacités du modèle o1, les journalistes du « daily economic news » ont testé le modèle o1-preview à partir de cinq dimensions : les tests classiques de fraise, l'écriture de code, la production de mini-jeux, les mathématiques et l'économie. et des connaissances factuelles.

1) test de fraise

tout d'abord, le journaliste a effectué un test en utilisant une question simple que presque tous les grands modèles ont déjà « renversée », à savoir : « combien y a-t-il de r dans le mot fraise ?”. à en juger par les résultats générés, o1-preview a quand même apporté une petite surprise.

2) écriture de codes

le journaliste a d'abord interrogé o1-preview sur la question d'algorithme simple la plus célèbre de la plateforme de programmation en ligne leetcode : le problème des deux sommes (somme de deux nombres). o1 a donné un raisonnement et des réponses très détaillés.

ensuite, le journaliste a délibérément demandé d'optimiser la réponse. après avoir réfléchi pendant 9 secondes, o1 s'est rendu compte que ce qu'il avait fourni était déjà la solution optimale et l'a également expliqué « avec attention ». lors de tests précédents d'autres modèles par des journalistes, ces modèles se contentaient de s'excuser, puis de changer la réponse en une solution sous-optimale.

3) production de mini-jeux

dans la démonstration du modèle o1, openai a démontré la fonction « d'écrire un mini-jeu en une phrase ». au cours du processus de test, le journaliste a demandé à o1-preview de l'aider à introduire des outils de codage utiles et à écrire un jeu de ping-pong.

il n'a fallu que 19 secondes à o1-preview pour fournir un code qui peut fonctionner correctement, et j'ai joint un guide d'étude et des mots d'encouragement, ce qui est très convivial.

afin d'empêcher o1-preview de tricher et d'utiliser la capacité de mémoire au lieu de la capacité de raisonnement pour répondre, le journaliste a également demandé à o1-preview de modifier l'environnement d'exécution du code : note jupyter. cet environnement d'exécution est un environnement python spécialisé pour l'analyse de données. les développeurs n'utiliseront fondamentalement pas cet environnement pour développer de petits jeux.

après y avoir réfléchi, o1 a quand même donné un code qui peut être exécuté. cependant, par rapport au code précédent, cette réponse comporte de nombreux bugs, mais cela montre également qu'il s'agit bien d'une réponse réfléchie, plutôt que d'une réponse standard ajoutée au cours du processus de formation.

afin de vérifier davantage les capacités de raisonnement innovantes d'o1-preview, le journaliste a ensuite demandé au modèle de développer un mini-jeu plus complexe et intéressant basé sur ce mini-jeu.

cette fois, la performance de o1 est vraiment un peu surprenante. basé sur le mécanisme de collision du jeu de ping-pong, ce modèle itère un jeu de saut vers le haut. généralement, d'autres grands modèles exigent que les utilisateurs décrivent clairement leurs besoins avant de pouvoir fournir une meilleure réponse. cependant, le journaliste n'a fourni aucune invite supplémentaire dans ce test pour produire une réponse qui peut fonctionner correctement et qui est suffisante aux yeux du test. journaliste. petit jeu amusant.

4) test scientifique

en termes de tests scientifiques, le journaliste s'est concentré sur le test des performances d'o1-preview en mathématiques et en économie.

tout d’abord, le journaliste a posé une question de raisonnement mathématique.o1-aperçurenseignez-vous sur les moyens possibles de résoudre l'explosion en temps fini de l'équation d'euler (il s'agit d'un article de discussion publié cette semaine par le professeur terence teru, le célèbre mathématicien chinois et lauréat de la médaille fields).

bien que o1 ne donne pas de solution claire, il donne une idée pour résoudre le problème.cette idée est en partie cohérente avec l’article du professeur tao zhexuan (bien que très peu)。

dans le sens de l'économie, le journaliste a interrogé o1-preview sur une question complexe du système économique. d'après les retours donnés,il n'y a fondamentalement pas de gros problèmes. la logique globale est claire et les dimensions de la pensée sont également diverses. bien qu'il y ait quelques erreurs mineures dans les formules mathématiques données, cela ne nuit pas à la situation globale.。

5) connaissance factuelle et compréhension du langage

au cours de cette session, le journaliste a demandé à o1-preview des anecdotes intéressantes sur le premier empereur de la dynastie ming, mais o1 a interprété les anecdotes comme des choses qui se sont réellement produites dans l'histoire et a raconté toute l'histoire historique de zhu yuanzhang.

dans le même temps, le journaliste a également posé cette question au modèle gpt-4o, à titre de comparaison, gpt-4o pouvait bien comprendre la question du journaliste et racontait deux histoires populaires largement diffusées.

dans l'ensemble,l’affirmation d’openai selon laquelle le modèle o1 peut s’approcher du niveau humain semble être vraie à certains égards.。

ce qui a le plus surpris le journaliste, c'est qu'openai a montré à l'utilisateur le processus de réflexion du modèle dans le texte. au cours du processus de réflexion du texte, le grand modèle a utilisé beaucoup de « je le fais ».”des mots tels que « je pense » et « je prévois » semblent plus anthropomorphiques, tout comme une personne réelle expliquant sa logique de pensée devant l'utilisateur.

mais cela ne veut pas dire que le modèle o1 est parfait.openai a également admis que o1 est bien inférieur à gpt-4o en termes de conception, d'écriture et d'édition de texte.l'o1 n'a pas non plus la capacité de naviguer sur le web ou de traiter des fichiers et des images.

le plus gênant pour les journalistes est que même pour une requête très simple, comme la conversion des résultats de sortie en chinois, o1 passera plus de dix secondes à y réfléchir, tandis que gpt4o traitera rapidement la requête.

même dans les domaines avantageux d'openai, le modèle o1 connaîtra soudainement une dégradation des performances et la sortie du modèle sera paresseuse.karpathy, le fondateur d'openai qui a démissionné, s'est plaint : "il a refusé de résoudre l'hypothèse de riemann à ma place. la paresse des modèles reste un problème majeur."

openai a déclaré que la société aborderait ces problèmes dans les mises à jour ultérieures. après tout, il ne s'agit que d'un premier aperçu du modèle d'inférence.

l'actualité économique quotidienne

rapport/commentaires

nouvelles

évaluation du nouveau modèle o1 d'openai en cinq dimensions : le codage, la production de jeux et d'autres capacités sont « incroyables », mais les connaissances factuelles sont « renversées »

la légendaire "fraise" est là

cinq dimensions des tests réels : le codage, la production de jeux et d'autres capacités sont "incroyables", mais "ont échoué" au test de connaissances factuelles

introduction

mes coordonnées