le nouveau modèle d’openai est-il comparable à un doctorat ? j'ai demandé au dr qingbei d'y goûter : wake up

le nouveau modèle d’openai est-il comparable à un doctorat ? j'ai demandé au dr qingbei de le goûter : réveillez-vous.

2024-09-14

pour être honnête, je ne supporte pas ces entreprises, elles font toujours de grosses erreurs au milieu de la nuit. . .

particulièrement nommé openai, il a cette fois sorti sans préavis le nouveau modèle auquel tout le monde pensait depuis longtemps.

j'ai déjà mentionné que les fraises ne sont pas des fraises. une photo d'une fraise circule depuis plusieurs jours.

du coup, cette fois le nouveau modèle n'a rien à voir avec strawberry hair, mais porte un tout nouveau nom.ouvert ia modèle o1。

et cette chose est déjà connue sous le nom de zenith star technology d’openai. ultraman a directement publié un message disant qu’il s’agit de leur modèle le plus solide et le plus cohérent à ce jour.

la différence par rapport aux temps précédents est qu'openai ne se vantait pas vraiment de l'impressionnante chose, mais quelques images ont été légèrement rejetées, ce qui a rendu les gens un peu engourdis.

comme le montre l'image ci-dessous, les résultats de trois projets tests peuvent être expliqués, à savoir l'olympiade internationale de mathématiques, le concours de programmation et les problèmes scientifiques de niveau doctorat.

celui le plus à gauche ici est gpt-4o, celui du milieu est la version d'aperçu actuellement ouverte o1 et le grand pilier rouge à l'extrême droite est la pleine santé o1. jetez un œil, pratiquement chaque élément, o1 par rapport à ses prédécesseurs,les deux sont près de 8 fois supérieurs. . .

si l'on décompose les résultats de ces tests, le nouveau o1 dépasse le 4o dans presque toutes les disciplines et domaines.

ce qui fait vraiment mal aux mauvais évaluateurs, c'est qu'openai a déclaré avoir spécialement invité des experts en doctorat à répondre aux questions.

les résultats sont basés sur les résultats des tests de niveau doctorat,nous constatons que les scores de réponse de o1 dépassaient ceux des experts doctorants. o1 a obtenu un score de 78, les humains ont obtenu un score de 69,7. . .

même le docteur a perdu, alors qu'est-ce que je veux dire par rapport à cela ?

les internautes sensibles ont été immédiatement choqués. il se remit à crier, un nouveau dieu était apparu.

si vous le parcourez avec désinvolture, vous trouverez des évaluations très élevées avec le mot « la plupart ». "tout simplement génial !", "ce qui se rapproche le plus du raisonnement humain"。

beaucoup de nos amis sont même venus dans nos coulisses et nous ont dit avec émotion : o1, tu as vraiment quelque chose.

cela semble génial ? openai eux-mêmes ressentent évidemment la même chose.。

le montant précis dépensé par openai n'a pas été annoncé, mais d'après l'utilisation des utilisateurs, il ressort clairement que cette chose coûte beaucoup d'argent.

o1 aperçu de 15 $ par million d'entrées, 60 $ par million de sorties

ce qui est ouvert aux utilisateurs cette fois n'est même pas une version complète, mais une première version d'aperçu et une petite version castrée.

même si vous l’essayez pour la première fois, non seulement ce n’est pas gratuit, mais même si vous payez pour devenir membre, votre nombre de questions et réponses sera limité.la version préliminaire ne compte que 30 entrées par semaine et la version mini ne compte que 50 entrées par semaine. . .

même si c'est un peu cher, nous ne pouvons certainement pas laisser openai se vanter de ce qu'il dit.

n'ont-ils pas dit que c'était plus qu'un médecin ?le mauvais critique a ouvert quelques comptes et a trouvé quelques médecins pour le tester personnellement.。

afin de garantir professionnalisme et objectivité, nous avons spécialement invité des doctorants de trois disciplines scientifiques et complètes à participer à l'évaluation, notamment la biologie, la physique du solide, la chimie des matériaux, etc.

dans,nankinphysique du solide à l'universitél'évaluation donnée par le dr cui est la plus élevée parmi plusieurs personnes. il estime que o1 a atteint le niveau de 60-80 points (sur 100).

même les réponses partielles peuvent donner lieu à 90 points.

la première question du dr cui :distribution de photons intriqués sur de longues distances existe-t-il un moyen de surmonter le bruit blanc ?

en 9 secondes environ, o1 a donné 10 mesures réalisables.

bien entendu, aucun point ne m’est clair. cependant, l’évaluation du dr cui est acceptable : les réponses sont complètes, conformes aux derniers progrès de la recherche existante, et sont des réponses de niveau scientifique populaire.

parmi eux, le domaine de l'optique adaptative mentionné est même la dernière réalisation scientifique de cette année.

en la comparant avec l'ancienne version 4o, je peux immédiatement faire la différence.

ne dites pas si la nouvelle orientation a été évoquée ou non, elle a simplement été donnée.en termes de nombre de mesures, il y a une grande différence。

plus tard, nous avons spécifiquement posé des questions sur la nouvelle orientation de l’optique adaptative :quel principe d’intrication quantique est utilisé pour améliorer le rapport signal sur bruit ? peut-il être étendu à l’optique quantique adaptative ?

après plusieurs séries de réponses, le dr cui a donné un score élevé de 80 à 90 points. il m'a aussi généreusement admis qu'une partie de sa réflexion était son point faible et lui servait d'indice pour sa direction.

cependant, lorsque nous nous sommes renseignés plus tard, le problème a été révélé. lorsqu'on l'interroge sur des détails expérimentaux plus difficiles, l'efficacité de la réponse de o1 diminuera.

mais dans l’ensemble, en termes de physique, les performances de o1 sont plutôt bonnes. par rapport à l'ancienne version, l'amélioration est essentiellement d'environ 20 points.

cependant, dans le test d'openai, la physique obtient le score le plus élevé. nous en avons donc apporté un autrematériel de lecture de l'université de pékinchimiquedr k, je veux poser quelques questions difficiles sur la chimie, qui a la note la plus basse.

le dr k entourefe-n4 une série de questions ont été posées et o1 a donné une longue liste de réponses. afin de simplifier l'espace, nous ne montrons ici que certaines des questions et des résultats.

après le test global, l'évaluation du dr k était similaire : il a peut-être un niveau d'études supérieures, mais sa compréhension approfondie et sa capacité à donner des solutions sont relativement faibles, et il répond principalement aux questions basées sur un contenu connu.

par exemple, lorsqu'on lui demande comment ajuster fe-n4, o1 peut dire que cela est basé sur un ajustement électronique de l'état, mais que se passe-t-il si vous lui demandezajuster, ça coince un peu.

bien qu'il y ait moins de bêtises que gpt4o, aucun d'eux ne peut donner beaucoup de conseils sur des problèmes spécifiques. l'ancienne version perd des détails et dit des bêtises, tandis que la nouvelle version a des capacités limitées et sera à court de mots.

en plus de ces deux matières, la biologie est définitivement indispensable dans les troisièmes matières scientifiques et générales.

nous avons également consultédr xin de l'université tsinghua, étudiant la biologie, sa question est : " comment distinguer la lactylation et la modification carboxyéthyle des résidus lysine à partir d’un ensemble de données de spectrométrie de masse ? ”

même si je ne l'ai pas compris, o1 a également donné une réponse très longue, qui ressemblait à une critique papier, avec des références jointes à la fin.

mais de manière inattendue, lorsque nous avons donné cette réponse au dr xin, il a découvert que quelque chose n'allait pas après l'avoir lu, et c'était un véritable problème à première vue.

ce n’est pas que les réponses de l’ia étaient toutes fausses ; si vous l’inventez au hasard dans les références, cet article n’existe pas du tout !

bien qu'il ait été édité, il n'est pas complètement édité. d'une manière générale, l'université du dr tsinghua estime toujours qu'il est bien meilleur que l'ia précédente. au moins, la capacité de compréhension est visible à l'œil nu et l'édition est également très similaire. . . .

cependant, il existe des différences dans l'évaluation des diplômes de doctorat dans différentes directions, qui peuvent également être liées aux propres domaines d'expertise de o1.

à en juger par les résultats scientifiques complets officiels, bien que gpt4o ait un score plus élevé en biologie qu'en chimie et en physique, le o1 de cette fois est complètement différent.

le score o1 en physique a atteint 92,8, ce qui est bien plus élevé que dans les deux autres matières. c'est peut-être la raison pour laquelle le dr cui est plus optimiste à ce sujet.

d'une manière générale, lorsqu'il s'agit de dépasser le niveau du doctorat professionnel, les médecins pensent qu'il faut encore ralentir.

le dr cui a déclaré sans ambages que dans les travaux de recherche scientifiques réels, les chercheurs doivent le faire eux-mêmes dans la plupart des cas. l'ia ne peut fournir que des orientations générales, il n'est donc pas logique de dépenser de l'argent pour une ia aussi détaillée.

ilplus recommandé pour les étudiants de premier cyclesi vous choisissez cette ia, si vous êtes au niveau master ou doctorat, alors les réponses de l'ia ne répondent effectivement pas aux standards de l'instructeur, et vous serez certainement critiqué lors de la réunion de groupe.

le dr xin de l’université tsinghua partage également ce point de vue. sans parler de la question de la littérature sur la fabrication des hallucinations par l’ia, en termes de niveau professionnel, la réponse de l’ia est également la même.vous ne pouvez que tromper vos collègues, c'est-à-dire des personnes ayant des orientations différentes dans la même discipline majeure ; mais aux yeux des collègues juniors et des personnes spécialisées dans cette direction, les lacunes de l'ia sont encore très évidentes.

le dr k de l'université de pékin est allé plus en profondeur. il estime que cette ia ne peut être considérée que comme ayant le niveau d'un étudiant à la maîtrise en cognition, mais ce n'est qu'un bricolage et ne peut rien dire sur les réalisations créatives.en termes de créativité, l’ia est bien inférieure au niveau d’un master., ce qui constitue également un problème important que l’ia doit résoudre.

dans les évaluations des médecins, nous semblons être en mesure de saisir un point important : la raison pour laquelle le modèle o1 est relativement plus fort est qu'il possède un modèle cognitif et de pensée de dimension supérieure.

c'est d'ailleurs le point principal de cette mise à jour de o1. nous avons trouvé l'article apprendre à raisonner avec les llm sur le site officiel d'openai. ils ont déclaré dans l'article que la raison principale était qu'ils utilisaient une longue chaîne de pensée (cot, chain of thinking) au lieu de la chaîne d'invite traditionnelle (prompt chain). .

à première vue, cela semble un peu déroutant. pour parler franchement, ce grand modèle a changé la façon de penser précédente là où vous avez demandé et où j'ai répondu.

dans le mode précédent, la question et la réponse pour les grands modèles revenaient à connaître la réponse inconsciemment. par exemple, si vous me demandiez de quelle couleur est le ciel, je répondrais instantanément en bleu sans même y penser. cela nécessite en fait que je connaisse déjà ce point de connaissance, puis que je vous donne une réponse directe.

mais cette longue chaîne de réflexion équivaut non seulement à savoir ce qu’est le bleu, mais aussi à raisonner pourquoi il s’agit de bleu, la diffusion atmosphérique et les longueurs d’onde spectrales, qui doivent tous être pris en considération.

cela nécessite que l’ia ait la capacité de construire réellement une logique, un raisonnement et une argumentation., il a non seulement besoin de développer son cerveau, mais il doit également utiliser son cerveau.

bien que le concept de chaîne de pensée ait été proposé par google en 2022, openai a été cette fois le premier à le mettre en œuvre.

pendant l'opération proprement dite, maintenant que vous parlez au modèle o1, en plus d'obtenir des réponses, vous pouvez également choisir de développer et de voir sa logique de pensée lorsque vous répondez aux questions. sa pensée est concrète et non une boîte noire.

par exemple, prenons la question du dr cui : « existe-t-il un moyen de surmonter le bruit blanc dans la distribution de photons intriqués sur de longues distances ? le processus de réflexion du modèle o1 est le suivant :

cependant, tout comme cela peut renverser des problèmes dans les domaines professionnels, il semble que certaines questions simples de la vie quotidienne puissent également le bloquer.

prenons l'exemple précédent de la comparaison classique entre 9.11 et 9.8. l'internaute de xiaohongshu @小水 a découvert dès son réveil que cette chose « s'effondre dès que la difficulté est atteinte... une boucle infinie et pousse la chaîne de pensée. (cot) comme un fou"

notre rédaction a également découvert ce problème lors de sa propre évaluation, mais lorsqu'on lui demandait pourquoi, elle répondait immédiatement que son raisonnement était erroné, puis le redéduisait.

d'accord, d'accord, comme on l'attend d'un médecin, doué pour trouver les erreurs, n'est-ce pas ?

après toute une série de tests, l'évaluateur négatif doit admettre qu'il a effectivement été grandement amélioré. après s'être vus pendant trois jours, on devrait vraiment se regarder avec admiration.

en termes d'effet, c'est effectivement meilleur que la génération précédente, etl’application d’une réflexion à long terme est une bonne chose pour le développement futur de l’ia.

mais après que plusieurs médecins l'aient fouetté à tour de rôle, ses problèmes ont été clairement révélés dans certains aspects tels que la créativité,il ne peut pas remplacer les experts humains en doctorat。

cependant, noam brown, chercheur chez openai, a révélé que les futures versions d'o1 réfléchiront pendant des heures, des jours, voire des semaines. même si cela coûtera plus d'argent, cela en vaut la peine pour des tâches telles que le développement de médicaments anticancéreux.

de plus, je pense que le modèle de chaîne de réflexion mis en œuvre par gpt o1 est susceptible de ressembler à l'architecture transformer et à l'architecture dit précédentes.mener le monde vers les grands modèles。

par conséquent, la route vers l’agi n’est pas proche, mais elle n’est pas loin non plus. j’attends avec impatience que des joueurs de diverses entreprises se relaient.

écrire un article：naxi et big quatre

modifier ：jiang jiang et nouilles

editeur artistique ：huanyan

images, sources : openai, x, ibm, xiaohongshu, etc., picture source network

nouvelles

le nouveau modèle d’openai est-il comparable à un doctorat ? j'ai demandé au dr qingbei de le goûter : réveillez-vous.

introduction

mes coordonnées