nouvelles

l'équipe médaillée d'or o1 révèle le moment incroyable où l'ia surpasse les humains ! la version complète de la vidéo de 22 minutes est désormais ouverte au public

2024-09-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

nouveau rapport de sagesse

editeur : tao zi qiao yang

[introduction à la nouvelle sagesse】la naissance d'o1 est le moment le plus révolutionnaire pour l'équipe openai. dans la vidéo d’interview complète de 22 minutes, ils ont partagé leurs réflexions sur le nouveau modèle et l’histoire de son développement.

la vidéo complète de l'interview de l'équipe openai o1 est enfin en ligne !

pendant 22 minutes, l'équipe r&d d'o1, organisée par le projet bob mcgrew, a partagé un moment « aha » ensemble.

certaines personnes ont mentionné que le nouveau modèle o1 équivaut à la « fusion » de plusieurs médecins et est souvent plus performant que les humains. certaines personnes ont dit qu'après la sortie de o1, elles avaient clairement ressenti l'arrivée d'agi.

"lorsque les modèles surpassent les humains dans des domaines tels que les mathématiques, le codage, le go et les échecs, l'avenir de l'agi devient plus clair."

nathan lambert, un scientifique de l'allen institute, a fait un résumé des points forts de cette vidéo.

il y a 8 points au total :

1 o1 avec apprentissage par renforcement est meilleur que les humains pour découvrir de nouvelles étapes de raisonnement cot

2 l’émergence de l’autocritique est le moment le plus puissant de o1

3 laissez o1 terminer la réponse avant "timeout", puis soudainement ayez le moment "aha"

4. le défi de la mise à l'échelle de la taille des paramètres et de la poursuite de l'avancement des algorithmes d'apprentissage par renforcement

5 de nombreuses personnes ont mentionné l'importance de l'infrastructure par rapport aux algorithmes.

6 grâce à la planification et à la correction des erreurs, o1 peut résoudre de nouveaux problèmes dans le monde

7 le nouveau paradigme de formation est une approche complètement nouvelle qui met plus de puissance de calcul dans le modèle

8 o1lors de l'écriture du code, lorsqu'il génère le code à utiliser, il doit réussir les tests unitaires

examinons ensuite de plus près l’histoire du modèle o1.

apprentissage par renforcement + réflexion, o1 ouvre un nouveau paradigme

en tant que nouvelle série d'openai, la plus grande différence entre o1 et le modèle gpt réside dans l'inférence.

essentiellement, il s’agit d’un modèle de raisonnement, ce qui signifie qu’il « pensera » plus qu’avant.

selon les chercheurs d’openai, « penser » est la manière de raisonner la plus intuitive.

parfois, lorsqu'on nous demande quelle est la capitale de l'italie, nous pouvons trouver la réponse presque immédiatement, sans même réfléchir. mais parfois, lorsqu’il s’agit d’élaborer des plans d’affaires, d’écrire des romans, etc., cela nécessite un long processus de réflexion.

inutile de dire que plus vous y réfléchirez longtemps, meilleurs seront les résultats.

le raisonnement est donc la capacité de convertir le temps de réflexion en résultats optimaux.

selon les mots de mark chen, le raisonnement est un processus « primitif » et le seul moyen de parvenir à un processus de réflexion fiable.

concernant la recherche sur l’inférence, openai a en fait commencé très tôt. dès les premiers jours de sa création, ils ont vu le potentiel d’alphago pour vaincre les humains grâce aux algorithmes rl et ont mené de nombreuses recherches.

par exemple, ils ont ouvert en 2016 la plateforme de test de jeux « universe », qui est une plateforme open source pour la formation du niveau d'intelligence générale de l'ia.

en 2018, un jeu d'ia nommé openai five a été créé, qui a vaincu avec succès l'équipe championne du monde og lors du double tournoi international sur invitation dota2.

dans le même temps, des progrès significatifs ont été réalisés dans les domaines des données et de la robotique.

l’équipe openai a commencé à réfléchir : comment mettre en œuvre l’apprentissage par renforcement dans des domaines généraux et parvenir à une ia très puissante ?

c'est-à-dire le nouveau paradigme ouvert par la série gpt. il a obtenu des résultats étonnants en matière d’apprentissage non supervisé.

et depuis lors, les chercheurs ont commencé à explorer comment combiner ces deux paradigmes : l’apprentissage par renforcement et l’apprentissage non supervisé.

il est difficile de dire exactement quand les efforts ont commencé, mais ils sont en préparation depuis longtemps, ont indiqué les chercheurs.

moment "aha"

dans la vidéo, quelqu'un a dit qu'il pensait que la chose la plus cool de la recherche était le moment « aha ».

à un moment donné, une avancée inattendue s’est produite dans la recherche, et tout est devenu clair, comme une révélation.

alors, quel genre de moments « aha » les membres de l’équipe ont-ils vécus ?

quelqu'un a déclaré qu'il pensait qu'il y avait un moment critique dans le processus de formation du modèle, à savoir celui où ils ont investi plus de puissance de calcul qu'auparavant et ont généré pour la première fois un cot très cohérent.

a ce moment, tout le monde fut agréablement surpris : il était évident que ce modèle était très différent du précédent.

d’autres ont déclaré que lorsqu’on envisage de former un modèle doté de capacités de raisonnement, la première chose qui vient à l’esprit est de laisser les humains enregistrer leurs processus de réflexion et s’entraîner en conséquence.

pour lui, le moment aha a été lorsqu'il a découvert que la formation d'un modèle par apprentissage par renforcement pour générer et optimiser le cot était encore meilleure que le cot écrit par des humains.

ce moment montre que nous pouvons ainsi étendre et explorer les capacités de raisonnement du modèle.

ce chercheur a déclaré qu'il avait travaillé dur pour améliorer la capacité du modèle à résoudre des problèmes mathématiques.

à sa grande frustration, le modèle ne semblait jamais remettre en question ses erreurs à chaque fois qu'il générait un résultat.

cependant, lors de la formation de l'un des premiers modèles o1, ils ont été surpris de constater que le score du modèle au test de mathématiques s'était soudainement amélioré de manière significative.

de plus, les chercheurs peuvent voir le processus de recherche du modèle : il commence à réfléchir sur lui-même et à se remettre en question.

il s'est exclamé : nous avons enfin fait quelque chose de différent !

ce sentiment était extrêmement fort, et à ce moment-là, tout semblait se mettre en place.

un autre chercheur a déclaré que lorsque l'on demande au modèle de terminer sa réflexion avant le « timeout », le processus est très intéressant.

c'est comme participer à un concours de mathématiques. toute réflexion est limitée dans le temps.

il a dit que c'était aussi la principale raison pour laquelle il est entré dans le domaine de l'ia, et maintenant, pour lui, cela peut être considéré comme un moment « en boucle fermée ».

de plus, ce qui est étonnant avec le modèle o1, c'est qu'il est d'une grande aide dans la promotion de la découverte scientifique et du progrès de l'ingénierie.

pour beaucoup de gens, l’agi semble être un concept très abstrait et tiré par les cheveux. jusqu’à ce qu’ils voient l’ia faire des choses pour lesquelles les humains sont doués, ils ne peuvent pas croire à l’arrivée de l’agi.

pour les joueurs d'échecs et de go professionnels, deep blue d'ibm, ainsi que deepmind alphago et alphazero, leur ont fait prendre conscience de cela il y a quelques années.

pour le groupe de scientifiques d'openai doués en mathématiques et en codage, le modèle o1 a une signification similaire. ce qui est encore plus intéressant, c’est que leur travail équivaut à créer une ia capable de surpasser leurs propres capacités.

quelles difficultés avez-vous rencontrées au cours du projet ?

concernant les obstacles rencontrés dans le processus, les chercheurs ont directement affirmé que la formation llm est fondamentalement très difficile.

semblable au lancement d’une fusée de la terre vers la lune, il n’y a qu’un chemin étroit vers le succès, mais il existe d’innombrables chemins vers l’échec si vous vous écartez même légèrement d’un angle, vous ne pourrez pas atteindre l’objectif.

il existe des milliers de façons dont le processus de formation peut mal tourner, et même entre les mains de ce groupe talentueux de chercheurs scientifiques, des centaines de problèmes ont été rencontrés à chaque cycle de formation.

de plus, à mesure que les modèles deviennent de plus en plus intelligents, comme o1, qui équivaut à des humains titulaires de plusieurs doctorats, l’évaluation devient de plus en plus difficile.

parfois, il leur faut beaucoup de temps pour déterminer si le modèle fait la bonne chose, et finalement de nombreux benchmarks couramment utilisés dans l'industrie deviennent saturés, et ils doivent retrouver des benchmarks adaptés aux capacités d'o1.

outre le processus de développement du modèle, les chercheurs ont également été interrogés sur leurs cas d'utilisation préférés du modèle o1.

hyung won chung a déclaré que o1 pouvait être un bon assistant de codage.

il suit généralement la méthode de développement tdd (test-driven development) lorsqu'il travaille. avec l'aide de o1, il peut s'épargner l'écriture de tests unitaires. au lieu de cela, il peut directement spécifier les exigences et laisser le modèle être écrit automatiquement.

de plus, le message d'erreur rencontré peut également être envoyé directement à o1. bien que parfois il ne puisse pas résoudre directement le problème, il peut poser une meilleure question que le compilateur et vous aider à résoudre l'erreur.

jason wei a déclaré qu'il utilise souvent o1 comme partenaire de brainstorming et que l'éventail des questions pouvant être discutées est assez large, allant de la manière de résoudre un problème d'apprentissage automatique à la manière de rédiger un blog ou un tweet.

un blog qu'il a écrit en mai de cette année sur l'évaluation llm s'appuie sur les opinions d'o1, telles que la structure de l'article, les avantages et les inconvénients des différents critères d'évaluation et le style d'écriture.

comment est-ce de travailler chez openai ?

sur ce sujet, de nombreuses personnes ont parlé de l'intelligence de chacun et de l'harmonie de l'ambiance au sein de l'équipe.

par exemple, j'ai débogué un code pendant une semaine, et un collègue de passage l'a résolu instantanément ; passer du temps chaque jour avec des collègues extrêmement intelligents m'a progressivement rendu humble.

mark chen a décrit le projet « strawberry » comme un projet très « organique », car chacun a ses propres opinions et opinions sur des questions professionnelles, et ils ont tous des idées qu'ils souhaitent promouvoir avec enthousiasme.

lorsque ces idées se réunissent, des étincelles éclatent et font boule de neige comme des boules de neige.

cependant, l’autre aspect de l’affirmation de soi est que chacun insiste sur ses propres opinions, mais sans s’entêter. ils changeront également d’avis s’ils voient des résultats objectifs qui réfutent leurs affirmations.

ce qui est encore plus louable, c'est que ce groupe de personnes extrêmement intelligentes est également très gentil et disposé à aider les autres à résoudre les problèmes. de nombreux chercheurs lors de l'interview ont déclaré sans ambages : « travailler ici est très agréable ». expérience".

l'histoire derrière o1-mini

la motivation pour la sortie d'o1-mini est de fournir à davantage de chercheurs des modèles dotés de budgets inférieurs mais dotés néanmoins de fortes capacités d'inférence.

il peut être qualifié d'« expert en raisonnement » et est plus intelligent que le meilleur modèle openai du passé.

de plus, le coût et la latence sont très faibles.

peut-être qu'il ne connaît pas nécessairement une personne célèbre par sa date de naissance, mais il a la capacité de raisonner efficacement et beaucoup de sagesse.

les chercheurs d’openai ont déclaré qu’ils amélioreraient encore l’algorithme pour le rendre comparable aux meilleurs petits modèles.

en outre, les chercheurs du monde entier ont investi dans davantage d’ordinateurs et de matériel informatique, ce qui a entraîné une baisse exponentielle des coûts des modèles sur une longue période.

un défaut, cependant, est que nous n'avons pas passé plus de temps à trouver une nouvelle façon de renverser la situation.

le nouveau paradigme de o1 est notre découverte : la mise à l'échelle de l'inférence, qui peut également optimiser l'efficacité de la puissance de calcul.

qu’est-ce qui vous motive à faire des recherches ?

quelle est la raison pour laquelle ce groupe de « cerveaux intelligents » peut se réunir pour les inciter à faire de la recherche ?

un chercheur a déclaré qu’il était fascinant de réfléchir aux différentes manières dont il pouvait utiliser son modèle pour faire des inférences.

d'autres disaient : « toutes les bonnes choses arrivent dans les moments difficiles. »

le fait que o1 puisse répondre si rapidement est le premier pas vers un modèle capable de réfléchir longtemps aux questions. à l’avenir, il faudra des mois, voire des années de recherche pour le faire avancer vers le prochain voyage.

"c'est très excitant et significatif de penser qu'un petit nombre d'entre nous peut avoir un impact qui change le monde."

le plus fascinant est que le nouveau paradigme débloque des tâches que le modèle ne pouvait pas accomplir auparavant. il ne s'agit pas seulement de répondre à certaines requêtes, mais de généraliser de nouvelles capacités grâce à la planification et à la correction des erreurs.

de plus, o1 peut générer de nouvelles connaissances, ce qui constitue la partie la plus passionnante de la découverte scientifique.

les chercheurs affirment que dans un court laps de temps, le modèle deviendra un contributeur de plus en plus puissant à son propre développement.

finalement, lorsque le responsable de o1 a demandé : « y a-t-il d'autres observations qui méritent d'être mentionnées ?

jason wei a partagé : "une observation intéressante est que chaque modèle formé est légèrement différent et possède ses propres bizarreries, comme un artefact. ce caractère unique ajoute une touche de personnalité à chaque modèle."

la version complète de la vidéo est la suivante :