openai lance le nouveau modèle o1 : il sera aussi "réfléchi" que human

openai lance le nouveau modèle o1 : il sera aussi « réfléchi » que les humains

2024-09-13

auteur｜sukhoi

sans aucune précaution, le modèle « strawberry » tant attendu d’openai est sorti.

tranche d'introduction du modèle o1, source : openai

tôt ce matin, heure de pékin, openai a publié un nouveau modèle appelé openai o1, qui était également le "strawberry" précédemment signalé, mais initialement o1 portait le nom de code "q*". le pdg d’openai, sam altman, l’a qualifié de « début d’un nouveau paradigme ».

à en juger par les informations officielles d'openai,pour résumer, les caractéristiques de o1 sont : plus grand, plus fort, plus lent et plus cher.

grâce à l'apprentissage par renforcement (reinforcement learning), openai o1 a fait des progrès significatifs dans les capacités de raisonnement. l’équipe r&d a observé qu’avec l’allongement du temps de formation (augmentation de l’apprentissage par renforcement) et du temps de réflexion (calcul lors des tests), les performances du modèle o1 s’amélioraient progressivement. les défis liés à la mise à l'échelle de cette approche sont distincts des limites de pré-formation des grands modèles de langage (llm).

les performances o1 s'améliorent régulièrement avec le calcul du temps de formation et du temps de test, source : openai

concernant les rumeurs sur le marché selon lesquelles « le modèle o1 peut effectuer indépendamment des tâches au niveau du navigateur ou du fonctionnement du système pour les utilisateurs », les informations publiques actuelles ne mentionnent pas cette fonction.

un responsable d'openai a déclaré : « bien que ce modèle initial ne dispose pas encore de fonctions telles que la recherche d'informations en ligne, le téléchargement de fichiers et d'images, il a fait des progrès significatifs dans la résolution de problèmes de raisonnement complexes, ce qui représente un nouveau niveau de technologie d'intelligence artificielle. a été décidé de donner à cette série un nouveau point de départ et de la nommer openai o1.l'application principale d'o1 est toujours axée sur la réponse aux questions et l'analyse via l'interaction textuelle, plutôt que sur le contrôle direct du navigateur ou du système d'exploitation.

contrairement aux versions précédentes,le modèle o1 « réfléchit profondément » avant de répondre comme le ferait un humain,il faut environ 10 à 20 secondes pour générer une longue chaîne d'idées internes et être capable d'essayer différentes stratégies et d'identifier vos propres erreurs.

cette puissante capacité de raisonnement donne à o1 un large éventail de potentiels d'application dans de multiples secteurs, en particulier pour des tâches scientifiques, mathématiques et de programmation complexes. lorsqu'il s'agit de problèmes de physique, de chimie et de biologie, les performances d'o1 sont même comparables à celles des doctorants du domaine. lors de l'examen de qualification de l'olympiade internationale de mathématiques (aime), le taux de précision de o1 était de 83 %, entrant avec succès dans les rangs des 500 meilleurs étudiants des états-unis, tandis que le taux de précision du modèle gpt-4o n'était que de 13 %.

altman a également partagé o1 sur x, source : x

openai propose des cas d'utilisation spécifiques. par exemple, les chercheurs en médecine peuvent utiliser o1 pour annoter les données de séquençage cellulaire ; les physiciens peuvent utiliser o1 pour générer des formules mathématiques complexes nécessaires à l'optique quantique. les développeurs de logiciels peuvent l'utiliser pour créer et exécuter des flux de travail complexes en plusieurs étapes ; plus.

la série o1 comprend trois modèles, openai o1, openai o1-preview et openai o1-mini. les deux modèles sont disponibles pour les utilisateurs à partir d’aujourd’hui :

openai o1: modèle d'inférence avancé, temporairement non ouvert au public.

aperçu d'openai o1: cette version se concentre davantage sur le traitement du raisonnement en profondeur et peut être utilisée 30 fois par semaine.

openai o1-mini: cette version est plus efficace et plus rentable, adaptée aux tâches de codage et peut être utilisée 50 fois par semaine.

les développeurs et les chercheurs peuvent désormais accéder à ces modèles via chatgpt et les interfaces de programmation d'applications.

en ce qui concerne le prix, the information a annoncé plus tôt que les dirigeants d'openai discutaient du prix de ses prochains nouveaux grands modèles "strawberry" et "orion" à 2 000 dollars par mois, déclenchant de nombreuses plaintes et condamnations. mais aujourd'hui, quelqu'un a découvert que l'adhésion à chatgpt pro était déjà en ligne, au prix de 200 $ us/mois. l'écart entre 2 000 et 200 dollars fait qu'il est difficile de ne pas avoir envie de « profiter ». la guerre psychologique sur les prix a clairement été menée par openai.

en mai de cette année,altman rencontre la présidente du mit, sally kornbluthcela a été mentionné lors d'une conversation au coin du feu,gpt-5 peut séparer les données des moteurs d'inférence.

"gpt-5 ou gpt-6 peuvent devenir le meilleur moteur d'inférence. actuellement, le seul moyen d'obtenir le meilleur moteur est d'entraîner une grande quantité de données."mais en réalité, le modèle gaspille beaucoup de ressources de données lors du traitement des données.tel que gpt-4. il fonctionne également comme une base de données, sauf que l'inférence est lente, coûteuse et « loin d'être idéale ».ces problèmes sont essentiellement un gaspillage de ressources causé par la manière dont le modèle est conçu et formé.

"inévitablement, c'est un effet secondaire de la seule manière dont nous pouvons créer des modèles de moteurs d'inférence. il peut prévoir de nouvelles méthodes à l'avenir."il s’agit de séparer la capacité de raisonnement du modèle de la demande de big data.

mais dans la version d’aujourd’hui, gpt-5 n’apparaissait pas et l’idée de séparer les données et les moteurs d’inférence manquait également.

en ce qui concerne le prix, the information a annoncé plus tôt que les dirigeants d'openai prévoyaient de fixer le prix des nouveaux grands modèles "strawberry" et "orion" à 2 000 dollars par mois, ce qui a déclenché de nombreuses plaintes et condamnations. mais aujourd’hui, quelqu’un a découvert que l’adhésion à chatgpt pro était déjà en ligne, au prix de 200 usd par mois.

l'écart entre 2 000 et 200 dollars fait qu'il est difficile pour les utilisateurs de ne pas avoir l'impression d'en profiter. la guerre psychologique sur les prix est clairement menée par openai.

2. polir la « chaîne de pensée »

les grands modèles ont toujours été critiqués pour leur « incapacité à compter ».la raison fondamentale est que les grands modèles n’ont pas la capacité de mener un raisonnement structuré.

le raisonnement est l’une des capacités fondamentales de l’intelligence humaine.les grands modèles sont principalement formés à partir de données textuelles non structurées, qui comprennent généralement des articles de presse, des livres, du texte de pages web, etc. le texte se présente sous la forme d'un langage naturel et ne suit pas de règles logiques ou structurelles strictes. le modèle apprend donc principalement comment générer un langage basé sur le contexte, plutôt que comment raisonner ou traiter logiquement l'information selon des règles fixes.

mais de nombreuses tâches de raisonnement complexes sont structurées.

comme le raisonnement logique, la résolution de problèmes mathématiques ou la programmation. si nous voulons sortir d’un labyrinthe, nous devons suivre une série de règles logiques et spatiales pour trouver la sortie. ce type de problème nécessite que le modèle soit capable de comprendre et d'appliquer un ensemble d'étapes ou de règles fixes, ce qui manque à la plupart des grands modèles.

par conséquent, bien que des modèles tels que chatgpt et bard puissent générer des réponses apparemment raisonnables basées sur des données d'entraînement, ils s'apparentent en réalité davantage à un « perroquet stochastique ».souvent, ils ne peuvent pas vraiment comprendre la logique complexe qui la sous-tend ni effectuer des tâches de raisonnement avancées.

n'oubliez pas que les grands modèles fonctionnent bien lors du traitement de texte en langage naturel non structuré, car c'est là que se concentrent les données d'entraînement. mais lorsqu’il s’agit de tâches qui nécessitent un raisonnement logique structuré, ils ont souvent du mal à être exécutés avec une précision humaine.

pour résoudre ce problème, openai a pensé à utiliserchaîne de pensée (cot)venez « briser la situation ».

le chaînage de pensées est une technologie qui aide les modèles d’ia à raisonner. cela fonctionne en laissant le modèle expliquer étape par étape chaque étape du processus de raisonnement lors de la réponse à des questions complexes, plutôt que de donner directement la réponse. par conséquent, lorsque le modèle répond à une question, c'est comme un être humain qui résout un problème, réfléchissant d'abord à la logique de chaque étape, puis en déduisant progressivement le résultat final.

cependant, dans le processus de formation à l'ia, l'étiquetage manuel des chaînes de pensée prend du temps et coûte cher. la quantité de données requise sous la direction de la loi d'échelle est fondamentalement une tâche impossible pour les humains.

à ce stade, l’apprentissage par renforcement devient une alternative plus pratique.

l'apprentissage par renforcement permet au modèle d'apprendre par lui-même grâce à la pratique et aux essais et erreurs. il ne nécessite pas d'annotation manuelle de la manière de procéder à chaque étape, mais optimise la méthode de résolution des problèmes grâce à une expérimentation et un retour d'information continus.

plus précisément, le modèle ajuste son comportement en fonction des conséquences (bonnes ou mauvaises) des actions qu'il entreprend en essayant de résoudre le problème. de cette manière, le modèle peut explorer de manière autonome plusieurs solutions possibles et trouver la méthode la plus efficace par essais et erreurs. par exemple, dans les environnements de jeux ou de simulation, l’ia peut optimiser en permanence les stratégies grâce au jeu autonome et éventuellement apprendre à effectuer avec précision des tâches complexes sans guidage manuel pour chaque étape.

par exemple, alphago, qui a balayé le monde du go en 2016, a combiné des méthodes d'apprentissage en profondeur et d'apprentissage par renforcement, a continuellement optimisé son modèle de prise de décision grâce à un grand nombre de jeux autonomes et a finalement réussi à vaincre le meilleur joueur de go au monde, lee. sédol.

le modèle o1 utilise la même méthode qu’alphago pour résoudre progressivement les problèmes.

au cours de ce processus, o1 améliore continuellement son processus de réflexion grâce à l'apprentissage par renforcement, apprend à identifier et à corriger les erreurs, décompose les étapes complexes en parties plus simples et essaie de nouvelles méthodes lorsqu'il rencontre des obstacles. cette méthode de formation améliore considérablement la capacité de raisonnement de o1 et permet à o1 de résoudre les problèmes plus efficacement.

greg brockman, l'un des co-fondateurs d'openai, en est "très fier",c'est la première fois que nous formons un modèle en utilisant l'apprentissage par renforcement." dit-il.

tranches de tweets de brockman, source : x

selon brockman, le modèle d'openai effectuait à l'origine une réflexion du système 1 (prise de décision rapide et intuitive), tandis que la technologie de la chaîne de réflexion initiait la réflexion du système 2 (pensée prudente et analytique).

la pensée du système 1 convient aux réponses rapides, tandis que la pensée du système 2 utilise la technologie de la « chaîne de réflexion » pour permettre au modèle de raisonner et de résoudre les problèmes étape par étape. la pratique a montré que grâce à des essais et des erreurs continus, les performances du modèle peuvent être considérablement améliorées en entraînant complètement le modèle du début à la fin (comme lorsqu'il est appliqué dans des jeux tels que go ou dota).

de plus, même si la technologie o1 en est encore aux premiers stades de développement, elle affiche de bons résultats en termes de sécurité. par exemple, le modèle amélioré peut être utilisé pour effectuer un raisonnement approfondi sur la stratégie afin d’améliorer sa robustesse face aux attaques et réduire le risque de phénomènes d’hallucination. cette capacité de raisonnement approfondi commence déjà à donner des résultats positifs dans les évaluations de sécurité.

"nous avons développé un nouveau modèle basé sur le modèle o1, l'avons laissé participer à la compétition olympiade internationale d'informatique (ioi) 2024 et avons marqué 213 points dans 49 % des classements", a déclaré openai.

il a concouru dans les mêmes conditions que les concurrents humains, résolvant six problèmes algorithmiques avec 50 opportunités de soumission chacun. l'efficacité de sa stratégie de sélection est démontrée par la sélection de plusieurs candidats et la sélection des soumissions sur la base de cas de tests publics, de cas de tests générés par un modèle et de fonctions de notation, avec des scores moyens supérieurs à ceux des soumissions aléatoires.

lorsque le nombre de soumissions a été ramené à 10 000 par question, le modèle a obtenu de meilleurs résultats et a obtenu des résultats supérieurs à la norme de référence. enfin, le modèle a démontré des capacités de codage « étonnantes » lors d’un concours de programmation codeforces simulé. gpt-4o a un indice elo de 808, ce qui le place dans le 11e centile des concurrents humains. et notre nouveau modèle a une note elo de 1 807, surpassant 93 % de ses concurrents.

des ajustements supplémentaires ont amélioré les performances du modèle o1 dans le concours de programmation source : openai.

2. les « temps difficiles » d’openai

avant la sortie d'o1, openai était confronté à des changements au sein de la haute direction de l'entreprise.

en février de cette année, andrej karpathy, membre fondateur d'openai et chercheur scientifique, a annoncé à x qu'il avait quitté l'entreprise. capas a déclaré qu'il avait quitté openai à l'amiable et "pas à cause d'un incident, d'un problème ou d'un drame spécifique".

l'ancien scientifique en chef et co-fondateur ilya sutskever a annoncé sa démission en mai et l'équipe de super alignment a également été dissoute. l'industrie estime que c'est l'équilibre d'openai entre la poursuite des percées technologiques et la garantie de la sécurité de l'ia.

de droite à droite : ilya sutskvi, greg brockman, sam altman et mira mulati. source : new york times

quelques heures après l'annonce d'ilya, jan leike, l'un des inventeurs du rlhf et co-directeur de l'équipe super alignment, a également suivi ses traces et est parti, ajoutant encore une fois plus d'incertitude à l'avenir du sexe openai.

en août, john schulman, co-fondateur et chercheur d’openai, a révélé son départ et a rejoint anthropic pour se concentrer sur des recherches approfondies sur l’alignement de l’ia. il a expliqué que son départ était destiné à se concentrer sur l'alignement de l'ia et le travail technique, et non pas parce qu'openai ne prenait pas en charge la recherche sur l'alignement. schulman a remercié ses collègues d'openai et a exprimé sa « pleine confiance » dans son développement futur.

anthropic a été fondée par le frère et la sœur dario amodei, vice-président de la recherche d'openai, qui a démissionné en 2020, et daniela amodei, alors vice-présidente de la sécurité et de la politique.

brockman a également annoncé un an sabbatique le même mois, ses « premières longues vacances » depuis la co-fondation d'openai il y a neuf ans.

le 10 septembre, alexis conneau, qui dirige la recherche sur les interactions audio des modèles openai gpt-4o et gpt-5, a annoncé sa démission et a lancé une entreprise de recherche dédiée à la réalisation des fonctionnalités présentées dans le film « her » ce genre de voix naturelle. expérience d'interaction, mais la sortie des produits associés a été retardée à plusieurs reprises.

depuis sa création, openai a attiré beaucoup d’attention pour son double statut d’organisation à but non lucratif et de commercialisation. à mesure que le processus de commercialisation s'accélérait, les tensions internes autour de sa mission à but non lucratif sont devenues de plus en plus apparentes, ce qui a également contribué à l'attrition des membres de l'équipe. parallèlement, un récent procès intenté par elon musk pourrait également être lié à l’attrition.

le chercheur d'openai, daniel kokotajlo, a déclaré dans une interview exclusive avec les médias après sa démission que lors de l'incident de la « bagarre de palais » survenu l'année dernière, altman avait été brièvement licencié puis rapidement réintégré. les trois membres du conseil d'administration chargés de la sécurité de l'agi avaient été démis de leurs fonctions. "cela permet à altman et brockman de consolider davantage leur pouvoir, tandis que ceux qui sont principalement concernés par la sécurité de l'agi sont marginalisés. (altman) ils s'écartent des plans de l'entreprise pour 2022."

en outre, openai est confronté à une perte attendue pouvant atteindre 5 milliards de dollars américains et à des coûts d'exploitation pouvant atteindre 8,5 milliards de dollars américains, dont la plupart sont des coûts de location de serveurs et de formation. afin de faire face à la forte pression opérationnelle, openai recherche un nouveau cycle de financement dont la valorisation pourrait dépasser 100 milliards de dollars, et des investisseurs potentiels tels que microsoft, apple et nvidia ont manifesté leur intérêt. les dirigeants d’entreprises recherchent des investissements à l’échelle mondiale pour répondre à leurs besoins en capitaux en croissance rapide.

afin d'alléger la pression financière, openai recherche un nouveau cycle de financement. selon un rapport du new york times du 11, openai espérait également lever environ 1 milliard de dollars la semaine dernière pour une valorisation de 100 milliards de dollars. cependant, étant donné que la puissance de calcul requise pour construire des systèmes d'ia à grande échelle entraînera des dépenses plus élevées, la société a récemment décidé d'augmenter le montant de son financement à 6,5 milliards de dollars.

cependant, certains médias étrangers ont cité des personnes proches du dossier et des analyses de données financières internes non divulguées selon lesquelles openai pourrait subir d'énormes pertes allant jusqu'à 5 milliards de dollars américains cette année, et les coûts d'exploitation totaux devraient atteindre 8,5 milliards de dollars américains. parmi eux, le coût de location de serveurs auprès de microsoft s'élève à 4 milliards de dollars américains, et le coût de la formation aux données s'élève à 3 milliards de dollars américains. la pression financière sur l'entreprise est encore accrue par les coûts de fonctionnement plus élevés de modèles plus avancés tels que le strawberry et l'orion.

(source de l'image de couverture : openai)

nouvelles

openai lance le nouveau modèle o1 : il sera aussi « réfléchi » que les humains

introduction

mes coordonnées