lent et coûteux ? le modèle d'inférence openai "strawberry" est ici, jusqu'où se trouve gpt-5 ?

lent et coûteux ? le modèle d'inférence openai « strawberry » est ici, jusqu'où se trouve gpt-5 ?

2024-09-13

le « strawberry » d’openai est enfin là.

le 12 septembre, heure locale, le géant de l'intelligence artificielle (ia) openai a publié la série openai o1 de modèles d'inférence d'ia nommée « strawberry », comprenant openai o1-preview et une petite version de o1-mini.

selon openai, o1 passera plus de temps à réfléchir aux problèmes avant de réagir, tout comme les humains. grâce à la formation, j'ai appris à affiner mon processus de réflexion, à essayer différentes stratégies et à reconnaître mes erreurs. raisonnez sur des tâches complexes et résolvez des problèmes plus difficiles que les modèles scientifiques, de codage et mathématiques précédents.

openai a déclaré que cette série de modèles constitue une avancée majeure pour les tâches de raisonnement complexes. elle réinitialise donc également le compteur de produits à 1 et l'appelle openai o1. le « o » dans le nom peut faire référence à orion.

capacité de raisonnement plus forte et chaîne de réflexion offrant de nouvelles opportunités pour la sécurité des modèles

le projet "strawberry" s'appelait auparavant "q*", ce qui a déclenché la "bataille judiciaire" d'openai et conduit au limogeage soudain du pdg de l'entreprise, sam altman. à l'époque, mira murati, directrice de la technologie d'openai, avait déclaré aux employés qu'une lettre concernant la percée de l'ia q* (prononcer q-star) avait incité le conseil d'administration à prendre le licenciement, selon des sources.

les progrès d'openai sur q* ont conduit certains dirigeants de l'entreprise à croire qu'il s'agirait peut-être d'une avancée majeure dans la découverte de la « superintelligence (agi, intelligence artificielle générale) ».

selon les informations officielles, o1 possède de nombreuses capacités qui dépassent de loin celles de gpt-4o. classé 89e dans codeforces, parmi les 500 meilleurs étudiants du pays à l'american mathematical olympiad (aime) et a dépassé le niveau de doctorat humain.

selon les rapports, de la même manière que les humains peuvent réfléchir longtemps avant de répondre à un problème difficile, o1 utilise également une série de pensées lorsqu'il tente de résoudre un problème. grâce à l'apprentissage par renforcement, o1 peut apprendre à affiner sa chaîne de réflexion et à améliorer les stratégies qu'il utilise. il apprend à reconnaître et à corriger les erreurs, à décomposer les étapes délicates en étapes plus simples et à essayer différentes approches lorsque celle actuelle ne fonctionne pas.

openai a déclaré que l'utilisation de chaînes de pensée peut améliorer considérablement la sécurité et la cohérence, car la pensée du modèle peut être observée de manière claire et le raisonnement du modèle sur les règles de sécurité est plus robuste aux scénarios hors distribution.

xu li, président exécutif et pdg de sensetime, a déjà déclaré qu'à l'avenir, le fait qu'un modèle soit intelligent ou non dépend entièrement de la question de savoir si la méthodologie de construction des données de la chaîne de réflexion du modèle est suffisamment solide et si cette méthodologie suffisamment solide peut être durable. et itératif.

capture d'écran partielle de la chaîne de pensée complète originale d'openai o1

cependant, openai a finalement choisi de ne pas montrer la chaîne de réflexion originale à l’utilisateur, mais d’afficher un résumé de la chaîne de réflexion. openai a en outre expliqué : « les chaînes de pensée cachées offrent une opportunité unique de surveiller les modèles. en supposant que le modèle soit fidèlement lisible, les chaînes de pensée cachées nous permettent de « lire » les pensées du modèle et de comprendre son processus de réflexion. nous pourrions vouloir surveiller les chaînes de pensée à la recherche de signes de manipulation des utilisateurs. cependant, pour ce faire, le modèle doit être capable d'exprimer librement ses pensées sous une forme inchangée, nous ne pouvons donc pas entraîner de conformité aux politiques sur les chaînes de pensée ou les préférences des utilisateurs. je ne veux pas que les utilisateurs voient directement des chaînes de pensées incohérentes.

actuellement, deux modèles o1 sont disponibles pour les utilisateurs plus et team de chatgpt, et les utilisateurs d'entreprise et d'éducation pourront les utiliser à partir de la semaine prochaine.

plus lent mais plus cher, pas le "successeur" du gpt-4o

actuellement, la limite hebdomadaire de messages est de 30 pour o1-preview et de 50 pour o1-mini. openai a déclaré qu'il travaillait dur pour augmenter la limite de messages et permettre à chatgpt de sélectionner automatiquement le mode approprié en fonction des invites données. il étend également l'accès à davantage de niveaux d'utilisateurs et prévoit de fournir un accès o1-mini à tous les utilisateurs gratuits.

du côté de l'api (application programming interface), o1-preview facture 15 $ pour 1 million de jetons d'entrée (les grands modèles divisent le texte en mots, jeux de caractères ou combinaisons de mots et de signes de ponctuation) et 60 $ pour 1 million de jetons de sortie. par rapport à gpt-4o, le coût d'entrée est 3 fois supérieur et le coût de sortie est 4 fois supérieur.

o1-mini est plus rapide en termes de positionnement et plus rentable. on dit également qu'il a d'excellentes performances en mathématiques et en programmation. il est presque équivalent à o1 en termes de performances sur les critères d'évaluation tels que aime et codeforces. à o1-preview avec des limites de débit plus élevées et une latence plus faible, o1-mini est 80 % moins cher que o1-preview pour les utilisateurs d'api.

d'autres inconvénients sont également évidents. openai o1 est plus lent que les autres modèles. selon les médias étrangers, il peut falloir plus de 10 secondes à o1 pour répondre à certaines questions, et le modèle choisit d'afficher la progression en affichant des étiquettes pour les sous-tâches en cours d'exécution.

dans le même temps, étant donné l’imprévisibilité des modèles d’ia générative, o1 peut présenter d’autres défauts et limites. par exemple, des erreurs peuvent parfois être commises lors d’un jeu de tic-tac-toe. dans un article technique, openai a déclaré que certains testeurs avaient dit que o1 était plus sujet aux hallucinations que gpt-4o et qu'ils étaient moins disposés à admettre qu'ils ne connaissaient pas la réponse à une question.

de plus, o1 n'est actuellement pas en mesure de naviguer sur le web ou d'analyser des fichiers.

altman a admis franchement que o1 est actuellement la série de modèles openai la plus puissante et la plus alignée, mais elle présente encore des défauts.

le président d'openai, greg brockman, a également déclaré que la technologie o1 en est encore à ses débuts et qu'openai explore activement, notamment la fiabilité, les hallucinations et la robustesse (stabilité) contre les attaquants.

openai a déclaré qu'en tant que premier modèle, openai o1 ne possède pas encore de nombreuses fonctionnalités qui rendent chatgpt utile, telles que la navigation dans les informations du réseau, le téléchargement de fichiers et d'images, etc. dans de nombreux cas courants, gpt-4o aura de plus grandes capacités à court terme. des mises à jour et des améliorations régulières suivront, et "des travaux sont toujours en cours pour rendre ce nouveau modèle aussi simple à utiliser que le modèle actuel".

openai souligne qu'openai o1 n'est pas le « successeur » de gpt-4o. 4o peut être utilisé conjointement avec les fonctions d'inférence de o1. il prévoit de continuer à développer et à publier des modèles de la série gpt après la série o1.

comparaison de plusieurs benchmarks entre openai o1 et gpt-4o

il convient de mentionner que, selon de précédents rapports de médias étrangers, openai pourrait envisager de fixer des normes de facturation plus élevées pour le grand modèle « strawberry » ou le modèle phare de nouvelle génération, qui pourraient atteindre un maximum de 2 000 $ par mois. à titre de comparaison, les frais actuels pour chatgpt plus sont de 20 $ par mois.

turbulent openai, quand arrivera gpt-5 ?

selon les médias étrangers, mulati a déclaré que le modèle principal de nouvelle génération, le gpt-5, était en cours de construction et qu'il serait beaucoup plus grand que son prédécesseur. même si l’entreprise continue de croire que l’échelle permettra de débloquer de nouvelles capacités issues de l’intelligence artificielle, gpt-5 inclura probablement également la technologie d’inférence lancée cette fois-ci.

"il existe deux paradigmes", a déclaré murati, "le paradigme de mise à l'échelle et ce nouveau paradigme. nous voulons les réunir".

le chemin de développement de gpt-5 n’est pas facile.

le 11 septembre, heure locale, alexis conneau, responsable de la recherche gpt-4o/gpt-5 et responsable technique de la version openai de « her », annonce subitement sa démission. auparavant, ilya sutskever, co-fondateur et scientifique en chef d'openai, jan leike, chef d'équipe « super alignment », ainsi que john schulman, co-fondateur, peter deng, directeur de chatgpt, et d'autres ont démissionné les uns après les autres... actuellement, seuls deux des 11 fondateurs rester dans openai.

non seulement il y a des troubles au niveau du personnel, mais openai se révèle également confrontée à un écart de revenus et de dépenses de 5 milliards de dollars cette année.

mais ce que l’on peut constater, c’est qu’openai passe déjà à l’action.

le dernier plan d’openai est de lever environ 6,5 milliards de dollars, ce qui portera la valorisation de ce cycle de financement à 150 milliards de dollars. à la fin du mois dernier, il a été révélé qu'openai se préparait à un nouveau cycle de financement d'un milliard de dollars mené par la société de capital-risque thrive capital, avec microsoft, apple et nvidia participant éventuellement à l'investissement. un peu plus de 100 milliards de dollars.

le 29 août, heure locale, openai a déclaré que chatgpt compte actuellement plus de 200 millions d'utilisateurs actifs hebdomadaires, soit deux fois plus que l'automne dernier.

openai affirme que 92 % des entreprises fortune 500 utilisent ses produits et que l'utilisation de son api a doublé depuis le lancement de chatgpt-4o mini en juillet.

le journaliste du journal qin sheng

(cet article provient de the paper. pour plus d'informations originales, veuillez télécharger l'application « the paper »)

rapport/commentaires

nouvelles

lent et coûteux ? le modèle d'inférence openai « strawberry » est ici, jusqu'où se trouve gpt-5 ?

introduction

mes coordonnées