openai « fait à nouveau des bulles » sur les grands modèles pour prolonger leur durée de vie

openai donne une fois de plus aux grands modèles une « bulle » pour prolonger leur durée de vie

2024-09-14

texteil qianming

editeur : cheng manqi huang junjie

le produit le plus important d'openai cette année, le modèle o1, a été lancé comme prévu. le cours de l'action nvidia, le plus gros producteur de bénéfices dans le domaine de l'ia, a augmenté de 10 % en deux jours.

o1, qui consomme plus de puissance de calcul pour répondre aux questions, « réfléchira » pendant des dizaines de secondes, voire plus, lorsqu'il verra une question avant de donner une réponse. openai affirme qu'il peut répondre aux questions mathématiques de l'olympiade ou effectuer des tâches de programmation bien mieux que les grands modèles déjà sur le marché.

mais la bonne humeur du pdg d’openai, sam altman, a été rapidement interrompue. sous son tweet annonçant le lancement complet d'o1, le premier commentaire était : "quand la nouvelle fonction vocale sera-t-elle disponible ??" il a immédiatement répliqué : "pouvez-vous prendre quelques semaines pour vous remercier de cette magie intelligente et ensuite vouloir ?" un nouveau jouet ?

ce que cet utilisateur veut après altman, ce n'est pas un nouveau jouet, mais la prochaine fonction vocale de bout en bout gpt-4o promise par openai en mai de cette année. lors de la démonstration en direct de l'époque, cette nouvelle ia semblait naturelle, répondait très rapidement et savait quand interrompre, ce qui rendait difficile pour les autres de distinguer le vrai du faux. selon le calendrier officiel, des dizaines de millions d'utilisateurs payants de chatgpt étaient censés utiliser cette fonctionnalité d'ici quelques semaines, mais cela a été retardé jusqu'à présent.

au cours de l'année écoulée, les produits d'openai ont été des « futurs » similaires : gpt-4 est en ligne depuis plus d'un an et le modèle de nouvelle génération d'openai, gpt-5, n'a toujours aucun signe de sortie. le modèle vidéo sora publié par openai plus tôt cette année n'a pas été diffusé à grande échelle. jusqu'à présent, seuls quelques professionnels de l'industrie sélectionnés par eux l'ont réellement utilisé.

les retards les plus importants du secteur ont épuisé à plusieurs reprises la patience du marché des capitaux face aux grands modèles d’ia. certains géants chinois de la technologie et grandes entreprises de modèles ont suspendu la formation des modèles de base au milieu de cette année, investissant davantage de ressources dans le développement d'applications ou louant la puissance de calcul gpu à des clients externes. ils craignent qu’il n’y ait pas beaucoup de place pour le progrès technologique, ils commencent donc à réduire leurs investissements et à rechercher des rendements.

avant cette semaine, la valeur marchande de nvidia avait chuté de plus de 20 % par rapport à son sommet de juin, et la valeur marchande de microsoft avait également diminué de 13 %, chacun perdant des centaines de milliards de dollars. le directeur financier de microsoft a déclaré que les dizaines de milliards de dollars investis dans le domaine des grands modèles devront attendre 15 ans ou plus pour être récupérés.

les recherches de sequoia montrent que les investissements dans le domaine de l'ia ont dépassé les revenus de plus de 120 milliards de dollars l'année dernière et pourraient atteindre 500 milliards de dollars cette année. mais à l’exception de nvidia, peu d’entreprises ont vu leurs revenus augmenter dans une large mesure. de plus en plus de gens dans l'industrie commencent à discuter du fait que si les capacités des grands modèles s'arrêtent là, la bulle de l'ia va-t-elle éclater à nouveau ?

les « bulles » ne sont pas nécessairement une mauvaise chose. avant qu’une nouvelle technologie ne change le monde, il y aura une étape où la vision dépassera de loin la réalité. la différence réside dans la question de savoir si et quand la vision pourra se réaliser. si cela ne peut pas être réalisé à long terme, la bulle éclatera et l’entreprise fera faillite. un éclatement grave de la bulle peut même détruire un secteur, voire plusieurs économies. si cette vision se réalise, elle ne sera rien d’autre qu’une note en bas de page du progrès technologique.

l'o1 publié par openai renversera au moins temporairement l'hésitation selon laquelle il n'y a pas de place pour progresser dans les grands modèles et prolongera la durée de vie de la « bulle » des grands modèles.

toute nouvelle technologie doit continuer à progresser avant de pouvoir changer le monde. le caractère unique d'o1 réside non seulement dans le fait que les performances en programmation, en mathématiques, en physique et dans d'autres domaines ont été considérablement améliorées, mais aussi dans le fait qu'il a trouvé une voie à suivre pour un groupe d'adeptes d'openai et les investisseurs derrière eux : dans le passé, l'informatique la puissance était davantage utilisée pour « mémoriser les connaissances » ——en utilisant une grande quantité de données pour entraîner le modèle, o1 alloue plus de puissance de calcul à « réfléchir en répondant aux questions », c'est-à-dire que le processus de raisonnement et la capacité logique sont grandement améliorés.

avant cela, la formation de grands modèles était tombée dans le goulot d'étranglement des lois de mise à l'échelle d'origine. après l'extension de l'échelle des paramètres du modèle, l'amélioration des performances a progressivement ralenti.

spécialement optimisé pour les mathématiques, la programmation et les problèmes scientifiques, o1-mini présente également un potentiel d'application considérable. il peut non seulement aider directement les scientifiques et les développeurs à améliorer l'efficacité de leur travail, mais également indiquer les performances de développement et la sécurité dans d'autres domaines verticaux de grande valeur. sont de meilleures approches de modèle.

comme d'habitude avec plusieurs versions, openai a soigneusement choisi le moment de la sortie de o1. selon les médias, avant la sortie de o1, openai recherchait un nouveau financement de 7 milliards de dollars pour une valorisation de 150 milliards de dollars. les investisseurs potentiels comprennent apple, nvidia, microsoft et le fonds d'investissement des émirats arabes unis. aujourd’hui, la course aux investissements dans les ressources a une autre raison de se poursuivre.

du grand modèle de langage au « modèle d'inférence », o1 est fort en théorie et faible en littérature

cette fois, openai a publié deux modèles pour les utilisateurs : o1-preview et o1-mini, et a annoncé que d'autres modèles de la série o1 étaient en route.

la raison pour laquelle cette série est nommée o1 au lieu d'utiliser gpt est qu'il y a des changements évidents dans les méthodes de formation des deux. dans l'article de blog d'openai présentant o1, il est appelé à plusieurs reprises modèle de raisonnement (modèle de raisonnement), au lieu du modèle de langage large (large language model) couramment utilisé auparavant lors de l'appel de gpt.

la logique globale de formation des grands modèles de langage traditionnels tels que gpt est la pré-formation et le réglage fin : utilisez d'abord des données massives pour apprendre au grand modèle à prédire le mot suivant lors de la phase de pré-formation, puis laissez-le apprendre à prédire le mot suivant. mot suivant dans la phase de mise au point. le grand modèle acquiert des connaissances dans un domaine spécifique et permet aux humains d'écrire des réponses pour enseigner au grand modèle les réponses que les gens veulent, et la machine s'améliore en fonction des commentaires.

les nouveaux mots-clés de o1 sont l’apprentissage par renforcement et la chaîne de pensée (cot).

openai décrit le processus de la manière suivante : "grâce à l'apprentissage par renforcement, o1 apprend à affiner sa chaîne de pensée et à affiner les stratégies qu'il utilise. il apprend à reconnaître et à corriger ses propres erreurs, il apprend à décomposer les étapes complexes en étapes plus simples ; améliore considérablement les capacités d'inférence du modèle en essayant différentes méthodes lorsque la méthode actuelle ne fonctionne pas.

alphago, qui a battu le champion du monde de go en 2016, et son modèle ultérieur alphazero, ont utilisé l'apprentissage par renforcement pour permettre au modèle de jouer automatiquement et d'apprendre quelles stratégies utiliser pour améliorer le taux de victoire dans différents états (jeux). le modèle peut également générer des données grâce à des essais continus pour entraîner le modèle.

openai o1 utilise une méthode similaire : fournir au grand modèle des données de résolution de problèmes étape par étape, permettant au modèle d'apprendre à s'auto-corriger et à apprendre à répondre aux questions à chaque étape pour obtenir la réponse optimale.

"la capacité du modèle d'ia vient toujours des données. s'il y a des éléments qui manquent à l'origine ou sont insuffisants dans les données, le modèle ne peut pas les apprendre. o1 équivaut à mettre en œuvre une méthode de synthèse de données professionnelles. avec ces données professionnelles , o1 peut acquérir des capacités professionnelles", a déclaré yuan jinhui, fondateur de silicon mobile.

o1 lorsqu'il répond à une question, il divisera également la question en une série de petites questions et répondra à la question étape par étape. c'est la « chaîne de réflexion ». selon l'affichage openai, le processus de réponse aux questions o1 est le suivant (dans la version utilisée par l'utilisateur, openai masque le contenu de la chaîne de réflexion) :

question (à l'origine en anglais) :

écrivez un script bash qui reçoit une matrice (représentée sous la forme d'une chaîne au format '[1,2],[3,4],[5,6]') et imprime la transposition de la matrice dans le même format.

idées de résolution de problèmes d'o1-preview (chaîne de réflexion) :

un utilisateur a demandé d'écrire un script bash capable de recevoir une chaîne représentant une matrice, telle que « [1,2],[3,4],[5,6] », et d'afficher sa transposition dans le même format.

comprenons d'abord les formats d'entrée et de sortie.

entrée : '[1,2],[3,4],[5,6]', sa matrice correspondante est :

1 2

3 4

5 6

par conséquent, l’entrée est une série de lignes entourées de crochets et séparées par des virgules.

la transposée de cette matrice est :

1 3 5

2 4 6

par conséquent, la sortie requise est « [1,3,5], [2,4,6] ».

mission globale :

écrivez un script bash qui prend un argument (une chaîne représentant une matrice) et génère sa transposition dans le même format.

bon, voyons maintenant comment analyser une chaîne d'entrée dans bash, construire une matrice (éventuellement en utilisant un tableau), la transposer, puis générer la matrice transposée, en conservant le même format.

contraintes :

- puisqu'il s'agit de bash, nous devons être prudents lors de l'analyse des chaînes.

-le script doit accepter la chaîne d'entrée comme paramètre.

méthode:

-analyser la chaîne d'entrée pour extraire les éléments de la matrice.

- construire une matrice sous forme de tableau de tableaux.

-transposer la matrice.

- sortir la matrice transposée dans le même format.

étapes de mise en œuvre :

1. capturez la chaîne d'entrée en tant que paramètre.

2. supprimez tous les espaces (le cas échéant).

3. analysez la chaîne d'entrée et extrayez les nombres dans un tableau.

-puisque le format d'entrée est '[1,2],[3,4],[5,6]', nous pouvons :

--retirez les supports extérieurs si nécessaire.

--divisez la chaîne par ']' pour obtenir chaque ligne.

--pour chaque ligne, supprimez '[' et ']', puis récupérez les éléments séparés par ','.

4. construisez un tableau bidimensionnel (tableau de tableaux) en bash.

-puisque les tableaux bash sont unidimensionnels, nous devons simuler un tableau bidimensionnel.

5. transposez la matrice.

-lors de la transposition, nous devons échanger les lignes et les colonnes.

6. sortez la matrice transposée au format souhaité.

-reconstruisez la chaîne de sortie au format '[1,3,5],[2,4,6]'.

maintenant, commencez à écrire le code étape par étape.

problèmes potentiels :

-bash lui-même n'a pas de tableaux multidimensionnels natifs, nous devons donc simuler cela.

-nous devons traiter des nombres qui peuvent comporter plusieurs chiffres.

ensuite, nous pouvons commencer à écrire le cadre de ce script bash étape par étape.

【légèrement】

testons maintenant ce script en utilisant l'exemple d'entrée '[1,2],[3,4],[5,6]'.

laissez-moi essayer de simuler ce qui se passerait.

je vais l'écrire comme réponse.

ni l’apprentissage par renforcement ni l’enchaînement de pensées n’ont été les premières orientations techniques proposées par openai.

avant la mise en ligne de o1, google deepmind a publié en juillet une version mise à jour du modèle alphageometry entraîné avec une méthode similaire, qui a permis de remporter une médaille d'argent à l'olympiade mathématique internationale de l'omi.

mais openai a prouvé une fois de plus qu'il pouvait prendre les devants en proposant des modèles avec des résultats plus étonnants basés sur l'industrie. selon openai, leur modèle o1-ioi spécialement formé pour l'olympiade internationale d'informatique pourrait remporter la médaille d'or.

grâce à de nouvelles méthodes de formation et d'inférence, openai o1-preview surpasse considérablement gpt-4o dans la résolution de problèmes mathématiques difficiles et le traitement des tâches de programmation. par exemple, sur l'ensemble de données du concours de mathématiques aime 2024, le score o1-preview est plus de 4 fois supérieur à celui de gpt-4o ; sur l'ensemble de données du concours de programmation codeforces, l'écart devient 5,6 fois.

dans les concours de mathématiques, les concours de programmation et les tests d'ensembles de données de questions et réponses scientifiques, o1-preview et o1 ont largement dépassé gpt-4o.

openai a déclaré que les versions actuellement limitées d'openai o1-preview et d'openai o1-mini ne sont que des premières versions. leur prochain modèle fonctionne de la même manière qu'un doctorant dans des questions de test difficiles en physique, chimie, biologie, etc., tandis que le modèle précédent est le plus performant. sont au niveau du premier cycle ou de la maîtrise.

faisant de la technologie une réalité, openai a mentionné 212 contributeurs, ce qui est comparable aux contributeurs de la partie texte de gpt-4o (234 personnes). mais la formation o1 nécessite davantage de types de données. openai a mentionné que les données utilisées dans la pré-formation o1 proviennent d'ensembles de données publics, de données propriétaires des partenaires et d'ensembles de données personnalisés développés en interne, tandis que gpt-4o n'utilise les deux premiers types de données que lorsqu'il maîtrise les capacités de texte.

la série o1, qui privilégie les « modèles d'inférence », n'a pas complètement dépassé gpt-4o, et sa capacité linguistique est sa relative faiblesse.

dans les tests d'openai, la plupart des gens pensent que o1-preview est meilleur que gpt-4o pour répondre aux questions qui valorisent le raisonnement telles que l'analyse des données, la programmation et les mathématiques. cependant, en termes d'écriture personnelle, d'édition de texte, etc., gpt-4o. c'est quand même mieux.

les problèmes qui ne peuvent pas être résolus par gpt-4o apparaîtront également dans o1-preview. par exemple, cela fera également des "absurdités" et pensera que 9.11 est plus grand que 9.2.

pour l'écriture personnelle, l'édition de texte, etc., gpt-4o est meilleur.

le temps de réponse (réflexion) plus long apporté par la chaîne de réflexion peut être un défaut de la série o1 en utilisation réelle. lorsqu'on lui a demandé de « lister les noms de cinq pays dont la troisième lettre est a », gpt-4o n'a pris que 3 secondes, tandis que o1-mini a pris 9 secondes, o1-preview a pris 32 secondes et gpt-4o dix fois. fondamentalement indisponible pour des questions simples.

pour le moment, o1-preview et mini n'ont pas les fonctions de navigation sur le web, d'obtention d'informations et de traitement des fichiers et des images téléchargés comme gpt-4o. à l'heure actuelle, il semble que les personnes les plus rapides qui peuvent utiliser o1 pour améliorer leur productivité sont les développeurs de logiciels, mais openai limite également la façon dont ils appellent l'api : ils ne peuvent appeler que 20 fois par minute, à l'exclusion des fonctions telles que les appels de fonctions, le streaming et prise en charge des messages système.

de la formation scaling à l'inférence scaling, la compétition en puissance de calcul va se poursuivre

de l'avis de nombreux chercheurs sur les grands modèles, le changement le plus important de o1 est qu'il montre une nouvelle voie pour améliorer considérablement les capacités des grands modèles.

les lois de mise à l'échelle originales signifient que l'utilisation de plus de données et de puissance de calcul pour former un modèle avec des paramètres plus grands entraînera de meilleures performances.

comme le montre la figure ci-dessous, o1 montre que si le modèle consacre plus de temps et plus de puissance de calcul à répondre aux questions (calcul au moment du test), les performances continueront de s'améliorer. jim fan, scientifique principal en ia de nvidia, a déclaré sur les réseaux sociaux qu'il s'agissait peut-être de l'image la plus importante dans la recherche sur de grands modèles depuis que deepmind a proposé les lois de mise à l'échelle de chinchill (une optimisation des lois de mise à l'échelle originales) en 2022.

jim fan a également proposé une possibilité pour l'évolution future des grands modèles : les futurs modèles pourraient séparer le raisonnement des connaissances, avoir un petit "noyau de raisonnement" et également utiliser un grand nombre de paramètres pour mémoriser des faits (connaissances) à des fins de tests tels que des questions triviales. et des réponses. excellente performance.

openai a également spécifiquement mentionné dans l'article présentant o1 qu'ils continueront à développer la série de modèles gpt. cela peut indiquer qu'openai introduira les méthodes utilisées dans o1 dans le modèle gpt de nouvelle génération.

que o1 devienne la nouvelle méthode grand public ou que o1 soit combiné avec la série gpt pour faire évoluer la prochaine génération de grands modèles, les besoins en puissance de calcul devraient encore augmenter.

openai n'a pas divulgué le coût d'inférence de la série o1, mais à partir du temps nécessaire au modèle o1 pour répondre aux questions et des restrictions d'utilisation d'openai sur o1, on peut en déduire que o1 nécessite des ressources informatiques d'inférence beaucoup plus importantes que la série gpt.

les utilisateurs payants de chatgpt plus qui dépensent 20 $ par mois ne peuvent actuellement utiliser o1-preview que 30 fois et o1-mini 50 fois par semaine. la limite actuelle de gpt-4o est de 4 480 fois par semaine (80 fois toutes les 3 heures), soit 90 fois celle de o1-mini et 150 fois celle de o1-preview.

le temps nécessaire à o1-preview pour répondre aux questions est passé de quelques secondes pour les modèles de la série gpt à des dizaines de secondes, voire plus. il traite également beaucoup plus de texte lors des réponses aux questions. prenons comme exemple les problèmes de programmation répertoriés dans l'article montrant le processus de « chaîne de pensée ». lorsque o1 l'a résolu, y compris la chaîne de pensée, il a traité 6 632 caractères, soit 4,2 fois celui de gpt-4o. un temps de calcul et une sortie plus longs entraînent des coûts de puissance de calcul plus élevés.

o1 la stimulation des perspectives de l’ia et de la consommation d’énergie de calcul s’est rapidement reflétée sur le marché des capitaux. depuis que les médias ont rapporté au début de cette semaine qu'openai était sur le point de lancer un nouveau modèle, le cours de l'action de nvidia a rebondi de 10 % et microsoft a également augmenté ensemble.

pour les entreprises qui ne sont pas sûres de la direction de l’évolution technologique ou qui ont ralenti leurs recherches sur les modèles de base, il y a désormais de nouveaux travaux à accomplir et de nouvelles orientations à suivre. la forte probabilité de publication de o1 signifie qu'en termes de « modèles d'inférence », l'écart concurrentiel s'est encore creusé et qu'une série de rattrapages et d'investissements accélérés est sur le point de se produire.

"il est temps de passer aux choses sérieuses, sinon nous ne serons plus dans le jeu", a déclaré un chercheur chinois en modélisme à grande échelle.

photo de titre : visual china

en 1957, un objet fabriqué par l’homme est entré pour la première fois dans l’univers, tournant autour de la terre pendant trois semaines. lorsque les humains lèvent les yeux, ils peuvent voir un petit éclair de lumière traverser le ciel la nuit, parallèlement aux étoiles mythiques.

de tels exploits transcendent les races et les idéologies, suscitant la joie dans le monde entier. mais pas la joie de la victoire que l’on pourrait soupçonner d’être émue par les exploits humains. selon l’observation de la philosophe politique hannah arendt à l’époque, l’humeur des gens est plus proche d’un soulagement tant attendu : la science a enfin rattrapé les attentes, et « l’humanité est enfin sur le point de sortir de la prison terrestre. été prise."

les gens ajustent toujours rapidement leurs attentes à l’égard du monde en fonction de l’exploration technologique. lorsque le fantasme d’un écrivain de science-fiction devient réalité, c’est souvent lorsque la technologie finit par rattraper les attentes des gens, ou, selon les mots d’arendt, « la technologie réalise et confirme que les rêves des gens ne sont ni fous ni nihilistes ».

dans des moments comme aujourd’hui, il vaut mieux rêver davantage.

c'est également l'attente de "latepost" en lançant la rubrique tech tuesday. nous espérons introduire régulièrement de nouvelles recherches scientifiques et progrès technologiques en plus du monde des affaires auquel « late » prête une attention quotidienne.

il peut s'agir de l'avancée d'une recherche de pointe, de l'observation d'une application technologique, ou encore d'un hommage à certaines technologies marquantes ou encore à une époque.

cette chronique enregistrera les divers changements survenus dans le monde du point de vue de la science et de la technologie. au cours de ce voyage, j'espère que les lecteurs pourront nous rejoindre et acquérir un peu plus de compréhension du monde.

· fin ·

nouvelles

openai donne une fois de plus aux grands modèles une « bulle » pour prolonger leur durée de vie

introduction

mes coordonnées