nouvelles

lourd! le modèle de raisonnement openai à grande échelle, capable de « réfléchir à la logique de résolution de problèmes », est sur le point d'entrer en scène, et la cognition passera au « niveau d'un doctorant en sciences ».

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

vendredi vers 1 heure du matin, heure de pékin, l'ère de l'ia a inauguré un nouveau point de départ : les grands modèles capables de raisonnements généraux et complexes sont enfin arrivés au premier plan.

source de l'image : visuel chine-vcg31n2008743681

openai a annoncé sur son site officiel que,nous avons commencé à proposer le modèle de prévisualisation openai o1 à tous les abonnés : le grand modèle "strawberry" très attendu.. openai a déclaré que pour les tâches de raisonnement complexes,le nouveau modèle représente un nouveau niveau de capacités d’intelligence artificielle, il vaut donc la peine de remettre le décompte à 1 et de lui donner un nouveau nom différent de la série "gpt-4".

les caractéristiques des grands modèles d'inférence sontl’ia passera plus de temps à réfléchir avant de répondre, tout comme les humains réfléchissent au processus de résolution de problèmes.. la logique derrière les grands modèles précédents était de prédire la séquence de génération de mots par des modèles d’apprentissage dans un grand nombre d’ensembles de données. à strictement parler, ils ne comprenaient pas vraiment la question.

en tant que première version du modèle de la série o1, openai n'a lancé que la version préliminaire o1-preview et la version mini o1-mini, et elle a été lancée par étapes pour les utilisateurs payants, les utilisateurs gratuits et les développeurs, et le prix pour les développeurs est assez cher. .

le coût d'utilisation du modèle o1 est au moins 3 fois supérieur à celui de gpt-4o. il est formé à l'aide d'une nouvelle méthode.

selon les rapports, le nouveau modèle o1 peut répondre à des problèmes de programmation, de mathématiques et scientifiques plus complexes grâce à la nouvelle méthode de formation qui le sous-tend. il « réfléchira » avant de donner la réponse et est plus rapide que les humains. la version mini, plus petite et moins chère, se concentre sur les cas d'utilisation de programmation.

les utilisateurs payants de chatgpt plus et team auront un accès immédiat aux deux modèles, en les sélectionnant manuellement dans le menu déroulant du sélecteur de modèle ia de l'interface utilisateur. les deux modes seront disponibles pour les utilisateurs de chatgpt enterprise et edu la semaine prochaine, et l'accès à o1-mini sera mis à la disposition de tous les utilisateurs gratuits à un moment inconnu dans le futur. openai espère sélectionner automatiquement le modèle correct en fonction des invites à l'avenir.

cependant, l'accès des développeurs à o1 est très coûteux. dans l'api (application programming interface), o1-preview facture 15 $ pour 1 million de jetons d'entrée, soit trois fois le coût de gpt-4o, et 60 $ pour 1 million de jetons de sortie, ce qui est . quatre fois le coût du gpt-4o. un million de jetons correspond à la taille du bloc de texte analysé par le modèle, ce qui équivaut à environ 750 000 mots.

jerry tworek, responsable de la recherche chez openai, a déclaré aux médias :o1la méthode de formation qui la sous-tend est fondamentalement différente des modèles précédents.

premièrement, o1 a été « formé à l’aide d’un tout nouvel algorithme d’optimisation et d’un nouvel ensemble de données de formation spécialement conçu pour lui », qui contenait des « données d’inférence » et de la littérature scientifique spécialement adaptées à cet effet.

deuxièmement, la méthode de formation du modèle gpt précédente consistait à imiter les règles/paradigmes de l'ensemble de données, tandis que o1 utilise « l'apprentissage par renforcement » pour apprendre au modèle à résoudre des problèmes par lui-même au moyen de récompenses et de punitions, puis à travers la « chaîne d'idées ». (chaîne d'idées) pensées) pour traiter les problèmes de requête des utilisateurs et donner une version résumée de la chaîne de pensées, similaire à la façon dont les humains traitent les problèmes étape par étape.

dans l'image de droite, vous pouvez cliquer sur la chaîne d'idées pour voir comment le modèle o1 "pense"

un diagramme montrant la chaîne d'idées pour un problème mathématique complexe

openai estime que cette nouvelle méthode de formation rendra le modèle o1 plus précis et réduira le problème « d'hallucination » lié à l'invention des réponses, mais elle ne peut pas éliminer complètement l'apparition d'« hallucinations ». la principale différence entre le nouveau modèle et gpt-4o est qu'il peut mieux résoudre des problèmes complexes tels que la programmation et les mathématiques, tout en améliorant son processus de raisonnement, en essayant différentes stratégies et en identifiant et corrigeant les erreurs dans ses propres réponses.

la cognition passera au "niveau d'un doctorant en sciences"

openai a expliqué que gpt-4, sorti en 2023, est similaire au niveau d'intelligence des lycéens, tandis que gpt-5 achève la croissance de l'ia des « lycéens au doctorat ». ce modèle o1 est une étape clé.

par rapport aux grands modèles existants tels que gpt-4o, openai o1 peut résoudre des problèmes de raisonnement plus difficiles tout en améliorant les défauts mécaniques existants dans les modèles précédents.

par exemple, le nouveau modèle peut compter le nombre de « r » dans une fraise.

dans le même temps, l’ia sera plus organisée pour répondre aux questions de programmation.avant de commencer à écrire du code, réfléchissez à l’ensemble du processus de réponse., puis affichez le code.

par exemple, dans la tâche d'écriture de poésie avec des conditions prédéfinies (par exemple, le dernier mot de la deuxième phrase doit se terminer par i), gpt-4o, qui « prend le stylo et écrit », donne bien une réponse, mais souvent seule une partie des conditions est remplie. il ne s’auto-corrige pas non plus. cela signifie que l'ia doit rencontrer la bonne réponse la première fois qu'elle est générée, sinon elle fera des erreurs. mais dans le modèle o1, l’ia continuera à faire des essais et des erreurs et à peaufiner ses réponses, améliorant ainsi considérablement la précision et la qualité des résultats générés.

ce qui est intéressant, c'est que lorsque vous cliquez sur le processus de réflexion de l'ia, l'ia apparaîtra également en disant "je pense à ça, est-ce que je peux faire ça ?", "oh, je n'ai pas assez de temps, je je dois donner la réponse dans les plus brefs délais », etc. openai a confirmé que ce qui est montré ici n'est pas la chaîne de pensée originale, mais un « résumé généré par le modèle », et la société a également admis franchement qu'il existe ici des facteurs pour maintenir un « avantage concurrentiel ».

jerry tworek, responsable de la recherche chez openai, a révélé que la formation derrière le modèle o1 est fondamentalement différente des produits précédents.alors que les modèles gpt précédents étaient conçus pour imiter des modèles dans leurs données de formation, o1 a été formé pour résoudre les problèmes par lui-même. dans le processus d'apprentissage par renforcement, des mécanismes de récompense et de punition sont utilisés pour « éduquer » l'ia à utiliser des « chaînes de pensée » pour gérer les problèmes, tout comme la façon dont les humains apprennent à démonter et à analyser les problèmes.

d'après le test,le modèle o1 a réussi à obtenir 83 % à l'examen de qualification de l'olympiade mathématique internationale, tandis que gpt-4o n'a pu résoudre correctement que 13 % des problèmes.dans le concours de capacité de programmation codeforces, le modèle o1 a obtenu un score de 89 %, tandis que gpt-4o n'a obtenu qu'un score de 11 %.

openai a déclaré que sur la base des tests, dans la prochaine version mise à jour,l’ia peut fonctionner au niveau du doctorat sur des critères exigeants en physique, chimie et biologie

inconvénients : impossible de parcourir des pages web en temps réel, impossible de télécharger des fichiers et des images, manque de connaissances approfondies du monde ou sujet aux hallucinations

mais en tant que version initiale du modèle o1, la version o1-preview publiée aujourd'hui présente également des défauts évidents. par exemple, il s'agit simplement d'une « version texte uniquement » qui ne peut temporairement pas parcourir les informations web et télécharger des fichiers et des images, ce qui signifie qu'elle ne possède pas de nombreuses fonctions de chatgpt. elle n'est pas aussi puissante que gpt-4o dans de nombreux domaines courants. cas d'utilisation, et il existe des restrictions d'utilisation, la version d'aperçu o1 a une limite hebdomadaire de 30 messages et la version mini a une limite hebdomadaire de 50 messages.

d'autres limitations mentionnées incluent : le modèle o1 n'est pas aussi performant que gpt-4o dans de nombreux domaines et fonctionne mal en termes de connaissances factuelles sur le monde ; la capacité de raisonnement est plus lente dans certains cas d'utilisation et peut prendre plus de temps pour répondre aux questions ; actuellement, o1 l'est. seulement un modèle textuel pur, dépourvu de la capacité de raisonner sur des documents spécifiques ou de collecter des informations en temps réel à partir du réseau.

de plus, laisser le modèle d'ia jouer au tic-tac-toe a toujours été considéré comme un problème dans l'industrie. le nouveau modèle o1 doté de capacités de raisonnement fera toujours des erreurs dans ce jeu, c'est-à-dire qu'il ne pourra pas complètement surmonter les difficultés techniques. .

openai a également admis dans un document technique avoir reçu des "retours anecdotiques" selon lesquels l'aperçu o1 et la version mini étaient plus susceptibles de produire des "illusions" que gpt-4o et sa version mini, c'est-à-dire que l'ia était encore très confiant. inventez des réponses, et o1 admettra rarement qu'il ne connaît pas la réponse à une question.

techcrunch, un média technologique bien connu, a souligné qu'openai avait souligné dans un article de blog lié au modèle o1 qu'il avait décidé de ne pas montrer aux utilisateurs la « chaîne de pensée » originale de ce nouveau modèle, mais avait choisi de donner un résumé de la chaîne de réflexion dans la réponse. le but est de maintenir un « avantage concurrentiel » et de compenser d'éventuelles lacunes, « nous nous efforçons d'apprendre au modèle à reproduire dans ses réponses toutes les idées utiles de la chaîne de pensée ».

actualités économiques quotidiennes informations publiques complètes

l'actualité économique quotidienne

rapport/commentaires