openai « strawberry » vaut-il un billion ?

2024-09-13

auteur | bi andi, rédacteur wang jing |

qu'ont en commun ultraman et ma baoguo ? réponse : ils aiment tous mener des attaques sournoises.

la nouvelle de "strawberry" circule depuis plusieurs mois. on dit qu'il s'agit d'un projet mystérieux au sein d'openai, qui semble assez différent du modèle de la génération précédente. mais openai a gardé le secret. le moment le plus proche où il a été révélé a été une photo de vraies fraises publiée par le pdg sam altman sur les réseaux sociaux.

il y a quelques jours à peine, the information annonçait que "strawberry" sortirait dans les deux prochaines semaines.

même avec une telle attention, openai a quand même surpris le monde : dans l'après-midi du 12 septembre, heure locale, sans préavis ni conférence de presse, openai a soudainement publié un nouveau modèle.

cependant, le nom du nouveau modèle n'est pas aussi délicieux que « fraise », mais très sérieux et significatif : o1.

vous savez, le modèle openai a déjà été itéré dans la série « gpt », de gpt-1 en 2018 à gpt-4o en mai de cette année. aujourd’hui, openai ouvre une nouvelle ligne.

dans le billet de blog officiel annonçant o1, openai a déclaré ceci : « en tant que premier modèle, il ne possède pas encore de nombreuses fonctionnalités qui rendent chatgpt utile... mais pour les tâches d'inférence complexes, il s'agit d'une amélioration significative et représente les capacités de l'ia. nouveau niveau. compte tenu de cela, nous avons réinitialisé le compteur à 1 et nommé cette série openai o1.

le nouveau modèle n'est actuellement ouvert qu'aux abonnés payants chatgpt et à certains programmeurs. pour montrer que le modèle n'est pas encore mature, il est temporairement appelé "o1-preview", et aperçu signifie aperçu. de plus, openai a également publié une version petit modèle o1-mini. qu'il s'agisse de o1-preview ou de o1-mini, il existe actuellement une limite sur le nombre de réponses par semaine.

ultraman lui-même a fait l'éloge du nouveau modèle sur les réseaux sociaux

gary marcus, un spécialiste de l'ia qui aime toujours verser de l'eau froide sur chatgpt, a plaisanté en disant que la démarche d'openai est une « recette familière » : annoncer la démo, l'ouvrir à un nombre limité d'utilisateurs, collecter des fonds et recommencer.

au moment de la sortie de o1, openai faisait l'objet d'un nouveau cycle de financement. selon les dernières nouvelles de bloomberg, ce tour de table sera un événement majeur avec une ampleur de plusieurs dizaines de milliards de dollars américains et une valorisation cible de 150 milliards de dollars américains.

jetons d’abord un coup d’œil au modèle lui-même.

comme on l'a dit précédemment, l'un des principaux objectifs de o1 est le « raisonnement ». la clé du « raisonnement » est la « réflexion ».

pour les utilisateurs, le sentiment le plus intuitif est que o1-preview mettra plus de temps avant de répondre à la question.

sous le modèle o1-preview, la liste alphabétique demande à chatgpt « quel jour du mois et quel jour de la semaine sommes aujourd'hui ? » une fois la question envoyée, chatgpt affiche ses étapes de réflexion en cours une par une : répondre à la question sur la date, revoir les directives, comprendre la date actuelle, puis donner la réponse, marquée « réfléchissez pendant 8 secondes ».

en revanche, sous le modèle gpt-4o, chatgpt donne une réponse directe en 3 secondes sans afficher d'étapes intermédiaires.

"il s'agit d'un nouveau grand modèle oracle formé par apprentissage par renforcement et conçu pour effectuer des tâches de raisonnement complexes. o1 réfléchit avant de répondre aux questions - il peut générer une longue" chaîne de pensée "interne avant de répondre à l'utilisateur", a écrit openai dans un article de blog.

cette fois, le modèle o1 a été publié, les responsables d'openai ont révélé très peu de détails techniques, et ce qu'ils ont souligné à plusieurs reprises était la « chaîne de réflexion ».

selon openai, o1 utilise des chaînes de pensée pour tenter de résoudre des problèmes, tout comme les humains réfléchissent longuement et sérieusement avant de répondre à une question difficile. grâce à l’apprentissage par renforcement, o1 a appris à affiner sa chaîne de réflexion et à optimiser ses stratégies d’usage. il est capable de reconnaître et de corriger ses propres erreurs et d’apprendre à diviser des étapes complexes en étapes plus simples. lorsque la méthode actuelle ne fonctionne pas, il essaie une autre méthode.

"ce processus améliore considérablement les capacités d'inférence du modèle."

alors, quelle est la force de la capacité de o1 ? outre les plusieurs vidéos de démonstration publiées par openai, le plus convaincant, ce sont les résultats des tests. openai affirme que o1 fonctionne « de manière comparable à celle des experts humains » sur un certain nombre de tests de référence à forte intensité d'inférence et surpasse les techniques précédentes. par exemple, lors de l'olympiade internationale de mathématiques (omi), le score technique précédent était de 13 % et le score o1 atteignait 83 %.

au concours de programmation codeforces, o1 a obtenu un excellent score de 89 %. sur la base de o1, openai a également développé o1-ioi, qui est meilleur en programmation, et ses résultats ont dépassé 93 % des candidats d'un seul coup.

un autre test qu'openai "montre" spécifiquement est le gpqa-diamond, qui est un test de référence pour l'expertise en chimie, physique et biologie. openai a invité des experts titulaires d'un doctorat à concourir et a constaté que « les performances d'o1 dépassaient celles de ces experts humains ».

openai a également déclaré qu'après avoir activé les capacités de perception visuelle, o1 a obtenu un score de 78,2 % au test mmmu, « devenant ainsi le premier modèle capable de rivaliser avec les experts humains ». de plus, o1 surpasse gpt-4o dans 54 des 57 sous-catégories mmlu.

en bref, o1 accorde plus d'attention à la capacité de raisonnement que les modèles précédents d'openai, et ses capacités en mathématiques et en programmation ont été particulièrement améliorées. pour exagérer, c'est comme un docteur en boxe et un expert en coups de pied. , on s'attend également à ce qu'il réduise l'illusion du modèle.

cependant, o1 en est encore à ses débuts. comme l'a souligné ultraman, "il existe encore des défauts et des limites".

ce n'est que lors d'une tentative superficielle de liste alphabétique que des erreurs se sont produites dans o1-preview. par exemple, lorsqu'on lui a demandé « qu'est-ce qui est plus grand, 9.11 ou 9.9 ? », gpt-4o a répondu de manière incorrecte, et o1-preview a également répondu de manière incorrecte, disant sérieusement que « 9.11 est effectivement plus grand que 9.9. parce que 9.11 (c'est-à-dire 9.11) est plus grand que 9.11 ou 9.9 ? 9,9 (9,90)." il y a une pointe d'humour dans la verbosité, sans compter qu'il a fallu 15 secondes pour y réfléchir.

the information a également rapporté que certains utilisateurs qui ont essayé o1-preview ont déclaré que de nombreuses interactions « ne valaient pas les 10 à 20 secondes d'attente supplémentaires » et qu'ils préféraient la vitesse de réponse de gpt-4o.

actuellement, o1-preview et o1-mini sont ouverts aux utilisateurs payants, mais le nombre est limité : o1-preview a 30 messages par semaine et o1-mini a 50 messages par semaine.

à partir de la semaine prochaine, les deux modèles seront également accessibles aux utilisateurs de chatgpt en entreprise et dans l’enseignement (edu). openai a également déclaré qu'il souhaiterait fournir gratuitement o1-mini à tous les utilisateurs à l'avenir, mais l'heure précise n'a pas été annoncée.

c'est la première fois qu'openai ajoute un suffixe similaire à « aperçu » lors de la publication d'un modèle. auparavant, gpt-4 et gpt-4o avaient directement publié le modèle complet.

une caractéristique de o1 qui ne peut être ignorée est qu’il est cher.

le coût de l'accès des développeurs à o1 est très élevé : en termes d'api, o1-preview facture 15 $ pour 1 million de jetons d'entrée ou de blocs de texte analysés par le modèle, soit trois fois celui de gpt-4o, et 60 $ pour 1 million de jetons de sortie. , quatre fois celui de gpt-4o.

the atlantic a analysé dans le rapport que o1 est spécifiquement conçu pour nécessiter plus de temps, ce qui consommera inévitablement plus de ressources et augmentera la difficulté de rentabilité de l'aigc.

gary marcus, mentionné au début de cet article, est un chercheur à l'intersection des neurosciences humaines et de l'intelligence artificielle, professeur honoraire à l'université de new york et fondateur et pdg de la startup d'ia geographic intelligence. est " "l'épine dans le monde de l'ia" a critiqué à plusieurs reprises openai.

selon lui, la sortie soudaine d'o1-preview par openai est davantage une méthode de propagande.

après tout, openai fait l'objet d'un important cycle de financement. selon le dernier rapport de bloomberg, openai négocie pour lever 6,5 milliards de dollars auprès d'investisseurs pour une valorisation de 150 milliards de dollars. banques sous forme de crédit renouvelable.

"envoyez une démo, ouvrez-la à un nombre limité d'utilisateurs, collectez des fonds et répétez." c'est ainsi que marcus résume les "moyens" d'openai.

en juillet de cette année, the information a rapporté qu'openai pourrait perdre jusqu'à 5 milliards de dollars cette année. parmi eux, les coûts de personnel d'openai cette année s'élèvent à environ 1,5 milliard de dollars, les coûts de formation et d'inférence en ia pourraient atteindre 7 milliards de dollars et les revenus annuels devraient se situer entre 3,5 et 4,5 milliards de dollars.

à l’époque, the information prédisait qu’à ce rythme de combustion de l’argent, openai aurait bientôt besoin de lever des fonds. le dernier financement important pour openai remonte au début de 2023, lorsque microsoft a investi des dizaines de milliards de dollars.

ce n'est pas la première fois qu'openai publie des « produits immatures » sur des nœuds clés.

en octobre de l'année dernière, on a appris qu'openai cherchait à vendre des actions. à l'époque, la rumeur disait que la valorisation possible était de 86 milliards de dollars. mais le mois suivant, openai a connu un changement choquant au sein de sa haute direction. altman a été expulsé de l'entreprise, mais il est rapidement revenu à son poste de pdg, remportant la « bataille du palais ». cependant, le projet de vente d'actions a été brièvement retardé et il n'y a eu aucune nouvelle indiquant que la transaction était « de nouveau sur les rails » jusqu'à la fin novembre. à l'époque, des personnes proches du dossier avaient déclaré que les employés craignaient que l'urgence n'affecte les ventes d'actions et la valorisation de l'entreprise.

fait intéressant, le 15 février de cette année, openai a soudainement annoncé un nouveau modèle de génération vidéo sora, et la démo a choqué le monde extérieur. en trois jours, le new york times a rapporté qu’openai avait finalisé la vente des actions des salariés et que la valorisation de l’entreprise dépassait les 80 milliards de dollars « comme prévu ».

plus de six mois se sont écoulés et sora n'a pas été ouverte au public ni même encouragé des tests à grande échelle. le monde extérieur a commencé à soupçonner que sora ne disposait pas de suffisamment de puissance de calcul pour soutenir son fonctionnement. un rapport publié par l'organisme d'études de marché factorial funds estime que 720 000 puces nvidia h100 seront nécessaires pour déployer sora.

début septembre, le « taiwan economic daily » a rapporté que la puce a16 de niveau angström de tsmc avait déjà reçu des commandes de clients majeurs, notamment apple et openai. openai utilisera des puces personnalisées pour améliorer les capacités de génération vidéo de sora. cela semble également confirmer que sora a déjà rencontré un problème de puissance de calcul.

maintenant que le chatgpt à la fraise est là, nous verrons peut-être bientôt la nouvelle selon laquelle openai a finalisé avec succès un nouveau cycle de financement et est évalué à plus de mille milliards de yuans.

nouvelles

openai « strawberry » vaut-il un billion ?

introduction

mes coordonnées