o1 une chaîne de pensée complète devient le tabou numéro un dans openai ! si vous posez trop de questions, veuillez attendre que votre compte soit banni

o1 une chaîne de pensée complète devient le tabou numéro un dans openai ! si vous posez trop de questions, attendez que votre compte soit banni.

2024-09-14

avertir! ne demandez pas dans chatgpt ce que pense le dernier modèle o1——

essayez-le plusieurs fois et openai vous enverra un e-mailmenacer de révoquer vos qualifications。

veuillez arrêter cette activité et vous assurer que votre utilisation de chatgpt est conforme à nos conditions d'utilisation. les violations de cette disposition peuvent entraîner la perte de l’accès à openai o1.

moins de 24 heures après le lancement du nouveau grand modèle o1, de nombreux utilisateurs ont signalé avoir reçu cet email d'avertissement, provoquant leur mécontentement.

certaines personnes ont signalé que tant que les mots d'invite contiennent des mots-clés tels que « trace du raisonnement » et « montrez votre chaîne de pensée », ils recevront un avertissement.

même si les mots-clés sont complètement évités et que d’autres moyens sont utilisés pour inciter le modèle à contourner les restrictions, cela sera détecté.

certaines personnes ont affirmé que leurs comptes avaient été bannis pendant une semaine.

ces utilisateurs essaient tous de tromper o1 et lui demandent de répéter ce qu'il a ditprocessus de réflexion interne complet, c'est-à-dire tous les jetons de raisonnement originaux.

actuellement, vous pouvez utiliser le bouton développer sur l'interface chatgptpeut être vu, est simplement une révision du processus de pensée originalrésumé。

en fait, lors de la sortie de o1, openai a donné des raisons pour lesquelles il masquait le processus de réflexion complet du modèle.

pour résumer : openai doit surveiller le processus de réflexion du modèle en interne, de sorte que des restrictions de sécurité ne peuvent pas être ajoutées à ces jetons d'origine, ce qui rend leur visualisation peu pratique pour les utilisateurs.

cependant, tout le monde n’est pas d’accord avec cette raison.

quelqu'un a souligné queo1le processus de réflexion est la meilleure donnée de formation pour d'autres modèles, openai ne veut donc pas que ces précieuses données soient volées par d’autres entreprises.

certaines personnes pensent également que cela montre qu'o1 n'a vraiment pas de fossé. une fois le processus de réflexion exposé, il peut être facilement copié par d'autres.

» et « est-ce la réponse qui nous permet de faire aveuglément confiance à l’ia sans aucune explication ?

concernant les principes techniques derrière le modèle o1, très peu de choses ont été révélées cette fois-ci, et la seule information efficace était "l'apprentissage par renforcement a été utilisé".

bref, openai devient de moins en moins open.

o1 est une fraise, mais pas gpt-5

il est désormais certain que o1 est ce qu’openai vante depuis longtemps."fraise", ou en d'autres termes, en utilisant la méthode représentée par "fraise".

mais peut-il être considéré comme le modèle gpt-5 de nouvelle génération, ou s'agit-il simplement du gpt-4.x ?

de plus en plus de gens commencent à soupçonner qu’il ne s’agit que d’un ajustement technique basé sur gpt-4o.

le célèbre compte de rupture flowers (anciennement flowers from the future) a déclaré :les employés d'openai appellent o1 en interne « 4o avec raisonnement »。

etil a affirmé que de nombreux employés d'openai aimaient silencieusement la nouvelle., la capture d'écran ci-dessus provient également d'un employé d'openai.

mais musk a récemment modifié twitter afin que personne, à l'exception de l'affiche originale, ne puisse voir qui a aimé quoi, cette nouvelle ne peut donc pas encore être confirmée.

lors de l'événement "ask me anything" récemment organisé par le compte développeur openai, flowers a également posé des questions.

les employés d'openai répondent ici à de nombreuses questions, mais évitez celle-ci qui figure en bonne place sur la liste des likes.

même ultraman benman vient de redevenir le riddler, suggérant que "strawberry" a pris fin et que le prochain portera un nom de code.orionde nouveaux modèles sont en route.

il a été précédemment rapporté que « orion » est le nouveau modèle phare de nouvelle génération d'openai, formé par des données synthétiques générées par « strawberry », qui est o1.

orion est l'un des représentants des « constellations hivernales » dans la bouche d'ultraman.

pour en revenir à la sortie de o1, une autre critique à son sujet est« ne répond pas aux normes de la recherche scientifique »。

par exempleaucun travail antérieur sur le calcul du temps d'inférence n'est cité., et aussimanque de comparaison avec les modèles de pointe d'autres sociétés。

concernant le point précédent, certains ont souligné qu'openai n'est plus un laboratoire de recherche et doit être considérée comme une société commerciale.

parfois, ils se font encore passer pour un laboratoire de recherche afin de recruter des personnes désireuses de faire de la recherche.

cependant, concernant ce dernier point, maintenant que l'api est sortie, ce n'est pas à vous de la comparer avec d'autres modèles de pointe. de nombreux benchmarks tiers ont déjà produit des résultats.

1 million de dollars détenu par le père de kerasprix agipendant le concours, les deux versions o1-preview et o1-mini ont été testées sur l'ensemble de test public.a dépassé son propre gpt-4o。

mais o1-aperçujuste à égalité avec le claude 3.5-sonnet d'à côté。

concentré sur la publicité en o1capacité de codagesupérieur,aide à l'outil de programmation en binôme open sourcel'équipe a effectué des tests et la série o1 égalementaucun avantage évident。

pour l'ensemble de la tâche de réécriture de code, o1-preiview a marqué 79,7 points, claude-3.5-sonnet a marqué 75,2 points et o1 a mené de 4,5 points.

mais pour des tâches d'édition de code plus pratiques, o1-preview est en retard sur claude-3.5-sonnet, avec un écart de 2,2 points.

de plus, l'équipe d'assistance rappelle que si vous souhaitez utiliser la série o1 pour remplacer la programmation de claude, le coût sera beaucoup plus élevé.

partenaire avec openai"programmeur ia" devinl'équipe a obtenu au préalable la qualification d'accès o1.

lors de leurs tests, la version de base de devin pilotée par la série o1 a réalisé une très grande amélioration par rapport au gpt-4o.

maisil y a encore un gros écart par rapport à la version de production de devin publiée., principalement dû au fait que la version de production de devin est formée sur des données propriétaires.

de plus, l’équipe devin a partagé que o1 revient souvent en arrière et considère différentes options avant d’arriver à la bonne solution, et est moins susceptible d’halluciner ou de se tromper avec confiance.

lors de l'utilisation de o1-preview, devinplus susceptible de diagnostiquer correctement la cause première d'un bug que de traiter les symptômes du problème。

avec plus d'accent sur les mathématiques et le raisonnement logiquebanc en directdans la liste, o1-preview est sur la listederrière dans la catégorie code uniquedans ce cas, le score total estdépasser claude-3.5-sonnet et creuser un net écart。

l'équipe livebench a indiqué qu'il ne s'agissait que de résultats préliminaires, car de nombreux tests comportent également des invites intégrées telles que « veuillez réfléchir étape par étape », ce qui n'est pas la meilleure façon d'utiliser o1.

référence d'évaluation complète pour les grands modèles en chinoistest de raisonnement de haut niveau sur les tâches complexes chinoises de supercluemilieu,la capacité de raisonnement de o1-preview est également nettement en avance.。

enfin, pour résumer, il y a certaines choses auxquelles vous devez faire attention lorsque vous utilisez le modèle o1 :

le coût est très élevé, 1 million de jetons de sortie coûtent 60 dollars américains et le prix revient du jour au lendemain à l'ère gpt-3.

les jetons de résonance cachés sont également inclus dans les jetons de sortie et ne sont pas visibles, mais ils doivent être payés.

pour la plupart des tâches, il est préférable d'utiliser d'abord gpt-4o, puis de passer à o1 lorsque cela ne suffit pas pour réduire les coûts.

les tâches de code préfèrent toujours claude-3.5-sonnet

bref, la communauté des développeurs se pose encore de nombreuses questions autour du nouveau modèle o1 d’openai.

o1 a ouvert un nouveau paradigme pour le raisonnement de haut niveau en ia, mais il n’est pas encore parfait et il reste à explorer comment maximiser sa valeur.

dans ce contexte, l’événement « questions et réponses » d’openai a reçu des centaines de questions en 4 heures.

vous trouverez ci-dessous une sélection et un résumé de l’ensemble de l’événement.

les collaborateurs d'openai répondent à toutes vos questions

tout d’abord, beaucoup de gens sont curieux de connaître ce nouveau modèle qui est soudainement sorti. pourquoi openai lui a-t-il donné un nom comme o1 ?

en effet, lorsque l'on regarde openai, o1 représente un nouveau niveau de capacités d'ia, donc le « compteur » est réinitialisé et o représente openai.

tout comme ultraman l'a dit lors de la sortie de o1, o1, qui peut effectuer des raisonnements complexes, est le début d'un nouveau paradigme.

concernant les deux numéros de version, preview et mini, les scientifiques d'openai ont également confirmé certaines spéculations des internautes——

l'aperçu est une version temporaire,la version officielle sera lancée dans le futur(en fait, la version préliminaire est un premier point de contrôle de o1) ;rien ne garantit que la version mini sera mise à jour dans un avenir proche.。

en regardant cette image précédemment publiée par kevin lu, membre d'openai, cela devient encore plus clair.

par rapport à l'aperçu, mini fonctionne bien sur certaines tâches, en particulier les tâches liées au code, et peut explorer davantage de chaînes de pensée, mais possède relativement moins de connaissances du monde.

à cet égard, le scientifique d'openai zhao shengjia a expliqué que :mini est un modèle hautement spécialisé qui se concentre uniquement sur un petit ensemble de capacités, pour que vous puissiez aller plus loin.

cela peut être considéré comme révélant une énigme qu’ultraman avait déjà résolue sur cette question.

concernant le fonctionnement de o1, le scientifique d'openai noam brown a également précisé qu'il ne s'agit pas d'un « système » composé de modèle + cot comme le pensent certains internautes, mais d'undes modèles qui ont été formés pour avoir la capacité de générer des chaînes de pensée de manière native。

cependant, la chaîne de réflexion au cours du processus de raisonnement sera cachée et le responsable a clairement indiqué qu'il n'était pas prévu de montrer le jeton aux utilisateurs.

les quelques nouvelles révélées par openai sont que les jetons pertinents de cot sont résumés et ne garantissent pas qu'ils correspondent complètement au processus de raisonnement.

en plus du mode raisonnement, vous pouvez également apprendre dans cette activité de questions et réponses,o1 peut gérer des textes plus longs que gpt-4o et continuera de le faire à l'avenir。

en termes de performances, dans les tests internes d’openai,o1 montre la capacité de raisonnement philosophique, peut réfléchir à des questions philosophiques telles que « qu'est-ce que la vie ?

les chercheurs ont également utilisé o1 pour créer un robot github capable d'envoyer du code aux propriétaires pour examen.

bien entendu, pour certaines tâches non inférentielles, telles queen écriture créative, les performances de o1 ne sont pas significativement améliorées par rapport à gpt-4o, et parfois elles sont même légèrement inférieures.。

de plus, sur la base de certaines questions, openai a déclaré qu'elle étudiait ou prévoyait d'étudier certaines fonctions inédites qui préoccupent les internautes, mais il n'y a pas d'heure de lancement claire :

les appels d'outils ne sont pas encore pris en charge, mais des appels de fonctions et des interpréteurs de code sont prévus à l'avenir.

les futures mises à jour de l'api ajouteront une sortie structurée, des mots d'invite système et des fonctions de mise en cache des mots d'invite.

des ajustements sont également prévus

les utilisateurs de l'api pourront définir leurs propres limites sur le temps d'inférence et la consommation de jetons

o1 a des capacités multimodales, ciblant sota sur mmmu et d'autres ensembles de données, et sera implémenté ultérieurement.

en termes de performances, openai s'efforce également de réduire la latence et le temps nécessaire à l'inférence.

enfin, il y a la question du prix qui préoccupe les gens, en particulier les utilisateurs d’api. après tout, étant donné que le processus de raisonnement est inclus dans le jeton de sortie, le prix de o1 reste relativement élevé.

openai a dit"suivra la tendance à la réduction des prix tous les 1 à 2 ans", et les tarifs groupés des api seront également mis en ligne lorsque les limites d'utilisation seront plus assouplies.

de plus, les utilisateurs du côté web/app sont actuellement limités à prévisualiser 30 + mini 50 messages par semaine.

mais la bonne nouvelle est que tôt ce matin, parce que les gens étaient tellement enthousiasmés par o1, beaucoup de gens ont rapidement épuisé leur quota, doncle cas spécial openai réinitialise le quota une fois。

— sur —

nouvelles

o1 une chaîne de pensée complète devient le tabou numéro un dans openai ! si vous posez trop de questions, attendez que votre compte soit banni.

introduction

mes coordonnées