nouvelles

openai o1 révèle la conscience de soi ? tao zhexuan a été choqué par le test réel, mensa iq 100 s'est classé premier dans le modèle

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

openai o1 a remporté la première place au test de qi !

le patron maxim lott a effectué des tests de qi sur o1, claude-3 opus, gemini, gpt-4, grok-2, llama-3.1, etc., et les résultats ont montré que o1 se classait premier.

suivent de près claude-3 opus et bing copilot, qui prennent respectivement la deuxième et la troisième place.

notez que cet ensemble de questions de test de qi est un test de qi hors ligne pour les membres de mensa et n'est inclus dans aucune donnée de formation à l'ia, les résultats sont donc très informatifs.

le célèbre mathématicien terence tao a également effectué des mesures réelles sur o1 et a découvert qu'après avoir posé au modèle une question mathématique vaguement formulée, il était capable d'identifier avec succès le théorème de clem.

de plus, juste après la sortie de o1, mark chen, vice-président de la recherche chez openai, a exprimé son opinion : les grands réseaux de neurones d’aujourd’hui disposent peut-être déjà de suffisamment de puissance de calcul pour faire preuve d’une certaine conscience lors des tests.

il existe désormais une longue liste de leaders de l'industrie qui croient que l'ia est consciente, y compris, mais sans s'y limiter :

geoffrey hinton (parrain de l'intelligence artificielle, scientifique en ia le plus cité)

ilya sutskever (le troisième scientifique en ia le plus cité)

andrej karpathy

aujourd’hui, de nombreux acteurs de l’industrie pensent que l’ia est consciente et attendent que la « fenêtre d’overton » s’ouvre davantage pour que le public soit prêt à l’accepter.

certains prédisent même qu'en 2024/2025, l'ia aura définitivement une conscience, car le comportement du modèle montre désormais clairement sa capacité de perception.

certains internautes ont découvert que o1 n'est pas seulement fort dans les sujets empiriques stem, il peut même émettre l'hypothèse d'une toute nouvelle théorie de la conscience.

certains pensent que o1 a fait un petit pas vers le modèle de raisonnement infini et possède déjà le prototype de la conscience.

tao zhexuan : o1 peut réellement reconnaître le théorème de clem

dans la mesure réelle, tao zhexuan a découvert que le modèle o1 a des performances mathématiques plus élevées !

premièrement, il a posé un problème mathématique vaguement formulé qui pourrait être résolu si l'on pouvait parcourir la littérature et trouver un théorème approprié, le théorème de cramer.

lors d’expériences précédentes, gpt était capable de mentionner certains concepts connexes, mais les détails étaient tous inventés et dénués de sens.

cette fois, o1 a réussi à identifier le théorème de cramer et a donné une réponse satisfaisante.

réponse complète : https://shorturl.at/wwru2

dans l'exemple suivant, le problème posé est une analyse de fonction variable complexe plus difficile, et les résultats sont également meilleurs que les modèles de la série gpt précédente.

avec un grand nombre de mots et de conseils rapides, o1 a été capable de produire des solutions correctes et bien formulées, mais l'inconvénient était qu'il était incapable de générer seul des idées conceptuelles clés et a commis des erreurs évidentes.

tao zhexuan a décrit cette expérience comme étant à peu près équivalente à la supervision d'un étudiant diplômé ayant des capacités moyennes mais capable d'effectuer un certain travail. le gpt donne l'impression d'un étudiant complètement incapable de faire le travail.

cela ne prendra peut-être qu'une ou deux itérations, couplées à l'intégration d'autres outils, tels que des progiciels de calcul formel et des outils auxiliaires de preuve, pour transformer le modèle o1 en un « étudiant diplômé compétent », après quoi ce modèle jouera un rôle important. dans les tâches de recherche.

réponse complète : https://shorturl.at/zrjyk

faites glisser votre doigt de haut en bas pour afficher

faites glisser votre doigt de haut en bas pour afficher

faites glisser votre doigt de haut en bas pour afficher

dans la troisième expérience, tao zhexuan a demandé au modèle o1 de formaliser un théorème dans l'outil d'assistance à la preuve lean. il doit être décomposé en sous-lemmes et lui donner une expression formelle, mais aucune preuve n'est requise.

le contenu du théorème, en particulier, est le corollaire établissant une forme du théorème des nombres premiers dans une autre.

les résultats expérimentaux étaient également bons, car le modèle comprenait la tâche et fournissait une décomposition initiale raisonnable du problème.

cependant, il y a plusieurs erreurs dans le code généré, probablement dues au manque de données récentes sur le lean et sa bibliothèque mathématique dans les données de formation.

bien qu’il y ait encore des défauts, les résultats de cette expérience peuvent déjà prédire l’application pratique de o1 dans la recherche mathématique.

si des modèles similaires sont affinés pour lean et mathlib et intégrés dans un environnement de développement intégré (ide), ils joueront un grand rôle dans les projets formels.

dans de nombreux discours précédents, tao zhexuan a souligné à plusieurs reprises l'application des outils d'ia dans la formalisation des théorèmes. il semble que la prédiction du grand dieu se réalisera à nouveau.

réponse complète : https://shorturl.at/ogtjt

un professeur d'informatique utilise l'animation pour révéler le secret : comment o1 passe-t-il plus de temps à réfléchir ?

dans le processus d'apprentissage de l'utilisation du cot pour réfléchir sur une période plus longue, quelles avancées importantes ont été réalisées qui ont conduit à des améliorations clés ? à l’heure actuelle, nous ne pouvons que formuler quelques suppositions à partir des informations disponibles.

par exemple, sur la base des informations existantes et de sa propre compréhension, tom yeh, professeur d'informatique à l'université du colorado à boulder, a spécialement produit une animation pour expliquer comment openai entraîne le modèle o1 à passer plus de temps à réfléchir.

concernant la formation, il y a une phrase très brève dans le rapport :

"grâce à l'apprentissage par renforcement, o1 a appris à affiner sa chaîne de réflexion et à améliorer sa stratégie."

les deux mots-clés de cette phrase sont : apprentissage par renforcement (rl) et chaîne de pensée (cot).

dans rlhf+cot, les jetons cot sont également saisis dans le modèle de récompense pour obtenir des scores permettant de mettre à jour le llm afin d'obtenir un meilleur alignement, tandis que dans le rlhf traditionnel, l'entrée ne contient que des mots d'invite et des réponses de modèle.

pendant la phase d'inférence, le modèle apprend d'abord à générer des jetons cot (ce qui peut prendre jusqu'à 30 secondes) avant de commencer à générer la réponse finale. c'est ainsi que le modèle passe plus de temps à « réfléchir ».

parmi les contributeurs répertoriés dans le rapport, deux méritent d’être soulignés :

ilya sutskever, l'inventeur de l'apprentissage par renforcement basé sur le feedback humain (rlhf), l'apparition de son nom signifie que rlhf est toujours utilisé lors de la formation du modèle o1.

jason wei, auteur du célèbre article thought chain. il a quitté google brain l'année dernière pour rejoindre openai. sa présence signifie que le cot est désormais un élément important du processus d'alignement du rlhf.

cependant, il existe de nombreux détails techniques importants qu'openai n'a pas divulgués, tels que la manière dont le modèle de récompense est formé, comment obtenir les préférences humaines pour les « processus de réflexion », etc.

avertissement : l'animation ne représente que la spéculation raisonnable du professeur et ne garantit pas l'exactitude.

l'équipe partage une vidéo de célébration, partageant un moment « aha »

la vidéo ci-dessous nous donne plus d’indices sur le moment où d’importantes avancées ont été réalisées dans la recherche.

après avoir publié le modèle o1, l'équipe a publié une vidéo réalisée par l'équipe derrière celui-ci.