L'IA de Google remporte la médaille d'argent de l'OMI, à seulement un point de l'or ! La quatrième question n'a pris que 19 secondes

L'IA de Google remporte la médaille d'argent de l'OMI, à seulement un point de l'or !La quatrième question n'a pris que 19 secondes

2024-07-26

Baijiao West Wind provient du temple Aofei
Qubits | Compte public QbitAI

Tout à l'heure, le grand modèle a de nouveau conquis une ville !

Google DeepMind a annoncé que son IA mathématique « avait remporté » la médaille d'argent à l'OMI (International Mathematical Olympiad), et n'était qu'à un point de la médaille d'or !

Oui, vous avez bien entendu! C’est une question des Olympiades mathématiques qui est difficile pour la plupart des humains. Il faut savoir que sur les 609 participants de l'OMI cette année, seuls 58 ont atteint le niveau médaille d'or.

Cette fois, Google AI a résolu 4 des 6 questions du concours IMO 2024, etUne fois que vous aurez fait un score parfait, vous obtiendrez un total de 28 points . (Le score complet est de 42 points, le score de la médaille d'or est de 29 points)

Parmi eux, pour la quatrième question de géométrie, l'IA n'a mis que 19 secondes ? !

Quant à la sixième question, qui est considérée comme la plus difficile cette année, seuls cinq candidats l'ont remportée cette année, et elle était tout à fait correcte.

Cette fois, les résultats ont également été certifiés professionnellement par le comité d'organisation de l'OMI - évalué par le professeur Timothy Gowers, médaillé d'or de l'OMI et lauréat de la médaille Fields, et le Dr Joseph Myers, double médaillé d'or de l'OMI et président du comité de sélection des questions de l'OMI 2024.

Le professeur Timothy Gowers s'est directement exclamé :Bien au-delà du niveau de pointe que je connais。

Comment Laikangkang fait-il ?

Google remporte la médaille d'argent de l'OMI et un nouveau membre de la famille Alpha fait son apparition

Les deux membres de la famille Alpha de Google qui ont remporté cette fois la médaille d’argent de l’OMI sont chacun spécialisés dans l’industrie numérique.

AlphaProof, un nouveau membre de la famille Alpha, un système de raisonnement mathématique formel basé sur l'apprentissage par renforcement.
AlphaGéométrie 2, la précédente version améliorée d'AlphaGeometry, spécifiquement utilisée pour résoudre des problèmes géométriques.

Tout d’abord, faisons connaissance avec le nouveau membre AlphaProof.

Il s'agit d'un système d'auto-formation capable de prouver des énoncés mathématiques en utilisant le langage formel Lean. Il combine des modèles de langage pré-entraînés avec l'algorithme d'apprentissage par renforcement AlphaZero.

En affinant Gemini, l’équipe peut automatiquement convertir les déclarations en langage naturel en déclarations Lean en langage formel, créant ainsi une vaste banque de questions mathématiques.

Lorsqu'il est confronté à un problème, AlphaProof génère des solutions proposées, puis prouve ou infirme ces candidats en recherchant les étapes de preuve possibles dans le Lean.

Chaque preuve trouvée et vérifiée est utilisée pour renforcer le modèle de langage d’AlphaProof, améliorant ainsi sa capacité à résoudre des problèmes ultérieurs plus difficiles.

Au cours des premières semaines du concours, il a été formé sur des millions de questions de niveau OMI dans un cycle répétitif.

Des boucles d'entraînement sont également appliquées lors des compétitions, où les auto-preuves sont continuellement renforcées jusqu'à ce qu'une solution complète soit trouvée.

Jetons un coup d'œil à ce qui s'est passé après l'évolutionAlphaGéométrie 2 . Il s'agit d'un système hybride neuro-symbolique dans lequel le modèle de langage est basé sur les Gémeaux.

Son prédécesseur 1.0 a également été présenté dans Nature cette année :Atteindre le niveau de géométrie des médaillés d'or de l'OMI sans démonstration humaine。

Par rapport à la version précédente, il utilise des données synthétiques d'un ordre de grandeur plus grandes pour une formation à partir de zéro. Et le moteur symbolique qu’il utilise est deux fois plus rapide que son prédécesseur. Lorsque de nouveaux problèmes sont rencontrés, un nouveau mécanisme de partage des connaissances est utilisé pour permettre des combinaisons avancées de différents arbres de recherche afin de résoudre des problèmes plus complexes.

Avant la compétition officielle, il pouvait déjà résoudre 83 % de tous les problèmes de géométrie de l'OMI au cours des 25 dernières années, alors que le taux de résolution de son prédécesseur n'était que de 53 %.

Lors du concours de l'OMI de cette année, il n'a fallu que 19 secondes pour répondre à la quatrième question.

Voyons ensuite comment ces deux personnes travaillent ensemble cette fois-ci, OMI.

Tout d’abord, le problème est traduit manuellement en langage mathématique formel afin qu’il puisse être compris par le système.

On sait que lors du concours humain, les réponses sont soumises en deux fois, d'une durée de 4,5 heures à chaque fois.

Les deux systèmes Google ont d’abord résolu un problème en quelques minutes, et les autres problèmes en trois jours.

En fin de compte, AlphaProof a résolu deux problèmes d’algèbre et un problème de théorie des nombres en déterminant les réponses et en prouvant leur exactitude.

Cela inclut la question la plus difficile de la compétition, qui est la sixième question résolue par seulement cinq joueurs lors de la compétition de l'OMI de cette année.

AlphaGeometry 2 résout le problème de géométrie, tandis que les deux problèmes de combinaison restent non résolus.

De plus, l’équipe de Google a également expérimenté un système de raisonnement en langage naturel basé sur Gemini. En d’autres termes, il n’est pas nécessaire de traduire le problème dans un langage formel et il peut être utilisé conjointement avec d’autres systèmes d’IA.

L’équipe a déclaré qu’elle explorerait également davantage de méthodes d’IA pour faire progresser le raisonnement mathématique.

Plus de détails techniques sur AlphaProof devraient également être publiés prochainement.

Internaute : je ne comprends pas les mathématiques mais j'ai été choqué

En voyant les performances de ces deux systèmes, les internautes ont déclaré qu'ils « ne comprennent pas les mathématiques mais qu'ils ont été choqués ».

Scott Wu, co-fondateur de Cognition AI, une équipe de programmeurs IA Devin, a déclaré :

Les résultats sont vraiment époustouflants. Quand j'étais enfant, l'Olympiade était tout pour moi. Je n’aurais jamais pensé que ces problèmes seraient résolus par l’intelligence artificielle en 10 ans.

Noam Brown, scientifique d'OpenAI, a également ouvert le micro pour féliciter :

Cependant, certains internautes ont déclaré que si le temps de compétition standard est respecté (la compétition est divisée en deux jours, quatre heures et demie par jour et trois problèmes sont résolus chaque jour), les deux systèmes d'IA ne peuvent en réalité résoudre qu'un seul des problèmes. six problèmes.

Cette affirmation a été immédiatement réfutée par certains internautes :

Dans ce scénario, la vitesse n’est pas la principale préoccupation. Si le nombre d'opérations en virgule flottante (flops) reste constant, l'augmentation des ressources informatiques réduira le temps nécessaire pour résoudre le problème.

Sur ce point, certains internautes ont également demandé :

Les deux systèmes d'IA n'ont pas réussi à répondre aux questions combinées. S'agit-il d'un problème de formation ou de ressources ou de temps informatiques insuffisants ? Ou y a-t-il d'autres restrictions ?

Le professeur Timothy Gowers a tweeté ses réflexions :

Si les participants humains étaient autorisés à consacrer plus de temps à chaque question, leurs scores seraient sans aucun doute plus élevés. Cependant, pour les systèmes d’IA, cela a largement dépassé les capacités des précédents prouveurs automatiques de théorèmes. Deuxièmement, à mesure que l’efficacité s’améliore, le temps requis devrait encore être réduit ;

Cependant, au cours des deux derniers jours, le grand modèle était toujours bloqué sur « Quel nombre est le plus grand, 9,11 ou 9,9 ? » Une telle question d'école primaire, comment se fait-il que le grand modèle de ce côté puisse résoudre le problème du niveau de l'Olympiade mathématique ? !

J'ai perdu la tête, et maintenant j'ai soudainement eu une idée et j'ai repris la tête ?

Le scientifique de Nvidia, Jim Fan, explique : Ouidistribution des données de formationLe problème.

Le système de Google a été formé sur des preuves formelles et des moteurs symboliques spécifiques à un domaine. Dans une certaine mesure, ils sont hautement spécialisés dans la résolution d’Olympiades, même s’ils sont basés sur de grands modèles généraux.

L'ensemble de formation comme GPT-4o contient une grande quantité de données de code GitHub, qui peuvent dépasser de loin les données mathématiques. Dans les versions logicielles "v9.11>v9.9", cela peut sérieusement fausser la distribution. Cette erreur est donc tout à fait justifiée.

Concernant cet étrange phénomène, il le décrit comme

Nous avons découvert une région très étrange, comme une exoplanète qui ressemble à la Terre mais regorge d’étranges vallées.

Il y a aussi des internautes enthousiastes qui se sont inspirés d'OpenAI. Peut-être que vous pouvez l'essayer aussi...

À cela, la réponse d'Ultraman fut :

Liens de référence :
[1]https://x.com/googledeepmind/status/1816498082860667086?s=46
[2]https://x.com/jeffdean/status/1816498336171753948?s=46
[3]https://x.com/quocleix/status/1816501362328494500?s=46
[4]https://x.com/drjimfan/status/1816521330298356181?s=46
[5]https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

nouvelles