noticias

Google AI gana la medalla de plata de la OMI, ¡a solo un punto del oro!La cuarta pregunta sólo tomó 19 segundos.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao West Wind se origina en el templo de Aofei
Qubits | Cuenta pública QbitAI

¡Justo ahora, la gran modelo volvió a conquistar una ciudad!

Google DeepMind anunció que su IA matemática "ganó" la medalla de plata en la OMI (Olimpiada Internacional de Matemáticas) y ¡estaba a sólo un punto de la medalla de oro!

¡Sí, oíste bien! Es una pregunta de la Olimpiada de Matemáticas que resulta difícil para la mayoría de los humanos. Debes saber que de los 609 participantes de la OMI este año, sólo 58 han alcanzado el nivel de medalla de oro.



Esta vez, Google AI resolvió 4 de las 6 preguntas del concurso IMO 2024, yUna vez que obtengas una puntuación perfecta, obtendrás un total de 28 puntos. . (La puntuación total es 42 puntos, la puntuación de la medalla de oro es 29 puntos)



Entre ellos, para la cuarta pregunta de geometría, ¿la IA solo tardó 19 segundos? !

En cuanto a la sexta pregunta, que se dice que es la más difícil de este año, solo cinco concursantes la ganaron este año y fue completamente correcta.



Esta vez, los resultados también fueron certificados profesionalmente por el Comité Organizador de la OMI, calificados por el Profesor Timothy Gowers, medallista de oro de la OMI y ganador de la Medalla Fields, y el Dr. Joseph Myers, dos veces medallista de oro de la OMI y presidente del Comité de Selección de Cuestiones de la OMI de 2024.

El profesor Timothy Gowers exclamó directamente:Mucho más allá del nivel más moderno que conozco

¿Cómo lo hace Laikangkang?

Google gana la medalla de plata de la OMI, aparece un nuevo miembro de la familia Alpha

Los dos miembros de la familia Alpha de Google que ganaron esta vez la medalla de plata de la OMI se especializan en la industria digital.

  • Prueba alfa, un nuevo miembro de la familia Alpha, un sistema de razonamiento matemático formal basado en el aprendizaje por refuerzo.
  • Geometría alfa 2, la versión anterior mejorada de AlphaGeometry, utilizada específicamente para resolver problemas geométricos.

Primero, conozcamos al nuevo miembro: AlphaProof.

Es un sistema de autoformación que puede probar enunciados matemáticos utilizando el lenguaje formal Lean. Combina modelos de lenguaje previamente entrenados con el algoritmo de aprendizaje por refuerzo AlphaZero.

Al ajustar Gemini, el equipo puede convertir automáticamente declaraciones en lenguaje natural en declaraciones Lean en lenguaje formal, creando así un gran banco de preguntas matemáticas.

Cuando se enfrenta a un problema, AlphaProof genera soluciones candidatas y luego prueba o refuta estas candidatas buscando posibles pasos de prueba en Lean.

Cada prueba encontrada y verificada se utiliza para fortalecer el modelo de lenguaje de AlphaProof, mejorando así su capacidad para resolver problemas posteriores más desafiantes.

En las primeras semanas de la competencia, se capacitó en millones de preguntas a nivel de la OMI en un ciclo repetitivo.

Los circuitos de entrenamiento también se aplican durante las competiciones, donde las autopruebas se refuerzan continuamente hasta encontrar una solución completa.



Echemos un vistazo a la evolución.Geometría alfa 2 . Se trata de un sistema híbrido neurosimbólico en el que el modelo del lenguaje se basa en Géminis.

Su predecesor 1.0 también apareció en Nature este año:Alcanzar el nivel de geometría de los medallistas de oro de la OMI sin demostración humana



En comparación con la versión anterior, utiliza un orden de magnitud de datos sintéticos más grandes para el entrenamiento desde cero. Y el motor simbólico que utiliza es dos órdenes de magnitud más rápido que su predecesor. Cuando se encuentran nuevos problemas, se utiliza un nuevo mecanismo de intercambio de conocimientos para permitir combinaciones avanzadas de diferentes árboles de búsqueda para resolver problemas más complejos.

Antes de la competición oficial, ya podía resolver el 83% de todos los problemas de geometría de la OMI en los últimos 25 años, mientras que la tasa de solución de su predecesor era sólo del 53%.

En la competencia de la OMI de este año, solo tomó 19 segundos completar la cuarta pregunta.



Entonces, echemos un vistazo a cómo estas dos personas trabajan juntas esta vez, en mi opinión.

Primero, el problema se traduce manualmente al lenguaje matemático formal para que el sistema pueda entenderlo.

Sabemos que durante la competencia humana, las respuestas se envían dos veces, cada vez con una duración de 4,5 horas.

Los dos sistemas de Google primero resolvieron un problema en unos minutos y los otros problemas tardaron tres días.

Al final, AlphaProof resolvió dos problemas de álgebra y un problema de teoría de números determinando las respuestas y demostrando su exactitud.

Esto incluye la pregunta más difícil de la competencia, que es la sexta pregunta que solo cinco jugadores resolvieron en la competencia IMO de este año.



AlphaGeometry 2 resuelve el problema de geometría, mientras que los dos problemas de combinación siguen sin resolverse.

Además, el equipo de Google también experimentó con un sistema de razonamiento en lenguaje natural basado en Gemini. En otras palabras, no es necesario traducir el problema a un lenguaje formal y puede utilizarse junto con otros sistemas de IA.

El equipo dijo que también explorarán más métodos de inteligencia artificial para avanzar en el razonamiento matemático.

También está previsto que pronto se publiquen más detalles técnicos sobre AlphaProof.

Internauta: No entiendo matemáticas pero me sorprendió

Al ver el desempeño de estos dos sistemas, los internautas expresaron que "no entienden matemáticas pero se sorprendieron".

Scott Wu, cofundador de Cognition AI, un equipo de programadores de IA de Devin, dijo:

Los resultados son realmente impresionantes. Cuando era niño, la Olimpiada lo era todo para mí. Nunca pensé que la inteligencia artificial los resolvería en 10 años.



El científico de OpenAI, Noam Brown, también abrió el micrófono para felicitar:



Sin embargo, algunos internautas dijeron que si se sigue el tiempo estándar de la competencia (la competencia se divide en dos días, cuatro horas y media por día y se resuelven tres problemas cada día), los dos sistemas de IA en realidad solo pueden resolver uno de los seis problemas.



Esta afirmación fue inmediatamente refutada por algunos internautas:

En este escenario, la velocidad no es la principal preocupación. Si el número de operaciones de punto flotante (flops) permanece constante, el aumento de los recursos informáticos acortará el tiempo necesario para resolver el problema.



Respecto a este punto, algunos internautas también preguntaron:

Los dos sistemas de IA no lograron responder las preguntas sobre combinación. ¿Se trata de un problema de entrenamiento o de recursos o tiempo informáticos insuficientes? ¿O hay otras restricciones?



El profesor Timothy Gowers tuiteó sus pensamientos:

Si a los concursantes humanos se les permitiera dedicar más tiempo a cada pregunta, sus puntuaciones sin duda serían más altas. Sin embargo, en el caso de los sistemas de IA, esto ha superado con creces las capacidades de los demostradores automáticos de teoremas anteriores; en segundo lugar, a medida que mejora la eficiencia, se espera que el tiempo necesario se reduzca aún más.



Sin embargo, en los últimos dos días, el modelo grande todavía estaba atascado en "¿Qué número es mayor, 9.11 o 9.9?". Una pregunta de la escuela primaria, ¿cómo es que el modelo grande de este lado puede resolver el problema del nivel de la Olimpiada de Matemáticas? !

¿Perdí la cabeza y ahora de repente tuve una idea y recuperé la cabeza?



El científico de Nvidia Jim Fan explica: Sídistribución de datos de entrenamientoEl problema.

El sistema de Google fue entrenado en pruebas formales y motores simbólicos de dominios específicos. Hasta cierto punto, están muy especializados en la resolución de Olimpíadas, aunque se basan en modelos generales de gran tamaño.



El conjunto de entrenamiento como GPT-4o contiene una gran cantidad de datos de código GitHub, que pueden exceder con creces los datos matemáticos. En las versiones de software "v9.11>v9.9", esto puede distorsionar gravemente la distribución. Por tanto, este error está bastante justificado.

Respecto a este extraño fenómeno, lo calificó como

Descubrimos una región muy extraña, como un exoplaneta que se parece a la Tierra pero está lleno de valles extraños.

También hay internautas entusiastas que siguieron el ejemplo de OpenAI. Quizás tú también puedas probarlo...

A esto, la respuesta de Ultraman fue:



Enlaces de referencia:
[1]https://x.com/googledeepmind/status/1816498082860667086?s=46
[2]https://x.com/jeffdean/status/1816498336171753948?s=46
[3]https://x.com/quocleix/status/1816501362328494500?s=46
[4]https://x.com/drjimfan/status/1816521330298356181?s=46
[5]https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/