소식

Google AI가 IMO 은메달을 획득했습니다. 금메달보다 단 1점 뒤진 수치입니다!네 번째 질문에는 19초 밖에 걸리지 않았습니다.

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao West Wind는 Aofei Temple에서 시작됩니다.
Qubits 공개 계정 QbitAI

방금, 빅 모델이 다시 도시를 정복했습니다!

Google DeepMind는 자사의 수학적 AI가 IMO(국제 수학 올림피아드)에서 은메달을 '수상'했으며 금메달 획득까지 승점 1점밖에 남지 않았다고 발표했습니다.

네, 그 말 잘 들으셨죠! 대부분의 인간에게 어려운 수학 올림피아드 문제입니다. 올해 IMO 참가자 609명 중 금메달 수준에 도달한 사람은 58명뿐이라는 사실을 아셔야 합니다.



이번에 구글 AI는 2024년 IMO 대회에서 6개 문제 중 4개 문제를 풀었고,만점을 받으면 총 28점을 받게 됩니다. . (만점은 42점, 금메달점은 29점)



그 중 네 번째 기하학 문제에서는 AI가 19초밖에 안 걸렸다고요? !

올해 가장 어려웠다는 여섯 번째 문제는 올해 5명만이 우승했는데, 정답이었다.



이번 결과는 IMO 금메달리스트이자 필즈상 수상자인 Timothy Gowers 교수와 2회 IMO 금메달리스트이자 2024 IMO 이슈 선정 위원회 의장인 Joseph Myers 박사가 평가한 IMO 조직위원회의 전문적인 인증을 받았습니다.

Timothy Gowers 교수는 다음과 같이 직접적으로 외쳤습니다.내가 아는 최첨단 수준을 훨씬 넘어선

라이캉캉은 어떻게 하는가?

Google, IMO 은메달 획득, Alpha 제품군의 새 멤버 등장

이번에 IMO 은메달을 획득한 구글 알파 패밀리 두 명은 각각 디지털 산업 분야 전문가다.

  • 알파프루프는 강화 학습을 기반으로 한 공식적인 수학적 추론 시스템인 Alpha 제품군의 새로운 구성원입니다.
  • 알파지오메트리 2는 기하학적 문제를 해결하는 데 특별히 사용된 AlphaGeometry의 이전 개선 버전입니다.

먼저 새로운 멤버인 AlphaProof에 대해 알아볼까요?

공식언어인 Lean을 이용하여 수학적 명제를 증명할 수 있는 셀프 트레이닝 시스템입니다. 사전 훈련된 언어 모델과 AlphaZero 강화 학습 알고리즘을 결합합니다.

Gemini를 미세 조정함으로써 팀은 자동으로 자연어 문장을 공식 언어 Lean 문장으로 변환하여 대규모 수학적 문제 은행을 만들 수 있습니다.

문제에 직면하면 AlphaProof는 솔루션 후보를 생성한 다음 Lean에서 가능한 증명 단계를 검색하여 이러한 후보를 증명하거나 반증합니다.

발견되고 검증된 각 증명은 AlphaProof의 언어 모델을 강화하는 데 사용되어 이후의 더 어려운 문제를 해결하는 능력을 향상시킵니다.

대회의 처음 몇 주 동안 반복적인 주기로 수백만 개의 IMO 수준 질문에 대한 교육을 받았습니다.

훈련 루프는 대회 중에도 적용되며, 완전한 솔루션을 찾을 때까지 자체 증명이 지속적으로 강화됩니다.



진화 후에 무슨 일이 일어났는지 살펴보자알파지오메트리 2 . 언어 모델이 Gemini를 기반으로 하는 신경 기호 하이브리드 시스템입니다.

이전 버전 1.0도 올해 Nature에 소개되었습니다.사람의 시연 없이 IMO 금메달리스트의 기하학 수준에 도달



이전 버전에 비해 처음부터 훈련하기 위해 훨씬 더 큰 합성 데이터를 사용합니다. 그리고 그것이 사용하는 기호 엔진은 이전 버전보다 두 배 더 빠릅니다. 새로운 문제가 발생하면 새로운 지식 공유 메커니즘을 사용하여 다양한 검색 트리의 고급 조합을 통해 더 복잡한 문제를 해결할 수 있습니다.

공식 대회 이전에는 이미 지난 25년 동안 모든 IMO 기하학 문제의 83%를 해결할 수 있었던 반면, 이전 버전의 해결률은 53%에 불과했습니다.

올해 IMO 대회에서는 네 번째 문제를 푸는 데 19초밖에 걸리지 않았다.



그렇다면 이번에는 IMO에서 이 두 사람이 어떻게 협력하는지 살펴보겠습니다.

첫째, 문제는 시스템에서 이해할 수 있도록 공식적인 수학 언어로 수동으로 번역됩니다.

우리는 인간 경쟁 중에 답변이 두 번에 걸쳐 제출되고, 각 답변은 4시간 30분 동안 지속된다는 것을 알고 있습니다.

두 Google 시스템은 처음에는 몇 분 만에 하나의 문제를 해결했고, 다른 문제는 3일이 걸렸습니다.

궁극적으로 AlphaProof는 답을 결정하고 정확성을 입증함으로써 두 가지 대수 문제와 하나의 정수론 문제를 해결했습니다.

여기에는 이번 대회에서 가장 어려운 문제가 포함되는데, 이는 올해 IMO 대회에서 5명의 선수만이 풀었던 여섯 번째 문제이다.



AlphaGeometry 2는 기하학 문제를 해결하지만 두 가지 조합 문제는 해결되지 않은 상태로 남아 있습니다.

또한 Google 팀은 Gemini를 기반으로 한 자연어 추론 시스템도 실험했습니다. 즉, 문제를 정식 언어로 번역할 필요가 없고, 다른 AI 시스템과 연계해 사용할 수 있다는 것이다.

팀은 또한 수학적 추론을 발전시키기 위해 더 많은 AI 방법을 탐색할 것이라고 말했습니다.

AlphaProof에 대한 더 자세한 기술 정보도 곧 공개될 예정입니다.

네티즌: 수학을 모르는데 충격을 받았어요

이 두 시스템의 성능을 본 네티즌들은 "수학을 이해하지 못하지만 충격을 받았다"고 표현했습니다.

AI 프로그래머 Devin 팀인 Cognition AI의 공동 창립자인 Scott Wu는 다음과 같이 말했습니다.

결과는 정말 놀랍습니다. 어렸을 때 올림피아드는 나에게 전부였습니다. 10년 안에 인공지능이 해결해 줄 거라고는 상상도 못했어요.



OpenAI 과학자 Noam Brown도 축하하기 위해 마이크를 열었습니다.



그러나 일부 네티즌들은 표준 대회 시간(대회를 이틀, 하루 4시간 30분으로 나누어 매일 3개의 문제를 풀어야 함)을 따르면 두 AI 시스템이 실제로는 둘 중 하나만 해결할 수 있다고 말했다. 여섯 가지 문제.



이 발언은 일부 네티즌들에 의해 즉각 반박됐다.

이 시나리오에서는 속도가 주요 관심사가 아닙니다. 부동 소수점 연산(플롭) 수가 일정하게 유지되면 컴퓨팅 리소스를 늘리면 문제를 해결하는 데 필요한 시간이 단축됩니다.



이에 대해 일부 네티즌들은 이렇게 질문하기도 했다.

두 AI 시스템이 조합 질문에 대답하지 못했습니다. 훈련 문제인가요, 아니면 컴퓨팅 리소스나 시간이 부족합니까? 아니면 다른 제한사항이 있나요?



Timothy Gowers 교수는 자신의 생각을 다음과 같이 트윗했습니다.

인간 참가자가 각 질문에 더 많은 시간을 할애할 수 있다면 의심할 여지 없이 점수가 더 높아질 것입니다. 그러나 AI 시스템의 경우 이는 기존의 자동 정리 증명 능력을 훨씬 뛰어넘는 수준이며, 둘째, 효율성이 향상됨에 따라 소요 시간이 더욱 단축될 것으로 예상됩니다.



그러나 지난 이틀 동안 대형 모델은 여전히 ​​"9.11과 9.9 중 어느 숫자가 더 큽니까?"라는 초등학교 질문에 갇혔는데, 이쪽의 대형 모델이 어떻게 수학 올림피아드 수준의 문제를 해결할 수 있습니까? !

정신을 잃었는데, 이제 갑자기 생각이 나서 정신을 되찾았다고요?



Nvidia 과학자 Jim Fan은 다음과 같이 설명합니다.훈련 데이터 분포문제.

Google 시스템은 형식 증명 및 도메인별 기호 엔진에 대해 교육을 받았습니다. 일반적인 대형 모델을 기반으로 함에도 불구하고 어느 정도 올림피아드 해결에 고도로 전문화되어 있습니다.



GPT-4o와 같은 훈련 세트에는 수학 데이터를 훨씬 초과할 수 있는 대량의 GitHub 코드 데이터가 포함되어 있습니다. 소프트웨어 버전 "v9.11>v9.9"에서는 배포가 심각하게 왜곡될 수 있습니다. 따라서 이 실수는 상당히 정당합니다.

이 이상한 현상에 대해 그는 다음과 같이 설명했습니다.

우리는 지구처럼 보이지만 이상한 계곡으로 가득 찬 외계 행성과 같은 매우 이상한 지역을 발견했습니다.

OpenAI를 본뜬 열성 네티즌도 계시고, 여러분도 시도해 볼 수도 있겠네요...

이에 울트라맨의 대답은 이랬다.



참조 링크:
[1]https://x.com/googledeepmind/status/1816498082860667086?s=46
[2]https://x.com/제프딘/상태/1816498336171753948?s=46
[3]https://x.com/quocleix/상태/1816501362328494500?s=46
[4]https://x.com/drjimfan/상태/1816521330298356181?s=46
[5]https://deepmind.google/discover/blog/ai는 실버메달 수준에서 문제를 해결합니다/