소식

openai o1 모델 출시, 5단계 agi 다시 돌파! 이성학의 초박사학위를 지닌 남자, 북청나라 복단대학 출신의 중국인으로 공덕이 있는 사람

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

방금 openai의 가장 강력한 o1 시리즈 모델이 갑자기 온라인에 등장했습니다. 예고도 없이 openai는 이런 천둥을 던졌습니다.

2주 안에 온라인에 올라온다던 딸기 모델이 실제로 이틀 만에 도착했어요!

오늘부터 o1-preview가 chatgpt의 모든 plus 및 team 사용자와 api의 계층 5 개발자에게 출시됩니다.

동시에 openai는 stem, 특히 수학과 코딩에 매우 능숙한 비용 효율적인 추론 모델인 o1-mini도 출시했습니다.

o1 모델에는 여전히 결함과 한계가 있으며 장기적으로 볼 때보다 처음 사용할 때 더 인상적입니다.

새로운 o1 시리즈의 복합 추론 성능은 완전히 새로운 수준으로 향상되었습니다. 진정한 보편적 추론 능력을 갖추었다고 할 수 있습니다.

일련의 벤치마크 테스트에서 o1은 수학 올림피아드에서 금메달을 획득하는 능력을 다시 한번 gpt-4o에 비해 크게 향상시켰습니다. 인간 박사 수준!

openai 연구원인 jason wei는 o1-mini가 지난 1년 동안 본 연구 결과 중 가장 놀라운 연구 결과라고 말했습니다. 실제로 작은 모델이 aime 수학 대회에서 60% 이상의 점수를 받았습니다.

하지만 openai 기사의 부록을 보면, 이번에 공개된 프리뷰와 미니는 그냥 o1의 '거세 버전'인 것으로 보입니다.

추론 스케일링이 새로운 패러다임을 열다

nvidia 수석 과학자 jim fan은 o1 모델의 기본 원리를 추가로 분석했습니다.

그는 추론 시간 확장의 새로운 패러다임이 널리 대중화되고 배포되고 있다고 말했습니다. sutton이 "a bitter lesson"에서 말했듯이 컴퓨팅 성능을 무한히 확장할 수 있는 기술은 학습과 검색이라는 두 가지 기술뿐입니다.

이제 우리의 초점을 후자로 돌릴 차례입니다.

1. 추론을 수행하려면 거대한 모델이 필요하지 않습니다.

2. 사전 학습/사후 학습에서 대량의 계산을 추론 서비스로 이전합니다.

3. openai는 추론 확장 규칙을 매우 일찍 발견했음에 틀림없지만, 학계에서는 최근에야 이를 발견하기 시작했습니다.

4. o1을 실용화하는 것은 학문적 벤치마크에서 잘하는 것보다 훨씬 어렵습니다.

5. 딸기는 쉽게 데이터 플라이휠이 될 수 있습니다

openai의 이전 분류로 판단하면 o1은 l2 수준의 추론 기능을 달성했습니다.

누군가 이를 테스트한 결과 o1이 매우 어려운 시를 성공적으로 썼다는 사실을 발견했습니다. 그 과정에서 이 작업을 성공적으로 완료하는 데 필요한 계획과 사고는 말도 안 되는 수준이었고, 추론 시간 계산도 매우 멋졌습니다.

그러나 ai 전문가 카파시(karpathy)는 o1-mini를 테스트한 뒤 "리만 가설을 풀기를 거부했다. 모델 게으름이 여전히 큰 문제인데 정말 안타깝다"고 불만을 토로했다.

nyu 조교수 xie saining도 "9.11 또는 9.8 중 누가 더 큰가?"라는 고전적인 질문을 테스트하려고 시도했지만 예기치 않게 o1-preview에서 여전히 잘못된 답을 얻었습니다.

"딸기에 r이 몇 개인지"라는 고전적인 문제는 당연히 o1에는 문제가 되지 않습니다.

big v matthew sabia는 가장 무서운 점은 gpt-5가 o1 모델보다 69배 더 강력하다는 점이라고 말했습니다. 보통 사람들은 코끼리의 추론과 논리적 능력을 이해하지 못합니다.

인간은 정말로 준비가 되었는가?

인간을 혼란스럽게 하는 논리적 추론 문제는 o1으로 해결됩니다.

우리 모두는 논리적 추론이 이전 llm에게 넘기 어려운 산이라는 것을 알고 있습니다.

하지만 이번에는 복잡한 논리적 문제를 해결하는 o1 모델의 능력이 놀랍습니다.

예를 들어, 다음과 같은 논리 질문은 -

공주의 나이는 미래의 어떤 시점에서는 왕자의 나이와 같습니다. 그 때 공주의 나이는 과거 어느 시점에서 왕자의 나이의 두 배가 되고 과거의 그 시점에서는 공주의 나이가 절반이 됩니다. 현재 나이의 합입니다. 지금 공주와 왕자의 나이는 몇 살입니까? 이 문제에 대한 모든 해결책을 제시해 주십시오.

이 질문은 인간에게도 발음하기가 매우 어렵습니다. 질문의 의미를 올바르게 번역하고 이해하려면 많은 노력이 필요합니다.

놀랍게도 o1 모델은 몇 단계의 고민 끝에 실제로 정답을 제시했습니다!

변수 정의, 문제 이해, 방정식 풀기 등의 단계를 거쳐 공주의 나이는 8000세, 왕자의 나이는 6000세라는 결론을 내리는데, 여기서 k는 양의 정수이다.

또 다른 데모에서 jason wei는 o1이 프롬프트에 따라 비디오 게임을 프로그래밍하는 방법을 보여주었습니다.

보시다시피 그는 프롬프트를 o1 모델에 복사했습니다.

이후 모델은 21초 동안 생각하고 전체 사고 단계를 표시했습니다.

그런 다음 모델에 코드가 제공됩니다.

코드를 실행해본 결과 매우 부드러운 게임이 되었습니다!

심지어 o1에 헷갈리는 한국어 문장을 잔뜩 던져서 영어로 번역해 달라고 요청했더니 실제로 해줬어요.

왜냐하면 문장이 문법적으로 불명확하더라도 o1은 이를 단계별로 해석하기 때문입니다.

결국 o1은 "지구상의 어떤 번역가도 할 수 없지만 한국인은 쉽게 식별할 수 있다"고 답하며 유머러스하게 말했다. 모음과 자음을 다양하게 변화시켜 한국어를 암호화하는 방식이다.

대조적으로 gpt-4o는 완전히 혼란스러워서 이해하지 못했습니다.

o1의 슈퍼 퍼포먼스가 논리적 추론을 새로운 차원으로 끌어올렸다는 것을 알 수 있습니다.

어떻게 이루어 집니까?

강화학습으로 큰 성과를 거두다, 대형 모델 알파고의 시대가 온다

o1 시리즈 모델과 과거 모델의 차이점은 인간과 마찬가지로 질문에 답하기 전에 "문제에 대해 생각하는" 시간이 더 많다는 것입니다.

훈련을 통해 사고 과정을 다듬고, 다양한 전략을 시도하고, 스스로 오류를 인식하는 방법을 배웁니다.

그 뒤에는 강력한 '강화 학습' 알고리즘이 큰 공헌을 했습니다. 당시 alphago가 인간 체스 선수를 이길 때 rl 알고리즘이 사용되었습니다.

높은 수준의 데이터로 효율적인 교육을 완성하고 llm에게 cot를 사용하여 생산적으로 생각하도록 가르칩니다.

cot 제안 개발자이자 openai 연구원인 jason wei는 o1이 프롬프트를 통해서만 cot를 완료하는 것이 아니라 rl 훈련 모델을 사용하여 궁극적으로 체인 사고를 더 잘 수행한다고 말했습니다.

게다가 openai 팀은 모델의 스케일링 법칙에서 '새로운 법칙'도 발견했습니다.

o1의 성능은 더 많은 강화 학습(훈련 시간으로 계산)과 더 많은 사고 시간(테스트 시간으로 계산)이 투자됨에 따라 지속적으로 향상됩니다.

scaling 중 이 방법의 제한 사항은 llm 사전 교육의 제한 사항과 상당히 다릅니다.

o1의 성능은 학습 단계와 테스트 단계에서 계산량이 증가함에 따라 꾸준히 향상됩니다.

금메달 팀 목록

추론 연구

창립 기여자 중에는 사업을 시작하기 위해 직장을 그만둔 ilya sutskever가 명확히 기재되어 있지만 greg brockman 등과 함께 executive leadership(executive leadership)에는 기재되어 있지 않습니다. o1을 위해.

ilya가 사임한 후 openai는 gpt-4 모델의 해석 가능성에 대한 연구 등 그의 논문 중 다수를 발굴하여 출판하기 시작했습니다.

요즘 그가 설립한 ssi도 제품 없이도 10억 달러의 자금을 조달해 평가액 50억 달러로 호황을 누리고 있다.

홍위런

ren hongyu는 peking university에서 컴퓨터 과학 학사 학위를 취득하고 stanford에서 박사 학위를 취득했으며 작년 7월부터 openai에 입사했으며 이전에는 google, apple, nvidia, microsoft 등의 회사에서 근무했습니다.

제이슨 웨이

jason wei는 현재 openai의 연구원입니다. 2020~2023년에는 google brain에서 근무하며 유명한 cot, 지침 미세 조정을 제안하고 대형 모델의 출현 능력에 관한 논문을 발표했습니다.

케빈 유

kevin yu는 현재 openai의 연구원입니다. 그는 2014년과 2021년에 uc 버클리에서 물리학과 천체물리학 석사 학위를, 신경학 박사 학위를 각각 받았습니다.

성자 자오

shengjia zhao는 칭화 대학교에서 학사 학위를 취득하고 스탠포드에서 박사 학위를 취득했습니다. 2022년 6월 졸업 후 openai 기술 팀에 합류했습니다. 그는 또한 gpt-4의 저자 중 한 명입니다.

웬다 저우

wenda zhou는 작년에 openai에 합류했습니다. 이전에는 뉴욕 대학교 데이터 과학 센터 연구소의 moore-sloan 연구원이었습니다.

그는 2015년 케임브리지 대학에서 석사 학위를, 2020년 컬럼비아 대학에서 통계학 박사 학위를 받았습니다.

프랜시스 송

francis song은 하버드 대학교에서 물리학 학사 학위를, 예일 대학교에서 물리학 박사 학위를 받았습니다. 그는 2022년에 openai에 합류했으며 이전에는 deepmind에서 연구 과학자, 뉴욕 대학교에서 보조 연구 과학자로 근무했습니다.

마크 첸

mark chen은 2018년 openai에 합류한 이후 frontier research의 이사로 재직하며 연구 부사장 bob mcgrew의 실무 그룹을 감독했습니다.

mit를 졸업한 후 chen은 수학과 컴퓨터 과학 분야에서 이중 학사 학위를 받았습니다. 대학 시절에는 microsoft와 trading에서 인턴으로 일했으며 harvard university에서 방문 학자로 일했습니다.

현재 그는 미국 ioi 트레이닝팀의 코치로도 활동하고 있다.

정보지는 마크 첸(mark chen)이 향후 openai의 리더십 멤버가 될 것이라고 추측한 바 있습니다.

또한 리더십 팀에는 ilya의 뒤를 이어 수석 과학자인 jakub pachocki와 openai의 몇 안 되는 공동 창립자 중 한 명인 wojciech zaremba도 포함되어 있습니다.

기술적 보안에 대한 추론

제치 유

jieqi yu는 푸단 대학교에서 전자 공학 학사 학위를 취득하고 홍콩 과학 기술 대학교에서 교환학생을 했으며, 이후 프린스턴 대학교에서 박사 학위를 받았습니다. 그녀는 12년 동안 페이스북에서 근무하며 소프트웨어 엔지니어에서 소프트웨어 엔지니어링 관리자로 전환했고, 지난해 8월 엔지니어링 관리자로 openai에 합류했습니다.

카이 샤오

xiao kai는 mit에서 학사 학위와 박사 학위를 취득했으며, 학부 때 수학과 컴퓨터 과학 분야에서 이중 학위를 취득했으며 학술 방문을 위해 옥스퍼드 대학교에 다녔고 deepmind 및 microsoft와 같은 회사에서 인턴십 경험을 했습니다. 2022년 9월 openai에 합류했습니다.

릴리안 웽

lilian weng은 현재 openai 보안 시스템의 책임자이며 주로 기계 학습, 딥 러닝 및 기타 연구에 종사하고 있습니다.

그녀는 베이징 대학교에서 정보 시스템 및 컴퓨터 과학 학사 학위를 취득했으며, 홍콩 대학교에서 단기 교환학생을 거쳐 인디애나 대학교 블루밍턴에서 박사 학위를 받았습니다.

mark chen과 마찬가지로 lilian도 openai 리더십의 떠오르는 스타로 간주됩니다.

전체 팀 목록은 다음과 같습니다.

생화학 물리학, 인간 박사 수준을 넘어

openai가 만든 새로운 모델 시리즈로서 o1의 강점은 무엇인가요?

aime(american mathematical olympiad competition qualifiers)에서 상위 500명의 학생 중 하나로 선정되었습니다.

가장 중요한 것은 물리학, 생물학, 화학 문제에 대한 벤치마크 테스트(gpqa)에서 인간 박사 학위 수준을 넘어섰다는 점입니다.

추론을 위해 일반적으로 사용되는 math 및 gsm8k와 같은 벤치마크 테스트에서 o1 및 최근의 많은 최첨단 모델은 포화된 성능에 도달하여 구별하기 어렵습니다. 따라서 openai는 모델의 수학적 및 추론 기능을 평가하기 위해 주로 aime를 선택합니다. 다른 인간 테스트 및 벤치마크와 같습니다.

aime은 미국 최고의 고등학생들의 수학적 능력에 도전하도록 설계되었습니다. 2024년 aime 시험에서 gpt-4o는 평균 12%(1.8/15) 문제를 해결했습니다.

그러나 o1의 개선은 상당히 컸습니다. 평균적으로 문제의 74%(11.1/15)를 해결했으며, 64개 샘플에서 다수결을 수행했을 때 83%(12.5/15)에 도달했습니다. 채점 기능을 사용하고 1000개의 샘플을 다시 정렬하면 정확도는 93%(13.9/15)에 이릅니다.

13.9점은 o1의 수준이 미국 내 상위 500위 학생에 도달했으며 미국 수학 올림피아드의 최종 점수를 초과했음을 의미합니다.

codeforces 및 gpqa diamond와 같은 까다로운 작업에서 o1은 gpt-4o를 훨씬 능가합니다.

o1은 까다로운 추론 벤치마크에서 gpt-4o를 크게 능가합니다.

gpqa 다이아몬드는 화학, 물리학, 생물학 분야의 전문성을 테스트합니다. 모델을 인간과 비교하기 위해 팀은 질문에 답할 박사 학위를 갖춘 전문가를 모집했습니다.

그 결과, o1은 이러한 인간 전문가(69.7)(78.0)를 능가하여 이 벤치마크에서 인간을 능가한 최초의 모델이 되었습니다.

그러나 이 결과는 o1이 모든 면에서 박사 학위를 가진 인간보다 강하다는 것을 의미하는 것이 아니라 해당 수준의 일부 문제를 더 능숙하게 해결할 수 있음을 보여줄 뿐입니다.

또한 o1은 math, mmlu 및 mathvista와 같은 벤치마크 테스트에서 sota를 새로 고쳤습니다.

시각적 인식 기능을 활성화한 후 o1은 mmmu에서 78.1%의 점수를 획득하여 인간 전문가와 경쟁하는 최초의 모델이 되었으며, 57개 mmlu 하위 카테고리 중 54개에서 gpt-4o를 능가했습니다.

o1은 54/57 mmlu 하위 클래스를 포함한 광범위한 벤치마크에서 gpt-4o보다 성능이 뛰어납니다.

생각의 사슬

강화 학습을 통해 o1은 자신의 실수를 인식하고 수정하며 복잡한 단계를 더 간단한 단계로 나누는 방법을 배웠습니다.

또한 현재 방법이 작동하지 않을 때 다른 방법을 시도합니다. 이 프로세스는 모델의 추론 기능을 크게 향상시킵니다.

"암호화"의 예를 들어보겠습니다.

문제는 "think step by step"이 암호화되어 있으며 "oyfjdnisdr rtqwainr acxz mynzbhhx"에 해당한다는 것입니다. "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"의 의미가 무엇인지 물어보세요.

이런 종류의 문제에는 gpt-4o가 전혀 무력하다는 것을 알 수 있습니다.

o1은 알려진 정보를 바탕으로 암호화 계산 방법을 추론하고 마침내 정답을 제시했습니다. strawberry에는 3개의 r이 있습니다.

gpt-4o

o1-미리보기

프로그램 작성

이번 평가에서 openai는 o1을 기반으로 프로그래밍 강화 모델을 추가로 훈련했습니다.

2024년 국제정보올림피아드(ioi)에서 신형 모델은 213점을 획득해 49% 순위를 차지했다.

과정이 진행되는 동안 모델은 10시간 동안 6개의 까다로운 알고리즘 문제를 해결해야 하며 각 문제에 대해 50개의 제출이 허용됩니다.

제출 제한이 완화되면 모델 성능이 크게 향상될 수 있습니다. 질문당 10,000개의 제출을 ​​허용했을 때 모델은 금메달 기준점을 초과하는 362.14점을 획득했습니다.

마지막으로 openai는 codeforces가 주최하는 경쟁적인 프로그래밍 대회도 시뮬레이션했으며, 규칙을 엄격히 준수하고 10개의 제출을 ​​허용했습니다.

gpt-4o의 elo 점수는 808점으로 인간 플레이어의 11%를 차지합니다. 새로운 모델은 gpt-4o 및 o1을 훨씬 능가하여 1807이라는 높은 점수를 기록하여 93%의 플레이어를 능가했습니다.

프로그래밍 대회에서 더욱 향상된 o1: 개선된 모델은 2024년 국제 정보학 올림피아드 대회 규칙에 따라 49번째 백분위수에 선정되었습니다.

인간 선호도 평가

시험 및 학문적 벤치마크 외에도 openai는 다양한 도메인에 걸쳐 도전적이고 개방형 프롬프트 단어에 대해 o1-preview와 gpt-4o에 대한 인간 선호도를 평가했습니다.

이 평가에서 인간은 o1-preview 및 gpt-4o의 프롬프트 단어에 대한 익명의 응답을 보고 어떤 응답을 선호하는지 투표합니다.

데이터 분석, 프로그래밍, 수학과 같이 추론이 많은 카테고리에서 사람들은 o1-preview를 선택할 가능성이 더 높습니다. 그러나 일부 자연어 작업에서는 gpt-4o가 더 좋습니다.

즉, o1-preview는 현재 모든 사용 시나리오에 적합하지 않습니다.

추론 능력이 더 중요한 분야에서는 o1-preview를 선택할 가능성이 더 높습니다.

o1-mini는 매우 비용 효율적입니다.

개발자에게 보다 효율적인 솔루션을 제공하기 위해 openai는 더 빠르고 저렴한 추론 모델인 o1-mini를 출시했습니다.

소형 모델인 o1-mini는 o1-preview보다 80% 저렴합니다.

이는 추론이 필요하지만 일반적인 세계 지식이 필요하지 않은 애플리케이션을 위한 강력하고 비용 효율적인 모델입니다.

하지만 현재 o1 시리즈는 아직 초기 단계에 불과해 네트워크 플러그인, 장거리 파일 전송, 사진 등의 기능이 아직 통합되지 않았다. 단기적으로 gpt-4o는 여전히 가장 강력한 플레이어입니다.

참고자료:

https://openai.com/index/learning-to-reason-with-llms/