소식

ai가 인간을 능가하는 놀라운 순간을 공개하는 o1 금메달팀! 22분 분량의 영상 풀버전이 공개됩니다

2024-09-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

새로운 지혜 보고서

편집자: tao zi qiao yang

[새로운 지혜 소개】o1의 탄생은 openai 팀에게 가장 혁명적인 순간입니다. 22분 분량의 전체 인터뷰 영상에서 이들은 새로운 모델에 대한 생각과 그 뒤에 숨겨진 개발 스토리를 공유했다.

openai o1팀 인터뷰 풀영상이 드디어 온라인에 공개되었습니다!

프로젝트 밥 맥그루(project bob mcgrew)가 주관한 o1 r&d팀은 22분간 '아하' 순간을 함께 나누었습니다.

어떤 사람들은 새로운 o1 모델이 여러 의사의 '융합'과 동일하며 종종 인간보다 더 나은 성능을 발휘한다고 언급했습니다. 어떤 사람들은 o1 출시 이후 agi의 등장을 확실히 느꼈다고 말했습니다.

“수학, 코딩, 바둑, 체스 등의 분야에서 모델이 인간을 능가할 때 agi의 미래는 더욱 분명해집니다.”

allen institute의 과학자인 nathan lambert가 이 비디오의 하이라이트를 요약했습니다.

총 8개의 포인트가 있습니다:

강화 학습을 사용하는 1 o1은 새로운 cot 추론 단계를 발견하는 데 인간보다 낫습니다.

2 자기비판의 출현은 o1의 가장 강력한 순간이다

3 o1이 "타임아웃" 전에 답변을 마치면 갑자기 "아하"하는 순간을 갖게 됩니다.

4. 매개변수 크기를 확장하고 강화 학습 알고리즘을 계속 발전시키는 과제

5 많은 사람들이 알고리즘에 비해 인프라가 얼마나 중요한지 언급했습니다.

6 o1은 계획과 오류 수정을 통해 세상의 새로운 문제를 해결할 수 있습니다

7 새로운 훈련 패러다임은 모델에 더 많은 컴퓨팅 성능을 적용하는 완전히 새로운 접근 방식입니다.

8 o1코드 작성 시 사용할 코드를 출력할 때 단위 테스트를 통과해야 함

다음으로 o1 모델에 얽힌 이야기를 좀 더 자세히 살펴보겠습니다.

강화학습+사고력, 새로운 패러다임을 열어가는 o1

openai의 새로운 시리즈로서 o1과 gpt 모델의 가장 큰 차이점은 추론에 있습니다.

본질적으로 이는 추론 모델입니다. 즉, 이전보다 더 많이 "생각"할 것임을 의미합니다.

openai 연구진에 따르면 '사고'는 가장 직관적인 추론 방법입니다.

때때로 이탈리아의 수도가 무엇인지 물으면 우리는 생각조차 하지 않고도 거의 즉각적으로 대답을 내놓을 수 있습니다. 하지만 때로는 사업 계획이나 소설 집필 등에 있어서는 오랜 사고 과정이 필요할 때도 있습니다.

말할 필요도 없이, 오랫동안 생각할수록 결과는 더 좋아질 것입니다.

따라서 추론은 생각하는 시간을 최적의 결과로 전환하는 능력입니다.

mark chen의 말에 따르면 추론은 "원시적"이며 신뢰할 수 있는 사고 과정을 달성하는 유일한 방법입니다.

추론 연구와 관련하여 openai는 실제로 매우 일찍 시작되었습니다. 설립 초기에는 rl 알고리즘을 통해 알파고가 인간을 이길 수 있는 가능성을 보고 많은 연구를 진행했다.

예를 들어 2016년에는 ai의 일반 지능 수준을 훈련하기 위한 오픈 소스 플랫폼인 게임 테스트 플랫폼 '유니버스(universe)'를 오픈했습니다.

2018년에는 openai five라는 게임 ai가 개발되어 두 차례에 걸친 dota2 국제 초청 토너먼트에서 세계 챔피언 og 팀을 물리치는 데 성공했습니다.

동시에 데이터 및 로봇공학 분야에서도 상당한 규모의 진전이 이루어졌습니다.

openai 팀은 어떻게 일반 분야에서 강화학습을 구현하고 매우 강력한 ai를 달성할 수 있을지 고민하기 시작했습니다.

즉, gpt 시리즈가 열어준 새로운 패러다임이다. 비지도 학습 확장에서 놀라운 결과를 얻었습니다.

그리고 그 이후로 연구자들은 강화 학습과 비지도 학습이라는 두 가지 패러다임을 결합하는 방법을 탐구하기 시작했습니다.

이러한 노력이 언제 시작되었는지 정확히 말하기는 어렵지만 오랫동안 작업이 진행되어 왔다고 연구진은 말했습니다.

"아하" 순간

영상에서 누군가는 연구에서 가장 멋진 점은 '아하' 순간이었다고 말했습니다.

어느 시점에서 연구에 예상치 못한 돌파구가 생겼고, 모든 것이 갑자기 깨달음처럼 명확해졌습니다.

그렇다면 팀원들은 어떤 '아하' 순간을 경험했을까요?

누군가는 모델을 훈련하는 과정에서 결정적인 순간이 왔다고 느꼈는데, 이때가 이전보다 더 많은 컴퓨팅 파워를 투자하여 처음으로 매우 일관성 있는 cot를 생성한 때였습니다.

이 순간 모두가 즐겁게 놀랐습니다. 이 모델이 이전 모델과 크게 다르다는 것이 분명했습니다.

다른 사람들은 추론 능력을 갖춘 모델 훈련을 고려할 때 가장 먼저 떠오르는 것은 인간이 자신의 사고 과정을 기록하고 그에 따라 훈련하도록 하는 것이라고 말했습니다.

그에게 아하 순간은 cot를 생성하고 최적화하기 위해 강화 학습을 통해 모델을 훈련하는 것이 인간이 작성한 cot보다 훨씬 낫다는 것을 발견한 순간이었습니다.

이 순간은 이러한 방식으로 모델의 추론 기능을 확장하고 탐색할 수 있음을 보여줍니다.

이 연구원은 모델의 수학적 문제 해결 능력을 향상시키기 위해 열심히 노력해 왔다고 말했습니다.

실망스럽게도 모델은 결과가 나올 때마다 자신이 무엇을 잘못했는지 의문을 제기하지 않는 것 같았습니다.

그러나 초기 o1 모델 중 하나를 훈련할 때 모델의 수학 시험 점수가 갑자기 크게 향상되는 것을 보고 놀랐습니다.

더욱이, 연구자들은 모델의 연구 과정을 볼 수 있습니다. 모델은 스스로를 반성하고 질문하기 시작합니다.

그는 외쳤다: 우리는 마침내 뭔가 다른 것을 만들었습니다!

이 느낌은 매우 강했고 그 순간 모든 것이 하나로 합쳐지는 것 같았습니다.

또 다른 연구원은 모델에게 "타임아웃" 전에 생각을 완료하도록 요청하는 경우 그 과정이 매우 흥미롭다고 말했습니다.

그것은 수학 대회에 참가하는 것과 같습니다. 모든 생각에는 시간이 제한되어 있습니다.

이것이 자신이 ai 분야에 진출하게 된 주된 이유이기도 했고, 이제는 그에게 있어서는 '폐쇄 루프'의 순간이라고 볼 수 있다고 말했다.

또한, o1 모델의 놀라운 점은 과학적 발견과 공학적 진보를 촉진하는 데 큰 도움이 된다는 점입니다.

많은 사람들에게 agi는 인간이 잘하는 일을 ai가 하는 것을 보기 전까지는 agi의 도래를 믿을 수 없을 정도로 매우 추상적이고 터무니없는 개념으로 보입니다.

전문 체스와 바둑 선수들에게 ibm의 deep blue, deepmind alphago 및 alphazero는 몇 년 전에 이를 깨닫게 해주었습니다.

수학과 코딩에 능숙한 openai의 과학자 그룹에게 o1 모델은 비슷한 의미를 갖습니다. 더욱 흥미로운 점은 그들의 작업이 자신의 능력을 압도할 수 있는 ai를 만드는 것과 같다는 것입니다.

프로젝트를 진행하면서 어떤 어려움을 겪었나요?

그 과정에서 직면하게 되는 장애물에 대해 연구자들은 llm 교육이 근본적으로 매우 어렵다고 직접적으로 밝혔습니다.

지구에서 달까지 로켓을 발사하는 것과 마찬가지로 성공으로 가는 길은 좁지만, 실패로 가는 길은 무수히 많습니다. 각도에서 조금만 벗어나면 목표에 도달할 수 없습니다.

훈련 과정이 잘못될 수 있는 방법은 수천 가지가 있으며, 이 재능 있는 연구 과학자 그룹의 손에서도 각 훈련 라운드마다 수백 가지 문제에 직면했습니다.

또한 여러 박사 학위를 가진 인간과 동등한 o1과 같이 모델이 점점 더 지능화됨에 따라 평가가 점점 더 어려워집니다.

때로는 모델이 올바른 일을 하고 있는지 판단하는 데 오랜 시간이 걸리고, 결국 일반적으로 사용되는 많은 업계 벤치마크가 포화 상태가 되어 o1의 역량에 적합한 벤치마크를 다시 찾아야 합니다.

모델 개발 프로세스 외에도 연구원들은 o1 모델에 대해 가장 선호하는 사용 사례에 대한 질문도 받았습니다.

정형원 대표는 o1이 좋은 코딩 어시스턴트가 될 수 있다고 말했습니다.

그는 작업할 때 일반적으로 tdd(테스트 중심 개발) 개발 방법을 따르며, 단위 테스트를 작성하는 대신 요구 사항을 직접 지정하고 모델이 자동으로 작성되도록 할 수 있습니다.

또한 발생한 오류 메시지를 o1에 직접 전달할 수도 있습니다. 때로는 문제를 직접 해결할 수는 없지만 컴파일러보다 더 나은 질문을 하고 오류 해결에 도움을 줄 수 있습니다.

jason wei는 o1을 브레인스토밍 파트너로 자주 활용하며, 머신러닝 문제를 해결하는 방법부터 블로그나 트윗 초안을 작성하는 방법까지 논의할 수 있는 문제의 범위가 상당히 넓다고 말했습니다.

그가 올해 5월 llm 평가에 관해 쓴 블로그에는 글의 구조, 각종 평가 벤치마크의 장단점, 글쓰기 스타일 등 o1의 의견이 반영됐다.

openai에서 일하는 것은 어떤가요?

이번 이슈에 대해 많은 사람들이 모두의 지능과 팀 분위기의 조화에 대해 이야기했습니다.

예를 들어, 일주일 동안 코드를 디버깅하고 있었는데 지나가는 동료가 즉시 문제를 해결했습니다. 매일 매우 똑똑한 동료들과 시간을 보내면서 점차 겸손해졌습니다.

mark chen은 "strawberry" 프로젝트를 매우 "유기적"인 프로젝트라고 설명했습니다. 왜냐하면 모든 사람이 전문적인 문제에 대해 자신만의 의견과 의견을 갖고 있고 열정적으로 홍보하고 싶은 아이디어를 가지고 있기 때문입니다.

이러한 아이디어가 모이면 불꽃이 터져 눈덩이처럼 눈덩이처럼 불어날 것입니다.

그러나 자기 주장의 다른 측면은 모든 사람이 자신의 의견을 주장하지만 완고하지는 않다는 것입니다. 또한 자신의 주장을 반박하는 객관적인 결과가 나오면 마음이 바뀔 것입니다.

더욱 칭찬할 만한 점은 이 매우 똑똑한 사람들이 매우 친절하고 다른 사람들의 문제 해결을 기꺼이 도와준다는 것입니다. 인터뷰에 참여한 많은 연구자들은 "여기서 일하는 것이 매우 즐겁습니다."라고 솔직하게 말했습니다. 경험".

o1-mini의 비하인드 스토리

o1-mini 출시의 동기는 더 많은 연구자들에게 예산은 적지만 여전히 강력한 추론 능력을 갖춘 모델을 제공하는 것입니다.

'추론 전문가'라고 할 수 있으며, 과거 최고의 openai 모델보다 더 똑똑하다.

게다가 비용과 대기 시간도 매우 낮습니다.

아마도, 태어난 날까지 반드시 유명한 사람을 알 수는 없을지 모르지만, 그는 효과적으로 추론하는 능력과 많은 지혜를 가지고 있습니다.

openai 연구원들은 알고리즘을 더욱 개선하여 최고의 소형 모델과 비교할 수 있게 만들 것이라고 말했습니다.

또한 전 세계 연구자들은 더 많은 컴퓨팅과 하드웨어에 투자해 왔으며, 이로 인해 장기간에 걸쳐 모델 비용이 기하급수적으로 하락했습니다.

그러나 한 가지 결점은 상황을 반전시킬 새로운 방법을 찾는 데 더 많은 시간을 투자하지 않았다는 것입니다.

o1의 새로운 패러다임은 컴퓨팅 성능 효율성을 최적화할 수 있는 추론 확장이라는 발견입니다.

연구를 하게 된 동기는 무엇인가요?

이 "지능형 두뇌" 그룹이 함께 모여 연구에 영감을 줄 수 있는 이유는 무엇입니까?

한 연구원은 추론을 위해 자신의 모델을 사용할 수 있는 다양한 방법에 대해 생각하는 것이 흥미로웠다고 말했습니다.

다른 사람들은 "모든 좋은 일은 어려울 때 찾아온다"고 말했습니다.

o1이 이렇게 빨리 대답할 수 있다는 사실은 오랫동안 질문에 대해 생각할 수 있는 모델을 향한 첫 걸음입니다. 앞으로는 다음 여정으로 나아가기 위해 몇 달 또는 몇 년의 연구가 필요할 것입니다.

“우리의 소수가 세상을 바꾸는 영향력을 가질 수 있다는 생각이 매우 흥미롭고 의미가 깊습니다.”

가장 흥미로운 점은 새로운 패러다임이 이전에 모델이 완료할 수 없었던 작업을 잠금 해제한다는 것입니다. 이는 단순히 특정 쿼리에 응답하는 것이 아니라 계획, 오류 수정을 통해 실제로 새로운 기능을 일반화하는 것입니다.

더욱이 o1은 과학적 발견의 가장 흥미로운 부분인 새로운 지식을 창출할 수 있습니다.

연구자들은 짧은 시간 내에 모델이 자체 개발에 점점 더 강력한 기여자가 될 것이라고 말합니다.

마지막으로 o1 담당자가 "또 언급할 만한 관찰 결과가 있나요?"라고 묻자,

jason wei는 "흥미로운 관찰은 각각의 훈련된 모델이 약간씩 다르며 마치 인공물처럼 고유한 특징을 가지고 있다는 것입니다. 이러한 독특함이 각 모델에 개성을 더해줍니다."라고 말했습니다.

영상의 풀버전은 다음과 같습니다.