openai의 새로운 o1 모델을 5가지 주요 차원에서 평가: 코딩, 게임 제작 및 기타 능력은 "놀라움"이지만 사실 지식은 "전복"됨

openai의 새로운 o1 모델을 5가지 차원에서 평가: 코딩, 게임 제작 및 기타 능력은 "놀라움"이지만 사실 지식은 "전복"

2024-09-18

전설의 '딸기' 모델이 오늘 갑자기 예고도 없이 온라인에 올라왔습니다!

openai가 출시한 최신 모델은 o1이며, 현재 출시된 모델은 일련의 추론 모델 중 첫 번째 버전입니다.o1-미리보기(미리보기 버전) 및 o1-mini(미니 버전)）。

현재 o1-preview 및 o1-mini는 이미 chatgpt plus 및 team 구독자에게 제공되고 있으며 enterprise 및 edu 사용자는 다음 주 초에 액세스할 수 있게 됩니다. openai는 chatgpt의 모든 무료 사용자에게 o1-mini 액세스를 제공할 계획이지만 아직 출시 날짜를 정하지 않았다고 밝혔습니다.

openai에 따르면 o1 모델은 문제 해결 능력 측면에서 이전 모델보다 인간의 사고에 더 가깝고 수학적, 코딩 및 과학적 작업에 대한 "추론"이 가능합니다.

openai가 주장하는 만큼 새로운 모델의 성능이 강력한지 검증하기 위해 '매일경제신문' 기자가 말했다.고전적인 "딸기 테스트"에서”o1-preview 모델은 코드 작성, 미니 게임 제작, 수학과 경제, 사실 지식 등 5가지 차원에서 테스트되었습니다.

그 결과 o1-preview는 openai가 이전에 출시한 대형 모델을 능가하는 프로그래밍 및 수학적 추론 능력을 입증한 것으로 나타났습니다. 예를 들어 o1-시사복잡한 환경에서 원활하게 실행되고 스스로 솔루션을 추론하는 코드를 작성하는 능력. 또한, 기자는 테스트 과정에서 o1-preview가 인간화 측면에서도 크게 향상되어 실제 사람의 사고 방식을 보여주고 있음을 느꼈습니다. 그러나 새로운 모델에는 단점이 없는 것이 아니며 사실 지식 테스트에서 '전복'되었습니다.

전설의 "딸기"가 여기 있어요

현지 시간으로 9월 12일, openai가 사용할 예정인 '추론' 모델 시리즈의 첫 번째 버전인 o1이라는 새로운 모델을 출시했습니다. 업계에서 소문이 자자했던 '딸기' 모델이기도 합니다. 장기.

이미지 출처: x 플랫폼

openai의 경우 o1은 인간과 유사한 ai라는 목표를 향한 또 다른 단계를 나타냅니다. openai는 o1이 완전히 새로운 기능을 대표한다고 믿습니다. 이 기능은 회사가 현재 gpt-4 모델에서 다시 시작하기로 결정하고 "gpt" 브랜드를 완전히 버리고 이름을 1에서 따기로 결정했습니다.

openai는 현재의 gpt-4 모델로 다시 시작하여 "카운터를 1로 재설정"하고 지금까지 챗봇과 전체 생성 ai 열풍을 정의한 "gpt" 브랜딩을 포기할 것이라고 밝혔습니다.o1은 일련의 개별 단계를 통해 신중하고 논리적으로 문제를 해결할 수 있는 시스템을 구축했습니다. 각 단계는 이전 단계를 기반으로 하며 인간이 추론하는 방식과 유사합니다.

openai 수석 과학자 jakub pachocki는 이전 모델이 사용자 문의를 받으면 즉시 응답하기 시작했다고 말했습니다. "그리고 이 모델(o1 참조)은 시간이 걸립니다. 문제에 대해 생각하고 분석하고 각도를 찾아 최선의 답변을 제공하려고 노력합니다. 이는 대부분의 사람들이 부모가 요청한 것과 같습니다." 그들은 어렸어요. 말하기 전에 생각해보세요.

오픈ai가 말했다.o1은 경쟁 프로그래밍 문제(codeforces)에서 89번째 백분위수에 속하고, aime(american mathematics olympiad) 예선 및 gpqa(benchmark test for physics, biology, and chemistry problems) 정확도에서 미국 내 상위 500명의 학생 중 하나입니다. 인간의 박사 수준을 뛰어 넘는 것입니다.。

openai가 게시한 연구 및 블로그 게시물에서 o1은 고급 수학 및 코딩 문제를 해결할 수 있을 뿐만 아니라 복잡한 암호를 해독하고 유전학, 경제 및 양자 과학에 관한 전문가 및 학자의 질문에 답변할 수 있는 매우 강력한 "추론" 기능을 보유한 것으로 보입니다. . 물리학의 복잡한 문제. 많은 차트가 이를 보여줍니다.내부 평가에서 o1은 코딩, 수학, 다양한 과학 분야의 문제에서 회사의 가장 진보된 언어 모델인 gpt-4o를 능가했으며 심지어 인간을 능가했을 수도 있습니다.

이미지 출처: openai 공식 홈페이지

실제 테스트의 5가지 차원: 코딩, 게임 제작 및 기타 능력이 "놀랍지만" 사실 지식 테스트에서는 "실패"했습니다.

o1 모델의 강력한 기능에 대한 더 깊은 이해를 얻기 위해 "daily economic news" 기자들은 o1-preview 모델을 5가지 차원(클래식 딸기 테스트, 코드 작성, 미니 게임 제작, 수학 및 경제)에서 테스트했습니다. 그리고 사실적인 지식.

1) 딸기 테스트

먼저 기자는 이전에도 거의 모든 대형 모델이 '돌파'했던 간단한 질문, 즉 "딸기라는 단어에 r이 몇 개나 들어있나요?"를 이용해 테스트를 진행했다.”. 생성된 결과로 볼 때 o1-preview는 여전히 약간의 놀라움을 안겨주었습니다.

2) 코드 작성

기자는 먼저 온라인 프로그래밍 플랫폼 leetcode에서 가장 유명한 단순 알고리즘 질문인 two sum(두 숫자의 합) 문제에 대해 o1-preview에게 질문했습니다. o1은 매우 상세한 추론 과정과 답변을 제공했습니다.

그러자 기자는 의도적으로 답변을 최적화해 달라고 요청했는데, 9초 동안 고민한 끝에 o1은 자신이 제공한 것이 이미 최적의 솔루션이라는 것을 깨닫고, 이에 더해 '사려 깊게' 차선의 솔루션도 제공했다고 설명했습니다. 이전에 기자들이 다른 모델을 테스트한 결과 이러한 모델은 사과만 한 다음 최적이 아닌 솔루션으로 답변을 변경했습니다.

3) 미니게임 제작

o1 모델 시연에서 openai는 '미니게임을 한 문장으로 작성'하는 기능을 시연했다. 테스트 과정에서 기자는 o1-preview에게 유용한 코딩 도구를 소개하고 탁구 게임 작성을 도와달라고 요청했습니다.

원활하게 실행될 수 있는 코드를 제공하는 데 o1-preview 19초 밖에 걸리지 않았으며 학습 가이드와 격려의 말을 첨부하여 매우 사용자 친화적입니다.

o1-preview가 부정행위를 방지하고 답변하는 추론 능력 대신 기억 능력을 사용하는 것을 방지하기 위해 기자는 o1-preview에 코드 실행 환경인 jupyter note를 변경해 달라고 요청했습니다. 이 실행 환경은 데이터 분석에 특화된 python 환경입니다. 개발자는 기본적으로 이 환경을 소규모 게임 개발에 사용하지 않습니다.

그것에 대해 생각한 후에도 o1은 여전히 실행할 수 있는 코드를 제공했습니다. 하지만 이 답변은 이전 코드에 비해 버그가 많지만 훈련 과정에서 추가한 표준 답변이 아니라 실제로 생각한 답변임을 보여줍니다.

o1-preview의 혁신적인 추론 능력을 더욱 검증하기 위해 기자는 모델에게 이 미니 게임을 기반으로 더욱 복잡하고 흥미로운 미니 게임을 개발해 달라고 요청했습니다.

이번에 o1의 활약은 정말 조금 놀랍습니다. 탁구 게임의 충돌 메커니즘을 기반으로 이 모델은 위쪽으로 점프하는 게임을 반복합니다. 일반적으로 다른 대형 모델에서는 더 나은 답변을 출력하기 전에 사용자가 자신의 요구 사항을 명확하게 설명해야 합니다. 그러나 이 테스트에서는 기자가 추가 프롬프트를 제공하지 않고 원활하게 실행될 수 있고 사용자의 눈에 충분한 답변을 출력했습니다. 기자. 재미있는 작은 게임.

4) 과학시험

과학 테스트 측면에서 기자는 o1-preview의 수학과 경제학 성능 테스트에 중점을 두었습니다.

기자는 먼저 수학적 추론 질문을 던졌다.o1-미리보기오일러 방정식의 유한 시간 폭발을 풀 수 있는 가능한 방법에 대해 물어보세요. (이 글은 중국의 유명한 수학자이자 필즈상 수상자인 테렌스 테루(terence teru) 교수가 이번 주에 발표한 토론 기사입니다.)

o1은 명확한 해결책을 제시하지는 않지만 문제 해결을 위한 아이디어를 제공합니다.이 아이디어는 tao zhexuan 교수의 기사와 부분적으로 일치합니다(거의 아니지만).。

경제 분야에서는 복잡한 경제 시스템 문제에 대해 기자가 o1-preview에 질문했습니다. 주어진 피드백에서,기본적으로 큰 문제는 없습니다. 전체적인 논리는 명확하고 사고의 차원도 다양합니다. 비록 주어진 수학적 공식에 몇 가지 사소한 오류가 있지만 전체적인 상황을 해치지는 않습니다.。

5) 사실적 지식과 언어이해

이번 세션에서 기자는 o1-preview에게 명나라 초대 황제에 관한 흥미로운 일화에 대해 질문했는데, o1은 그 일화를 실제로 역사에서 일어난 일로 해석하고 주원장 전체의 역사 이야기를 서술했다.

동시에 기자는 이 질문을 gpt-4o 모델에도 던졌다. 이에 비해 gpt-4o는 기자의 질문을 잘 이해하고 널리 유포된 두 가지 민담을 들려주었다.

전반적인,o1 모델이 인간 수준에 접근할 수 있다는 openai의 주장은 어떤 면에서는 사실인 것 같습니다.。

기자가 가장 놀랐던 점은 openai가 사용자에게 모델 사고 과정을 텍스트로 보여준다는 점이었습니다.”"나는 생각한다", "나는 계획한다"와 같은 단어는 마치 실제 사람이 사용자 앞에서 자신의 사고 논리를 설명하는 것처럼 더욱 의인화된 느낌을 줍니다.

그러나 이것이 o1 모델이 완벽하다는 것을 의미하지는 않습니다.openai도 o1이 디자인, 글쓰기, 텍스트 편집 측면에서 gpt-4o보다 훨씬 열등하다는 점을 인정했습니다.o1에는 웹을 탐색하거나 파일 및 이미지를 처리하는 기능도 없습니다.

기자들이 가장 고민하는 점은 출력 결과를 중국어로 변환하는 등 아주 간단한 요청에도 o1이 10초 이상 고민하는 반면, gpt4o는 그 요청을 빠르게 처리한다는 점이다.

openai가 유리한 영역에서도 o1 모델은 갑자기 성능 저하가 발생하고 모델 출력이 게으르게 됩니다.사임한 openai의 창립자인 karpathy는 "riemann 가설을 풀기를 거부했습니다. 모델 게으름은 여전히 큰 문제입니다."라고 불평했습니다.

openai는 회사가 후속 업데이트에서 이러한 문제를 해결할 것이라고 밝혔습니다. 결국 이는 추론 모델의 초기 미리보기일 뿐입니다.

매일 경제 뉴스

보고/피드백

소식

openai의 새로운 o1 모델을 5가지 차원에서 평가: 코딩, 게임 제작 및 기타 능력은 "놀라움"이지만 사실 지식은 "전복"

전설의 "딸기"가 여기 있어요

실제 테스트의 5가지 차원: 코딩, 게임 제작 및 기타 능력이 "놀랍지만" 사실 지식 테스트에서는 "실패"했습니다.

소개

내 연락처 정보