openai 딸기모델 심야 습격! 물리 및 화학은 gpt-4o보다 훨씬 나은 박사 과정 수준에 도달하며 chatgpt를 사용할 수 있습니다

openai 딸기모델 심야 습격! 물리 및 화학은 gpt-4o보다 훨씬 나은 박사 과정 수준에 도달하며 chatgpt를 사용할 수 있습니다.

2024-09-13

저자 |

편집자 | 리수이칭

zhidongxi는 9월 13일에 오늘 이른 아침 openai가 갑자기 전설적인"딸기" 모델-의 부분 미리보기openai o1 미리보기 버전. 이는 이전의 과학, 프로그래밍, 수학적 모델보다 어려운 복잡한 작업을 추론하고 문제를 해결할 수 있는 새로운 ai 모델 시리즈입니다.

▲openai, o1 모델 출시

openai o1은 새로운 ai 모델 시리즈의 첫 번째 제품입니다.。이전 모델과 달리,진화된 추론 능력, 안에 있을 거예요대답하기 전에 신중하게 생각하십시오., 긴 생성내부 사고 사슬, 경쟁력 있는 프로그래밍 질문 순위89호, 미국 수학 올림피아드 예선 토너먼트에 참가처음 500, 물리학, 생물학 및 화학 문제에 대한 벤치마크 테스트의 정확성인간의 박사 수준을 넘어！

또 새로 출시된오원 미니더 빠르고 작은 모델입니다, o1과 유사한 프레임워크를 사용하여 훈련되었습니다. o1 mini는 과학과 공학, 특히 수학과 프로그래밍에 능숙합니다.o1 프리뷰 버전보다 비용이 80% 저렴합니다.。

이 두 모델은 openai에서 복잡한 추론 작업의 주요 발전으로 간주되므로 gpt 시리즈의 연속이 아닌 카운터를 재설정하기 위해 o1으로 명명되었습니다.

그러나 o1 모델의 추론 강화 버전은 9.9와 9.11의 크기를 비교하는 "고차 문제"에서 여전히 비참하게 실패했습니다.

▲'크기 비율'이라는 질문에 답하는 o1 모델

openai의 창립 멤버이자 사업을 시작하기 위해 openai를 떠난 전 tesla ai 수석 이사인 andrej karpathy는 오늘 아침에 다음과 같이 불평했습니다. 문제😞"

▲andrej karpathy는 o1 mini가 "게으르다"고 불평했습니다.

openai는 모델이 안전하게 출시될 수 있도록 o1 미리보기 버전을 엄격하게 테스트하고 평가했습니다. chatgpt plus 및 팀 사용자는 오늘 두 가지 새로운 모델을 선택할 수 있으며, tier 5 개발자는 새 모델에 대한 api 액세스 권한을 가장 먼저 얻게 됩니다.

openai는 또한 사업을 시작하기 위해 떠난 전 openai 최고 과학자 ilya sutskever를 포함하여 21명의 기본 기여자와 7명의 팀 리더를 포함하여 o1 모델을 뒷받침하는 핵심 팀 구성원을 발표했습니다.

1. mmlu는 프로그래밍 능력 면에서 인간 전문가와 비슷합니다.8더블 킬gpt-4o

이전에 노출된 것처럼 openai o1은 대응하기 전에 문제에 대해 생각하는 데 더 많은 시간을 할애하는 모델로 훈련되었습니다. 응답하기 전에 생각하여 다음을 생성합니다.매우 긴 내부 아이디어 체인, 인간과 같을 수 있습니다사고 과정을 개선하세요，계속해서 새로운 전략을 시도해 보세요그리고 당신의 실수를 깨달으십시오.

초기 프리뷰 모델인 openai o1은 현재문자 대화만 지원합니다에는 정보를 얻기 위해 웹을 검색하고, 파일과 사진을 업로드하는 등의 다중 모드 기능이 없습니다.

성능면에서 openai o1은물리학, 화학 및 생물학벤치마크 작업 성능 및박사과정 학생조용하고수학과 프로그래밍뛰어난 성능.

▲수학과 프로그래밍 분야 openai o1 평가 벤치마크

국제수학올림피아드(imo) 자격시험에서 openai의 이전 세대 모델인 gpt-4o는 13%의 정확도를 보인 반면, openai o1은83% 도달. 코딩대회 codeforces, openai o1's점수는 89입니다, gpt-4o에는 11개만 있습니다. o1-preview 모델의 미리보기 버전도 gpt-4o보다 몇 배 더 나은 성능을 발휘합니다.

o1은 57개 mmlu 하위 범주 중 54개를 포괄하여 대부분의 벤치마크에서 gpt-4o보다 훨씬 더 나은 성능을 발휘합니다. o1은 시각적 인식 기능을 활성화한 후 mmlu에서 78.2%를 기록하여인간 전문가와 경쟁하는 최초의 모델。

▲o1 프리뷰 버전과 gpt-4o의 성능 비교

다음은 openai o1 미리보기 버전의 몇 가지 예입니다.

1. 복잡한 논리 퍼즐을 풀어보세요

다음을 입력하세요.복잡한 나이 퍼즐: 공주는 왕자의 나이가 두 배이고, 나이가 현재 나이의 절반이면 왕자와 나이가 같습니다. 왕자와 공주는 몇 살입니까? 이 문제에 대한 모든 해결책을 제시하십시오.

모델은 20초 이상 고민한 끝에 대답하기 시작했다. 그의 대답의 논리는 매우 일관적입니다. 첫 번째 단계는 연령 방정식을 결정하고, 주어진 진술을 수학 방정식으로 변환하고, 이러한 방정식을 만족하는 가능한 모든 솔루션을 찾는 것입니다. 그런 다음 문제를 단계별로 분석하기 시작합니다.

첫 번째 단계는 왕자를 나타내는 p와 공주를 나타내는 q를 사용하여 변수를 정의하는 것입니다. 세 번째 단계는 조건을 방정식으로 변환하는 것입니다. 방정식; 다섯 번째 단계인 1단계에서는 이 값을 사용하여 모든 조건을 검증합니다. 6단계에서는 가능한 모든 솔루션을 제공합니다.

마침내 다음과 같은 결론이 나왔습니다.

2. 오류가 있는 문장 번역

불필요한 자음을 추가하면 한국어 읽기에 영향을 미칩니다. 원어민이 그런 문장을 보면 자동으로 텍스트를 바꾸고 이해하게 되므로 자연스럽게 읽히지는 않습니다. 하지만 이는 모델에게 어려운 도전이다.

다음을 입력하세요.심하게 훼손된 한국어 프롬프트 단어마지막으로 openai o1은 입력 텍스트에 한국어 문자가 왜곡되거나 잘못 정렬되어 있음을 먼저 인식하고 사용자에게 입력 오류를 확인할 것인지 물었습니다.

o1 모델은 먼저 기본 구조를 이해하고, 약 10초 동안 생각한 후 잘못된 텍스트를 해독하고, 텍스트를 해독하고, 번역을 향상하고, 개념을 이해하고, 다시 일관된 언어로 변환합니다.

gpt-4o와 달리 o1 모델은 답을 출력하기 전에 문제에 대해 생각하고 텍스트를 확인한 후 답을 크랙하는 것처럼 올바른 문장으로 수정합니다. 약 15초의 고민 끝에 o1은 최종적으로 최적화된 번역 버전을 제공했습니다.

이는 추론 능력이 문제 해결을 위한 강력한 도구가 된다는 것을 보여줍니다.

3. 대규모 언어 모델에서 잘 알려진 어려운 문제인 단어로 글자 수 세기에 답하세요.

이 예는 매우 간단합니다. strawberry라는 단어를 입력하고 모델이 이에 대답하도록 하세요.단어에 r이 몇 개 있나요?。

그 결과 gpt-4o는 "2"라는 잘못된 대답을 내놓았습니다.

왜 그렇게 발전된 모델이 그렇게 단순한 실수를 저지르겠습니까? gpt-4o 같은 모델은 문자나 단어가 아닌 텍스트를 처리하도록 만들어졌기 때문에 문자나 단어의 개념을 이해하는 문제에 직면하면 실수를 할 수 있기 때문이다.

추론을 기반으로 한 새로운 모델 o1은 몇 초 동안 생각한 후에 정답을 줄 수 있습니다.

4. 비디오 게임 프로그래밍

모델이 파이게임을 사용하게 하세요squirrel finder라는 비디오 게임을 만들어 보세요.를 입력하고 다음 요구 사항을 입력합니다. 사용자는 화살표 키를 눌러 화면에 "코알라" 아이콘을 안내하고, 떠 있는 딸기를 피하고, 3초 제한 시간 내에 다람쥐를 찾아야 승리합니다.

이전 모델에서는 이 작업이 더 어려웠지만 o1 프리뷰 버전에서는 이를 수행할 수 있었습니다. o1은 21초 동안 생각하고 그 생각 과정을 통해 게임 레이아웃의 세부 정보 수집, 지침 그리기, 화면 설정 등을 포함한 코드 구조를 계획한 다음 최종 게임 프로그래밍 코드를 출력했습니다.

코드를 복사하여 sublime text 편집기에 붙여넣으면 몇 줄의 간단한 프롬프트가 표시됩니다.

그런 다음 "다람쥐 찾기"게임을 시작할 수 있습니다.

o1 모델은 이전 모델에 비해 기획력이 대폭 강화됐다.

2. 미니버전 속도 개선3~5시간, 비용은 표준 버전입니다1/5

openai도 출시"작은 컵 버전" 모델 openai o1-mini,저것더 빠르고 저렴함, 표준 버전과 마찬가지로 수학 및 프로그래밍 분야에서 동일한 뛰어난 성능을 제공합니다.

openai o1-mini는 사전 훈련 중 stem(과학, 기술, 공학, 수학) 추론에 최적화되어 있습니다. o1과 동일한 계산 집약적 강화 학습(rl) 파이프라인을 사용하여 훈련된 후 o1-mini는 훨씬 더 비용 효율적이면서 많은 추론 작업에서 뛰어난 성능을 달성합니다.

오픈ai 오1미니openai o1 프리뷰 버전보다 80% 저렴, 추론이 필요하지만 광범위한 세계 지식이 필요하지 않은 응용 프로그램에 적합합니다. 지능과 추론이 필요한 일부 벤치마크 테스트에서 o1-mini는 o1-preview보다 더 나은 성능을 발휘합니다.

▲수학적 성능과 추론 비용 곡선

고등학교 수학 대회 aime에서 o1-mini의 정확도는 70%로 대략미국 상위 500명의 고등학생. 동시에 o1과 o1-preview의 정확도는 각각 74.4%와 44.6%이지만, o1-mini의 가격은 이들보다 훨씬 저렴합니다.

인간 선호도 평가 측면에서 openai는 인간 평가자에게 다양한 분야의 도전적인 개방형 프롬프트 단어에 대해 o1-mini 및 o1-preview 테스트를 요청하여 다음과 같은 테스트 결과를 얻었으며 이를 gpt-4o와 비교했습니다. o1-preview와 마찬가지로 o1-mini는 추론 작업이 많은 영역에서는 gpt-4o보다 더 많이 사용되지만 언어 중심 영역에서는 선호되지 않습니다.

▲인간 선호도 평가 결과

속도 측면에서 gpt-4o, o1-mini 및 o1-preview는 각각 동일한 단어 추론 질문에 답변하는 데 시간이 걸립니다.3초, 9초, 32초, 하지만 gpt-4o의 대답은 틀렸고, 후자의 두 대답은 맞습니다. o1-mini가 답을 얻는 속도를 알 수 있다o1보다 약 3~5배 빠름。

▲gpt-4o, o1-mini 및 o1-미리보기 응답 속도

물론 결국 '거세 버전'이기 때문에 openai o1-mini에도 일정한 제한이 있습니다. 날짜, 전기, 일일 퀴즈 등 stem이 아닌 주제에 대한 사실적 지식의 경우 o1-mini는 다소 제한적이며 gpt-4o mini와 같은 소형 모델과 동등한 수준의 성능을 발휘합니다. openai는 향후 버전에서 이러한 제한 사항을 개선하고 stem을 넘어 다른 전공 및 양식으로 모델을 확장할 것이라고 말했습니다.

3. 추론 마커를 도입하고 사고 사슬을 사용하여 문제를 해결합니다.

인간과 마찬가지로 o1은 어려운 질문에 답하기 전에 오랫동안 생각하고 사용합니다.생각의 사슬。

강화 학습을 통해 o1은 사고 사슬을 개선하고 전략을 사용하는 방법을 배웠습니다. 실수를 식별하고 수정하고, 까다로운 단계를 더 간단한 단계로 나누고, 현재 방법이 작동하지 않을 때 다른 접근 방식을 시도하는 능력입니다. 이 프로세스는 모델의 추론 능력을 크게 향상시킵니다.

특히 o1 모델은 다음을 도입합니다.추론 표시(추론 토큰). 이러한 추론 마커는 "생각"하고, 프롬프트에 대한 단어 이해를 분석하고, 응답을 생성하는 다양한 방법을 고려하는 데 사용됩니다. 추론 토큰이 생성된 후 모델은 눈에 보이는 완료 토큰으로 답변을 생성하고 해당 컨텍스트에서 추론 토큰을 삭제합니다.

다음은 사용자와 모델 간의 다단계 대화의 예입니다. 각 단계의 입력 및 출력 토큰은 유지되고 추론 토큰은 삭제됩니다.

▲o1 모델 추론 과정

openai가 대규모 강화학습 알고리즘 훈련을 실시했을 때,집중적인 학습과 사고의 시간이 늘어나면서,, 또는 오히려훈련시간과 시험시간이 늘어남에 따라，o1의 성능은 계속해서 향상될 것입니다. 이는 대규모 모델 사전 학습의 스케일링 법칙과 매우 다릅니다.

▲o1 성능은 훈련 시간과 테스트 시간 계산에 따라 꾸준히 향상됩니다.

openai는 o1이 이룬 도약을 보여주기 위해 프로그래밍, 수학, 디코딩, 영어 등의 문제를 해결할 때 o1 프리뷰 버전에서 생성된 사고의 사슬을 공개했습니다.

예를 들어,질문 디코딩, gpt-4o는 먼저 입력, 출력 및 예제를 분해한 다음 가능한 디코딩 방법을 분석하기 시작했습니다.

▲gpt-4o 분해 입력, 출력 및 예시

첫 번째 구문이 예제와 동일한 구조를 따를 수 있다고 추측하여 입력 텍스트가 자연스러운 분리나 패턴을 기반으로 그룹으로 분류되는 것처럼 보였지만 나중에는 변환이나 문자 이동에 대한 추가 정보가 필요하다고 말하면서 작동을 멈췄습니다. 비트 컨텍스트에 참여하십시오.

▲gpt-4o는 더 많은 정보가 필요하다고 말했다

반면 openai o1-preview는 몇 가지 생각을 거쳤습니다.답변을 정확하게 주셨네요。

▲o1-preview는 디코딩 문제에 올바르게 답합니다.

제시된 최종 답변은 매우 짧았지만 o1의 사고 과정은 매우 길었고 그의 사고와 표현은 매우 인간적이었습니다. "여기서 무슨 일이 일어나고 있는지"라고 스스로에게 묻는 것부터 시작합니다.요청을 반복하세요, 그런 다음 시작작업을 세분화하고 목표를 명확히 합니다.。

▲o1 사고과정

그런 다음 o1이 시작됩니다.당신이 얻는 정보를 관찰하십시오,그리고단계별 분석。

▲o1 사고과정

약간의 추론 후에 o1이 시작됩니다.다양한 솔루션을 생각해 보세요. 이 과정에서 인간과 마찬가지로 갑자기 “잠깐만요, 제 생각에는…”라고 말하고 다시 생각하기 시작합니다.새로운 방법을 시도하다。

▲o1 사고과정

뿐만 아니라 o1의 사고 과정에는 "음", "흥미롭다"라는 단어도 등장합니다.구어체, 감정적표현.

▲o1 사고과정

전체적인 생각의 사슬은 매우 길기 때문에 여기서는 자세히 다루지 않겠습니다. 일반적으로 openai가 말했듯이 o1은 인간처럼 사고 과정을 지속적으로 개선하고, 새로운 전략을 시도하고, 자신의 실수를 인식하고 해결할 수 있습니다. 그리고 여기서 말하는 '사람과 같다'는 것은 사고방식에만 국한되지 않고 어조에도 반영된다.

4,매주 대화 가능30~50번, ilya는 기본 기여에 참여했습니다.

과거와 다르게 이번에는 openai가 미래를 상장하지 않았지만,온라인으로 직접 접속두 가지 모델.

이제부터 chatgpt plus 및 team 사용자는 chatgpt에서 o1 모델에 액세스하고 모델 선택기를 통해 o1-preview 또는 o1-mini를 수동으로 선택할 수 있으며 기업 및 교육 사용자는 다음 주부터 사용할 수 있으며 무료 사용자도 사용할 수 있습니다. 향후 계획에 액세스할 수 있습니다.

▲사용자는 chatgpt에서 o1 모델에 액세스할 수 있습니다.

그러나 아마도 보안이나 비용 고려 사항으로 인해 현재 두 모델 모두 미리 보기 버전과 미니 버전에서 메시지 수를 제한하고 있습니다.주당 전송되는 메시지 수는 각각 30개와 50개입니다.. openai는 할당량을 늘리고 chatgpt가 주어진 프롬프트 단어를 기반으로 적절한 모델을 자동으로 선택할 수 있도록 열심히 노력하고 있다고 말했습니다.

openai는 o1 모델의 api(응용 프로그래밍 인터페이스)도 출시했습니다. 자격을 갖춘 개발자는 이제 속도 제한이 20rpm인 두 모델 모두에 대해 api를 사용하여 프로토타입 제작을 시작할 수 있습니다. 이러한 api에는 현재 함수 호출, 스트리밍, 시스템 메시지 지원 및 기타 기능이 포함되어 있지 않습니다.

▲o1, o1 미니 모델 api

api 문서에서 볼 수 있듯이 이 두 모델은컨텍스트 창은 모두 128k입니다., 미니 버전의 출력 창이 더 긴 반면,o1의 두 배입니다.또한 두 모델의 훈련 데이터는 2023년 10월 기준이다.

openai는 또한 o1 모델 뒤에 있는 팀을 발표했습니다.핵심 팀원：

▲o1 모델을 만든 핵심 팀원들

~에기본 기여 회원은 21명입니다., 사업을 시작하기 위해 떠난 전 openai 수석 과학자 ilya sutskever도 포함됩니다.

팀장은 7명이다., 각각 jakub pachocki, jerry tworek(전체), liam fedus, lukasz kaiser, mark chen, szymon sidor, wojciech zaremba. 프로젝트 관리자는 lauren yang과 mianna chen입니다.

팀원들에 따르면, 추론은 생각하는 시간을 더 나은 결과로 바꾸는 능력입니다. 이전보다 더 많은 계산을 투자하고, 일관된 아이디어를 생성하기 위해 모델을 훈련했으며, 이전과는 전혀 다른 성능을 만들어냈습니다.

그들은 강화 학습을 사용하여 ai 모델을 훈련시켜 인간이 프로그래밍한 사고 사슬보다 훨씬 더 나은 자체 사고 사슬을 생성하고 연마합니다. 자체 사고 프로세스를 생성하도록 ai 모델을 훈련하는 이러한 방식은 오류를 이해하고 수정하는 능력을 크게 향상시키며, 초기 o1 모델은 이미 데이터 테스트에서 더 높은 점수를 획득했습니다.

핵심 기여자 및 기타 기여자 목록은 다음과 같습니다.

▲o1 핵심 기여자 및 기타 기여자 목록

행정리더로는 openai의 샘 알트만(sam altman) ceo, 그렉 브록만(greg brockman) 회장, 미라 무라티(mira murati) ceo 등 8명과 지원리더 8명이 포함된다.

▲o1 행정리더십, 지원리더십

새로운 o1 모델은 상황에 따라 보안 규칙을 보다 효과적으로 추론하고 활용할 수 있습니다. openai는 기존 리소스에서 발생할 수 있는 위험을 증가시키지 않고 모델이 안전하게 출시될 수 있도록 o1-preview에 대한 엄격한 테스트와 평가를 수행했습니다.

결론: openai가 판을 뒤집었다. "스트로베리"는 대형 모델 패턴을 재구성한다?

신비한 q* 모델부터 '딸기' 모델까지, openai의 새로운 모델이 드디어 출시되었습니다. 지난해 11월 오픈ai '쿠데타'가 시작된 이후 이 모델은 알트만 퇴출의 핵심 요인 중 하나로 드러났다. 당시 openai 내에서 q* 모델의 시연이 돌고 있다는 소문이 돌았고, 개발 속도는 일부 ai 보안 연구자들에게 충격을 안겼다.

gpt-4o와 달리 o1 모델 선택은 gpt의 연속 대신 새로운 번호 명명 시리즈를 직접 열어 openai가 이에 큰 중요성을 부여한다는 것을 보여줍니다.

이제 많은 대형 모델 제조업체가 다중 모드 및 볼륨 애플리케이션을 출시하기 시작했기 때문에 openai의 순수 텍스트 모델 o1 출시는 다시 한번 기본 모델 기능 개선에 대한 대중의 관심을 끌 수 있습니다. o1의 영향으로 대형 모델 풍경이 재구성될지는 아직 더 지켜봐야 할 문제입니다.

소식

openai 딸기모델 심야 습격! 물리 및 화학은 gpt-4o보다 훨씬 나은 박사 과정 수준에 도달하며 chatgpt를 사용할 수 있습니다.

소개

내 연락처 정보