"프로그래밍 직업 오늘로 끝난다" openai 새 모델의 무서운 점 o1

"프로그래밍 직업 오늘로 끝난다" openai 새 모델 o1의 무서운 점

2024-09-15

저자: fanfan, 편집자: odette, 제목 사진 출처: ai generation

예전 openai의 고층 지진을 아직도 기억하시나요?

샘 알트먼(sam altman)의 해임, 공동 창업자인 그렉 브록먼(greg brockman)의 퇴진, 그리고 openai 내부 갈등의 심화를 촉발한 것은 q*(q-star로 발음)라는 프로젝트였습니다.

이 문제에 정통한 사람들에 따르면 q* 프로젝트는 당시 상당한 진전을 이루었고 이미 기본적인 수학 문제를 해결할 수 있었습니다. 제한된 수의 연산만 풀 수 있는 계산기나, 같은 질문에 매번 다른 답을 내놓는 gpt-4와 달리,q*는 이미 agi를 향한 핵심 단계인 일반화, 학습 및 이해 능력을 갖추고 있을 수 있습니다.openai 연구진은 q*의 주요 발견이 모든 인류를 위협할 수 있다고 경고하는 편지를 이사회에 보냈지만 샘 알트만은 이를 숨겼습니다.

openai는 엄청난 내부 변화를 겪었고, openai 자체는 q*의 존재에 직접적으로 대응한 적이 없습니다.

오늘 openai는 갑자기 아직 프리뷰 버전인 새로운 모델을 출시했습니다. 이는 나중에 코드명 "strawberry"로 명명된 전설적인 q*이며 현재는 openai o1-preview입니다.

더 이상 chatgpt와 동일한 시리즈가 아닌 복잡한 문제 해결을 위한 새로운 추론 모델|openai

o, 여전히 모든 것을 포괄하는 o인 "omini"이지만 openai에 따르면 이 모델은 "인공지능의 새로운 경지를 대표"하고 작업 방식에 있어서 이전의 대형 모델과 매우 다르기 때문에 별도로 새로운 모델을 수립할 수 있습니다. 1부터 세는 시리즈(gpt5: 나이가 많아요!)

ilya sutskever와 기타 openai의 반항적인 전직 핵심 과학자들이 판단한 대로 이 모델이 "인류를 위협"하여 완벽한 도덕적 제약 없이 인류를 agi(인공지능) 시대로 밀어넣을 것인지에 대해서는 기사를 읽고 스스로 판단할 수 있습니다.

o1, 모든 것을 능가합니다

첫 번째는 익숙한 득점 링크입니다.

모든 세대의 대형 모델이 출시되어 전례 없는 새로운 높이에 도달하지만 이번에는 o1이 근본적으로 다릅니다.

현재 인기를 끌고 있는 대형 모델은 대부분 챗봇 형태로 사고 경로를 설명하기 어려운 형태로 개발 방향이 멀티모달(말하고, 보고, 들을 수 있음)이며 톤도 점점 인간과 가까워지고 있다. 그리고 반응. o1은 그들과 다릅니다.

우선, 그 목표는 점점 더 빨라지는 것이 아니며, 심지어 점점 더 느려지는 것도 아닙니다.

openai 과학자 noam brown은 현재 o1이 몇 초 안에 답변을 제공할 수 있지만 앞으로는 몇 시간, 며칠, 심지어 몇 주 동안 생각할 수 있어야 한다고 말했습니다. 그러다가 o1이 10초 이상 생각한 끝에 사례를 진단한 사진이 첨부되었습니다. 노암 브라운이 의미한 바는,추론 시간이 길다는 것은 모델이 더 긴 사고 사슬을 구축하고 더 깊은 사고를 수행할 수 있다는 것을 의미합니다.

둘째, o1은 이전의 대규모 언어 모델인 수학의 아킬레스건을 돌파합니다.

미국 수학 초청 시험인 aime은 올림피아드보다 간단하고 sat보다 훨씬 어렵습니다. 일반적으로 미국 수학 분야 최고의 고등학생을 선발하는 데 사용됩니다. gpt4-o가 초청대회 질문을 작성해 달라는 요청을 받았을 때 12점에 그쳤지만, o1은 단번에 질문에 답해 74점을 얻었다. 1,000번의 샘플링을 한 다음 채점 함수를 사용하여 1,000개의 샘플을 다시 정렬하면(이는 모델의 예상 수준을 더 잘 반영하게 됩니다) o1은 93점을 획득했으며 미국에서 상위 500위 안에 들 수 있으며 미국 최종 후보에 포함될 수 있습니다. 수학 올림피아드.

o1과 gpt-4o의 성능을 비교하면 수학적 진전이 매우 크다 |openai

o1이 2024년 국제 정보 올림피아드(ioi)의 질문을 작성하도록 하세요. 10시간 이내에 각 질문은 최대 50번까지 제출할 수 있으며 213점을 획득하여 인간 플레이어 중 상위 49%에 들었습니다.제출 수를 10,000개로 늘리면 o1은 362.14점을 획득해 ioi 금메달을 획득하고 칭화대학교에 추천받을 수 있습니다.

실제 테스트에서는 openai를 사용할 수 있는 미래 지향적인 버전이 아닌 미세 조정된 버전의 o1이 사용되었습니다.

또한, 사용할 수 없는 테스트도 많이 있습니다. 예를 들어 gpqa(물리, 화학, 생물학을 결합한 지능 테스트)에서 o1은 일부 질문에서 관련 분야의 박사 학위를 능가했습니다.

요컨대,이미 강력한 분야에서의 혁신은 더 이상 o1의 목적이 아니었습니다. 대규모 언어 모델이 잘 할 수 없는 복잡한 논리의 돌파구를 달성하는 것입니다.

한 걸음 뒤로, 두 걸음 앞으로

위에서 언급했듯이 o1의 반응 속도가 느려졌습니다.

반응하기 전에 생각하는 데 더 많은 시간이 걸리며 사고 과정을 다듬고 다양한 전략을 시도하며 실수로부터 배웁니다. 이건 무섭다.

게다가 o1은 이제 다중 모드 모델이 아닙니다. openai는 보고 들을 수 있는 대형 모델을 만드는 데 2년을 투자했습니다. 이제 원래의 성격으로 돌아왔고, o1은 문자 입력만 받을 수 있습니다.

o1의 경우 더 느리고 단조롭습니다.한 걸음 뒤로 물러나고 두 걸음 앞으로 나아가는 것입니다. o1을 사용해 본 사람들은 o1이 지금까지 사용해 본 모델 중 가장 똑똑하다고 말하며, o1과의 대화는 이전의 사소한 싸움을 넘어섰습니다.

한 테스트에서 사용자는 o1에게 "이 질문에 대한 답에는 몇 개의 단어가 있습니까?"라는 논리적 역설적 질문을 던졌습니다.

o1은 10초간 생각하고 자신의 사고 과정을 보여주었습니다. 우선 이는 자기지시적 역설, 즉 재귀적인 질문이라고 생각했고, 답이 정해져 있지 않으면 답에 포함된 단어의 개수도 정할 수 없다고 생각했다.“명확하고 간결한 답변을 위해서는 불필요한 표현을 피하는 것이 중요합니다”. 다음 단계는 단어 수를 세는 것입니다. 여기서 문장에 나타나는 숫자는 문장의 단어 수와 일치해야 합니다. 그런 다음 많은 문장을 나열하고 가장 적합한 일치 옵션을 찾았습니다. "이것은 5개의 단어가 있습니다"에는 5개의 단어가 있으므로 문장 구조를 완전한 답변으로 변경한 후 5개를 7개로 바꿔야 합니다.

그래서 그것은 이렇게 대답했습니다. "답변에는 7개의 단어가 있습니다."

이 추론 과정은 나의 추론 과정과 크게 다르지 않습니다 │x

또 다른 예에서 o1은 "스트라베리에 r이 몇 개 있습니까?"라는 간단한 질문에 대답하는 데 5.6초와 631개의 토큰이 걸렸습니다.

위의 예에서 알 수 있듯이o1의 작업 방식은 chatgpt와 근본적으로 다릅니다.이제 o1에는 질문을 여러 단계로 나누고 별도로 생각한 다음 추론 토큰을 제거하여 답변을 생성하는 추론 토큰이 추가되었습니다.

아래 그림은 아이디어 체인이 어떻게 작동하는지 보여주며, o1의 응답 속도가 느려진 이유도 설명합니다.

o1을 사용할 때 몇 가지 고전적인 논리 문제와 수학적 문제를 사용하여 그 능력을 테스트할 수도 있습니다.

어쩌면 간단한 질문에 답할 때는 여러 차례의 추론을 수행할지 여부의 차이가 분명하지 않지만, 코드 작성, 수학 문제 풀기, 과학의 복잡한 문제를 해결하는 데 사용된다면 이런 사고 능력은 필수적입니다.

openai는 논문에서 이제 의료인은 o1을 사용하여 세포 서열 분석 데이터에 주석을 달 수 있고, 물리학자는 o1을 사용하여 양자 광학에 필요한 복잡한 수학 공식을 생성할 수 있으며, 다양한 분야의 개발자는 o1을 사용하여 다단계 작업을 구축하고 수행할 수 있다고 밝혔습니다. . 프로세스.

게다가,이것이 사고방식의 원형이자 지혜의 초기 형태이다.

새로운 모델, 새로운 습관

o1의 작동 방식이 chatgpt와 다르기 때문에 이전에 프롬프트 작성 방법을 가르쳐 주었던 튜토리얼은 더 이상 적용할 수 없습니다. 현재 상황에서는 설명이 너무 많으면 많은 양의 토큰만 소비할 뿐 반드시 얻을 수는 없습니다. . 더 나은 결과.

모든 사용자에게 이를 명확하게 하기 위해 openai는 새로운 토큰 지침을 작성했습니다. 가이드에서 openai는 o1의 최상의 프롬프트는 직접적이고 간결하다고 모델에 단계별로 지시하거나 여러 개의 프롬프트 단어를 제공하는 것은 역효과를 낳을 수 있다고 설명합니다. 다음은 몇 가지 공식적인 권장 사항입니다.

프롬프트는 간단하고 직접적이어야 합니다. 모델은 너무 많은 지침이 필요하지 않은 간단하고 명확한 지침에 가장 잘 반응합니다.

프롬프트에서 생각의 사슬을 피하세요. o1은 자체 내부 추론을 수행하므로 단계별로 안내하고 사고 경로를 설명하는 것은 쓸모가 없습니다.

명확성을 높이려면 구분 기호를 사용하는 것이 좋습니다. "", <>, § 등의 구분 기호를 사용하여 프롬프트의 여러 부분을 명확하게 구분하면 모델이 문제를 일괄적으로 처리하는 데 도움이 됩니다.

향상된 생성에서 추가 컨텍스트 검색을 제한합니다. 모델을 지나치게 생각하지 않도록 가장 관련성이 높은 정보만 제공하세요.

세 번째 글을 보니 이 형식이 조금 익숙해진 느낌이 들었습니다. 미래의 프로그래머는 자연어 프로그래밍을 사용할 가능성이 높지만 기본 지침은 여전히 동일하지만 언어가 사용됩니다. 최신 지침에 따르면 좋은 프롬프트는 다음과 같습니다.

아니면 다음과 같습니다:

§ 진행자 § 작가 § 바 주인 § 유화 화가 § 가죽 세공인 § 은세공인 § 가수 § 탬버린 연주자 § 백패커 § 황금 왼쪽 뺨 § 프랑스 기사 § 선제자 §

나머지는 모델에게 맡기세요.

3d 뱀을 만들려면 잠시 시간을 주세요

뱀을 예로 든 이유가 있다. o1이 출시된 지 하루도 지나지 않아 사람들은 3d snake를 포함하여 많은 시도를 했습니다.

x의 @ammaar reshi는 매우 간단한 프롬프트를 사용하여 단 1분 만에 3d 뱀을 작성했으며 o1은 그에게 코드 사용 방법도 가르쳤습니다.

프롬프트 작성법을 배웠나요? ｜@ammaar reshi

비록 그 효과가 다소 투박하기는 하지만 탐욕스러운 뱀이 아니라고는 누구도 말할 수 없습니다.

그리고 꽤 재밌어요 ｜@ammaar reshi

네티즌 @james wade는 o1을 사용하여 각 배포에 대한 간략한 설명과 예시를 표시할 수 있는 데이터 분석 앱을 만들었습니다. 배포 시간을 포함하여 15분 밖에 걸리지 않았습니다. 그는 이렇게 말했습니다. 이전에는 이런 일을 하는 것이 너무 번거로웠습니다.

효과는 사진과 같습니다 ｜@james wade

16년 동안 일한 또 다른 풀스택 엔지니어 @dallas lones는 몇 분 만에 react native 풀스택 개발 앱을 만든 후 감격스럽게 말했습니다.하루빨리 사업을 시작하진 않았지만 이제 이 공예는 시대의 눈물이 됐다.그는 말했다,"프로그래밍이라는 직업이 오늘 공식적으로 종료됩니다."

o1의 한계에 도전하는 사람들이 늘어나고, 이미 o1을 플레이하고 있는 사람들도 있습니다."누가 더 어려운 질문이고 o1을 가장 오랫동안 생각하게 만들 수 있는지 봅시다."게임.

현재 o1은 chatgpt plus 및 team 사용자에게 먼저 개방되어 있으며, api 액세스는 openai api에 $1,000 이상을 지출하는 레벨 5 사용자에게 먼저 개방됩니다. 다음 단계에서 openai는 점차적으로 o1-mini의 로우 프로파일 버전을 무료 사용자에게 공개할 예정입니다.

이것이 인류의 일몰이 될 것인가?

소식

"프로그래밍 직업 오늘로 끝난다" openai 새 모델 o1의 무서운 점

소개

내 연락처 정보