소식

openai, 새로운 o1 모델 출시: 인간만큼 "사려깊은" 모델

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

저자│수호이

별다른 사전 대책 없이 openai가 오랫동안 기다려온 '스트로베리' 모델이 출시됐다.

o1 모델 소개 부분, 출처: openai

베이징 시간으로 오늘 이른 아침, openai는 openai o1이라는 새로운 모델을 출시했습니다. 이 모델 역시 이전에 보고된 "strawberry"였지만 처음에는 o1의 코드명이 "q*"였습니다. openai ceo 샘 알트만(sam altman)은 이를 “새로운 패러다임의 시작”이라고 불렀습니다.

openai의 공식 정보에 따르면,요약하자면, o1의 특징은 더 크고, 더 강하고, 느리고, 더 비쌉니다.

강화 학습(reinforcement learning)을 통해 openai o1은 추론 능력에 있어 상당한 발전을 이루었습니다. r&d팀은 훈련 시간(강화학습 증가)과 사고 시간(테스트 중 계산)이 길어짐에 따라 o1 모델의 성능이 점차 향상되는 것을 관찰했습니다. 이 접근 방식을 확장하는 데 따른 과제는 llm(대형 언어 모델)의 사전 학습 제한과 다릅니다.

o1 성능은 훈련 시간과 테스트 시간 계산에 따라 꾸준히 향상됩니다. 출처: openai

"o1 모델은 사용자를 위한 브라우저 또는 시스템 운영 수준 작업을 독립적으로 수행할 수 있다"는 시장의 소문과 관련하여 현재 공개 정보에는 이 기능이 언급되어 있지 않습니다.

openai 관계자는 “이 초기 모델에는 아직 온라인 정보 검색, 파일, 사진 업로드 등의 기능은 없지만, 복잡한 추론 문제를 해결하는 데에는 상당한 진전이 있어 새로운 차원의 인공지능 기술을 제시했다”고 말했다. 이 시리즈에 새로운 출발점을 부여하고 이름을 openai o1로 지정하기로 결정했습니다.”o1의 주요 애플리케이션은 여전히 ​​브라우저나 운영체제를 직접 제어하기보다는 텍스트 상호작용을 통한 질문 답변 및 분석에 중점을 두고 있습니다.

이전 버전과 달리,o1 모델은 인간처럼 대답하기 전에 "깊이 생각"합니다.내부 아이디어의 긴 체인을 생성하고 다양한 전략을 시도하고 자신의 실수를 식별하는 데 약 10-20초가 걸립니다.

이 강력한 추론 능력은 o1에게 여러 산업, 특히 복잡한 과학, 수학 및 프로그래밍 작업에서 광범위한 응용 가능성을 제공합니다. 물리학, 화학, 생물학 문제를 다룰 때 o1의 성과는 해당 분야의 박사 과정 학생의 성과와도 비교할 수 없습니다. 국제수학올림피아드 자격시험(aime)에서 o1의 정확도는 83%로 미국 내 상위 500위권 학생 대열에 성공적으로 진입한 반면, gpt-4o 모델의 정확도는 13%에 불과했다.

altman은 또한 x에서 o1을 공유했습니다. 출처: x

openai는 몇 가지 구체적인 사용 사례를 제공합니다. 예를 들어 의학 연구자는 o1을 사용하여 세포 서열 분석 데이터에 주석을 달 수 있고, 물리학자는 o1을 사용하여 양자 광학에 필요한 복잡한 수학 공식을 생성하고 복잡한 다단계 워크플로를 구축하고 실행할 수 있습니다. 더.

o1 시리즈에는 openai o1, openai o1-preview 및 openai o1-mini의 세 가지 모델이 포함됩니다. 두 모델 모두 오늘부터 사용자에게 제공됩니다.

오픈ai 오1: 고급 추론 모델, 일시적으로 대중에게 공개되지 않습니다.

openai o1-미리보기: 이 버전은 좀 더 심층적인 추론 처리에 중점을 두고 있으며, 주당 30회 사용할 수 있습니다.

오픈ai 오1미니: 이 버전은 더욱 효율적이고 비용 효율적이며 코딩 작업에 적합하며 주당 50회 사용할 수 있습니다.

개발자와 연구원은 이제 chatgpt 및 애플리케이션 프로그래밍 인터페이스를 통해 이러한 모델에 액세스할 수 있습니다.

가격에 관해서는 앞서 더인포메이션이 오픈ai 경영진이 곧 출시될 대형 신형 모델인 '스트로베리'와 '오리온'의 가격을 월 2,000달러로 논의하고 있다는 소식을 전해 많은 불만과 비난을 불러일으켰다. 그러나 오늘 누군가 chatgpt pro 멤버십이 이미 온라인에 있으며 월 가격이 us$200라는 사실을 발견했습니다. us$2,000에서 us$200까지의 격차는 openai가 가격에 대한 심리전을 벌인 것이 분명하다는 것을 의미합니다.

올해 5월에는알트만, mit 총장 샐리 콘블루스(sally kornbluth) 만나노변담화에서 언급됐는데,gpt-5는 추론 엔진에서 데이터를 분리할 수 있습니다.

"gpt-5 또는 gpt-6는 최고의 추론 엔진이 될 수 있습니다. 현재 최고의 엔진을 달성하는 유일한 방법은 대량의 데이터를 훈련시키는 것입니다."그러나 실제로 모델은 데이터를 처리할 때 많은 데이터 리소스를 낭비합니다.gpt-4와 같은 것. 또한 추론이 느리고 비용이 많이 들고 "이상적이지 않다"는 점을 제외하면 데이터베이스처럼 작동합니다.이러한 문제는 본질적으로 모델이 설계되고 훈련되는 방식으로 인해 발생하는 리소스 낭비입니다.

"필연적으로 이것은 추론 엔진을 위한 모델을 만들 수 있는 유일한 방법의 부작용입니다." 그는 미래에 새로운 접근 방식을 예측할 수 있습니다.모델의 추론 능력과 빅데이터 수요를 분리하는 것이다.

하지만 오늘 출시에서는 gpt-5가 나오지 않았고, 데이터와 추론 엔진을 분리한다는 아이디어도 빠졌습니다.

가격에 관해서는 앞서 오픈ai 경영진이 신형 대형 모델인 '스트로베리'와 '오리온'의 가격을 월 2000달러로 책정할 계획이라는 소식을 더인포메이션이 보도해 많은 불만과 비난을 불러일으켰다. 그러나 오늘 누군가 chatgpt pro 멤버십이 이미 온라인에 있으며 월 가격이 us$200라는 사실을 발견했습니다.

us$2,000에서 us$200까지의 격차로 인해 사용자는 가격에 대한 심리전이 openai에 의해 진행되고 있다는 느낌을 받지 않게 됩니다.

2. '사고 사슬'을 다듬으세요.

대형 모델은 "계산 불가능"이라는 이유로 항상 비판을 받아 왔습니다.근본적인 이유는 대형 모델에는 구조화된 추론을 수행하는 능력이 부족하기 때문입니다.

추론은 인간 지능의 핵심 능력 중 하나입니다.대형 모델은 주로 뉴스 기사, 책, 웹 페이지 텍스트 등을 포함하는 구조화되지 않은 텍스트 데이터를 통해 훈련됩니다. 텍스트는 자연어 형태로 엄격한 논리적, 구조적 규칙을 따르지 않기 때문에 모델이 학습하는 것은 고정된 규칙에 따라 정보를 논리적으로 추론하거나 처리하는 방법보다는 맥락에 따라 언어를 생성하는 방법을 주로 학습합니다.

그러나 많은 복잡한 추론 작업은 구조화되어 있습니다.

논리적 추론, 수학적 문제 해결 또는 프로그래밍 등. 미로에서 벗어나고 싶다면 출구를 찾기 위해 일련의 논리적, 공간적 규칙을 따라야 합니다. 이러한 유형의 문제를 해결하려면 모델이 일련의 고정된 단계 또는 규칙을 이해하고 적용할 수 있어야 하는데, 이는 대부분의 대형 모델에는 부족한 부분입니다.

따라서 chatgpt 및 bard와 같은 모델은 훈련 데이터를 기반으로 겉보기에 합리적인 답을 생성할 수 있지만 실제로는 "확률적 앵무새"에 더 가깝습니다.그들은 종종 그 뒤에 있는 복잡한 논리를 진정으로 이해하지 못하거나 고급 추론 작업을 수행하지 못합니다.

훈련 데이터의 초점이 바로 이것이기 때문에 구조화되지 않은 자연어 텍스트를 처리할 때 대형 모델이 잘 작동한다는 점을 기억하세요. 그러나 구조화된 논리적 추론이 필요한 작업의 경우 인간과 같은 정확도로 수행하는 데 어려움을 겪는 경우가 많습니다.

이 문제를 해결하기 위해 openai는 다음을 사용하는 것을 생각했습니다.cot(사고의 사슬)"상황을 깨뜨리기" 위해 오십시오.

사고체이닝(thought chaining)은 ai 모델의 추론을 돕는 기술이다. 복잡한 질문에 답할 때 직접 답변을 제공하는 대신 모델이 추론 프로세스의 각 단계를 단계별로 설명하도록 함으로써 작동합니다. 따라서 모델이 질문에 답할 때 인간이 문제를 해결할 때와 마찬가지로 먼저 각 단계의 논리를 생각한 다음 점차적으로 최종 결과를 추론합니다.

그러나 ai 훈련 과정에서 사고 사슬을 수동으로 라벨링하는 것은 시간이 많이 걸리고 비용이 많이 듭니다. 확장법의 지침에 따라 필요한 데이터의 양은 기본적으로 인간에게는 불가능한 작업입니다.

이 시점에서는 강화 학습이 보다 실용적인 대안이 됩니다.

강화 학습을 통해 모델은 연습과 시행착오를 통해 스스로 학습할 수 있으며, 각 단계를 수행하는 방법에 대한 수동 주석이 필요하지 않으며 대신 지속적인 실험과 피드백을 통해 문제 해결 방법을 최적화합니다.

특히, 모델은 문제를 해결하려고 시도하는 동안 취한 조치의 결과(좋은지 나쁜지)에 따라 동작을 조정합니다. 이러한 방식으로 모델은 여러 가지 가능한 솔루션을 자율적으로 탐색하고 시행착오를 통해 가장 효과적인 방법을 찾을 수 있습니다. 예를 들어 게임이나 시뮬레이션 환경에서 ai는 셀프 플레이를 통해 지속적으로 전략을 최적화하고, 결국 각 단계에 대한 수동 안내 없이 복잡한 작업을 정확하게 수행하는 방법을 학습할 수 있습니다.

예를 들어 2016년 바둑계를 휩쓸었던 알파고는 딥러닝과 강화학습 방식을 결합해 수많은 셀프플레이 게임을 통해 의사결정 모델을 지속적으로 최적화해 마침내 세계 최고 바둑기사 이승엽을 꺾는 데 성공했다. 세돌.

o1 모델은 alphago와 동일한 방법을 사용하여 문제를 점진적으로 해결합니다.

이 과정에서 o1은 강화 학습을 통해 사고 과정을 지속적으로 개선하고, 오류를 식별하고 수정하는 방법을 학습하며, 복잡한 단계를 간단한 부분으로 분해하고, 장애물에 직면할 때 새로운 방법을 시도합니다. 이 훈련 방법은 o1의 추론 능력을 크게 향상시키고 o1이 문제를 보다 효과적으로 해결할 수 있도록 해줍니다.

openai의 공동 창립자 중 한 명인 greg brockman은 이를 "매우 자랑스럽게 생각합니다"라고 말했습니다.강화 학습을 사용하여 모델을 훈련한 것은 이번이 처음입니다."라고 그는 말했다.

brockman의 트윗 일부, 출처: x

brockman에 따르면 openai의 모델은 원래 시스템 1 사고(빠르고 직관적인 의사 결정)를 수행한 반면 사고 체인 기술은 시스템 2 사고(신중하고 분석적인 사고)를 시작했습니다.

시스템 1 사고는 빠른 대응에 적합한 반면, 시스템 2 사고는 '사고 체인' 기술을 사용하여 모델이 단계별로 추론하고 문제를 해결할 수 있도록 합니다. 실습을 통해 지속적인 시행착오를 통해 모델을 처음부터 끝까지 완전히 학습하면(예: go 또는 dota와 같은 게임에 적용할 때) 모델의 성능이 크게 향상될 수 있음이 나타났습니다.

또한, o1 기술은 아직 개발 초기 단계임에도 불구하고 보안 측면에서 좋은 성능을 보여왔습니다. 예를 들어, 향상된 모델을 사용하면 공격에 대한 견고성을 향상하고 환각 현상의 위험을 줄이기 위한 전략에 대한 심층적인 추론을 수행할 수 있습니다. 이러한 심층 추론 능력은 이미 보안 평가에서 긍정적인 결과를 보여주기 시작했습니다.

"o1 모델을 기반으로 새로운 모델을 개발해 2024년 국제정보올림피아드(ioi) 대회에 참가하게 했고, 순위 49%에서 213점을 기록했다"고 밝혔습니다.

인간 참가자와 동일한 조건에서 경쟁하여 각각 50개의 제출 기회가 있는 6개의 알고리즘 문제를 해결했습니다. 선택 전략의 효율성은 여러 후보자를 선별하고 공개 테스트 사례, 모델 생성 테스트 사례 및 채점 기능을 기반으로 제출물을 선택하여 입증되며 평균 점수는 무작위 제출보다 높습니다.

제출 수를 질문당 10,000개로 완화했을 때 모델의 성능이 더 좋아지고 최고 기준보다 높은 점수를 받았습니다. 마지막으로, 이 모델은 시뮬레이션된 codeforces 프로그래밍 대회에서 "놀라운" 코딩 능력을 보여주었습니다. gpt-4o의 elo 등급은 808로, 이는 인간 경쟁자 중 11번째 백분위수에 속합니다. 그리고 우리의 새 모델은 1807의 elo 등급을 보유하여 경쟁사의 93%를 능가합니다.

추가적인 미세 조정을 통해 프로그래밍 경쟁에서 o1 모델의 성능이 향상되었습니다. 출처: openai

2. openai의 '어려운 시대'

o1이 출시되기 전에 openai는 회사의 핵심 고위 경영진의 변화에 ​​휩싸였습니다.

올해 2월, openai의 창립 멤버이자 연구 과학자인 andrej karpathy가 x에서 회사를 떠났다고 발표했습니다. 카파스는 “특정 사건이나 문제, 드라마 때문이 아니라” 우호적으로 openai를 떠났다고 말했다.

전 수석 과학자이자 공동 창립자인 ilya sutskever는 지난 5월 사임을 발표했으며 super alignment 팀도 해체되었습니다. 업계에서는 이것이 openai의 기술 혁신 추구와 ai 안전 보장 간의 균형이라고 믿고 있습니다.

오른쪽부터 ilya sutskvi, greg brockman, sam altman 및 mira mulati. 출처: 뉴욕 타임즈

ilya의 발표가 있은 지 몇 시간 후, rlhf의 발명가 중 한 명이자 super alignment 팀의 공동 책임자인 jan leike도 그의 뒤를 이어 떠났고, 이는 다시 한번 openai 섹스의 미래에 더 많은 불확실성을 더했습니다.

지난 8월 openai 공동 창립자이자 연구 과학자인 john schulman은 ai 정렬에 대한 심층적인 연구에 집중하기 위해 자신의 퇴사를 밝히고 anthropic에 합류했습니다. 그는 openai가 정렬 연구를 지원하지 않아서가 아니라 ai 정렬과 기술 작업에 집중하기 위해 출발했다고 설명했습니다. schulman은 openai의 동료들에게 감사를 표하고 향후 개발에 대해 "완전한 자신감"을 표명했습니다.

anthropic은 2020년 사임한 openai의 연구 부사장인 다리오 아모데이(dario amodei) 남매와 보안 및 정책 담당 부사장이었던 다니엘라 아모데이(daniela amodei)가 설립했습니다.

brockman은 또한 같은 달에 1년 간의 안식년을 발표했는데, 이는 9년 전 openai를 공동 창립한 이후 그의 "첫 장기 휴가"였습니다.

openai gpt-4o 및 gpt-5 모델 오디오 상호 작용 연구를 이끌고 있는 alexis conneau는 지난 9월 10일 사임을 발표하고 사업을 시작했습니다. conneau의 연구는 영화 "her"에서 보여준 기능을 구현하는 데 전념하고 있습니다. 음성인터랙션 경험은 부족하지만 관련 제품 출시가 계속 늦어지고 있습니다.

오픈ai는 설립 이후 비영리와 상용화라는 이중적 위상으로 많은 주목을 받아왔다. 상용화 과정이 가속화되면서 비영리 임무를 둘러싼 내부 긴장이 점점 더 뚜렷해졌고, 이는 팀원의 감소에도 영향을 미쳤습니다. 한편, 최근 엘론 머스크의 소송도 소모와 관련이 있을 수 있다.

openai 연구원 다니엘 코코타일로(daniel kokotajlo)는 사임 후 언론과의 독점 인터뷰에서 알트만이 지난해 발생한 '궁전투쟁' 사건 당시 잠깐 해고됐다가 곧바로 agi 보안에 주력하는 이사 3명을 복직시켰다고 밝혔다. "이로 인해 altman과 brockman은 권력을 더욱 강화할 수 있는 반면, agi 안전에 주로 관심을 두는 사람들은 소외됩니다. (altman) 그들은 2022년 회사의 계획에서 벗어납니다."

또한 openai는 최대 50억 달러의 손실과 최대 85억 달러의 운영 비용을 예상하는데, 그 중 대부분이 서버 임대 및 교육 비용입니다. 높은 운영 압박에 대처하기 위해 openai는 가치가 1,000억 달러를 초과할 수 있는 새로운 자금 조달을 모색하고 있으며 microsoft, apple, nvidia와 같은 잠재적 투자자들이 관심을 표명했습니다. 회사 경영진은 빠르게 증가하는 자본 수요를 지원하기 위해 전 세계적으로 투자를 모색하고 있습니다.

11일 뉴욕타임스 보도에 따르면 오픈ai도 자금 압박을 완화하기 위해 새로운 자금조달을 모색하고 있으며, 지난주 평가액 1000억 달러 규모로 약 10억 달러 규모의 자금 조달을 희망하기도 했다. 하지만 대규모 ai 시스템을 구축하는 데 필요한 컴퓨팅 파워는 비용 증가로 이어질 것이기 때문에 최근 조달 규모를 65억 달러로 늘리기로 결정했다.

그러나 일부 외신은 이 문제에 정통한 관계자와 미공개 내부 재무자료 분석을 인용해 오픈ai가 올해 최대 50억 달러에 달하는 막대한 손실을 입을 수 있고, 총 운영비용도 85억 달러에 달할 것으로 예상하고 있다고 전했다. 그 중 마이크로소프트에서 서버를 임대하는 비용은 40억 달러에 달하고, 데이터 트레이닝 비용은 30억 달러에 이른다. strawberry 및 orion과 같은 고급 모델의 높은 운영 비용으로 인해 회사에 대한 재정적 압박은 더욱 가중됩니다.

(표지 이미지 출처 : openai)