2024-09-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
텍스트丨허 치안밍
편집자丨cheng manqi huang junjie
openai의 올해 가장 중요한 제품인 o1 모델이 예정대로 출시되었습니다. ai 분야 최대 수익 창출자인 엔비디아 주가가 이틀 만에 10% 상승했다.
질문에 답하기 위해 더 많은 컴퓨팅 파워를 소비하는 o1은 답변을 하기 전에 질문을 볼 때 수십 초 또는 그보다 더 오랜 시간 동안 "생각"합니다. openai는 이미 시중에 나와 있는 대형 모델보다 올림피아드 수학 질문에 답하거나 프로그래밍 작업을 훨씬 더 잘 완료할 수 있다고 말합니다.
그러나 openai ceo 샘 알트먼(sam altman)의 좋은 기분은 금세 깨졌습니다. o1의 정식 출시를 알리는 그의 트윗에서 가장 많은 댓글은 "새로운 음성 기능은 언제 출시되나요?"였습니다. 그는 즉시 "이 마법에 대해 몇 주만 시간을 내어 감사 인사를 드려도 될까요?"라고 반박했습니다. 새 장난감?”
altman 이후 이 사용자가 원하는 것은 새로운 장난감이 아니라 openai가 올해 5월 약속한 곧 출시될 gpt-4o 엔드투엔드 음성 기능입니다. 당시 라이브 시연에서 이 새로운 ai는 자연스러워 보였고, 매우 빠르게 반응했으며, 언제 중단해야 할지 알았기 때문에 다른 사람들이 진실과 거짓을 구별하기 어렵게 만들었습니다. 공식 일정에 따르면 수천만 명의 chatgpt 유료 사용자가 몇 주 내에 이 기능을 사용할 예정이었지만 지금까지 지연되었습니다.
지난 1년 동안 openai의 제품은 유사한 "미래"였습니다. gpt-4는 온라인에 출시된 지 1년이 넘었지만 openai의 차세대 모델 gpt-5는 아직 출시될 조짐이 없습니다. 올해 초 오픈ai가 출시한 영상모델 소라(sora)는 아직 대규모로 출시되지 않았다. 현재까지 오픈ai가 선정한 소수의 업계 전문가만이 실제로 사용하고 있다.
업계 최고의 지연으로 인해 대규모 ai 모델에 대한 자본 시장의 인내심이 반복적으로 지쳤습니다. 일부 중국 기술 대기업과 대형 모델 회사는 올해 중반에 기본 모델 교육을 중단하고 애플리케이션 개발에 더 많은 리소스를 투자하거나 gpu 컴퓨팅 성능을 외부 고객에게 임대했습니다. 그들은 기술이 발전할 여지가 별로 없다고 걱정하여 투자를 줄이고 수익을 위해 노력하기 시작합니다.
이번 주 이전 엔비디아의 시장 가치는 6월 최고치보다 20% 이상 떨어졌고, 마이크로소프트의 시장 가치도 13% 감소해 각각 수천억 달러의 손실을 입었다. 마이크로소프트의 cfo는 대형 모델 분야에 투자한 수백억 달러가 회복되려면 15년 이상 기다려야 할 것이라고 말했다.
세쿼이아 조사에 따르면 ai 분야 투자는 지난해 매출 1200억 달러 이상을 넘어섰고, 올해는 5000억 달러까지 확대될 수도 있다. 그러나 nvidia를 제외하고 큰 비율의 매출 성장을 보인 회사는 거의 없습니다. 업계에서는 대형 모델의 역량이 여기서 그치면 ai 버블이 다시 터지지 않을까 하는 논의가 늘고 있다.
"거품"이 반드시 나쁜 것은 아닙니다. 새로운 기술이 세상을 바꾸기 전에, 비전이 현실을 훨씬 넘어서는 단계가 있을 것입니다. 차이점은 비전의 실현 여부와 실현 시기입니다. 장기적으로 달성할 수 없으면 거품이 터지고 회사는 파산할 것입니다. 심각한 거품 붕괴는 한 분야 또는 심지어 여러 경제를 무너뜨릴 수도 있습니다. 비전이 실현된다면 그것은 기술 진보의 각주에 지나지 않을 것입니다.
openai가 출시한 o1은 적어도 일시적으로 대형 모델에서는 진전의 여지가 없다는 망설임을 뒤집고 대형 모델의 '버블' 수명을 연장시켜 줄 것이다.
새로운 기술이 세상을 바꾸려면 계속해서 발전해야 합니다. o1의 독창성은 프로그래밍, 수학, 물리학 및 기타 분야의 성능이 크게 향상되었을 뿐만 아니라 openai 추종자 그룹과 그 뒤에 있는 투자자가 앞으로 나아갈 길을 찾았다는 것입니다. "지식 암기"에 힘이 더 많이 사용되었습니다 ——대량의 데이터를 사용하여 모델을 훈련함으로써 o1은 "질문에 답할 때 생각하기", 즉 추론 과정에 더 많은 컴퓨팅 능력을 할당하고 논리적 능력이 크게 향상됩니다.
이전에는 대규모 모델 훈련이 원래 스케일링 법칙의 병목 현상에 빠졌습니다. 모델 매개변수 스케일이 확장된 후 성능 개선이 점차 느려졌습니다.
수학, 프로그래밍, 과학 문제에 특별히 최적화된 o1-mini는 과학자와 개발자의 작업 효율성을 향상시키는 데 직접적인 도움이 될 뿐만 아니라 다른 고부가가치 수직 분야에서도 개발 성능과 보안을 나타낼 수 있어 상당한 응용 가능성을 보여줍니다. 더 나은 모델 접근 방식입니다.
여러 릴리스에서 늘 그렇듯이 openai는 o1 릴리스 시기를 신중하게 선택했습니다. 언론 보도에 따르면, openai는 o1 출시 전에 미화 1,500억 달러 가치로 미화 70억 달러의 신규 자금 조달을 모색하고 있었으며 잠재적 투자자로는 apple, nvidia, microsoft 및 아랍에미리트 투자 기금이 포함되어 있습니다. 이제 자원투자 경쟁을 계속해야 할 또 다른 이유가 생겼다.
대규모 언어 모델부터 '추론 모델'까지 o1은 이론에 강하고 문학에 약함
이번에 openai는 사용자를 위한 o1-preview와 o1-mini 두 가지 모델을 출시했으며, 더 많은 o1 시리즈 모델이 출시될 예정이라고 발표했습니다.
이 시리즈에 gpt를 사용하지 않고 o1이라는 이름을 붙인 이유는 둘의 훈련 방식에 확연한 변화가 있기 때문이다. o1을 소개하는 openai의 블로그 게시물에서는 이전에 gpt를 호출할 때 흔히 사용했던 대형 언어 모델(large language model) 대신 추론 모델(resoning model)이라고 여러 번 부르고 있습니다.
gpt와 같은 전통적인 대규모 언어 모델의 전반적인 학습 논리는 사전 학습과 미세 조정입니다. 먼저 대규모 데이터를 사용하여 대규모 모델이 사전 학습 단계에서 다음 단어를 예측하도록 가르친 다음, 예측하는 방법을 학습하게 합니다. 미세 조정 단계에서는 대형 모델이 특정 분야의 지식을 학습하고, 인간이 답변을 작성하여 사람들이 원하는 답변을 대형 모델에 가르치고, 기계는 피드백을 바탕으로 개선됩니다.
o1의 새로운 키워드는 강화학습(reinforcement learning)과 cot(chain of thought)입니다.
openai는 이 과정을 다음과 같이 설명합니다. “o1은 강화 학습을 통해 사고 사슬을 연마하고 사용하는 전략을 개선하는 방법을 배웁니다. 자신의 실수를 인식하고 수정하는 방법을 배웁니다. 현재 방법이 작동하지 않을 때 다른 방법을 시도하여 모델의 추론 기능을 크게 향상시킵니다."
2016년 바둑 세계 챔피언을 꺾은 알파고와 후속 모델인 알파제로(alphazero)는 강화학습을 사용해 모델이 스스로 플레이할 수 있도록 하고, 다양한 상태(게임)에서 승률을 높이기 위해 어떤 전략을 사용해야 하는지 학습했다. 모델은 모델을 훈련하기 위해 지속적인 시도를 통해 데이터를 생성할 수도 있습니다.
openai o1은 유사한 방법을 사용합니다. 대규모 모델에 단계별 문제 해결 데이터를 제공하여 모델이 자체 수정 방법을 학습하고 각 단계에서 질문에 대답하는 방법을 학습하여 최적의 답변을 얻을 수 있도록 합니다.
"ai 모델의 능력은 여전히 데이터에서 나옵니다. 원래 데이터에 누락되거나 부족한 것이 있으면 모델은 이를 학습할 수 없습니다. o1은 전문적인 데이터를 합성하는 방법을 구현하는 것과 같습니다. 이러한 전문적인 데이터를 가지고 , o1은 전문적인 역량을 배울 수 있습니다."라고 silicon mobile의 창립자인 yuan jinhui는 말했습니다.
o1 질문에 대답할 때 그는 질문을 일련의 작은 질문으로 나누고 단계별로 질문에 대답합니다. 이것이 "사고 사슬"입니다. openai 디스플레이에 따르면 o1이 질문에 답하는 과정은 다음과 같습니다(사용자가 사용하는 버전에서는 openai가 사고 체인의 내용을 숨깁니다).
질문(원래 영어):
행렬('[1,2],[3,4],[5,6]' 형식의 문자열로 표시됨)을 수신하고 동일한 형식으로 행렬의 전치를 인쇄하는 bash 스크립트를 작성하세요.
o1-preview의 문제 해결 아이디어(사고 사슬):
사용자가 '[1,2],[3,4],[5,6]'과 같은 행렬을 나타내는 문자열을 받아 동일한 형식으로 전치를 출력할 수 있는 bash 스크립트 작성을 요청했습니다.
먼저 입력 및 출력 형식을 이해해 보겠습니다.
입력: '[1,2],[3,4],[5,6]', 해당 행렬은 다음과 같습니다.
1 2
3 4
5 6
따라서 입력은 대괄호로 묶이고 쉼표로 구분된 일련의 줄입니다.
이 행렬의 전치는 다음과 같습니다.
1 3 5
2 4 6
따라서 필요한 출력은 '[1,3,5],[2,4,6]'입니다.
전체 임무:
하나의 인수(행렬을 나타내는 문자열)를 취하고 동일한 형식으로 전치를 출력하는 bash 스크립트를 작성하십시오.
자, 이제 bash에서 입력 문자열을 구문 분석하고, 행렬을 만들고(어쩌면 배열을 사용하여) 전치한 다음 동일한 형식을 유지하면서 전치된 행렬을 출력하는 방법을 고려해 보겠습니다.
제약:
- bash이므로 문자열 파싱에 주의해야 합니다.
-스크립트는 입력 문자열을 매개변수로 받아들여야 합니다.
방법:
- 입력 문자열을 구문 분석하여 행렬 요소를 추출합니다.
- 배열의 배열로 행렬을 구성합니다.
-행렬을 전치하십시오.
- 전치된 행렬을 동일한 형식으로 출력합니다.
구현 단계:
1. 입력 문자열을 매개변수로 캡처합니다.
2. 모든 공백을 제거합니다(있는 경우).
3. 입력 문자열을 구문 분석하고 숫자를 배열로 추출합니다.
- 입력 형식이 '[1,2],[3,4],[5,6]'이므로 다음을 수행할 수 있습니다.
--필요한 경우 외부 브래킷을 제거합니다.
--문자열을 '],'로 나누어 각 줄을 얻습니다.
--각 줄마다 '[' 및 ']'를 제거한 다음 ','로 구분된 요소를 가져옵니다.
4. bash에서 2차원 배열(배열의 배열)을 구성합니다.
- bash 배열은 1차원이므로 2차원 배열을 시뮬레이션해야 합니다.
5. 행렬을 전치합니다.
- 전치할 때 행과 열을 바꿔야 합니다.
6. 전치된 행렬을 원하는 형식으로 출력합니다.
- 출력 문자열을 '[1,3,5],[2,4,6]' 형식으로 재구성합니다.
이제 단계별로 코드 작성을 시작하세요.
잠재적인 문제:
-bash 자체에는 기본 다차원 배열이 없으므로 이를 시뮬레이션해야 합니다.
- 여러 자리 숫자를 처리해야 합니다.
다음으로, 이 bash 스크립트의 프레임워크 작성을 단계별로 시작할 수 있습니다.
【약간】
이제 예제 입력 '[1,2],[3,4],[5,6]'을 사용하여 이 스크립트를 테스트해 보겠습니다.
어떤 일이 일어날지 시뮬레이션해 보겠습니다.
답변으로 적어보겠습니다.
강화 학습이나 사고 연결은 openai가 제안한 최초의 기술 방향이 아닙니다.
o1이 온라인에 출시되기 전, google deepmind는 지난 7월 비슷한 방법으로 훈련된 alphageometry 모델의 업데이트 버전을 출시했으며, 이 모델은 국제 수학 올림피아드 imo에서 은메달을 획득할 수 있었습니다.
하지만 openai는 업계를 기반으로 더욱 놀라운 결과를 내는 모델을 내놓는 데 앞장설 수 있음을 다시 한번 입증했습니다. openai에 따르면 국제 정보 올림피아드(international informatics olympiad)를 위해 특별히 훈련된 o1-ioi 모델이 금메달을 획득할 수 있습니다.
새로운 훈련 및 추론 방법을 갖춘 openai o1-preview는 어려운 수학적 문제를 해결하고 프로그래밍 작업을 처리하는 데 있어 gpt-4o를 크게 능가합니다. 예를 들어, 경쟁 수학 데이터 세트 aime 2024에서 o1-preview 점수는 프로그래밍 경쟁 데이터 세트 codeforces에서 gpt-4o의 4배 이상이며, 그 격차는 5.6배가 됩니다.
수학 대회, 프로그래밍 대회, 과학 질문 및 답변 데이터 세트 테스트에서 o1-preview와 o1은 gpt-4o를 크게 능가했습니다.
openai는 현재 제한된 버전의 openai o1-preview와 openai o1-mini는 초기 버전일 뿐이라고 밝혔습니다. 그들의 다음 모델은 물리학, 화학, 생물학 등의 어려운 시험 문제에서 박사 과정 학생과 유사하게 수행되는 반면, 이전 모델은 대부분 학부 또는 석사 수준입니다.
기술을 현실로 바꾸는 openai에서는 212명의 기여자를 언급했는데, 이는 gpt-4o의 텍스트 부분 기여자(234명)와 맞먹는 수치입니다. 그러나 훈련 o1에는 더 많은 유형의 데이터가 필요합니다. openai는 o1 사전 훈련에 사용되는 데이터는 공개 데이터 세트, 파트너의 독점 데이터 및 내부적으로 개발된 사용자 정의 데이터 세트에서 나오는 반면, gpt-4o는 텍스트 기능을 마스터할 때 처음 두 가지 유형의 데이터만 사용한다고 언급했습니다.
"추론 모델"에 편향된 o1 시리즈는 아직 gpt-4o를 완전히 능가하지 못하고 있으며, 언어 능력이 상대적으로 약점입니다.
openai의 테스트에서 대부분의 사람들은 데이터 분석, 프로그래밍, 수학 등 추론을 중시하는 질문에 답하는 데에는 o1-preview가 gpt-4o보다 낫다고 생각합니다. 그러나 개인 글쓰기, 텍스트 편집 등의 측면에서는 gpt-4o가 좋습니다. 여전히 더 좋습니다.
gpt-4o로 해결할 수 없는 문제는 o1-preview에도 나타납니다. 예를 들어, "말도 안되는 소리"를 하고 9.11이 9.2보다 크다고 생각하게 됩니다.
개인 글쓰기, 텍스트 편집 등에는 gpt-4o가 더 좋습니다.
생각의 사슬이 가져오는 응답 시간(생각)이 길어진다는 것은 실제 사용하는 o1 시리즈의 단점일 수도 있습니다. "세 번째 글자가 a인 5개 국가의 이름을 나열하라"고 요청했을 때 gpt-4o는 3초밖에 걸리지 않았고, o1-mini는 9초, o1-preview는 32초, gpt-4o는 10번 걸렸습니다. 기본적으로 간단한 질문에는 사용할 수 없습니다.
당분간 o1-preview와 mini에는 gpt-4o처럼 웹 검색, 정보 획득, 업로드된 파일 및 사진 처리 기능이 없습니다. 현재 o1을 사용하여 생산성을 향상시킬 수 있는 가장 빠른 사람은 소프트웨어 개발자인 것 같지만 openai는 api 호출 방식에도 제한을 둡니다. 함수 호출, 스트리밍 및 기타 기능을 제외하면 분당 20회만 호출할 수 있습니다. 시스템 메시지 지원.
트레이닝 스케일링부터 추론 스케일링까지 컴퓨팅 파워 경쟁은 계속된다
많은 대형 모델 연구자들이 보기에 o1의 가장 중요한 변화는 대형 모델의 역량을 대폭 향상시킬 수 있는 새로운 길을 제시한다는 점이다.
원래 스케일링 법칙은 더 큰 매개변수로 모델을 훈련하기 위해 더 많은 데이터와 컴퓨팅 성능을 사용하면 더 나은 성능을 얻을 수 있음을 의미합니다.
아래 그림에서 볼 수 있듯이 o1은 모델이 질문에 답하는 데 더 많은 시간과 더 많은 컴퓨팅 성능을 소비하면(테스트 시간 컴퓨팅) 성능이 계속 향상된다는 것을 보여줍니다. nvidia 수석 ai 과학자 jim fan은 소셜 미디어에서 이것이 deepmind가 2022년에 chinchill scaling laws(원래 스케일링 법칙에 대한 최적화)를 제안한 이후 대규모 모델 연구에서 가장 중요한 그림일 수 있다고 말했습니다.
jim fan은 또한 대형 모델의 향후 진화 가능성을 제안했습니다. 미래의 모델은 추론과 지식을 분리할 수 있고 작은 "추론 코어"를 가지며 퀴즈 질문과 같은 테스트를 위해 많은 수의 매개변수를 사용하여 사실(지식)을 기억할 수 있습니다. 그리고 대답합니다. 뛰어난 성능.
openai는 또한 o1을 소개하는 기사에서 gpt 시리즈 모델을 계속 개발할 것이라고 구체적으로 언급했습니다. 이는 openai가 o1에서 사용된 방법을 차세대 gpt 모델에 도입할 것임을 의미할 수 있습니다.
o1이 새로운 주류 방법이 되거나, o1이 gpt 시리즈와 결합되어 차세대 대형 모델을 발전시키든, 컴퓨팅 성능 요구 사항은 더욱 증가해야 합니다.
openai는 o1 시리즈의 추론 비용을 공개하지 않았지만, o1 모델이 질문에 답변하는 데 걸리는 시간과 o1에 대한 openai의 사용 제한으로 인해 o1에는 gpt 시리즈보다 훨씬 더 많은 추론 컴퓨팅 리소스가 필요하다는 것을 유추할 수 있습니다.
월 20달러를 지출하는 chatgpt plus 유료 사용자는 현재 o1-preview를 주당 30회, o1-mini를 50회만 사용할 수 있습니다. 현재 gpt-4o의 제한 횟수는 주당 4480회(3시간마다 80회)로, 이는 o1-mini의 90배, o1-preview의 150배입니다.
o1-preview가 질문에 답변하는 데 걸리는 시간이 gpt 시리즈 모델의 경우 몇 초에서 수십 초 이상으로 늘어났습니다. 또한 질문에 답할 때 훨씬 더 많은 텍스트를 처리합니다. "사고 체인" 프로세스를 예로 들어 기사에 나열된 프로그래밍 문제를 살펴보겠습니다. o1이 이를 해결했을 때 사고 체인을 포함하여 gpt-4o의 4.2배인 6632자를 처리했습니다. 계산 시간이 길고 출력이 길어지면 컴퓨팅 전력 비용이 높아집니다.
o1 ai 전망과 컴퓨팅 파워 소비에 대한 자극은 자본 시장에 빠르게 반영되었습니다. 이번 주 초 언론에서 openai가 신모델 출시를 앞두고 있다는 보도가 나온 이후 엔비디아 주가는 10% 반등했고, 마이크로소프트도 동반 상승했다.
기술 발전의 방향이 확실하지 않거나 기본 모델에 대한 연구 속도가 느려진 기업의 경우 이제 해야 할 새로운 작업과 새로운 방향이 있습니다. o1 출시 확률이 높다는 것은 '추론 모델' 측면에서 다시 한 번 경쟁 격차가 벌어져 추격과 투자가 가속화될 것이라는 의미다.
한 중국 대형 모델 연구원은 "이제 본격적으로 사업을 시작해야 할 때다. 그렇지 않으면 우리는 더 이상 게임에 참여할 수 없게 될 것"이라고 말했다.
타이틀 사진 : 비주얼 차이나
1957년에 인간이 만든 물체가 처음으로 우주에 진입하여 3주 동안 지구 궤도를 돌았습니다. 인간이 위를 올려다보면 밤하늘을 가로질러 신화 속의 별들과 평행하게 줄지어 흐르는 작은 빛의 섬광을 볼 수 있습니다.
이러한 위업은 인종과 이념을 뛰어넘어 전 세계에 기쁨을 불러일으켰습니다. 그러나 인간의 위업에 감동받을 수도 있는 승리의 기쁨은 아니다. 당시 정치철학자 한나 아렌트(hannah arendt)의 관찰에 따르면, 사람들의 기분은 오랫동안 기다려온 안도감에 더 가깝습니다. 과학은 마침내 기대를 따라잡았고, “인류는 마침내 지구의 감옥에서 벗어나고 있습니다. 찍혔어."
사람들은 항상 기술 탐구를 기반으로 세상에 대한 기대치를 빠르게 조정합니다. 공상과학 작가의 환상이 현실이 되면 기술이 마침내 사람들의 기대를 따라잡는 경우가 종종 있는데, 아렌트의 말을 빌리자면 “기술은 사람들의 꿈이 미친 것도 아니고 허무주의적인 것도 아니라는 것을 깨닫고 확인시켜준다.”
요즘 같은 때에는 꿈을 더 꾸는 것이 좋습니다.
이는 '레이트포스트'가 tech tuesday 칼럼을 론칭하는 것에 대한 기대이기도 하다. "late"가 매일 주목하는 비즈니스 세계 외에도 새로운 과학 연구와 기술 진보를 정기적으로 소개하기를 희망합니다.
이는 최첨단 연구의 진행, 기술 응용에 대한 관찰, 뛰어난 기술에 대한 찬사 또는 시대에 관한 것일 수 있습니다.
이 칼럼은 과학과 기술의 관점에서 세상의 다양한 변화를 기록할 것입니다. 이 여행을 통해 독자들도 함께 참여하여 세상에 대해 조금 더 이해할 수 있기를 바랍니다.
· 핀 ·