소식

무거운! '문제해결 논리를 생각'할 수 있는 대규모 openai 추론 모델이 등장해 인지도가 '과학박사 수준'으로 도약한다.

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

베이징 시간으로 금요일 오전 1시쯤, ai 시대가 새로운 출발점을 열었다. 마침내 일반 추론과 복잡한 추론이 가능한 대형 모델이 전면에 등장했다.

이미지 출처: visual china-vcg31n2008743681

openai는 공식 홈페이지를 통해 다음과 같이 발표했습니다.openai o1 미리보기 모델을 모든 구독자에게 푸시하기 시작했습니다. 널리 기대되는 "스트로베리" 대형 모델입니다.. openai는 복잡한 추론 작업의 경우새로운 모델은 새로운 수준의 인공 지능 기능을 나타냅니다., 따라서 개수를 1로 재설정하고 "gpt-4" 시리즈와 다른 새로운 이름을 부여하는 것이 좋습니다.

대규모 추론 모델의 특징은 다음과 같습니다.인간이 문제 해결 과정에 대해 생각하는 것처럼 ai는 대답하기 전에 생각하는 데 더 많은 시간을 할애합니다.. 이전 대형 모델의 논리는 수많은 데이터 세트의 패턴을 학습하여 단어 생성 순서를 예측하는 것이었습니다. 엄밀히 말하면 질문을 실제로 이해하지 못했습니다.

openai는 o1 시리즈 모델의 첫 번째 버전으로 o1-preview 프리뷰 버전과 o1-mini 미니 버전만 출시했으며 유료 사용자, 무료 사용자, 개발자를 대상으로 단계적으로 출시되었으며 개발자를 위한 가격이 상당히 비쌉니다. .

o1 모델을 사용하는 비용은 gpt-4o보다 최소 3배 이상 새로운 방법을 사용하여 학습됩니다.

보고서에 따르면 o1 새 모델은 새로운 훈련 방법을 통해 더 복잡한 프로그래밍, 수학 및 과학적 문제에 답할 수 있으며 답을 제공하기 전에 "생각"하며 인간보다 빠릅니다. 더 작고 저렴한 미니 버전은 프로그래밍 사용 사례에 중점을 둡니다.

chatgpt plus 및 team 유료 사용자는 사용자 인터페이스의 ai 모델 선택기 드롭다운 메뉴에서 수동으로 선택하여 두 모델에 즉시 액세스할 수 있습니다. 두 모드 모두 다음 주에 chatgpt enterprise 및 edu 사용자에게 제공될 예정이며, o1-mini에 대한 액세스는 향후 알려지지 않은 시간에 모든 무료 사용자에게 제공될 예정입니다. openai는 향후 프롬프트를 기반으로 올바른 모델을 자동으로 선택하기를 희망합니다.

그러나 o1에 대한 개발자 액세스 비용은 매우 비쌉니다. api(응용 프로그래밍 인터페이스)에서 o1-preview는 gpt-4o 비용의 3배인 100만 개당 15달러, 100만 개 출력 토큰당 60달러를 청구합니다. gpt-4o 비용의 4배. 100만 개의 토큰은 모델이 구문 분석하는 텍스트 블록의 크기로, 약 750,000단어에 해당합니다.

openai 연구 책임자인 jerry tworek은 언론에 다음과 같이 말했습니다.오1그 뒤에 있는 훈련 방법은 이전 모델과 근본적으로 다릅니다.

첫째, o1은 "추론 데이터"와 특별히 맞춤화된 과학 문헌이 포함된 "완전히 새로운 최적화 알고리즘과 이에 맞게 특별히 맞춤화된 새로운 훈련 데이터 세트를 사용하여 훈련되었습니다."

둘째, 이전 gpt 모델 훈련 방법은 데이터 세트의 규칙/패러다임을 모방하는 것이었지만 o1은 "강화 학습"을 사용하여 모델이 보상과 처벌을 통해 스스로 문제를 해결하도록 가르친 다음 "아이디어 체인"을 통해 "(아이디어 체인) 생각) 사용자 쿼리 문제를 처리하고 인간이 문제를 단계별로 처리하는 방식과 유사한 사고 체인의 요약 버전을 제공합니다.

오른쪽 그림에서 아이디어 체인을 클릭하면 o1 모델이 어떻게 "생각"하는지 확인할 수 있습니다.

복잡한 수학 문제에 대한 일련의 아이디어를 보여주는 다이어그램

openai는 이 새로운 훈련 방법이 o1 모델의 정확성을 높이고 답을 구성하는 '환각' 문제를 줄일 것이라고 믿고 있지만, '환각' 발생을 완전히 없앨 수는 없습니다. 새 모델과 gpt-4o의 주요 차이점은 프로그래밍, 수학과 같은 복잡한 문제를 더 잘 해결할 수 있을 뿐만 아니라 추론 과정을 개선하고, 다양한 전략을 시도하고, 자체 답변에서 오류를 식별하고 수정할 수 있다는 것입니다.

인지도 '과학박사 수준'으로 도약

openai는 2023년 출시되는 gpt-4가 고등학생의 지능 수준과 유사한 반면, gpt-5는 '고교생에서 박사학위까지' ai의 성장을 완성한다고 설명했다. 이 o1 모델은 핵심 단계입니다.

openai o1은 gpt-4o 등 기존 대형 모델에 비해 더 어려운 추론 문제를 해결하는 동시에 과거 모델에 존재했던 기계적 결함을 개선할 수 있다.

예를 들어, 새 모델은 딸기에 "r"이 몇 개 있는지 계산할 수 있습니다.

동시에 ai는 프로그래밍 질문에 답할 때 더욱 체계화될 것입니다.코드 작성을 시작하기 전에 전체 답변 프로세스를 생각해보세요.를 클릭한 다음 코드를 출력합니다.

예를 들어, 미리 설정된 조건(예: 두 번째 문장의 마지막 단어는 i로 끝나야 함)이 있는 시 쓰기 과제에서 "펜을 집어 글을 쓴다"는 gpt-4o가 답변을 제공하지만 종종 조건 중 일부만 충족되는 경우에도 자체 수정되지 않습니다. 이는 ai가 처음 생성될 때 정답을 만나야 하며, 그렇지 않으면 실수를 하게 된다는 것을 의미합니다. 그러나 o1 모델에서는 ai가 계속해서 시행착오를 거치며 답을 다듬어 생성된 결과의 정확성과 품질을 크게 향상시킵니다.

재미있는 점은 ai의 사고 과정을 클릭하면 "이런 생각을 하고 있는 중인데 이걸 해도 되는 걸까?", "아, 시간이 부족해, 나"라고 말하는 ai도 등장한다는 점이다. 최대한 빨리 답변을 드려야 한다” 등의 반응을 보였다. openai는 여기에 나타난 것이 본래의 사고방식이 아닌 '모델이 생성한 요약'임을 확인했고, 여기에 '경쟁우위'를 유지할 수 있는 요소가 있다는 점도 솔직하게 인정했다.

openai 연구 책임자인 jerry tworek은 o1 모델의 학습이 이전 제품과 근본적으로 다르다고 밝혔습니다.이전 gpt 모델은 훈련 데이터의 패턴을 모방하도록 설계되었지만 o1은 자체적으로 문제를 해결하도록 훈련되었습니다. 강화 학습 과정에서 보상 및 처벌 메커니즘은 인간이 문제를 분해하고 분석하는 방법을 배우는 것과 마찬가지로 "사고 사슬"을 사용하여 문제를 처리하도록 ai를 "교육"하는 데 사용됩니다.

테스트에 따르면,o1 모델은 국제 수학 올림피아드 자격 시험에서 83%의 점수를 얻은 반면, gpt-4o는 문제의 13%만 올바르게 풀 수 있었습니다.프로그래밍 능력 대회인 codeforces에서 o1 모델은 89%를 얻은 반면 gpt-4o는 11%에 그쳤습니다.

openai는 테스트를 기반으로 다음 업데이트 버전에서ai는 물리학, 화학, 생물학 분야의 까다로운 벤치마크에서 박사 학위 수준의 성능을 발휘할 수 있습니다.

단점: 실시간 웹페이지 탐색 불가, 파일 및 사진 업로드 불가, 광범위한 세계 지식 부족, 환각에 취약함

하지만 o1 모델의 초기 버전인 만큼, 오늘 출시된 o1-프리뷰 버전 역시 분명한 단점을 갖고 있습니다. 예를 들어 일시적으로 웹 정보를 검색하고 파일과 사진을 업로드할 수 없는 "텍스트 전용 버전"일 뿐이므로 chatgpt의 많은 기능이 없다는 의미입니다. 일반적으로 gpt-4o만큼 강력하지는 않습니다. 사용 사례가 있으며 사용 제한이 있습니다. o1 미리보기 버전은 주간 메시지 30개로 제한되며, 미니 버전은 주간 메시지 50개로 제한됩니다.

언급된 다른 제한 사항은 다음과 같습니다. o1 모델은 많은 영역에서 gpt-4o만큼 능력이 없으며 세계에 대한 사실 지식에서 성능이 좋지 않습니다. 일부 사용 사례에서는 추론 능력이 느리고 질문에 답하는 데 시간이 더 오래 걸릴 수 있습니다. 순수한 텍스트 모델일 뿐이며, 특정 문서에 대해 추론하거나 네트워크에서 실시간 정보를 수집하는 능력이 부족합니다.

또한 ai 모델이 tic-tac-toe를 플레이하도록 하는 것은 업계에서 항상 문제로 여겨져 왔습니다. 추론 기능을 갖춘 새로운 o1 모델은 이 게임에서 여전히 실수를 할 것입니다. 즉, 기술적 어려움을 완전히 극복할 수는 없습니다. .

openai는 또한 기술 문서에서 o1 프리뷰와 미니 버전이 gpt-4o와 그 미니 버전보다 "환상"을 생성할 가능성이 더 높다는 "일화적인 피드백"을 받았다고 인정했습니다. 자신감 있게 답을 만들어내면 o1은 질문에 대한 답을 모른다는 사실을 거의 인정하지 않습니다.

유명 기술 매체인 테크크런치(techcrunch)는 openai가 o1 모델과 관련된 블로그 게시물에서 이 새로운 모델의 원래 '사고 사슬'을 사용자에게 보여주지 않기로 결정했지만, 그 내용을 요약하여 제공하기로 결정했다고 지적했습니다. 목적은 "경쟁 우위"를 유지하고 가능한 단점을 보완하기 위해 "우리는 답변에서 사고 체인의 유용한 아이디어를 재현하도록 모델을 가르치기 위해 노력합니다."

매일경제뉴스 종합홍보

매일 경제 뉴스

보고/피드백