소식

openai의 새로운 모델은 박사 학위와 비슷합니까? 나는 qingbei 박사에게 그것을 맛보라고 요청했습니다. 일어나십시오.

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

솔직히 말해서 저는 이 회사들을 참을 수 없습니다. 그들은 항상 한밤중에 큰 실수를 합니다. . .

특히 openai라는 이름으로, 이번에는 예고 없이 모두가 오랫동안 생각해 왔던 새로운 모델을 출시했습니다.

앞서 딸기는 딸기가 아니라고 말씀드렸는데, 며칠째 딸기 사진이 돌아다닙니다.

이에 따라 이번에 새로운 모델은 스트로베리 헤어와는 아무런 관련이 없고, 새로운 이름을 갖게 됐다.오픈 일체 포함 o1 모델

그리고 이것은 이미 openai의 zenith star technology로 알려져 있습니다. ultraman은 이것이 지금까지 가장 강력하고 일관된 모델이라는 메시지를 직접 게시했습니다.

이전과 다른 점은 openai가 이게 얼마나 대단한지 별로 자랑하지 않고 사진 몇 장을 가볍게 던져버려서 사람들이 좀 무감각해지는 느낌을 받았다는 점입니다.

아래 그림과 같이 국제 수학 올림피아드, 프로그래밍 대회, 박사 수준의 과학 문제 등 세 가지 테스트 프로젝트의 결과를 설명할 수 있습니다.

여기에서 가장 왼쪽이 gpt-4o이고, 가운데가 현재 공개된 프리뷰 버전 o1이며, 맨 오른쪽에 있는 키 큰 빨간 기둥이 전체 체력 o1입니다. 기본적으로 모든 항목을 살펴보세요. o1 그의 전임자와 비교하면,둘 다 거의 8배 향상되었습니다. . .

이러한 테스트 결과를 세분화하면 신형 o1은 거의 모든 분야와 분야에서 4o를 능가합니다.

나쁜 리뷰어들을 정말 기분 나쁘게 만드는 것은 openai가 질문에 답하기 위해 박사 학위 전문가를 특별히 초대했다고 말했다는 것입니다.

결과는 박사급 시험 결과를 바탕으로 하며,o1의 답변 점수가 박사 전문가의 답변 점수를 능가하는 것을 알 수 있습니다. o1은 78점, 인간은 69.7점을 얻었습니다. . .

박사님도 졌는데, 그거에 비하면 무슨 말입니까?

예민한 네티즌들은 즉각 충격에 빠졌다. 그는 다시 소리를 지르기 시작했고, 새로운 신이 나타났다.

무심코 살펴보면 '가장'이라는 단어로 매우 높은 평가를 받을 수 있을 것이다. "정말 대단하다!", "인간의 이성에 가장 가까운 것"

많은 친구들이 백스테이지에 와서 감동적으로 "오, 정말 뭔가가 있구나"라고 말하기도 했습니다.

정말 멋진데요? openai 자체도 분명히 같은 느낌을 받습니다.

openai가 이에 지출한 구체적인 금액은 공개되지 않았지만, 사용자들의 사용을 보면 이 일이 많은 비용이 든다는 것을 분명히 알 수 있습니다.

o1 미리보기 백만 입력당 $15, 백만 출력당 $60

이번에 유저들에게 공개되는 것은 순혈 버전도 아니고 초기 프리뷰 버전과 소형 거세 버전이다.

처음 시도해 본다고 해도 무료가 아닐 뿐만 아니라, 비용을 지불하고 회원이 되더라도 질문과 답변의 수가 제한됩니다.미리보기 버전에는 주당 30개의 항목만 있고, 미니 버전에는 주당 50개의 항목만 있습니다. . .

약간 비싸긴 하지만 openai가 그 내용을 자랑하도록 할 수는 없습니다.

의사 이상이라고 하지 않았나요?나쁜 리뷰어는 몇 개의 계정을 개설하고 개인적으로 테스트할 의사 몇 명을 찾았습니다.

전문성과 객관성을 확보하기 위해 생물학, 고체물리학, 재료화학 등 3개 과학 및 종합학문 분야의 박사학위를 특별히 초빙하여 평가에 참여시켰습니다.

안에,난징대학의 고체 물리학추이 박사님의 평가는 여러 사람 중에서 가장 높습니다. 그는 o1이 60-80점(100점 만점) 수준에 도달했다고 느낍니다.

부분적인 답변이라도 90점을 받을 수 있습니다.

cui 박사의 첫 번째 질문:얽힌 광자의 장거리 분포. 백색 잡음을 극복할 수 있는 방법이 있습니까?

약 9초 만에 o1은 10개의 실행 가능한 측정값을 제시했습니다.

물론 나에게는 단 하나의 요점도 명확하지 않습니다. 그러나 cui 박사의 평가는 수용 가능합니다. 답변은 최신 기존 연구 진행 상황에 맞춰 포괄적이며 대중 과학 수준의 답변입니다.

그중에서도 언급된 적응광학의 방향은 올해 가장 최근의 과학적 성과이기도 하다.

이전 버전 4o와 비교해 보면 차이점을 바로 알 수 있습니다.

새로운 방향이 언급되었는지 아닌지 말하지 마십시오. 단지 주어진 것입니다.측정 횟수에 있어서는 큰 차이가 있습니다

그래서 나중에 우리는 적응광학의 새로운 방향에 대해 구체적으로 물었습니다.신호 대 잡음비를 향상시키기 위해 어떤 양자 얽힘 원리가 사용됩니까? 양자적응광학으로 확장할 수 있나요?

몇 차례의 답변 끝에 추이 박사님은 80~90점이라는 높은 점수를 주셨고, 그 생각의 일부가 자신의 약점이었다는 사실도 아낌없이 인정해주셨고, 이것이 자신의 방향에 대한 단서가 되었습니다.

그런데 나중에 추가 문의를 해보니 문제가 드러났습니다. 더 어려운 실험 세부 사항에 대해 질문하면 o1 답변의 효율성이 떨어집니다.

하지만 전반적으로 물리학적인 측면에서 o1의 성능은 꽤 좋습니다. 이전 버전과 비교하면 기본적으로 약 20포인트 정도 개선되었습니다.

하지만 openai의 테스트에서는 물리학이 가장 높은 점수를 받았습니다. 그래서 우리는 하나 더 가져왔어북경대학교 독서자료화학적인닥터k, 가장 낮은 평점을 받은 화학에 관해 어려운 질문을 드리고 싶습니다.

dr.k가 둘러싸고 있다철-질소4 일련의 질문이 있었고 o1은 공간을 단순화하기 위해 긴 답변 목록을 제공했습니다. 여기에는 질문과 결과 중 일부만 표시됩니다.

전반적인 테스트를 마친 k 박사의 평가는 비슷했다. 대학원 수준은 되겠지만, 깊이 있는 이해력과 해결책 제시 능력이 상대적으로 약하고, 주로 알려진 내용을 바탕으로 질문에 답한다.

예를 들어 fe-n4를 조정하는 방법을 물으면 o1은 전자 상태 조정을 기반으로 한다고 말할 수 있지만, 물어보면 어떻게 될까요?조정하다, 조금 붙어 있습니다.

gpt4o보다 말도 안되는 부분은 적지만 둘 다 특정 문제에 대해 많은 조언을 제공할 수는 없지만 이전 버전은 세부 정보를 잃고 말도 안되는 말을 하는 반면, 새 버전은 기능이 제한되어 있어 할 말을 잃게 됩니다.

이 두 가지 외에도 제3의 과학과 종합과목에서는 생물학이 반드시 필요합니다.

저희도 상담을 했는데요생물학을 전공하는 칭화대학교 신 박사, 그의 질문은 다음과 같습니다. " 질량 분석 데이터 세트에서 라이신 잔기의 락틸화 및 카르복시에틸 변형을 어떻게 구별합니까?

저도 이해는 못했지만 o1님도 논문 리뷰처럼 아주 긴 답변을 주셨고, 마지막에 참고자료도 첨부해 주셨네요.

그러나 뜻밖에도 우리가 xin 박사에게 이 답변을 주었을 때, 그는 그것을 읽은 후 뭔가 잘못된 것을 발견했고, 그것은 첫눈에 진짜 문제였습니다.

ai의 답변이 모두 틀린 것은 아닙니다. 참고자료에서 무작위로 만들어 낸다면 이 논문은 전혀 존재하지 않는 것입니다!

편집되었지만 완전히 편집되지는 않았습니다. 일반적으로 tsinghua university는 여전히 이전 ai보다 훨씬 낫다고 느낍니다. 적어도 육안으로 볼 수 있으며 편집도 매우 유사합니다. . . .

그러나 박사학위 평가에는 방향에 따라 차이가 있으며, 이는 o1 자신의 전문 분야와도 관련이 있을 수 있습니다.

공식 과학종합점수로 보면 gpt4o가 생물학, 화학, 물리학보다 높은 점수를 받았지만 이번의 o1은 전혀 다르다.

물리학의 o1 점수는 92.8점에 이르렀는데, 이는 다른 두 과목보다 훨씬 높은 수치입니다. 이것이 dr. cui가 이에 대해 더 낙관적인 이유일 수 있습니다.

일반적으로 전문적인 박사 수준을 넘어서는 데 있어서 의사들은 여전히 ​​속도를 늦출 필요가 있다고 생각합니다.

추이 박사는 실제 과학 연구 작업에서는 학자들이 대부분의 경우 스스로 해야 한다고 솔직하게 말했다. ai는 일반적인 방향만 제시할 수 있기 때문에 이렇게 세세한 ai에 돈을 쓰는 것은 의미가 없다.

학부생에게 더 권장됨만약 이 ai를 선택한다면, 석사나 박사 수준이라면 ai의 답변이 실제로 강사의 기준에 미치지 못하고, 조별 회의에서 반드시 비판을 받게 될 것입니다.

칭화대 신 박사도 ai의 환각 조작 문헌 문제는 말할 것도 없고, 전문가 수준에서도 ai의 대답은 이 같은 견해를 갖고 있다.동료만 속일 수 있다즉, 같은 전공 분야에서 서로 다른 방향을 가진 사람들이지만, 후배들과 이 방향을 전문으로 하는 사람들의 눈에는 여전히 ai의 단점이 매우 뚜렷합니다.

북경대학교의 k 박사는 이 ai가 인지 측면에서 석사과정 수준이라고 할 수 있을 뿐, 단지 땜장이일 뿐이고 창의적인 성과에 대해서는 아무 말도 할 수 없다고 생각합니다.창의성 측면에서 ai는 석사 수준에 비해 한참 뒤떨어진다., 이는 ai가 해결해야 할 중요한 문제이기도 합니다.

의사들의 평가에서 우리는 중요한 점을 파악할 수 있는 것 같습니다. o1 모델이 상대적으로 강한 이유는 더 높은 차원의 인지 및 사고 모델을 가지고 있기 때문입니다.

이번 o1 업데이트의 주요 포인트이기도 합니다. openai 공식 웹사이트에서 learning to reasons with llm이라는 기사를 찾았는데, 그 주된 이유는 전통적인 프롬프트 체인(prompt chain) 대신 긴 사고 체인(cot, chain of thought)을 사용했기 때문이라고 밝혔습니다. .

얼핏 보면 좀 혼란스럽기도 합니다. 직설적으로 말하면 이 대형 모델은 여러분이 질문하고 제가 대답했던 이전의 생각을 바꾸었습니다.

이전 모드에서는 대형 모델에 대한 질문과 답변이 무의식적으로 답을 아는 것과 같았습니다. 이를 위해서는 실제로 이 지식 포인트를 이미 알고 있어야 하며, 그런 다음 귀하에게 직접적인 응답을 제공해야 합니다.

그러나 이러한 긴 사고 사슬은 파란색이 무엇인지 아는 것뿐만 아니라 파란색인 이유, 대기 산란, 스펙트럼 파장 등을 모두 고려해야 하는 이유를 추론하는 것과 같습니다.

이를 위해서는 ai가 실제로 논리와 추론, 논증을 구성할 수 있는 능력이 필요합니다., 그는 두뇌를 성장시켜야 할 뿐만 아니라 두뇌를 사용해야 합니다.

사고체인 개념은 2022년 구글이 제안했지만, 이번에 이를 최초로 구현한 것은 openai였다.

실제 작업 중에 o1 모델과 대화하고 있으므로 답변을 얻는 것 외에도 질문에 답변할 때 그의 사고 논리를 확장하고 볼 수도 있습니다. 그의 생각은 블랙박스가 아닙니다.

예를 들어, "장거리 얽힌 광자 분포에서 백색 잡음을 극복할 수 있는 방법이 있습니까?"라는 cui 박사의 질문을 생각해 보겠습니다. o1 모델의 사고 과정은 다음과 같습니다.

그러나 전문 분야의 문제를 뒤집을 수 있는 것처럼, 일상의 간단한 질문도 그것을 방해할 수 있는 것 같습니다.

9.11과 9.8 사이의 고전적인 비교에 대한 이전 예를 살펴보겠습니다. xiaohongshu 네티즌 @작은수는 깨어나자마자 이것이 "난이도에 도달하자마자 무너진다...무한 루프가 되어 생각의 사슬을 밀어낸다"는 것을 알게 되었습니다. (cot) 미친 듯이"

우리 편집부에서도 자체 평가 과정에서 이 문제를 발견했는데, 이유를 묻는 질문에는 즉각적으로 추론이 틀렸다고 답한 후 다시 추론해 냈습니다.

알았어 알았어 역시 의사답게 실수를 잘 찾아내지?

전체 테스트를 거친 후 부정적인 리뷰어는 그것이 실제로 크게 개선되었음을 인정해야 합니다. 사흘간 만나고 나면 정말 서로를 감탄하며 바라봐야 할 것 같아요.

효과면에서는 확실히 이전 세대보다 좋아졌고,장기적인 사고를 적용하는 것은 ai의 미래 발전에 좋은 일입니다.

그러나 여러 의사가 번갈아가며 채찍질을 가한 결과, 창의성 등의 측면에서 그 문제가 명백히 드러났습니다.인간 박사 학위 전문가를 대체할 수는 없습니다.

그러나 openai의 연구원인 noam brown은 향후 버전의 o1이 몇 시간, 며칠, 심지어 몇 주 동안 고민하게 될 것이라고 밝혔습니다. 비록 이것이 더 많은 비용을 소모하게 되겠지만, 항암제 개발과 같은 작업에는 그만한 가치가 있습니다.

또한, gpt o1이 구현한 thinking chain 모델은 기존의 transformer 아키텍처, dit 아키텍처와 유사할 가능성이 높다고 생각합니다.대형모델 방향으로 세계를 선도하다

그러므로 agi로 가는 길은 가깝지도 멀지도 않은데, 앞으로 다양한 기업의 플레이어들이 차례대로 등장하길 기대합니다.

기사 쓰기:나시 & 빅4

편집하다 :장장&면

아트 에디터 :환옌

사진, 출처 : openai, x, ibm, xiaohongshu 등, picture source network