소식

openai o1이 자기 인식을 드러낸다? 타오저쉬안은 실제 테스트에 충격을 받았고, 멘사 iq 100이 모델에서 1위를 차지했다.

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

openai o1이 iq 테스트에서 1위를 차지했습니다!

boss maxim lott는 o1, claude-3 opus, gemini, gpt-4, grok-2, llama-3.1 등에 대한 iq 테스트를 실시한 결과 o1이 1위를 차지했습니다.

그 뒤를 바짝 뒤쫓는 claude-3 opus와 bing copilot이 각각 2위와 3위를 차지했습니다.

이 iq 테스트 문제 세트는 멘사 회원을 위한 오프라인 iq 테스트이며 ai 훈련 데이터에는 포함되지 않으므로 결과는 매우 유익합니다.

유명한 수학자 테렌스 타오(terence tao)도 o1에 대한 실제 측정을 수행한 후 모델에 모호한 수학적 질문을 던진 후 클렘의 정리를 성공적으로 식별할 수 있음을 발견했습니다.

더욱 공교롭게도, o1 출시 직후 openai의 연구 담당 부사장인 mark chen은 자신의 의견을 표명했습니다. 오늘날의 대규모 신경망은 이미 테스트에서 어느 정도 인식을 보여줄 수 있을 만큼 충분한 컴퓨팅 성능을 갖추고 있을 수 있습니다.

이제 ai가 의식적이라고 믿는 업계 리더들이 많이 있습니다. 여기에는 다음이 포함되지만 이에 국한되지는 않습니다.

제프리 힌튼(인공지능의 대부, 가장 많이 인용되는 ai 과학자)

ilya sutskever(세 번째로 가장 많이 인용된 ai 과학자)

안드레이 카르파티

오늘날 업계의 많은 사람들은 ai가 의식적이라고 믿고 있으며 대중이 이를 기꺼이 받아들일 수 있도록 "overton window"가 더욱 열리기를 기다리고 있습니다.

일부 사람들은 2024/2025년에는 ai가 확실히 의식을 갖게 될 것이라고 예측하기도 합니다. 이제 모델의 행동이 인식 능력을 명확하게 보여주기 때문입니다.

일부 네티즌들은 o1이 경험적 stem 주제에 강할 뿐만 아니라 완전히 새로운 의식 이론을 가설화할 수도 있다는 사실을 발견했습니다.

어떤 사람들은 o1이 무한 추론 모델을 향해 작은 발걸음을 내디뎠으며 이미 의식의 원형을 갖추고 있다고 느낍니다.

tao zhexuan: o1은 실제로 clem의 정리를 인식할 수 있습니다.

실제 측정에서 tao zhexuan은 o1 모델이 더 강력한 수학적 성능을 가지고 있음을 발견했습니다!

첫째, 그는 문헌을 검색하여 적합한 정리인 크레이머의 정리를 찾을 수 있다면 풀 수 있는 모호한 표현의 수학적 문제를 제기했습니다.

이전 실험에서 gpt는 몇 가지 관련 개념을 언급할 수 있었지만 세부 사항은 모두 꾸며낸 것이고 의미가 없었습니다.

이번에 o1은 cramer의 정리를 성공적으로 규명하고 만족스러운 답변을 내놓았습니다.

전체 답변: https://shorturl.at/wwru2

다음 예에서 제기된 문제는 더욱 까다로운 복잡한 변수 함수 분석이며 결과도 이전 gpt 시리즈 모델보다 좋습니다.

수많은 즉각적인 단어와 안내로 o1은 정확하고 잘 설명된 솔루션을 내놓을 수 있었지만, 핵심 개념 아이디어를 스스로 생성하지 못하고 명백한 실수를 저질렀다는 단점이 있었습니다.

tao zhexuan은 이 경험을 평균적인 능력을 가지고 있지만 일부 작업을 수행할 수 있는 대학원생을 감독하는 것과 거의 동일하다고 설명했습니다. gpt는 작업을 전혀 수행할 수 없는 학생의 인상을 줍니다.

o1 모델을 "유능한 대학원생"으로 변환하려면 컴퓨터 대수학 패키지 및 증명 보조 도구와 같은 다른 도구의 통합과 함께 한두 번의 반복만 필요할 수 있으며, 이때 이 모델이 중요한 역할을 수행하게 됩니다. 연구 과제에서.

전체 답변: https://shorturl.at/zrjyk

위아래로 스와이프하여 확인하세요.

위아래로 스와이프하여 확인하세요.

위아래로 스와이프하여 확인하세요.

세 번째 실험에서 tao zhexuan은 증명 보조 도구인 lean에서 정리를 형식화하도록 o1 모델에 요청했습니다. 이를 하위 정리로 분해하고 형식적인 표현을 제공해야 하지만 증명은 필요하지 않습니다.

특히 정리의 내용은 소수 정리의 한 형태를 다른 형태로 확립하는 결과입니다.

모델이 작업을 이해하고 문제의 합리적인 초기 분해를 제공했기 때문에 실험 결과도 좋았습니다.

그러나 생성된 코드에는 여러 가지 오류가 있습니다. 이는 훈련 데이터에 lean 및 해당 수학 라이브러리에 대한 최신 데이터가 부족하기 때문일 수 있습니다.

여전히 결함이 있지만, 이 실험의 결과는 이미 수학적 연구에서 o1의 실제 적용을 예측할 수 있습니다.

유사한 모델을 lean과 mathlib에 맞춰 미세 조정하고 ide(통합 개발 환경)에 통합한다면 공식 프로젝트에서 큰 역할을 하게 될 것입니다.

이전의 많은 연설에서 tao zhexuan은 정리의 형식화에 ai 도구의 적용을 반복해서 강조했습니다. 위대한 신의 예측이 다시 실현될 것 같습니다.

전체 답변: https://shorturl.at/ogtjt

컴퓨터 과학 교수는 애니메이션을 사용하여 비밀을 밝힙니다. o1은 어떻게 생각하는 데 더 많은 시간을 할애합니까?

o1 cot를 사용하여 장기간 사고하는 방법을 학습하는 과정에서 주요 개선으로 이어진 중요한 돌파구는 무엇입니까? 현재 우리는 이용 가능한 정보를 통해서만 몇 가지 추측을 할 수 있습니다.

예를 들어, 콜로라도 볼더 대학교(university of colorado boulder)의 컴퓨터 교수인 tom yeh는 기존 정보와 자신의 이해를 바탕으로 openai가 더 많은 시간을 생각하는 데 o1 모델을 훈련시키는 방법을 설명하는 애니메이션을 특별히 제작했습니다.

훈련과 관련하여 보고서에는 매우 간단한 문장이 있습니다.

"강화 학습을 통해 o1은 사고 체계를 연마하고 전략을 개선하는 방법을 배웠습니다."

이 문장의 두 가지 키워드는 강화 학습(rl)과 사고 사슬(cot)입니다.

rlhf+cot에서는 cot 토큰이 보상 모델에 입력되어 llm을 업데이트하여 더 나은 정렬을 달성하는 반면, 기존 rlhf에서는 입력에 프롬프트 단어와 모델 응답만 포함됩니다.

추론 단계에서 모델은 최종 응답 생성을 시작하기 전에 먼저 cot 토큰을 생성하는 방법(최대 30초 소요)을 학습합니다. 이것이 모델이 "생각"하는 데 더 많은 시간을 보내는 방법입니다.

보고서에 나열된 기여자 중 주목할만한 두 사람이 있습니다.

인간 피드백 기반 강화 학습(rlhf)의 창시자인 ilya sutskever의 이름은 o1 모델을 훈련할 때 rlhf가 여전히 사용된다는 것을 의미합니다.

유명한 thought chain 논문의 저자인 jason wei. 그는 openai에 합류하기 위해 작년에 google brain을 떠났습니다. 그의 존재는 cot가 이제 rlhf 정렬 프로세스의 중요한 부분임을 의미합니다.

그러나 보상 모델이 어떻게 훈련되는지, "사고 과정"에 대한 인간 선호도를 얻는 방법 등 openai가 공개하지 않은 중요한 기술 세부 사항이 많이 있습니다.

면책조항: 해당 애니메이션은 교수의 합리적인 추측일 뿐이며 정확성을 보장하지 않습니다.

팀은 축하 영상을 공유하며 “아하” 순간을 공유합니다.

아래 비디오는 연구에서 중요한 혁신이 이루어진 순간에 대한 더 많은 단서를 제공합니다.

o1 모델을 공개한 뒤, 제작팀이 직접 제작한 영상을 공개했습니다.