소식

o1 완전한 사고 체인은 openai에서 최고의 금기가 됩니다! 질문이 너무 많으면 계정이 금지될 때까지 기다리십시오.

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

경고하다! chatgpt에서 최신 o1 모델이 어떻게 생각하는지 묻지 마세요——

몇 번만 시도하면 openai가 이메일을 보내드립니다.자격을 취소하겠다고 위협

이 활동을 중지하고 chatgpt 사용이 이용 약관을 준수하는지 확인하십시오. 이 조항을 위반하면 openai o1 액세스 권한이 상실될 수 있습니다.

신형 대형 모델 o1이 출시된 지 24시간도 채 지나지 않아 많은 사용자들이 이러한 경고 이메일을 받았다고 신고해 불만을 불러일으켰습니다.

어떤 사람들은 프롬프트 단어에 "추론 추적" 및 "생각의 사슬을 보여주세요"와 같은 키워드가 포함되어 있으면 경고를 받게 된다고 보고했습니다.

키워드를 완전히 피하고 다른 수단을 사용하여 모델이 제한을 우회하도록 유도하더라도 감지됩니다.

일부 사람들은 자신의 계정이 실제로 일주일 동안 금지되었다고 주장했습니다.

이 사용자들은 모두 o1을 속여서 그가 말한 것을 반복하도록 요청하고 있습니다.내부 사고 과정 완료, 즉 모든 원래 추론 토큰입니다.

현재 chatgpt 인터페이스에서 확장 버튼을 사용할 수 있습니다.볼 수 있다는 단순히 원래의 사고 과정을 검토한 것입니다.요약

실제로 openai는 o1이 출시되었을 때 모델의 전체 사고 과정을 숨긴 이유를 제시했습니다.

요약하면 openai는 모델의 사고 과정을 내부적으로 모니터링해야 하므로 이러한 원본 토큰에는 보안 제한을 추가할 수 없으므로 사용자가 보기가 불편합니다.

그러나 모든 사람이 이러한 이유에 동의하는 것은 아닙니다.

누군가가 그것을 지적했다.오1사고 과정은 다른 모델을 위한 최고의 훈련 데이터입니다, openai는 이러한 귀중한 데이터가 다른 회사에 의해 도난당하는 것을 원하지 않습니다.

어떤 사람들은 이것이 o1에 실제로 해자가 없다는 것을 보여준다고 생각합니다. 일단 사고 과정이 공개되면 다른 사람들도 쉽게 따라할 수 있습니다.

"이것이 아무런 설명도 없이 ai를 맹목적으로 신뢰하게 하는 답인가?"

o1 모델의 기술적 원리에 대해서는 이번에 공개된 것이 거의 없었고, 유일하게 유효한 정보는 "강화 학습을 사용했다"는 것뿐이었습니다.

간단히 말해서, openai는 점점 더 개방적이 되어가고 있습니다.

o1은 딸기이지만 gpt-5는 아닙니다.

이제 o1이 openai가 오랫동안 광고해 온 것이 확실해졌습니다."딸기"즉, "딸기"로 표현되는 방법을 사용하는 것입니다.

그런데 차세대 모델인 gpt-5라고 할 수 있을까요, 아니면 그냥 gpt-4.x일까요?

점점 더 많은 사람들이 이것이 단지 gpt-4o를 기반으로 한 엔지니어링 조정일 뿐이라고 의심하기 시작했습니다.

잘 알려진 속보 꽃(과거 미래에서 온 꽃)은 이렇게 말했습니다.openai 직원들은 내부적으로 o1을 '추론이 있는 4o'라고 부릅니다.

그리고그는 많은 openai 직원들이 조용히 그 소식을 좋아했다고 주장했습니다., 위 스크린샷도 openai 직원이 찍은 것입니다.

하지만 머스크는 최근 트위터를 원본 포스터 외에는 누가 무엇을 좋아했는지 알 수 없도록 변경해 아직 이 소식을 확인할 수는 없다.

오픈ai 개발자 계정에서 진행된 '무엇이든 물어보세요' 이벤트에서 플라워스도 질문을 던졌다.

openai 직원들은 여기에 많은 질문에 답합니다. 하지만 좋아요 목록에서 높은 순위를 차지한 이 질문은 피하세요.

심지어 울트라맨 벤맨도 방금 리들러로 다시 등장해 '딸기'가 끝났고 다음 작품은 코드네임이 될 것임을 시사했다.오리온새로운 모델이 출시되고 있습니다.

이전에 'orion'은 o1이라고도 알려진 'strawberry'에서 생성된 합성 데이터로 훈련되는 openai의 차세대 새로운 플래그십 모델이라고 보도된 바 있습니다.

오리온은 울트라맨 입 속 '겨울 별자리'를 대표하는 별자리 중 하나이다.

출시된 o1으로 돌아가서 이를 둘러싼 또 다른 비판은 다음과 같습니다.“과학적 연구 기준에 부합하지 않습니다”

예를 들어추론 시간 계산에 관한 이전 관련 연구는 인용되지 않았습니다., 그리고 또한타사의 최신모델과의 비교 부족

앞선 논점에 대해 일각에서는 openai가 더 이상 연구실이 아니며 상업적 기업으로 간주되어야 한다고 지적하기도 했습니다.

때때로 그들은 연구를 원하는 사람들을 모집하기 위해 여전히 연구실인 척합니다.

그러나 후자의 경우 api가 출시되었으므로 이를 다른 최첨단 모델과 비교할지 여부는 이미 많은 타사 벤치마크에서 결과가 나왔습니다.

keras의 아버지가 보유한 100만 달러agi상대회 기간 동안 o1-preview와 o1-mini 버전 모두 공개 테스트 세트에서 좋은 성능을 보였습니다.자체 gpt-4o 초과

하지만 o1-미리보기그냥 옆집 claude 3.5-sonnet과 넥타이 하나면 돼

o1에서는 홍보에 집중코딩능력우수한,오픈 소스 쌍 프로그래밍 도구 도우미팀은 테스트를 실행했고 o1 시리즈도뚜렷한 장점은 없다

전체 코드 재작성 작업에서 o1-preiview는 79.7점, claude-3.5-sonnet은 75.2점, o1은 4.5점을 기록했습니다.

그러나 보다 실용적인 코드 편집 작업의 경우 o1-preview는 claude-3.5-sonnet보다 2.2포인트 차이가 납니다.

또한, aider 팀은 claude 프로그래밍을 대체하기 위해 o1 시리즈를 사용하려는 경우 비용이 훨씬 더 높아질 것임을 상기시킵니다.

openai와 파트너 관계를 맺다"ai 프로그래머" 데빈팀은 사전에 o1 액세스 자격을 획득했습니다.

테스트에서 o1 시리즈로 구동되는 devin의 기본 버전은 gpt-4o에 비해 매우 큰 개선을 달성했습니다.

하지만출시된 데빈 프로덕션 버전과 비교하면 여전히 큰 격차가 있다., 주로 devin 프로덕션 버전이 독점 데이터에 대해 교육을 받았기 때문입니다.

또한 devin 팀은 o1이 올바른 솔루션에 도달하기 전에 종종 역추적하고 다양한 옵션을 고려하며 환각을 느끼거나 자신있게 틀릴 가능성이 적다는 점을 공유했습니다.

o1-preview를 사용할 때 devin문제의 증상을 해결하는 것보다 버그의 근본 원인을 정확하게 진단할 가능성이 더 높습니다.

수학과 논리적 추론에 더 중점을 두고 있습니다.라이브벤치목록에는 o1-preview가 목록에 있습니다.코드 단일 카테고리 뒤쳐짐경우 총점은 다음과 같습니다.claude-3.5-sonnet을 추월하고 확실한 격차를 벌림

livebench 팀은 이것이 단지 예비 결과일 뿐이라고 공유했습니다. 많은 테스트에는 o1을 사용하는 최선의 방법이 아닌 "단계별로 생각하세요"와 같은 프롬프트 단어가 내장되어 있기 때문입니다.

중국어 대형모델 종합평가 벤치마크superclue의 중국어 복합 과제 고급 추론 테스트가운데,o1-preview의 추론 능력도 상당히 앞선다.

마지막으로 요약하면 o1 모델을 사용할 때 주의해야 할 몇 가지 사항이 있습니다.

비용은 매우 높으며, 100만 개의 출력 토큰 비용은 60달러이며, 가격은 하룻밤 사이에 gpt-3 시대로 돌아갑니다.

숨겨진 공명 토큰도 출력 토큰에 포함되어 볼 수 없지만 지불해야 합니다.

대부분의 작업에서는 먼저 gpt-4o를 사용하고 비용 절감이 충분하지 않을 때 o1로 전환하는 것이 가장 좋습니다.

코드 작업에서는 여전히 claude-3.5-sonnet을 선호합니다.

간단히 말해서, 개발자 커뮤니티는 여전히 openai의 새로운 모델 o1에 대해 많은 질문을 갖고 있습니다.

o1은 ai의 고수준 추론을 위한 새로운 패러다임을 열었지만 아직 완벽하지는 않으며 그 가치를 극대화할 수 있는 방법은 계속 모색되어야 합니다.

이런 배경에서 openai의 '질문과 답변' 이벤트는 4시간 만에 수백 건의 질문을 받았습니다.

아래 첨부된 내용은 전체 행사의 선택 및 요약입니다.

openai 직원이 귀하의 모든 질문에 답변합니다.

우선, 갑자기 출시된 이 신모델에 대해 많은 분들이 궁금해하십니다. openai는 왜 o1이라는 이름을 붙였을까요?

openai를 보면 o1은 새로운 수준의 ai 능력을 의미하므로 '카운터'가 재설정되고, o는 openai를 의미하기 때문입니다.

울트라맨이 o1을 출시했을 때 말했듯이, 복잡한 추론을 수행할 수 있는 o1은 새로운 패러다임의 시작이다.

preview와 mini의 두 가지 버전 번호에 대해 openai 과학자들은 네티즌들의 추측 중 일부도 확인했습니다.

미리보기는 임시 버전입니다.정식버전은 추후 출시 예정(사실 프리뷰 버전은 o1의 초기 체크포인트입니다)미니 버전이 가까운 시일 내에 업데이트될 것이라는 보장은 없습니다.

앞서 openai 멤버 케빈 루가 공개한 이 사진을 보면 더욱 명확해진다.

preview와 비교하여 mini는 특정 작업, 특히 코드 관련 작업에서 우수한 성능을 발휘하며 더 많은 사고 사슬을 탐색할 수도 있지만 상대적으로 세계 지식이 적습니다.

이에 대해 openai 과학자 zhao shengjia는 다음과 같이 설명했습니다.mini는 소수의 기능에만 초점을 맞춘 고도로 전문화된 모델입니다., 더 깊이 들어갈 수 있습니다.

이는 이전에 울트라맨이 이 문제에 대해 풀었던 수수께끼를 드러내는 것이라고 볼 수 있다.

o1의 운영과 관련해 openai 과학자 노암 브라운(noam brown)도 일부 네티즌들이 생각하는 것처럼 모델 + cot로 ​​구성된 '시스템'이 아니라기본적으로 사고 사슬을 생성하는 능력을 갖도록 훈련된 모델

그러나 추론 과정에서 생각의 사슬은 숨겨질 것이며 관계자는 토큰을 사용자에게 보여줄 계획이 없음을 분명히 했습니다.

openai가 공개한 몇 가지 소식은 cot의 관련 토큰이 요약되어 있으며 추론 프로세스와 완전히 일치한다고 보장되지 않는다는 것입니다.

추론 모드 외에도 이 질문 및 답변 활동을 통해 학습할 수 있습니다.o1은 gpt-4o보다 긴 텍스트를 처리할 수 있으며 앞으로도 계속 그렇게 할 것입니다.

성능면에서 openai의 내부 테스트에서는o1은 철학적 추론 능력을 보여줍니다, "생명이란 무엇인가?"와 같은 철학적 질문을 숙고할 수 있습니다.

연구원들은 또한 o1을 사용하여 검토를 위해 소유자에게 코드를 핑할 수 있는 github 봇을 만들었습니다.

물론 다음과 같은 일부 비추론적 작업의 경우문예창작에서는 o1의 성능이 gpt-4o에 비해 크게 향상되지 않고 때로는 약간 뒤떨어지기도 합니다.

또한 openai는 몇 가지 질문에 대해 네티즌들이 우려하는 일부 미공개 기능을 연구 중이거나 연구할 계획이 있다고 밝혔으나 명확한 출시 시기는 정해지지 않았습니다.

도구 호출은 아직 지원되지 않지만 함수 호출 및 코드 해석기는 향후 계획되어 있습니다.

향후 api 업데이트에는 구조화된 출력, 시스템 프롬프트 단어 및 프롬프트 단어 캐싱 기능이 추가될 예정입니다.

미세 조정도 계획되어 있습니다.

api 사용자는 추론 시간 및 토큰 소비에 대한 제한을 스스로 설정할 수 있습니다.

o1은 mmmu 및 기타 데이터 세트의 sota를 대상으로 하는 다중 모드 기능을 갖추고 있으며 나중에 구현될 예정입니다.

성능 측면에서도 openai는 지연 시간과 추론에 필요한 시간을 줄이기 위해 노력하고 있습니다.

마지막으로 사람들, 특히 api 사용자들이 우려하는 가격 문제가 있습니다. 결국 추론 과정이 출력 토큰에 포함되어 있다는 점을 고려하면 o1의 가격은 여전히 ​​상대적으로 높습니다.

오픈ai가 말했다."1~2년마다 가격 인하 추세 따라갈 것", 사용 제한이 완화되면 대량 api 가격도 적용됩니다.

게다가 웹/app 측 사용자는 현재 주당 30개 + 미니 50개의 메시지를 미리 볼 수 있도록 제한되어 있습니다.

하지만 좋은 소식은 오늘 이른 아침부터 사람들이 o1에 열광했기 때문에 많은 사람들이 할당량을 빨리 소진했다는 것입니다.openai 특수 사례는 할당량을 한 번 재설정합니다.

~ 위에