소식

o1 갑작스러운 내부자 노출? 구글은 앞서 이 원칙을 밝혔습니다. 소프트웨어만으로는 대형 모델에 해자가 없습니다.

2024-09-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

mingmin은 aofei temple에서 왔습니다.

qubits 공개 계정 qbitai

출시된 지 일주일도 채 되지 않아 openai의 가장 강력한 모델인 o1의 해자가 사라졌습니다.

누군가 google deepmind가 8월에 발표한 논문에서 o1의 원리와 작동 방식이 밝혀졌다는 사실을 발견했습니다.거의 만장일치로

이 연구는 테스트 시간 계산을 늘리는 것이 모델 매개변수를 확장하는 것보다 더 효율적이라는 것을 보여줍니다.

논문에서 제안한 계산 최적 테스트 시간 계산 확장 전략을 기반으로 하면 더 작은 기본 모델이 일부 작업에서 하나를 능가할 수 있습니다.14배 더 커짐모델.

네티즌들은 이렇게 말했습니다.

이것이 거의 o1의 원리입니다.

우리 모두 알고 있듯이 ultraman은 google보다 앞서기를 좋아하는데 이것이 o1이 미리보기 버전을 먼저 출시한 이유인가요?

어떤 사람들은 이렇게 한탄했습니다.

실제로 구글 자체가 말했듯이, 누구도 해자를 갖고 있지 않으며, 누구도 해자를 갖지 않을 것입니다.

현재 openai는 o1-mini의 속도를 7배 증가시켰으며 하루에 50개의 항목을 사용할 수 있다고 언급했습니다. o1-preview는 주당 50개의 항목을 언급했습니다.

계산량 4배 절약

이 google deepmind 논문의 제목은 다음과 같습니다.llm 테스트를 최적화할 때 모델 매개변수 규모를 확장하는 것보다 계산이 더 효율적입니다.

연구팀은 인간의 사고 패턴을 확장했습니다. 사람들은 복잡한 문제에 직면할 때 생각하고 의사결정을 개선하는 데 더 오랜 시간이 걸리기 때문에 llm에서도 마찬가지일 수 있습니까?

즉, 복잡한 작업에 직면했을 때 llm은 테스트 중에 추가 계산을 보다 효과적으로 활용하여 정확도를 높일 수 있습니까?

이전의 일부 연구에서는 이 방향이 실제로 실현 가능하다는 것을 보여 주었지만 효과는 상대적으로 제한적입니다.

그래서 본 연구에서는 상대적으로 적은 추가 추론 계산을 사용할 때 모델 성능이 얼마나 향상될 수 있는지 알아보고자 했습니다.

그들은 palm2-s*를 사용하여 math 데이터 세트를 테스트하기 위한 일련의 실험을 설계했습니다.

주로 두 가지 방법이 분석됩니다.

(1) 반복적인 자기수정: 모델이 질문에 여러 번 답변하도록 하고 더 나은 답변을 얻기 위해 각 시도 후에 수정하도록 합니다.
(2) 검색: 이 접근 방식에서 모델은 여러 후보 답변을 생성합니다.

self-revision 방식을 사용할 경우 테스트 중 계산량이 증가함에 따라 표준 best-of-n 전략(best-of-n)과 계산적으로 최적인 확장 전략 간의 격차가 점차 넓어지는 것을 알 수 있습니다.

최적의 확장 전략을 계산하기 위해 검색 방법을 사용하는 것은 초기 단계에서 분명한 이점을 보여줍니다. 그리고 특정 상황에서는 최선의 n 전략과 동일한 효과를 얻을 수 있습니다.계산량이 그 1/4에 불과하다.

사전 훈련 계산과 비교할 수 있는 flop의 일치 평가에서 14배 더 큰 사전 훈련 모델(추가 추론 없음)이 palm 2-s*(계산적으로 최적 전략 사용)와 비교됩니다.

self-revision 방법을 사용할 때 추론 토큰이 사전 훈련 토큰보다 훨씬 작을 때 사전 훈련 효과보다 테스트 시간 계산 전략을 사용하는 효과가 더 좋은 것으로 나타났습니다. 그러나 비율이 증가하거나 더 어려운 문제에서는 사전 훈련이 여전히 더 잘 작동합니다.

즉, 두 경우 모두 서로 다른 테스트에 따라 확장 방법이 유효한지 여부를 계산하는 핵심은 다음과 같습니다.힌트 난이도

이 연구에서는 다양한 prm 검색 방법을 추가로 비교했으며 그 결과 정방향 검색(맨 오른쪽)에는 더 많은 계산이 필요하다는 사실이 나타났습니다.

계산량이 적은 경우 계산 최적 전략을 사용하면 최대 4배의 리소스를 절약할 수 있습니다.

openai의 o1 모델을 비교해 본 연구에서도 거의 동일한 결론을 내렸습니다.

o1 모델은 사고 과정을 개선하고, 다양한 전략을 시도하고, 실수를 인식하는 방법을 배웁니다. 그리고 더 많은 강화 학습(훈련 중에 계산됨)과 더 많은 사고 시간(테스트 중에 계산됨)을 통해 o1의 성능은 계속해서 향상됩니다.

그러나 openai는 모델을 더 빨리 출시한 반면 google은 palm2를 사용하며 gemini2에 대한 업데이트를 출시하지 않았습니다.

네티즌: 해자는 하드웨어만의 문제인가요?

이러한 새로운 발견은 필연적으로 사람들에게 작년에 google 내부 문서에 제시된 견해를 상기시킵니다.

우리에게는 해자가 없으며 openai도 마찬가지입니다. 오픈 소스 모델은 chatgpt를 이길 수 있습니다.

요즘에는 각 연구 속도가 매우 빠르며 항상 앞서 있다고 확신할 수 있는 사람은 아무도 없습니다.

유일한 해자는 하드웨어일 수 있습니다.

(그래서 머스크가 컴퓨팅 센터를 짓겠다는 건가요?)

어떤 사람들은 nvidia가 이제 누가 더 많은 컴퓨팅 능력을 가지고 있는지 직접 통제한다고 말합니다. 그렇다면 google/microsoft가 더 잘 작동하는 맞춤형 칩을 개발하면 어떻게 될까요?

openai의 첫 번째 칩은 얼마 전에 공개되었으며 tsmc의 가장 진보된 a16 옹스트롬 수준 프로세스를 사용하고 sora 비디오 애플리케이션용으로 특별히 제작되었다는 점은 언급할 가치가 있습니다.

분명히 대규모 모델 전장의 경우 모델 자체를 굴리는 것만으로는 더 이상 충분하지 않습니다.

참조 링크:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/