소식

GPT-4o mini, 대형 모델 무대 정상에 올라 울트라맨: 2개월 내 무료 미세 조정

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • 크레시는 아오페이 사원(Aofei Temple)에서 왔습니다.
    Qubits 공개 계정 QbitAI

방금 GPT-4o 미니 버전이 "하이라이트 순간"을 맞이했습니다.

lmsys 대형모델 경기장에 올랐습니다., 전체 상태 버전으로 공동 1위를 차지했으며 Claude 3.5를 뒤처지게 되었습니다.



일반적인 데이터 세트 평가와는 달리, 대규모 모델 분야는 사용자가 스스로 질문을 설정하고 발로 투표한 결과이므로 "질문 브러싱"으로는 지름길을 택할 수 없으므로 더욱 현실적입니다.

이 결과가 나오자마자 Altman CEO도 흥분했습니다.

평가 결과에 직면하여 원래는 예약을 시도했지만 GPT-4o mini가 풀헬스 버전과 동일한 성능을 보이지만 가격은 1/20에 불과한 것을 보고 여전히 매우 기뻤습니다.



네티즌들은 보고 나서 괜찮다고 했지만, GPT-4o 기자간담회에서 시연한 'Her'가 언제 온라인에 공개될지 더욱 걱정이 됐다.



동시에 OpenAI는 개발자에게 혜택을 제공할 또 다른 좋은 소식도 보냈습니다.

GPT-4o 미니미세조정은 점차 오픈될 예정입니다, 현재 Tier 4 및 Tier 5 사용자에게 공개되어 있으며 점차 범위를 확장할 예정입니다.

그리고지금부터 9월 23일까지 매일 2백만 개의 훈련 토큰을 무료로 사용할 수 있습니다.



미니는 풀 헬스 버전과 동등합니다.

80개 이상의 모델을 대상으로 수백만 라운드의 1대1 경쟁을 벌인 후 lmsys 목록에서 GPT-4o mini의 점수는 전체 상태 버전보다 7점밖에 뒤지지 않습니다.

lmsys 리스트의 배열에 따르면, 이 7점 차이는 순위에 영향을 미치지 않으며, 두 모델이 공동 1위로 집계됩니다.

바로 뒤에는 Claude 3.5 및 Gemini 제품군과 GPT-4의 두 가지 다른 버전이 있습니다.



GPT-4o mini의 원시 데이터를 살펴보면 평균 승률 0.6이 전체 체력 버전에 이어 두 번째라는 것을 알 수 있습니다.



둘만의 대결 결과를 보면, 둘은 대등한 수준이다.



lmsys의 성과가 주목받는 이유는 독특한 경쟁 방식을 갖고 있기 때문입니다.

데이터 세트를 사용하는 대신,사용자가 자신만의 질문을 만들고 1:1 전투에서 두 모델을 무작위로 뽑을 수 있습니다.을 클릭한 다음 어떤 모델이 더 나은 성능을 발휘하는지 선택하세요.

선택을 하기 전에는 모델이 익명으로 처리되므로 사용자는 어떤 두 모델이 경쟁하는지 알 수 없습니다. 모델이 뭔가를 유출하면 투표가 무효화됩니다.



이런 방식으로 얻은 점수는 더욱 현실적이며, 이는 "질문 수정"을 통해 인위적으로 높은 점수를 얻을 가능성을 피할 뿐만 아니라 사용자 경험에 더 가깝습니다.

이 대형 모델 경기장은 최근최고의 머신러닝 컨퍼런스 ICML2024 참석



게다가 lmsys의 평가도OpenAI에서 매우 인기 있음, 공식 출시되기 전 GPT-4o mini의 초기 버전은 gpt-mini라는 가명으로 나열되었습니다.

당시 이미 GPT4-Turbo와 같은 수준인 4위에 랭크되어 있었습니다.



이전에는 GPT-4o가 온라인 상태가 되기 전에 lmsys에서 gpt2-chatbot이라는 가명으로도 테스트되었습니다.



하지만 일각에서는 GPT-4o mini의 성능이 매우 뛰어나지만 클로드 3.5 소네트를 능가한다고 해도 과언이 아니라는 의문을 제기하는 이들도 있다.



일부 사람들은 lmsys 메서드의 무결성이 무너지기 시작했으며 변경해야 한다고 솔직하게 말했습니다. 그렇지 않으면 더 이상 유용한 테스트 벤치마크가 될 수 없습니다.



"소형 모델"도 롤업됩니다

미니 버전 출시는 가성비에 초점을 맞췄다.

입/출력 토큰 100만개당 가격은 각각 15센트와 60센트(약 1.09/4.36RMB)로 3.5 터보의 절반도 안 됩니다.



2년 전 GPT-3의 text-davinci-003 버전(당시 최고 모델)과 비교하면 가격이 99%나 떨어졌다.

OpenAI는 사용자에게 작은 모델을 공개하는 것 외에도 새로운 플레이 방법을 제시했습니다.

"Super Alignment" 팀의 사후 작업에서는 대형 모델의 1/1000 또는 100분의 1 매개변수를 가진 소형 모델을 사용하여 대형 모델을 최적화했습니다.

실험에서 크고 작은 모델은 서로 "게임"을 하며 작은 모델이 진실을 말하고 있다고 믿게 만들기 위해 지속적으로 출력을 최적화하고 조정해야 합니다.

이번 '게임'을 진행하는 과정에서 대형 모델의 성능이 향상됐고, 정확도가 크게 떨어지지 않고 이해도가 크게 향상됐다.



OpenAI 외에도 다른 회사에서도 소형 모델을 출시했습니다.

예를 들어, GPT-4o mini 이전에 Google과 Anthropic은 각각 Gemini Flash와 Claude 3-Haiku를 출시했습니다.

GPT-4o mini는 성능과 가격 면에서 이 두 모델을 능가하는 OpenAI의 반격이라 할 수도 있다.



GPT-4o mini가 출시된 같은 주에 Hugging Face와 'European OpenAI' Mistral은 모두 소형 모델을 출시했습니다.

Apple조차도 자체 7B 모델을 출시하고 모든 교육 프로세스와 리소스를 한 번에 오픈 소스로 제공했습니다.

즉, 성능이 사용 요구 사항을 충족하기에 충분하다면 소형 모델이 의심할 여지 없이 더 경제적인 선택입니다.

동시에, 규모가 작다는 것은 단말기 측에서 실행이 가능하다는 것을 의미하며, 이는 개인 정보 보호 및 기타 측면에서 장점을 보여줍니다.

이런 식으로 "작은"모델이 점점 더 말려지는 이유를 이해하는 것은 어렵지 않습니다.

참조 링크:
[1]https://x.com/사마/상태/1815877987696533897/
[2]https://x.com/OpenAIDevs/상태/1815836887631946015