gpt-4o 미니 랭킹 눈사태, 대형 모델 경기장 규칙 업데이트, 울트라맨 포인트 높이는 팁

2024-08-31

대형 모델 경기장 규칙이 업데이트되었습니다.gpt-4o mini의 순위는 즉시 붕괴되어 상위 10위권 밖으로 밀려났습니다.。

새로운 목록은 ai에 대한 답변입니다길이, 스타일 등 특성이 다운그레이드되었습니다., 점수가 문제 해결을 위한 모델의 실제 능력을 반영하는지 확인합니다.

아름다운 형식을 사용하려고 노력하고, 자막 수를 늘리고, 사용자를 기쁘게 하고 순위를 높이는 기타 기술은 이제 모두 쓸모가 없습니다.

새로운 규칙에 따라 울트라맨의gpt-4o 미니, 머스크의grok-2 시리즈순위 대폭 하락, 구글제미니-1.5-플래시소형 모델도 후퇴했습니다.

클로드 시리즈、라마-3.1-405b대형 모델의 점수가 속속 상승했습니다.

하드 작업(하드 프롬프트)만 계산하는 경우 스타일 제어 목록에서 대형 모델의 이점은 더욱 분명해집니다.

이전에는 gpt-4o 미니 모델이 한때 gpt-4o 풀헬스 버전과 공동 1위를 차지하며 정상에 올랐는데, 이는 분명히 네티즌의 촉각과 일치하지 않았습니다.

karpathy가 한때 권장했던 평가 기준이었던 lmsys large model arena 역시 "모델 역량보다는 사용자 선호도만 반영할 수 있는" 수준으로 떨어졌습니다.

lmsys 조직은 경험을 통해 교훈을 얻었고 gpt-4o mini가 참여한 1,000번의 전투 데이터를 먼저 공개하여 모델의 거부율, 생성된 콘텐츠 길이 및 형식을 투표 결과에 영향을 미치는 여러 요소로 분석했습니다.

게다가 울트라맨은 gpt-4o mini 출시 이전부터 인간의 취향에 맞춰 최적화됐다는 점을 암시하기도 했다.

이제 lmsys는 한 단계 더 나아가 이러한 요소를 제어하는 새로운 알고리즘을 출시했으며 이는 계획의 첫 번째 단계에 불과합니다.

스타일의 영향력을 어떻게 통제할 수 있나요?

있다고 가정모델 a코드, 사실, 편견 없는 답변 등을 생성하는 데는 능숙하지만 출력은 매우 간결합니다.

모델 b내용(예: 정확성) 측면에서는 그리 좋지는 않지만 출력은 길고 상세하며 아름다운 형식입니다.

그럼 어느 것이 더 낫습니까?

대답은 고유하지 않습니다. lmsys는 모델 점수 중 콘텐츠나 스타일이 얼마나 기여하는지 수학적으로 알아내려고 합니다.

또한, 최근 연구에 따르면인간은 아름답게 형식화되고 더 상세한 ai 답변을 선호할 수 있습니다.

에 의해브래들리-테리의 복귀응답 길이, 마크다운 자막 수, 목록, 굵은 텍스트 수 등의 스타일 기능을 인수로 추가합니다.

이는 통계학에서 흔히 사용되는 기법으로 최근 alpacaeval lc 등에서 대규모 모델 평가에 사용되었습니다.

회귀 분석에 교란 변수(예: 응답 길이)를 포함하면 점수 증가가 모델 검정력 자체가 아닌 교란 변수에 기인할 수 있습니다.

관련 코드가 google colab에 공개되었습니다.

또한 연구팀은 '길이만 조절', '형식만 조절'에 대한 어블레이션 실험도 진행했다. gpt-4o mini와 google gemini 시리즈의 점수는 형식의 영향을 더 많이 받습니다.

그러나 이 접근 방식에는 길이와 응답 품질 사이의 긍정적인 상관 관계와 같이 고려되지 않은 관찰되지 않은 교란 요인(예: 사고 체인 프롬프트)이 발생할 가능성과 같은 제한 사항이 있습니다.

많은 네티즌들은 조정된 난이도 과제 목록이 주관적인 인상과 더 일치한다고 말했습니다.

전체 분야를 함께 발전시킬 수 있는 것은 리스트와 리스트를 놓고 경쟁하는 대형 모델사 간의 오고가는 게임이라고 생각하는 사람들도 있다.

아직도 대규모 모델 무대의 결과를 토대로 모델을 선택하고 계시나요? 혹은 더 좋은 평가 방법이 있다면 댓글란에 공유해주세요.

소식