치열하다, GPT-4o가 구글의 새 모델인 ChatGPT에 패했다. 모두 한숨쉬다

2024-08-02

힘차게 일어나,GPT-4oGoogle의 새로운 모델에 압도당했습니다!

일주일 동안 12,000명이 넘는 사람들이 익명으로 투표했습니다.제미니 1.5 프로（0801）Google을 대표하여 처음으로 lmsys 분야에서 1위를 차지했습니다.(중국 과제도 1위)

그리고 이번엔 종합순위에 이어 더블크라운까지(유일한 점수는 1300입니다),존재하다시각적 리더보드역시 1위입니다.

Gemini 팀의 핵심 인물인 Simon Tokumine은 축하 메시지를 게시했습니다.

(이 새로운 모델)은 우리가 만든 것 중 가장 강력하고 똑똑한 Gemini입니다.

한 Reddit 사용자는 이 모델을 "매우 훌륭하다"고 말하며 기능이 축소되지 않기를 희망한다고 말했습니다.

네티즌들의 기대감이 더 커졌고,오픈AI드디어 새로운 버전을 출시하며 반격에 도전했습니다!

공식 ChatGPT 계정도 뭔가를 암시하는 것으로 나왔습니다.

흥분된 가운데 Google AI Studio의 제품 책임자는 해당 모델이무료 테스트 단계：

AI 스튜디오에서 무료로 이용 가능

네티즌: 구글이 드디어 등장했어요!

엄밀히 말하면 Gemini 1.5 Pro(0801)는 사실 새로운 모델은 아닙니다.

해야 한다실험적인 버전Google이 2월에 출시한 Gemini 1.5 Pro를 기반으로 구축된 1.5 시리즈는 나중에 컨텍스트 창을 200만 개로 확장했습니다.

모델이 업데이트되면서 이름도 점점 길어지고, 이로 인해 사람들의 불만도 커지고 있다.

아니요, OpenAI 직원은 이상함도 잊지 않고 그를 축하했습니다.

물론 이름은 기억하기 어렵지만, 이번에 공식 아레나 평가에서 Gemini 1.5 Pro(0801)가 좋은 성적을 거두었습니다.

전체적인 승률 히트맵을 보면 GPT-4o보다 54%, Claude 3.5 Sonnet보다 59% 향상된 것으로 나타났습니다.

존재하다다국어 능력벤치마크 테스트에서는 중국어, 일본어, 독일어, 러시아어에서 1위를 기록했습니다.

하지만 코딩 및 하드 프롬프트 아레나에서는 여전히 Claude 3.5 Sonnet, GPT-4o, Llama 405B 등의 상대를 이길 수 없습니다.

이에 대해 네티즌들은 다음과 같은 비난을 내놨다.

인코딩이 중요하지만 제대로 작동하지 않습니다.

그런데 Amway Gemini 1.5 Pro(0801)를 들고 나온 분들도 계십니다.이미지 및 PDF 추출 기능。

DAIR.AI의 공동 창립자인 Elvis는 송유관에 대한 전체 테스트를 직접 수행하고 다음과 같이 결론을 내렸습니다.

시각적 기능은 GPT-4o에 매우 가깝습니다.。

또한 Claude 3.5 Sonet이 이전에 잘 답변하지 못했던 문제를 해결하기 위해 누군가 Gemini 1.5 Pro(0801)를 사용했습니다.

결과는 성능이 더 좋았을 뿐만 아니라 작은 친구인 Gemini 1.5 Flash를 이겼다는 것을 보여주었습니다.

그러나 일부클래식 일반 지식 테스트"사과로 끝나는 문장을 열 개 쓰세요"와 같이 여전히 알아낼 수 없습니다.

하나 더

한편 Google의 Gemma 2 시리즈는 새로운 기능을 선보입니다.20억 개의 매개변수 모델。

제마2（2B）즉시 사용 가능, Google Colab의 무료 T4 GPU에서 실행할 수 있습니다.

아레나 리더보드에는모든 GPT-3.5 모델을 능가, 심지어 Mixtral-8x7b를 능가합니다.

Google의 최신 새로운 순위에 직면한 Arena목록의 권위성모두가 다시 질문했습니다.

Nous Research의 공동 창업자인 Teknium(정밀 훈련 분야에서 유명한 선수)게시물 알림:

Gemma 2(2B)는 Arena에서는 GPT-3.5 Turbo보다 점수가 높지만 MMLU에서는 GPT-3.5 Turbo보다 훨씬 낮습니다.
이러한 불일치는 경기장 순위를 모델 성능의 유일한 지표로 사용하는 경우 문제가 될 수 있습니다.

Abacus.AI의 CEO Bindu Reddy는 직접적으로 다음과 같이 호소하기도 했습니다.

사람이 평가한 리더보드 사용을 즉시 중단하세요!
Claude 3.5 Sonnet은 GPT-4o-mini보다 훨씬 좋습니다.
비슷한 Gemini/Gemma 점수가 이 순위 목록에서 너무 높아서는 안 됩니다.

그렇다면 이러한 인간의 익명 투표 방식이 여전히 신뢰할 수 있다고 생각하시나요?

소식