Google이 마침내 OpenAI를 이겼습니다. 실험 버전 Gemini 1.5 Pro가 GPT-4o를 능가합니다

Google이 마침내 OpenAI를 이겼습니다. 실험 버전 Gemini 1.5 Pro가 GPT-4o를 능가합니다.

2024-08-02

기계 심장 보고서

편집자: Chen Chen, Xiaozhou

이러한 강력한 모델을 통해 Google은 모든 사람에게 무료 평가판을 제공합니다.

지난 이틀 동안 Google은 최신 연구 결과를 발표했습니다. 어제 가장 강력한 엔드사이드 Gemma 2 2B 소형 모델이 출시된 데 이어 Gemini 1.5 Pro 실험 버전(0801)이 방금 출시되었습니다.

사용자는 Google AI Studio 및 Gemini API를 통해 테스트하고 피드백을 제공할 수 있습니다.

무료이므로 최근 유행하는 크기 비율 문제를 테스트하는 데 도움을 드리겠습니다. Gemini 1.5 Pro(0801)에 9.9와 9.11 중 어느 숫자가 더 큰지 물었을 때 모델은 처음에 정확하게 대답하고 이유를 제시했습니다.

"Strawberry라는 단어에 r이 몇 개인지" 계속 묻자 Gemini 1.5 Pro(0801)가 뒤집혔습니다. 프롬프트에 "주문"을 단계별로 적용하면 네 번째 단계에서 모델 분석이 잘못되었습니다.

Google AI Studio 테스트 주소: https://aistudio.google.com/app/prompts/new_chat

하지만 공식 평가에 따르면 Gemini 1.5 Pro(0801)는 다양한 지표에서 여전히 뛰어난 성능을 발휘합니다. 새로운 모델은 권위 있는 LMSYS Chatbot Arena 리더보드에서 빠르게 1위를 차지했으며 1300이라는 인상적인 ELO 점수를 자랑합니다.

이 성과로 Gemini 1.5 Pro(0801)는 OpenAI의 GPT-4o보다 앞서게 되었습니다.(ELO: 1286), Anthropic의 Claude-3.5 Sonnet(ELO: 1271) 및 기타 강력한 경쟁자들이 등장하면서 이는 인공 지능 환경의 변화를 예고할 수 있습니다.

Gemini 팀의 핵심 멤버인 Simon Tokumine은 Gemini 1.5 Pro(0801)를 Google이 지금까지 만든 가장 강력하고 스마트한 Gemini(모델)라고 부릅니다.

Gemini 1.5 Pro(0801)는 Chatbot Arena에서 1위를 차지한 것 외에도 다국어 작업, 수학, Hard Prompt, 코딩 등의 영역에서도 매우 좋은 성능을 보였습니다.

특히 Gemini 1.5 Pro(0801)는 중국어, 일본어, 독일어, 러시아어에서 1위를 차지했습니다.

그러나 코딩 및 하드 프롬프트 분야에서는 Claude 3.5 Sonnet, GPT-4o, Llama 405B가 여전히 선두를 달리고 있습니다.

승률 히트맵: Gemini 1.5 Pro(0801)는 GPT-4o에 대해 54%의 승률을, Claude-3.5-Sonnet에 대해 59%의 승률을 기록했습니다.

Gemini 1.5 Pro(0801)도 Vision 순위에서 1위를 차지했습니다!

네티즌들은 구글이 이번에는 정말 모두의 기대를 뛰어넘었다고 평가했다. 사전 공식 발표도 없이 갑자기 최강 모델의 테스트를 열었다. 이번에는 OpenAI가 압박을 가했다.

Gemini 1.5 Pro(0801)는 높은 결과를 얻었지만 아직은 실험 단계입니다. 이는 모델이 널리 사용되기 전에 추가 수정을 거칠 수 있음을 의미합니다.

네티즌 댓글

일부 네티즌들은 Gemini 1.5 Pro(0801)의 콘텐츠 추출 기능, 코드 생성 기능, 추론 기능 등을 테스트했습니다. 테스트 결과를 살펴보겠습니다.

출처: https://x.com/omarsar0/status/1819162249593840110

우선 Gemini 1.5 Pro(0801)에는 강력한 이미지 정보 추출 기능이 있습니다. 예를 들어 송장 이미지를 입력하고 송장 세부정보를 JSON 형식으로 작성합니다.

Gemini 1.5 Pro(0801)의 PDF 문서 콘텐츠 추출 기능을 살펴보겠습니다. 고전 논문 "Attention Is All You Need"를 예로 들어 논문의 장 디렉터리를 추출합니다.

Gemini 1.5 Pro(0801)에서 전체 코드를 직접 생성하는 LLM(대형 언어 모델) 지식을 학습하는 데 도움이 되는 Python 게임을 생성해 보겠습니다.

Gemini 1.5 Pro(0801)에서는 코드 내 함수의 역할, Python 게임 플레이 방법 등을 포함한 자세한 코드 설명도 제공한다는 점은 언급할 가치가 있습니다.

이 프로그램은 Google AI Studio에서 직접 실행할 수 있으며 토큰화 정의에 대한 객관식 질문을 수행하는 등 시험해 볼 수 있습니다.

객관식 질문이 너무 단순하고 지루하다고 생각되면 Gemini 1.5 Pro(0801)에서 더 복잡한 게임을 생성하도록 할 수 있습니다.

LLM 전문 문장 채우기 게임을 받아보세요:

Gemini 1.5 Pro(0801)의 추론 능력을 테스트하기 위해 네티즌들은 '촛불이 불고 있다'는 질문을 했으나 모델이 오답을 내놨습니다.

일부 결함에도 불구하고 Gemini 1.5 Pro(0801)는 GPT-4o에 가까운 시각적 기능은 물론 Claude 3.5 Sonnet에 가까운 코드 생성 및 PDF 이해 및 추론 기능을 보여주므로 기대할 가치가 있습니다.

https://www.youtube.com/watch?v=lUA9elNdpoY

소식

Google이 마침내 OpenAI를 이겼습니다. 실험 버전 Gemini 1.5 Pro가 GPT-4o를 능가합니다.

소개

내 연락처 정보