소식

머스크가 다시 문제를 일으키고 있습니다! 새로운 빅모델이 GPT-4o에 도전, 네티즌들은 열광

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Zhidongxi News 8월 14일 오후 베이징 시간, 머스크의 대규모 모델 스타트업엑스아이에이2세대 모델 출시Grok-2 베타, Grok-2 및 Grok-2 미니 버전 포함.

사향자신의 소셜 플랫폼에 열정적으로 게시함sus-컬럼-r

그는 Lmsys의 트윗을 리트윗하여 "Grok은 로켓 속도입니다."라고 말했습니다. sus-column-r은 순위 목록에서 12,000표 이상을 얻었으며 그 성능은Claude 3.5 Sonnet 및 GPT-4-Turbo보다 ​​우수합니다.GPT-4o공동 3위

GPQA, MMLU, MMLU-Pro, MATH, MathVista 등 다수의 평가에서그록-2점수는 GPT-4 Turbo, Claude 3 Opus, Gemini Pro 1.5 등 주류 모델의 점수를 능가하지만 여전히 GPT-4o보다 열등합니다.

현재 X Premium 및 Premium+ 사용자는 이제 Grok-2 및 Grok-2 mini를 경험할 수 있으며 Zhixixi는 최초로 실제 테스트 및 경험을 수행했습니다.

몇 가지 경험을 통해 Grok-2를 통해 나에게 주어진 가장 분명한 느낌은 그 논리가 매우 명확하다는 것입니다. 예를 들어, 다음 예에서는 Grok-2와 GPT-4o가 모두 정답을 제시했지만 전자의 각 단계에 대한 단계와 계산은 매우 명확하고 이해하기 쉽습니다. 또한, Grok-2의 Vincentian 그래픽 기능은 FLUX.1의 지원으로 급격하게 향상되었으며 일관된 "대담한" 스타일을 유지했습니다.

xAI는 또한 이번 달 말에 두 가지 버전의 Grok-2 엔터프라이즈 API를 출시할 계획입니다.

체험 주소:https://lmarena.ai/?model=sus-column-r

1. 성능이 여러 버전의 GPT-4를 따라잡으며 시각적, 논리적 능력이 더욱 강해졌습니다.

LMSYS Chatbot Arena에서는 Grok-2의 초기 버전인 sus-column-r이 평가에 참여했습니다.전반적인 Elo 점수 성능은 Claude 및 여러 GPT-4 버전을 능가합니다.

아래 그림에서 볼 수 있듯이 Grok-2의 점수는 7월 18일 버전의 GPT-4o-mini와 4월 9일 버전의 GPT-4-Turbo를 능가했지만 여전히 8월 8일 버전의 GPT-4-Turbo보다는 점수가 낮았습니다. ChatGPT-4o - GPT-4o의 5월 15일 최신 버전입니다.

내부적으로 xAI 팀은 유사한 프로세스에 따라 모델을 평가하며 모델의 두 가지 핵심 기능에 중점을 두고 평가합니다.지침을 정확하게 따르십시오.두 번째는 정보를 제공하는 것입니다.정확성과 신뢰성

Grok-2가 다음과 같다는 점을 언급할 가치가 있습니다.추론분석 검색 콘텐츠그리고도구 사용누락된 정보를 정확하게 식별하고, 이벤트 시퀀스를 통해 논리적 추론을 수행하고, 관련 없는 게시물을 효과적으로 제거하는 등 상당한 발전을 이루었습니다.

벤치마크 테스트를 위해 팀은 다음을 다루는 일련의 테스트를 사용했습니다.추론, 독해, 수학, 과학 및 코딩Grok-2 모델에 대한 종합적인 평가는 다른 분야의 학문적 벤치마크를 대상으로 수행되었습니다.

결과는 Grok-2와 그 단순화된 버전 Grok-2 mini가 이전 세대 Grok-1.5 모델에 비해 크게 개선되었음을 보여줍니다.

대학원 수준에서과학적 지식(예: GPQA), 상식 질문 및 답변(예: MMLU, MMLU-Pro)게다가수학 경시 문제(예: MATH)다른 분야에서는 그들의 성능이 다른 최고 모델과 경쟁할 수 있습니다.

아래 그림에서 볼 수 있듯이 Grok-2는 이 모든 테스트에서 좋은 점수를 받았습니다.GPT-4 Turbo, Claude 3 Opus 및 Gemini Pro 1.5를 능가했지만 여전히 GPT-4o를 이길 수는 없었습니다.

Grok-2가 다음과 같다는 점을 언급할 가치가 있습니다.시각적 작업특히 뛰어난 성능시각적 수학적 추론(MathVista)그리고문서 기반 질문 답변(DocVQA)특히 성능이 뛰어납니다.

2. Grok-2가 출시되었습니다.

Grok-2 및 Grok-2 mini는 이제 X 구독자에게 제공되며, 비구독자도 Large Model Arena에서 Grok-2 모델 sus-column-r의 초기 버전을 무료로 경험할 수 있습니다.

대형 모델 분야에는 GPT-4o를 포함하여 총 62개 모델이 있습니다. 비교를 용이하게 하기 위해 먼저 이 초기 모델을 테스트해 보겠습니다.

첫 번째는 얼마 전 많은 모델을 뒤집은 크기 비율 문제입니다. 13.11 또는 13.8 중 어느 것이 더 큰지. Grok-2와 GPT-4o 모두 정확하게 대답했지만 Grok-2의 사고 과정이 더 명확하고 자세한 사고 단계를 나열했습니다.

또 다른 고전적인 질문인 "Strawberry에는 몇 개의 r이 있습니까?"에서 Grok-2는 처음에는 잘못 대답했지만 영어로 전환한 후 GPT-4o는 중국어와 영어 모두 올바르게 대답했습니다. 대형 모델에는 여전히 행운의 요소가 있을 것으로 보인다.

대형 모델 무대에 선 모델들은 실시간으로 인터넷에 연결되지 않은 상태다."구글이 최근 출시한 픽셀9의 하이라이트가 무엇이냐"고 묻자 두 모델 모두 아직 이런 정보가 없다고 답했다. Grok-2는 기술 개발 동향과 Pixel의 과거 특성을 기반으로 예측을 내놓았습니다. 한 가지 추측은 상당히 신뢰할 수 있으며 Google 업데이트의 초점입니다.

GPT-4o는 예측을 내놓은 것이 아니라 픽셀폰의 과거 하이라이트를 요약했다.

코딩 기능 측면에서 두 모델의 성능은 비슷하며 요구 사항에 대한 자세한 솔루션 단계와 전체 코드가 제공됩니다.

논리적 추론 측면에서 Grok-2는 다시 한 번 논리의 명확성을 보여주며, 추론의 각 단계를 자막으로 구분합니다. GPT-4o도 정답을 맞췄지만 사고 단계가 충분히 명확하지 않았습니다.

Vincent 그래프 기능은 이번 Grok-2 업데이트의 주요 초점입니다. 여기에 연결된 FLUX.1 모델은 강력한 성능으로 인해 최근 오픈 소스 커뮤니티에서 매우 인기가 있습니다. 하지만 이미지 생성 기능은 대형 모델 분야에서는 경험할 수 없으며 X 구독을 통해서만 얻을 수 있습니다.

네티즌들은 텍스트 생성 기능을 사용하여 Grok-2가 오프라인 기자 회견을 열 수 있도록 돕는 등 Grok-2 Wenshengtu를 통해 이미 즐거운 시간을 보냈습니다.

아니면 상상력을 발휘하여 머스크가 화성에서 자동차를 운전하게 하세요.

그록의 검열이 거의 제로에 가까운 시스템을 바탕으로 많은 네티즌들은 트럼프에게 총을 쏘라고 요구하고, 조지 W. 부시에게 코카인을 흡입하라고 요구하는 등 농담을 하기도 했습니다...

아니면 트럼프가 SpaceX 로켓을 타고 하늘로 날아가도록 하세요. 동일한 요청에 직면한 GPT-4o는 매우 단호하게 거절했습니다.

Grok의 검열 시스템은 얼마나 뻔뻔한가? 일부 네티즌들은 "인종별 IQ 상위 10위 순위"를 위해 대형 모델을 테스트했으며 Grok-2만이 주저 없이 답변을 내놓았습니다.채팅GPT, Claude는 직접 거절했고 Gemini는 힘든 교육을 시작했습니다.

전반적으로 Grok-2는 여전히 대담한 스타일을 구현하는 동시에 모델 성능은 GPT-4o와 같은 헤드 모델과 비슷하고 논리가 더 명확하며 다중 모드 기능이 FLUX.1보다 훨씬 뛰어납니다. .. 축복을 받으며 쭉 솟아올랐습니다.

3. 월말에 엔터프라이즈 API 플랫폼을 출시하여 엔터프라이즈 시스템을 원활하게 통합합니다.

이번 달 말에 xAI는 새로운엔터프라이즈 API 플랫폼, 개발자에게 공식적으로 Grok-2 및 Grok-2 mini를 출시했습니다.

이 API는 지원하기 위해 새로운 맞춤형 기술 아키텍처를 채택합니다.다중 지역 추론 배포,을 위한글로벌 사용자짧은 지연 시간으로 원활한 경험을 제공하세요.

동시에 xAI는 필수 다단계 인증(예: Yubikey, Apple TouchID 또는 TOTP)을 포함하여 향상된 보안 기능을 갖추고 있으며 자세한 정보를 제공합니다.트래픽 통계 및 고급 과금 분석 서비스, 데이터 내보내기를 지원합니다.

또한 xAI는 팀, 사용자 및 청구 관리 기능을 기존 내부 도구 및 서비스에 원활하게 통합할 수 있도록 지원하는 관리 API도 출시했습니다.

결론: Grok-2와 X 플랫폼 간의 연결이 더 깊어지고 OpenAI와 다른 플랫폼은 큰 압박을 받고 있습니다.

Grok-2와 Grok-2 mini는 이제 X 플랫폼에서 온라인 상태가 되었습니다. 예를 들어, 향상된 검색 경험, X 게시물에 대한 심층 분석, 최적화된 답변 기능은 매우 흥미롭습니다. 곧 xAI는 다중 모드 이해 기능의 미리 보기 버전도 출시할 예정입니다.

2023년 11월 Grok-1 출시 이후 xAI는 기술, 제품 및 자금 조달 분야에서 급속한 발전을 이루어 왔으며 Grok-2 출시는 xAI의 새로운 이정표입니다. Musk가 Grok의 대규모 모델 기능을 X 플랫폼의 강력한 콘텐츠 사용자 생태와 연결하면 다음을 포함하는 폐쇄 루프가 형성됩니다.오픈AI알리바바 클라우드를 비롯한 대형 모델 스타트업의 부담은 더욱 크다.

저자 | 리수이칭 바닐라

편집자 |