2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
기계 심장 보고서
머신하트 편집부
GPT-5는 아직 나오지 않았지만 Grok은 이미 따라잡았습니다.
Google과 OpenAI가 뉴스를 놓고 경쟁하던 날, Musk의 xAI도 가만히 있지 않았습니다.
베이징 시간 수요일 오후, xAI는 차세대 Grok 2 대형 모델을 공식 출시했습니다.
타사 대형모델 벤치마크 기관인 챗봇아레나도 즉시 LMSYS 목록의 점수 목록을 업데이트했다. Grok 2(sus-column-r)의 초기 모델은 GPT-4o(버전 0513)에 이어 4위에 랭크되어 Claude 3.5 Sonnet 및 GPT-4-Turbo보다 성능이 뛰어납니다.
코딩, 복잡한 문제 및 수학에 탁월합니다.
머스크는 "그록의 추진 속도는 로켓과 같다"고 자랑하지 않을 수 없었다.
참고로 이는 초기 버전의 점수일 뿐이며 향후 정식 버전을 테스트할 예정이라고 합니다.
Musk는 Grok-2가 최첨단 추론 기능을 갖춘 고급 언어 모델이라고 말했습니다. 새로운 세대에는 Grok-2와 Grok-2 mini의 두 가지 버전이 포함되어 있습니다. 이제 두 모델 모두 X 플랫폼에서 Grok 사용자에게 출시되었습니다. 현재 X Premium 및 Premium+ 사용자는 이미 Grok-2 및 Grok-2 미니 모델을 경험할 수 있습니다.
이전 Grok-1.5와 비교하여 Grok-2의 초기 미리보기 버전은 상당한 발전을 이루었으며 채팅, 추론, 코딩 등에서 최고의 기능을 보여주었습니다. xAI에 따르면 Grok-2와 Grok-2 mini는 현재 X에서 베타 버전이며 이번 달 말에 엔터프라이즈 API를 통해 제공될 예정입니다.
새 모델이 출시된 지 30분도 채 지나지 않아 한 네티즌은 이미 그록 2 미니를 사용해 '나와 머스크가 핫도그를 먹고 있다'는 이미지를 연출한 바 있다.
워싱턴의 초상화를 생성하려면 다른 것을 시도해 보세요.
어떤 사람들은 날아다니는 고양이를 생성하기 위해 Grok 2 mini를 사용해 보기도 했습니다.
다른 사람이 Tesla Model Y를 만들었는데 비슷해 보이나요?
Grok-2 성능 PK
xAI가 Grok-2의 초기 버전인 "sus-column-r"을 Chatbot Arena에 추가하면서 다른 인기 있는 오픈 소스 및 폐쇄 소스 모델과 비교하여 성능이 어떤지 확인했습니다.
전체 Elo 점수 측면에서 Grok-2는 Claude 시리즈 모델 및 대부분의 GPT-4 버전보다 성능이 뛰어납니다. 물론 목록의 첫 번째는 OpenAI가 최근 출시한 GPT-4o(8월 8일 버전)입니다.
아래 그림은 Grok-2와 다른 인기 모델 간의 승률 비교를 보여줍니다.
아래 그림은 Grok 1.5와 Grok 2의 두 버전 간의 사실 기반 승률 비교를 보여줍니다.
xAI는 이 프로세스를 채택하여 Grok 2 모델을 평가하고 AI 교사를 사용하여 다양한 작업에서 모델과 실제로 상호 작용합니다. 각 상호 작용 중에 Grok 2는 AI 교사에게 두 가지 응답을 제공한 후 가이드에 나열된 특정 기준에 따라 최상의 응답을 선택합니다.
xAI는 지침 준수와 정확하고 진실된 정보 제공이라는 두 가지 주요 영역에서 모델 성능을 평가하는 데 중점을 둡니다. 결과는 검색된 콘텐츠를 추론하고 누락된 정보를 정확하게 식별하고 일련의 이벤트를 통해 추론하고 관련 없는 게시물을 삭제하는 등의 도구를 사용하는 Grok 2의 능력이 크게 향상되었음을 보여줍니다.
벤치마크 점수
xAI는 추론, 독해력, 수학, 과학 및 코딩을 포함한 다양한 학문적 벤치마크에서 Grok-2 모델을 평가했습니다.
Grok-2와 Grok-2 mini는 모두 이전 Grok-1.5 모델에 비해 크게 개선되었습니다. 대학원 수준 과학 지식(GPQA), 일반 지식(MMLU, MMLU-Pro), 수학 경쟁 문제(MATH) 등의 영역에서 다른 최첨단 모델과 성능이 비슷합니다.
또한 Grok-2는 시각적 수학적 추론(MathVista) 및 문서 기반 질문 응답(DocVQA)에서 뛰어난 성능을 발휘하여 비전 기반 작업에서도 탁월한 성능을 발휘합니다.
Grok 2 인터페이스 및 기능 "대대적인 변신"
지난 몇 달 동안 xAI는 x 플랫폼에서 Grok 경험을 지속적으로 개선해 왔습니다. 이제 차세대 Grok 2가 출시되면서 xAI는 아래와 같이 인터페이스를 재설계했습니다.
물론 xAI는 Conway의 "Game of Life"의 간단한 구현과 같은 몇 가지 새로운 기능을 제공합니다.
또 다른 예는 다중 모드 이해 능력(그림을 보고 말하기)입니다.
그중 Grok-2는 텍스트 및 시각적 이해 기능과 X 애플리케이션의 Grok 탭을 통해 액세스할 수 있는 X 플랫폼의 통합 실시간 정보를 갖춘 xAI의 가장 진보된 AI 도우미입니다.
Grok-2 mini는 속도와 응답 품질 간의 적절한 균형을 유지하는 작지만 강력한 모델입니다.
Grok-2는 이전 버전보다 더 직관적이고, 더 제어하기 쉽고, 더 유연하여 답을 찾고, 공동 작문, 코딩 작업 해결 등 다양한 작업에 적합합니다.
또한 xAI는 스타트업 Black Forest Labs와 협력하여 FLUX.1 모델을 실험하여 X에서 Grok의 기능을 확장하고 있습니다.
이달 말 xAI는 새로운 엔터프라이즈 API 플랫폼을 통해 개발자에게 Grok-2 및 Grok-2 mini를 출시할 예정입니다. 곧 출시될 API는 새로운 맞춤형 기술 스택을 기반으로 구축되어 지연 시간이 짧은 글로벌 액세스를 위한 다중 지역 추론 배포를 허용합니다.
물론 xAI는 필수 다단계 인증(예: Yubikey, Apple TouchID 또는 TOTP 사용)과 같은 몇 가지 향상된 보안 기능도 제공합니다.
2023년 11월 Grok-1이 출시된 이후 xAI는 이 모델 시리즈를 놀라운 속도로 발전시켜 왔다는 것을 알 수 있습니다. 곧 다중 모드를 이해하는 미리보기 버전을 출시할 예정입니다. xAI 이후의 초점은 새로운 컴퓨팅 클러스터를 통해 모델의 핵심 추론 기능을 향상시키는 것입니다.
블로그 주소: https://x.ai/blog/grok-2