2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Mengchen은 Aofei Temple에서 왔습니다.
Qubits 공개 계정 QbitAI
머스크의 xAI 대형 모델이 2세대로 출시되었습니다!
그록-2베타 버전이 출시되었으며 Xiaobei Grok-2 mini는 이미 플랫폼에서 온라인으로 플레이할 수 있습니다.
머스크는 또한 리들러의 형태로 한 달 넘게 대형 모델계를 괴롭혀온 비밀을 공개했습니다.
알고 보니 Lmsys 대형 모델 무대에 등장한 의문의 익명 모델sus-컬럼-r, 그 실제 형태는 Grok-2입니다.
sus-column-r은 리더보드에서 10,000개 이상의 인간 표를 축적했으며API 버전 GPT-4o로 공동 3위。
xAI의 자체 내부 테스트에서 Grok-2는 일반 지식(MMLU, MMLU-Pro), 수학 경쟁 질문(MATH) 및 대학원 수준 과학 지식(GPQA)과 같은 영역에서 다른 최첨단 모델과 경쟁했습니다.
또한 Grok-2는 비전 기반 작업에 가장 적합하며 시각적 수학적 추론(MathVista)에서 SOTA에 도달합니다.
하지만 이 사진의 레이아웃은 약간 까다롭습니다. 가장 높은 점수를 받은 GPT-4o와 Claude-3.5-Sonnet이 여러분에게서 더 멀리 배치되어 있습니다.
점수만 보는 것은 아직 추상적이므로, 직접 실제 테스트를 진행해 보겠습니다.
Grok-2의 직접 테스트
/Twitter 플랫폼의 유료 사용자인 경우 Grok 채널에 직접 들어가 사용해 볼 수 있습니다. 돈을 쓰지 않는다면 Lmsys 대형 모델 경기장에 가서 sus-column-r을 선택해 시험해 볼 수도 있습니다.
그리고유료 사용자는 Xiaobei 미니 버전만 플레이할 수 있습니다., 무료 사용자는 큰 컵을 플레이할 수 있으며 이는 또한 매우 관대합니다.。
Grok-2는 실시간 데이터에 접근할 수 있기 때문에오늘의 뉴스를 요약해달라고 직접 물어볼 수 있습니다., 펀 모드를 켜면 댓글도 달 수 있어요.
유료 버전도최신 오픈소스 AI 그래프 모델 Flux.1에 액세스, 이해를 위해 중국어 프롬프트 단어를 영어로 번역합니다.
홈페이지에서 'Amway a Fantasy Game' 질문 예시를 클릭하면 먼저 '발더스 게이트 3'를 추천하고 줄거리, 캐릭터 커스터마이징, 게임 메커니즘, 세계 형성, 유머 요소, 플레이어 커뮤니티 등 여러 측면을 논의하는 것을 볼 수 있습니다. 리뷰는 다른 관점에서 이루어지며 게임의 하이라이트를 매우 잘 포착합니다.
이때 바로 중국어로 바꿔서 질문을 이어가시면 됩니다.
그록-2는 아직 출시되지 않은 게임인 '검은 신화:오공'에 대해서도 알고 있으며, 출시일이 8월 20일이며 언리얼 5 엔진을 사용했다고 정확하게 밝히며 네티즌들 사이의 논의를 정리했다.
또한 마지막에는 클릭하여 토론에 참여할 수 있는 네티즌의 게시물도 포함되어 있습니다. 전체 플랫폼과의 기능적 통합이 이미 이루어졌습니다.
하지만 미니 버전 모델만 있기 때문에 다음에는 강도 테스트를 위해 대형 모델 경기장으로 이동할 예정이며, GPT-4o를 이용한 PK도 가능합니다.
최근 인기 있는 IQ 테스트 문제"9.9와 9.11 중 어느 것이 더 크나요?"테스트에서 Grok-2(sus-column-r)는 최신 버전의 ChatGPT보다 성능이 뛰어납니다.
하지만 또 다른 인기 있는 테스트"딸기에는 r이 몇 개 있나요?"이 문제에서는 둘 다 여전히 실패했습니다. (몇 번 시도하면 둘 다 맞을 가능성이 적습니다.)
더 심각한 함정 질문"다음 양초 중 어느 것이 먼저 꺼질까요?", Grok-2는 ChatGPT보다 약간 더 발전되었습니다.
테스트 포인트는 먼저 꺼진 양초의 나머지 부분이 더 길다는 것입니다(정답 3).ChatGPT는 이를 가장 짧은 것으로 잘못 해석합니다. Grok-2 아이디어는 맞지만 가장 긴 양초의 수는 입니다. 정확하지 않습니다.
둘 다 고전적인 빅 모델의 약점인 '역전의 저주' 문제를 어떻게든 극복한 것 같습니다. "톰 크루즈의 어머니는 누구입니까?"에 직접적으로 대답할 수 있을 뿐만 아니라, 데이터가 덜 자주 나타나는 "메리 리 파이퍼의 아들은 톰 크루즈입니다"라는 역질문에도 대답할 수 있습니다.
(물론 이것이 고전적인 문제가 된 후에는 더 관련성이 높은 데이터를 이용할 수 있을 것이라는 점을 배제할 수는 없습니다.)
머스크의 대형 모델은 테슬라를 희생해 업그레이드됐다.
테스트가 끝났고, Grok-2가 이전 세대 Grok-1.5에 비해 큰 발전을 이룬 것을 확인할 수 있습니다.
머스크는 그 뒤에서 많은 자원과 인력을 소비했습니다.
예를 들어, xAI에 합류한 새로운 연구원은 사용할 수 있다고 말했습니다.100,000개의 카드 클러스터연구를 하는 것은 학교에서 자원이 부족한 것보다 훨씬 즐겁습니다.
그러나 한 그룹의 사람들은 만족하지 않습니다. 바로 Tesla 주주들입니다.
월스트리트 저널에 따르면,머스크는 계속해서 인재, 데이터, GPU 리소스를 Tesla에서 xAI로 이전하고 있습니다.。
지금까지 xAI는 Tesla에서 근무한 적이 있는 직원을 최소 11명 고용했으며, 그 중 6명은 Autopilot 팀에서 직접 근무했습니다.
머스크는 또한 원래 Tesla에 예약되었던 GPU 주문에 대해 xAI 공급의 우선순위를 Nvidia에 요청했습니다.
머스크는 또한 Tesla가 수집하는 방대한 양의 시각적 데이터에 대해 공개적으로 밝혔으며, 이는 xAI 모델 교육을 위한 리소스로 사용될 수 있다고 말했습니다.
최소 3명의 Tesla 주주가 xAI로의 자원 이전이 Tesla 투자자의 이익에 해를 끼쳤다고 주장하면서 이 문제에 대해 Musk를 고소했습니다.
해당 사건은 현재 델라웨어 법원에 계류 중이다.