новости

Маск внезапно выпустил новую большую модель, пожертвовав ресурсами Tesla, чтобы бросить вызов OpenAI, и тест из первых рук уже здесь.

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Менгчен родом из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Выпущена большая модель Маска xAI во втором поколении!

Грок-2Выпущена бета-версия, в Xiaobei Grok-2 mini уже можно играть онлайн на платформе.



Маск также раскрыл тайну, которая уже больше месяца мучает большой модельный круг в образе Загадочника:

Оказывается, загадочная анонимная модель на арене больших моделей Lmsyssus-колонка-r, истинная форма которого — Грок-2.



sus-column-r набрал более 10 000 человеческих голосов в таблице лидеров и имеетТретье место делит API-версия GPT-4o.



В ходе собственного внутреннего тестирования xAI Grok-2 конкурировал с другими передовыми моделями в таких областях, как общие знания (MMLU, MMLU-Pro), вопросы для соревнований по математике (MATH) и научные знания на уровне выпускников (GPQA).

Кроме того, Грок-2 лучше всего справляется с задачами, основанными на зрении, и достигает уровня SOTA в визуальном математическом рассуждении (MathVista).



Однако компоновка этого изображения немного сложнее: GPT-4o и Claude-3.5-Sonnet, имеющие самые высокие баллы, расположены дальше от вас.

Просто смотреть на результаты все еще абстрактно, давайте перейдем к реальному тестированию из первых рук.

Испытание Грока-2 из первых рук

Если вы являетесь платным пользователем платформы /Twitter, вы можете напрямую войти на канал Grok, чтобы опробовать его. Если вы не тратите деньги, вы также можете пойти на арену больших моделей Lmsys и выбрать sus-column-r, чтобы опробовать ее.



иПлатные пользователи могут играть только в мини-версию Xiaobei., бесплатные пользователи могут сыграть в большой кубок, что тоже очень щедро.



Поскольку Грок-2 имеет доступ к данным в реальном времени оВы можете напрямую попросить его подвести итог новости дня., если вы включите веселый режим, вы также сможете оставлять комментарии.



Платная версия тожеДоступ к последней графической модели искусственного интеллекта с открытым исходным кодом Flux.1., переведет китайские слова на английский для понимания.



Нажмите на пример вопроса «Amway — фэнтезийная игра» на главной странице, и вы увидите, что сначала он рекомендует «Baldur's Gate 3» и обсуждает несколько аспектов, включая сюжет, настройку персонажа, игровую механику, формирование мира, элементы юмора и сообщество игроков. Обзор сделан с другой точки зрения и очень хорошо отражает основные моменты игры.



В это время вы можете напрямую перейти на китайский язык и продолжить задавать вопросы.

Грок-2 также знает о «Black Myth: Wukong», игре, которая еще не вышла. Он точно заявил, что дата выхода — 20 августа, используется движок Unreal 5, и подвел итоги обсуждений среди пользователей сети.



В конце он также включает сообщения пользователей сети, по которым вы можете щелкнуть, чтобы принять участие в обсуждении. Функциональная интеграция со всей платформой уже реализована.



Однако, поскольку существует только мини-версия модели, в следующий раз мы перейдем на арену большой модели для испытания на прочность, а также у нас может быть ПК с GPT-4o.

Недавно популярные вопросы для тестирования IQ«Что больше, 9,9 или 9,11?»В тесте Grok-2 (sus-column-r) превосходит последнюю версию ChatGPT.



Но еще один популярный тест«Сколько букв «р» в клубнике»В этом вопросе оба все равно потерпели неудачу. (Попробуйте несколько раз, и есть небольшой шанс, что оба варианта будут правильными).



Более серьезные вопросы-ловушки«Какая из следующих свечей погаснет первой?», Grok-2 немного более продвинут, чем ChatGPT.



Контрольная точка в том, что оставшаяся часть свечи, которая задувается первой, длиннее (правильный ответ 3. ChatGPT неправильно интерпретирует ее как самую короткую. Идея Грока-2 верна, но номер какой из них самый длинный). не правильно.



Оба, похоже, каким-то образом преодолели классическую проблему слабости большой модели — «проклятие разворота». Он не только может напрямую ответить на вопрос «Кто мать Тома Круза?», но также может ответить на обратный вопрос «Сын Мэри Ли Пфайффер — Том Круз», данные которого появляются реже.

(Конечно, нельзя исключать, что после того, как это станет классической проблемой, появятся более актуальные данные.)



Большую модель Маска модернизировали за счет Tesla

Испытание подошло к концу, и видно, что «Грок-2» добился большого прогресса по сравнению с «Грок-1,5» предыдущего поколения.

За кулисами Маск потратил много ресурсов и рабочей силы.

Например, новый исследователь, присоединившийся к xAI, сказал, что его можно использоватьКластер на 100 000 картЗаниматься исследованиями гораздо приятнее, чем иметь плохие ресурсы в школе.



Но одна группа людей не удовлетворена: акционеры Tesla.

По данным Wall Street Journal,Маск продолжает переводить таланты, данные и ресурсы графических процессоров из Tesla в xAI

На данный момент xAI наняла как минимум 11 сотрудников, которые работали в Tesla, шестеро из которых работали непосредственно в команде Autopilot.

Маск также попросил Nvidia уделить приоритетное внимание поставкам xAI для заказов на графические процессоры, первоначально зарезервированных для Tesla.

Маск также публично рассказал об огромных объемах визуальных данных, которые собирает Tesla, которые, по его словам, могут служить ресурсом для обучения моделей xAI.

Как минимум трое акционеров Tesla подали в суд на Маска по этому поводу, утверждая, что передача ресурсов в xAI наносит ущерб интересам инвесторов Tesla.

В настоящее время дело находится на рассмотрении в суде штата Делавэр.