Grok-2 уже здесь, он умеет генерировать изображения и распознавать изображения, а его производительность сравнима с GPT-4o: он развивается как ракета

Grok-2 уже здесь, он может генерировать изображения и распознавать изображения, а его производительность сравнима с GPT-4o: он развивается как ракета.

2024-08-14

Отчет о сердце машины

Редакция «Машинное сердце»

GPT-5 еще не вышел, Грок уже подтянулся.

В тот день, когда Google и OpenAI боролись за новости, xAI Маска тоже не бездействовал.

В среду днем по пекинскому времени компания xAI официально представила большую модель Grok 2 нового поколения.

Сторонняя организация по тестированию крупных моделей Chatbot Arena также немедленно обновила рейтинг списка LMSYS. Ранняя модель Grok 2 (sus-column-r) может занять четвертое место после GPT-4o (версия 0513), обогнав Claude 3.5 Sonnet и GPT-4-Turbo.

Он преуспевает в программировании, решении сложных задач и математике.

Маск не мог не похвастаться: «Скорость движения Грока подобна ракете».

Обратите внимание, что это только оценка ранней версии. Chatbot Arena заявила, что в будущем будет тестировать официальную версию.

Маск сказал, что Grok-2 — это продвинутая языковая модель с самыми современными возможностями рассуждения. Новое поколение включает две версии: Грок-2 и Грок-2 мини. Обе модели теперь доступны пользователям Grok на платформе X. В настоящее время пользователи X Premium и Premium+ уже могут испытать мини-модели Grok-2 и Grok-2.

По сравнению с предыдущим Grok-1.5 ранняя предварительная версия Grok-2 достигла значительного прогресса, продемонстрировав ведущие возможности в чате, рассуждениях, кодировании и т. д. В xAI сообщают, что Grok-2 и Grok-2 mini в настоящее время находятся в стадии бета-тестирования на X и будут доступны через корпоративный API позднее в этом месяце.

Менее чем через полчаса после выпуска новой модели один из пользователей сети уже демонстрировал результаты. Он использовал Grok 2 mini, чтобы создать изображение «Я и Маск едим хот-доги».

Попробуйте другой, чтобы создать портрет Вашингтона.

Некоторые люди также пытались создать летающего кота с помощью Grok 2 mini.

Кто-то еще построил Tesla Model Y, она похожа?

Грок-2 в исполнении ПК

Поскольку xAI помещает раннюю версию Grok-2, «sus-column-r», в Chatbot Arena, мы видим, как ее производительность сравнивается с другими популярными моделями с открытым и закрытым исходным кодом.

С точки зрения общего балла Эло Grok-2 работает лучше, чем модели серии Claude и большинство версий GPT-4. Конечно, первым в списке является GPT-4o (версия от 8 августа), которую OpenAI выпустила только на днях.

На рисунке ниже показано сравнение выигрышей между Grok-2 и другими популярными моделями.

На рисунке ниже показано основанное на фактах сравнение количества побед между двумя версиями Grok 1.5 и Grok 2.

xAI применяет этот процесс для оценки модели Grok 2, используя AI Tutors для реального взаимодействия с моделью в различных задачах. Во время каждого взаимодействия Grok 2 предоставляет два ответа AI Tutors, который затем выбирает лучший ответ на основе определенных критериев, перечисленных в руководстве.

xAI фокусируется на оценке производительности модели в двух ключевых областях: выполнение инструкций и предоставление точной и правдивой информации. Результаты показывают значительные улучшения в способности Grok 2 рассуждать на основе полученного контента и использовать такие инструменты, как правильное определение недостающей информации, анализ последовательности событий, удаление нерелевантных сообщений и т. д.

Результаты тестов

Компания xAI оценила модель Grok-2 по ряду академических критериев, включая рассуждение, понимание прочитанного, математику, естествознание и программирование.

И Grok-2, и Grok-2 mini представляют собой значительные улучшения по сравнению с предыдущей моделью Grok-1.5. Производительность сопоставима с другими передовыми моделями в таких областях, как научные знания для выпускников (GPQA), общие знания (MMLU, MMLU-Pro) и задачи соревнований по математике (MATH).

Кроме того, Grok-2 также хорошо справляется с задачами, основанными на зрении, демонстрируя замечательные результаты в визуальном математическом рассуждении (MathVista) и ответах на вопросы на основе документов (DocVQA).

Интерфейс и функции Grok 2 «большое обновление»

В течение последних нескольких месяцев xAI постоянно улучшала возможности Grok на платформе x. Теперь, с выпуском Grok 2 следующего поколения, xAI обновила интерфейс, как показано ниже.

Конечно, xAI предоставляет некоторые новые функции, такие как простая реализация «Игры жизни» Конвея.

Другим примером является способность к мультимодальному пониманию (смотрение картинок и разговор).

Среди них Grok-2 — самый продвинутый ИИ-помощник xAI с возможностями понимания текста и визуального представления, а также интегрированной информацией в реальном времени с платформы X, доступ к которой можно получить через вкладку Grok в приложении X.

Grok-2 mini — небольшая, но мощная модель, обеспечивающая хороший баланс между скоростью и качеством ответа.

Grok-2 более интуитивно понятен, более управляем и более гибок, чем его предшественник, что делает его подходящим для различных задач, будь то поиск ответов, совместное написание текста или решение задач по программированию.

Кроме того, xAI работает со стартапом Black Forest Labs, чтобы экспериментировать с их моделью FLUX.1, чтобы расширить возможности Grok в X.

Позже в этом месяце xAI также выпустит Grok-2 и Grok-2 mini для разработчиков через новую корпоративную платформу API. Будущий API построен на новом специальном стеке технологий, позволяющем развертывать межрегиональный логический вывод для глобального доступа с малой задержкой.

Конечно, xAI также предлагает некоторые расширенные функции безопасности, такие как обязательная многофакторная аутентификация (например, с использованием Yubikey, Apple TouchID или TOTP).

Видно, что с момента запуска Grok-1 в ноябре 2023 года компания xAI продвигает эту серию моделей с угрожающей скоростью. Вскоре они выпустят предварительную версию с мультимодальным пониманием. После xAI основное внимание будет уделяться улучшению основных логических возможностей модели с помощью новых вычислительных кластеров.

Адрес блога: https://x.ai/blog/grok-2

новости

Grok-2 уже здесь, он может генерировать изображения и распознавать изображения, а его производительность сравнима с GPT-4o: он развивается как ракета.

Введение

Моя контактная информация