Маск снова создает проблемы! Новая большая модель бросает вызов GPT-4o, пользователи сети сходят с ума

2024-08-14

Zhidongxi News от 14 августа, сегодня днем по пекинскому времени, крупномасштабный модельный стартап МаскахAIЗапуск модели второго поколенияГрок-2 бета, включая мини-версии Грок-2 и Грок-2.

МускусСтрастно разместил на своей социальной платформеsus-колонка-r。

Он ретвитнул твит Lmsys, написав: «Грок — это скорость ракеты». sus-column-r получил более 12 000 голосов в рейтинговом списке, и его производительностьЛучше, чем Claude 3.5 Sonnet и GPT-4-Turbo, сГПТ-4оделят третье место。

Во многих оценках, таких как GPQA, MMLU, MMLU-Pro, MATH, MathVista и т. д.,Грок-2Оценки превосходят показатели основных моделей, таких как GPT-4 Turbo, Claude 3 Opus и Gemini Pro 1.5, но все же уступают GPT-4o.

В настоящее время пользователи X Premium и Premium+ могут испытать Grok-2 и Grok-2 mini, а Zhixixi был первым, кто провел фактическое тестирование и опыт.

После некоторого опыта самое очевидное ощущение, которое вызвал у меня Грок-2, это то, что его логика очень ясна. Например, в следующем примере, хотя Grok-2 и GPT-4o дали правильные ответы, шаги и расчеты каждого шага первого очень ясны и их легче понять. Кроме того, возможности винсентийской графики Grok-2 резко возросли благодаря поддержке FLUX.1, и он сохранил свой последовательный «смелый» стиль.

xAI также планирует выпустить две версии корпоративного API Grok-2 позднее в этом месяце.

Адрес опыта:https://lmarena.ai/?model=sus-column-r

1. Производительность догоняет несколько версий GPT-4, а визуальные и логические возможности становятся сильнее.

На арене чат-ботов LMSYS в оценке участвовала ранняя версия Grok-2, sus-column-r.Общий показатель Эло превосходит Claude и несколько версий GPT-4.。

Как показано на рисунке ниже, оценка Grok-2 превзошла версию GPT-4o-mini от 18 июля и версию GPT-4-Turbo от 9 апреля, но оценка все равно была ниже, чем версия GPT-4-Turbo от 8 августа. ChatGPT-4o - Последняя версия GPT-4o от 15 мая.

Внутри команда xAI использует аналогичный процесс оценки моделей, при этом оценка сосредоточена на двух основных возможностях модели: во-первых,Точно следуйте инструкциям, второй - предоставить информациюТочность и подлинность。

Стоит отметить, что Грок-2Содержание поиска по анализу выводовиИспользуйте инструментыОн добился значительного прогресса, например, в способности точно определять недостающую информацию, выполнять логические рассуждения с помощью последовательностей событий и эффективно удалять ненужные сообщения.

Для эталонного тестирования команда использовала серию тестов, охватывающихРассуждение, понимание прочитанного, математика, естествознание и программирование.Комплексная оценка модели Грока-2 была проведена по академическим критериям в других областях.

Результаты показывают, что «Грок-2» и его упрощенная версия «Грок-2 мини» значительно улучшены по сравнению с моделью «Грок-1,5» предыдущего поколения.

на уровне выпускниковНаучные знания (например, GPQA), вопросы и ответы, основанные на здравом смысле (например, MMLU, MMLU-Pro)а такжеВопросы для соревнований по математике (например, MATH)В других областях их производительность может конкурировать с другими топ-моделями.

Как показано на рисунке ниже, «Грок-2» показал хорошие результаты во всех этих тестах.Превзошел GPT-4 Turbo, Claude 3 Opus и Gemini Pro 1.5, но все равно не смог победить GPT-4o.。

Стоит отметить, что Грок-2визуальные задачиОтличная производительность, особенно наВизуальное математическое мышление (MathVista)иОтветы на вопросы на основе документов (DocVQA)Производительность особенно выдающаяся.

2. «Грок-2» запущен на

Grok-2 и Grok-2 mini теперь доступны подписчикам X, а те, кто не является подписчиком, также могут бесплатно испытать раннюю версию модели Grok-2 sus-column-r на арене больших моделей.

Всего на арене крупных моделей доступно 62 модели, включая GPT-4o. Чтобы облегчить сравнение, давайте сначала протестируем эту раннюю модель.

Первый — вопрос соотношения размеров, который когда-то перевернул многие модели: какая из них больше, 13,11 или 13,8. И Грок-2, и ГПТ-4о ответили точно, но мыслительный процесс Грока-2 был более ясным и содержал подробные этапы мышления.

На другой классический вопрос «Сколько букв r в Strawberry?» Грок-2 сначала ответил неправильно, но затем дал правильный ответ после перехода на английский язык. GPT-4o ответил правильно как на китайском, так и на английском языке. Похоже, в крупных моделях все же будет элемент везения.

Модели на арене больших моделей не подключены к Интернету в режиме реального времени. Когда я спросил: «Каковы особенности Pixel 9, только что выпущенного Google?», обе модели ответили, что у них еще нет этой информации. Затем Grok-2 дал прогнозы, основанные на тенденциях развития технологий и прошлых характеристиках Pixel. Одно предположение было вполне надежным. Камеры, процессоры, искусственный интеллект и т. д. — все это в центре внимания обновления Google.

GPT-4o не дал прогноза, но обобщил прошлые особенности телефонов Pixel.

С точки зрения возможностей кодирования производительность двух моделей сопоставима, а для требований даны подробные шаги решения и полные коды.

В плане логических рассуждений «Грок-2» еще раз демонстрирует ясность логики, а каждый шаг рассуждения разделен на подзаголовки. Хотя GPT-4o также ответил правильно, шаги мышления были недостаточно ясными.

Возможности графа Винсента являются основным направлением этого обновления Grok-2. Модель FLUX.1, к которой он подключен, в последнее время стала очень популярной в сообществе разработчиков программного обеспечения с открытым исходным кодом благодаря своей высокой производительности. Однако возможность создания изображений не может быть реализована на арене больших моделей и может быть достигнута только посредством подписки X.

Пользователи сети уже повеселились с Grok-2 Wenshengtu, например, используя его возможности генерации текста, чтобы помочь Grok-2 провести офлайн-пресс-конференцию.

Или используйте свое воображение и позвольте Маску водить машину на Марсе.

Учитывая практически нулевую систему цензуры Грока, многие пользователи сети пошутили, например, попросили Трампа стрелять или попросили Джорджа Буша нюхать кокаин...

Или позволить Трампу подняться в небо на ракете SpaceX. Столкнувшись с той же просьбой, GPT-4o решительно отказался.

Насколько беззастенчива система цензуры Грока? Некоторые пользователи сети протестировали большую модель, чтобы «ранжировать 10 лучших IQ по расам», и только Грок-2 без колебаний дал ответ:ЧатGPTКлод отказался прямо, и Близнецы приступили к кропотливому воспитанию.

В целом, Grok-2 по-прежнему реализует свой смелый стиль. В то же время производительность его модели сравнима с головными моделями, такими как GPT-4o, его логика более понятна, а его мультимодальные возможности даже лучше, чем у FLUX.1. С благословением он взлетел прямо вверх.

3. Запуск корпоративной платформы API в конце месяца для плавной интеграции корпоративных систем.

В конце этого месяца xAI пройдет новыйКорпоративная API-платформа, официально представила разработчикам Grok-2 и Grok-2 mini.

Этот API будет использовать новую специализированную техническую архитектуру для поддержкиРазвертывание многорегионального вывода,дляглобальные пользователиОбеспечьте плавность работы с низкой задержкой.

В то же время xAI имеет расширенные функции безопасности, включая обязательную многофакторную аутентификацию (например, Yubikey, Apple TouchID или TOTP) и предоставляет подробную информацию.Статистика трафика и услуги расширенного анализа биллинга, поддерживает экспорт данных.

Кроме того, xAI также запустила API управления для поддержки плавной интеграции функций управления командой, пользователями и выставлением счетов в существующие внутренние инструменты и сервисы.

Вывод: связь между Grok-2 и платформой X глубже, а OpenAI и другие компании находятся под большим давлением.

Grok-2 и Grok-2 mini теперь доступны на платформе X. Например, расширенные возможности поиска, углубленный анализ сообщений X и оптимизированные функции ответов весьма интересны. Вскоре xAI также выпустит предварительную версию своих возможностей мультимодального понимания.

С момента запуска Grok-1 в ноябре 2023 года компания xAI добилась быстрого прогресса в технологиях, продуктах и финансировании, а запуск Grok-2 стал ее новой вехой. Как только Маск соединит возможности больших моделей Грока с мощной пользовательской экологией платформы X, будет сформирован замкнутый цикл, включающийOpenAIДавление на крупные модельные стартапы, включая Alibaba Cloud, еще сильнее.

Автор Ли Шуйцин Ваниль

Редактор | Юнпэн

новости