Моя контактная информация
Почта[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Zhidongxi News от 14 августа, сегодня днем по пекинскому времени, крупномасштабный модельный стартап МаскахAIЗапуск модели второго поколенияГрок-2 бета, включая мини-версии Грок-2 и Грок-2.
МускусСтрастно разместил на своей социальной платформеsus-колонка-r。
Он ретвитнул твит Lmsys, написав: «Грок — это скорость ракеты». sus-column-r получил более 12 000 голосов в рейтинговом списке, и его производительностьЛучше, чем Claude 3.5 Sonnet и GPT-4-Turbo, сГПТ-4оделят третье место。
Во многих оценках, таких как GPQA, MMLU, MMLU-Pro, MATH, MathVista и т. д.,Грок-2Оценки превосходят показатели основных моделей, таких как GPT-4 Turbo, Claude 3 Opus и Gemini Pro 1.5, но все же уступают GPT-4o.
В настоящее время пользователи X Premium и Premium+ могут испытать Grok-2 и Grok-2 mini, а Zhixixi был первым, кто провел фактическое тестирование и опыт.
После некоторого опыта самое очевидное ощущение, которое вызвал у меня Грок-2, это то, что его логика очень ясна. Например, в следующем примере, хотя Grok-2 и GPT-4o дали правильные ответы, шаги и расчеты каждого шага первого очень ясны и их легче понять. Кроме того, возможности винсентийской графики Grok-2 резко возросли благодаря поддержке FLUX.1, и он сохранил свой последовательный «смелый» стиль.
xAI также планирует выпустить две версии корпоративного API Grok-2 позднее в этом месяце.
Адрес опыта:https://lmarena.ai/?model=sus-column-r
На арене чат-ботов LMSYS в оценке участвовала ранняя версия Grok-2, sus-column-r.Общий показатель Эло превосходит Claude и несколько версий GPT-4.。
Как показано на рисунке ниже, оценка Grok-2 превзошла версию GPT-4o-mini от 18 июля и версию GPT-4-Turbo от 9 апреля, но оценка все равно была ниже, чем версия GPT-4-Turbo от 8 августа. ChatGPT-4o - Последняя версия GPT-4o от 15 мая.
Внутри команда xAI использует аналогичный процесс оценки моделей, при этом оценка сосредоточена на двух основных возможностях модели: во-первых,Точно следуйте инструкциям, второй - предоставить информациюТочность и подлинность。
Стоит отметить, что Грок-2Содержание поиска по анализу выводовиИспользуйте инструментыОн добился значительного прогресса, например, в способности точно определять недостающую информацию, выполнять логические рассуждения с помощью последовательностей событий и эффективно удалять ненужные сообщения.
Для эталонного тестирования команда использовала серию тестов, охватывающихРассуждение, понимание прочитанного, математика, естествознание и программирование.Комплексная оценка модели Грока-2 была проведена по академическим критериям в других областях.
Результаты показывают, что «Грок-2» и его упрощенная версия «Грок-2 мини» значительно улучшены по сравнению с моделью «Грок-1,5» предыдущего поколения.
на уровне выпускниковНаучные знания (например, GPQA), вопросы и ответы, основанные на здравом смысле (например, MMLU, MMLU-Pro)а такжеВопросы для соревнований по математике (например, MATH)В других областях их производительность может конкурировать с другими топ-моделями.
Как показано на рисунке ниже, «Грок-2» показал хорошие результаты во всех этих тестах.Превзошел GPT-4 Turbo, Claude 3 Opus и Gemini Pro 1.5, но все равно не смог победить GPT-4o.。
Стоит отметить, что Грок-2визуальные задачиОтличная производительность, особенно наВизуальное математическое мышление (MathVista)иОтветы на вопросы на основе документов (DocVQA)Производительность особенно выдающаяся.
Grok-2 и Grok-2 mini теперь доступны подписчикам X, а те, кто не является подписчиком, также могут бесплатно испытать раннюю версию модели Grok-2 sus-column-r на арене больших моделей.
Всего на арене крупных моделей доступно 62 модели, включая GPT-4o. Чтобы облегчить сравнение, давайте сначала протестируем эту раннюю модель.
Первый — вопрос соотношения размеров, который когда-то перевернул многие модели: какая из них больше, 13,11 или 13,8. И Грок-2, и ГПТ-4о ответили точно, но мыслительный процесс Грока-2 был более ясным и содержал подробные этапы мышления.
На другой классический вопрос «Сколько букв r в Strawberry?» Грок-2 сначала ответил неправильно, но затем дал правильный ответ после перехода на английский язык. GPT-4o ответил правильно как на китайском, так и на английском языке. Похоже, в крупных моделях все же будет элемент везения.
Модели на арене больших моделей не подключены к Интернету в режиме реального времени. Когда я спросил: «Каковы особенности Pixel 9, только что выпущенного Google?», обе модели ответили, что у них еще нет этой информации. Затем Grok-2 дал прогнозы, основанные на тенденциях развития технологий и прошлых характеристиках Pixel. Одно предположение было вполне надежным. Камеры, процессоры, искусственный интеллект и т. д. — все это в центре внимания обновления Google.
GPT-4o не дал прогноза, но обобщил прошлые особенности телефонов Pixel.
С точки зрения возможностей кодирования производительность двух моделей сопоставима, а для требований даны подробные шаги решения и полные коды.
В плане логических рассуждений «Грок-2» еще раз демонстрирует ясность логики, а каждый шаг рассуждения разделен на подзаголовки. Хотя GPT-4o также ответил правильно, шаги мышления были недостаточно ясными.
Возможности графа Винсента являются основным направлением этого обновления Grok-2. Модель FLUX.1, к которой он подключен, в последнее время стала очень популярной в сообществе разработчиков программного обеспечения с открытым исходным кодом благодаря своей высокой производительности. Однако возможность создания изображений не может быть реализована на арене больших моделей и может быть достигнута только посредством подписки X.
Пользователи сети уже повеселились с Grok-2 Wenshengtu, например, используя его возможности генерации текста, чтобы помочь Grok-2 провести офлайн-пресс-конференцию.
Или используйте свое воображение и позвольте Маску водить машину на Марсе.
Учитывая практически нулевую систему цензуры Грока, многие пользователи сети пошутили, например, попросили Трампа стрелять или попросили Джорджа Буша нюхать кокаин...
Или позволить Трампу подняться в небо на ракете SpaceX. Столкнувшись с той же просьбой, GPT-4o решительно отказался.
Насколько беззастенчива система цензуры Грока? Некоторые пользователи сети протестировали большую модель, чтобы «ранжировать 10 лучших IQ по расам», и только Грок-2 без колебаний дал ответ:ЧатGPTКлод отказался прямо, и Близнецы приступили к кропотливому воспитанию.
В целом, Grok-2 по-прежнему реализует свой смелый стиль. В то же время производительность его модели сравнима с головными моделями, такими как GPT-4o, его логика более понятна, а его мультимодальные возможности даже лучше, чем у FLUX.1. С благословением он взлетел прямо вверх.
В конце этого месяца xAI пройдет новыйКорпоративная API-платформа, официально представила разработчикам Grok-2 и Grok-2 mini.
Этот API будет использовать новую специализированную техническую архитектуру для поддержкиРазвертывание многорегионального вывода,дляглобальные пользователиОбеспечьте плавность работы с низкой задержкой.
В то же время xAI имеет расширенные функции безопасности, включая обязательную многофакторную аутентификацию (например, Yubikey, Apple TouchID или TOTP) и предоставляет подробную информацию.Статистика трафика и услуги расширенного анализа биллинга, поддерживает экспорт данных.
Кроме того, xAI также запустила API управления для поддержки плавной интеграции функций управления командой, пользователями и выставлением счетов в существующие внутренние инструменты и сервисы.
Grok-2 и Grok-2 mini теперь доступны на платформе X. Например, расширенные возможности поиска, углубленный анализ сообщений X и оптимизированные функции ответов весьма интересны. Вскоре xAI также выпустит предварительную версию своих возможностей мультимодального понимания.
С момента запуска Grok-1 в ноябре 2023 года компания xAI добилась быстрого прогресса в технологиях, продуктах и финансировании, а запуск Grok-2 стал ее новой вехой. Как только Маск соединит возможности больших моделей Грока с мощной пользовательской экологией платформы X, будет сформирован замкнутый цикл, включающийOpenAIДавление на крупные модельные стартапы, включая Alibaba Cloud, еще сильнее.
Автор Ли Шуйцин Ваниль
Редактор | Юнпэн