Новости

Оригинальная работа заканчивается лично! Первая модель Mistral 7B Mamba с открытым исходным кодом «Клеопатра» обладает потрясающими эффектами.

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Редактор: Редакционный отдел

[Введение в новую мудрость] В последнее время небольшие модели 7B стали тенденцией, которую гиганты искусственного интеллекта стремятся догнать. Вслед за Google Gemma2 7B компания Mistral сегодня выпустила еще две модели 7B, а именно Mathstral для предметов STEM и Codestral Mamba, модель кода, использующую архитектуру Mamaba.

У Мистраля еще один сюрприз!

Буквально сегодня компания Mistral выпустила две небольшие модели: Mathstral 7B и Codestral Mamba 7B.

Прежде всего, это Mathstral 7B, предназначенный для математических рассуждений и научных открытий.

В тесте MATH он набрал 56,6% баллов при 1, что более чем на 20% выше, чем у Minerva 540B. Mathstral набрал 68,4% по математике и 74,6% по модели вознаграждения.

Модель кода Codestral Mamba — одна из первых моделей с открытым исходным кодом, использующая архитектуру Mamba 2.

Это лучшая из доступных моделей кода 7B, обученная с использованием контекста длиной 256 тыс. токенов.


Обе модели выпущены под лицензией Apache 2.0, а гири в настоящее время загружены на склад HuggingFace.


Адрес «Обнимающего лица»: https://huggingface.co/mistralai.

Математический

Интересно, что, согласно официальному анонсу, выпуск Mathstral приурочен к празднованию 2311-й годовщины со дня рождения Архимеда.

Mathstral предназначен для предметов STEM, позволяющих решать сложные математические задачи, требующие сложных многоэтапных рассуждений. Параметры всего 7Б, а контекстное окно — 32К.

Более того, у исследований и разработок Mathstral также есть партнер-тяжеловес — Numina, которая только что выиграла чемпионат на первой математической олимпиаде по искусственному интеллекту, проводимой Kaggle на прошлой неделе.


Более того, некоторые пользователи Твиттера обнаружили, что Mathstral может правильно ответить на вопрос «Что больше: 9,11 или 9,9?» Этот вопрос поставил в тупик многие большие модели.

Целые и десятичные дроби сравниваются отдельно, и цепочка мыслей ясна. Можно сказать, что это отличная модель работы математической модели.


Основываясь на языковых возможностях Mistral 7B, Mathstral дополнительно фокусируется на предметах STEM. Согласно результатам предметной разбивки MMLU, абсолютными преимуществами Mathstral являются математика, физика, биология, химия, статистика, информатика и другие области.


Согласно официальному сообщению в блоге, Mathstral, похоже, жертвует некоторой скоростью вывода в обмен на производительность модели, но, судя по результатам оценки, этот компромисс того стоит.

В многочисленных тестах по математике и рассуждению Mathstral победил популярные небольшие модели, такие как Llama 3 8B и Gemma2 9B, особенно достигнув SOTA по вопросам математических соревнований, таких как AMC 2023 и AIME 2024.


Более того, время вывода может быть дополнительно увеличено для достижения лучших результатов модели.

Если голосование большинством используется для 64 кандидатов, оценка Mathstral по MATH может достичь 68,37%. При дальнейшем добавлении дополнительных моделей вознаграждения он может достичь высокого балла в 74,59%.

В дополнение к платформам HuggingFace и la Plateforme вы также можете вызвать два официально выпущенных SDK с открытым исходным кодом: Mistral-finetune и Mistral Inference, чтобы использовать или точно настроить модель.

Кодестральная Мамба

Вслед за выпуском серии Mixtral, основанной на архитектуре Transformer, также была выпущена Codestral Mamba, первая модель генерации кода, использующая архитектуру Mamba2.

Более того, в процессе исследований и разработок также помогали первоначальные авторы «Мамбы» Альберт Гу и Три Дао.

Интересно, что в официальной рекламной статье конкретно упоминалась связанная с ней «Клеопатра» Клеопатра VII, которая драматично покончила свою жизнь с ядовитой змеей.

После выпуска архитектуры Mamba ее превосходные экспериментальные характеристики привлекли всеобщее внимание и вызвали оптимизм. Однако, поскольку все сообщество искусственного интеллекта вложило слишком много денег в Transformer, мы редко видели промышленные модели, которые действительно используют Mamba.

В настоящее время Codestral Mamba может предоставить нам новый взгляд на изучение новых архитектур.

Архитектура Mamba была впервые запущена в декабре 2023 года, а в мае этого года оба автора выпустили обновленную версию Mamba-2.

В отличие от Трансформера, модель Мамбы имеет преимущество линейного времени и теоретически способна моделировать последовательности бесконечной длины.

Обе модели относятся к 7B. Хотя контекстное окно Mathstral составляет всего 32 КБ, Codestral Mamba можно расширить до 256 КБ.

Это преимущество эффективности во времени вывода и длине контекста, а также возможность быстрого ответа особенно важны в практических сценариях для повышения эффективности кодирования.

Команда «Мистраль» увидела это преимущество модели «Мамба» и взяла на себя инициативу в ее опробовании. Судя по результатам бенчмарк-теста, Codestral Mamba по параметру 7B не только имеет очевидные преимущества перед другими моделями 7B, но и может конкурировать даже с более масштабными моделями.


В 8 тестах производительности Codestral Mamba практически сравнялся с Code Llama 34B и даже превзошел производительность в 6 тестах.

Однако по сравнению со своим старшим сестрой Codestral 22B, Codestral Mamba имеет недостаток параметров, и ему по-прежнему не хватает возможностей.

Стоит отметить, что Codestral 22B — новая модель, выпущенная менее двух месяцев назад. Еще раз сетую на такую ​​популярность Mistral, штаб-квартира которой находится в Париже.

Codestral Mamba также можно развернуть с помощью Mistral-inference или API быстрого развертывания TensorRL-LLM, выпущенного NVIDIA.


Адрес GitHub: https://github.com/NVIDIA/TensorRT-LLM

Для локальной работы в официальном блоге указано, что можно обратить внимание на последующую поддержку llama.cpp. Но Оллама действовал быстро и добавил Mathstral в библиотеку моделей.


Столкнувшись с призывами пользователей сети обновить кодстральную мамбу, Оллама также очень решительно сказал: «Мы уже работаем над этим, пожалуйста, не будьте нетерпеливы».


Использованная литература:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/