Мамба действительно превосходит Трансформера в написании кода! Оригинальный доклад выбран для лучших новых конференций

Мамба действительно превосходит Трансформера в написании кода!Оригинальный доклад выбран для лучшей новой конференции

2024-07-17

Западный ветер дует из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

«Европейский OpenAI» и «Трансформер Челленджер» объединили усилия!

Mistral AI только что выпустил свой первыйМамба2Модель с открытым исходным кодом для архитектуры -Кодестральная Мамба(7B), специализирующийся на генерации кода.

В отличие от архитектуры Transformer, архитектура Mamba может выполнять «рассуждения в линейном времени» и теоретически может поддерживать ввод бесконечной длины.

Mistral AI: Вот почему мы используем модель рассуждения кода, запущенную архитектурой Mamba, чтобы противостоять атаке.

Mistral AI заявляет, что у него больше всегоКонтекст токена 256 тыс.Codestral Mamba была протестирована в .

В бенчмарке общая производительность Codestral Mamba превзошла CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B и CodeLlama 34B.

Некоторые пользователи сети заявили, что эта волна — это темп, с которым Mistral AI будет продвигать архитектуру Mamba вперед.

Один из авторов архитектуры Мамбы, доцент КМУ.Альберт Гувыражать:

Различные модальности или форматы данных с более слабыми «токенизациями» (например, код, моделирование на уровне байтов) будут все больше выигрывать от использования сжатых моделей, таких как SSM.

Помимо Codestral Mamba, Mistral AI также выпустила новыйматематическая модель——Математический(7Б).

Что интересно, пользователи сети добились того, что за последние несколько дней крупные модели часто переворачивались.Какой из них больше, 9,11 или 9,9?В ответ на этот вопрос Mathstral сначала сравнил целые числа, затем сравнил десятичные части и, наконец, сумел сделать все правильно.

Производительность 7B близка к производительности 22BTransformer.

Полные результаты теста Codestral Mamba следующие:

Во всех тестах, таких как HumanEval C++/Java/JavaScript/Bash, Codestral Mamba полностью превосходит CodeGemma-1.1 7B, CodeLlama 7B и превосходит более крупный CodeLlama 34B.

Предыдущая сильная модель программирования с открытым исходным кодом Mistral AIКодестрал 22БМежду ним и Codestral Mamba нет большого разрыва.

Кроме того, DeepSeek v1.5 7B также выделяется в бенчмарке и идет туда-сюда с Codestral Mamba.

DeepSeek v1.5 7B лучше Codestral Mamba с точки зрения Spider (сложный междоменный семантический анализ и задачи преобразования текста в SQL), HumanEval Java, HumanEval Bash, MBPP и т. д.

Помимо результатов тестов, самое интересное в Codestral Mamba то, что это первая партия моделей архитектуры Mamba2.

Архитектура Mamba от автора FlashAttentionТри Даои доцент CMU, сооснователь и главный научный сотрудник Cartesia AIАльберт Гупредложили в конце прошлого года.

Раньше у больших моделей архитектуры Transformer, таких как ChatGPT, была серьезная проблема: обработка длинного текста требовала огромного количества вычислительной мощности. Причиной этого также является квадратичная сложность механизма внимания в архитектуре Transformer.

Мамба — первая компания, которая действительно соответствует производительности Трансформера.линейная модель временных рядов, также является моделью пространства состояний (SSM, Модель пространства состояний).

Мамба построена на более современной структурированной SSM (S4, Structured SSM), подходящей для глубокого обучения и имеет сходство с классической архитектурой RNN.

Есть три основных нововведения: выборочная обработка входной информации, аппаратно-зависимые алгоритмы и более простая архитектура.

Архитектура Mamba сразу же привлекла к себе широкое внимание в отрасли. Основатель Stability AI и ученый NVIDIA Джим Фан и другие в восторге от его появления.

Оригинальная статья Мамбы была отклонена ICLR в начале года, что вызвало бурную дискуссию в кругу.

Однако недавно он был принят CoLM2024, ведущей конференцией нового поколения.

Mamba2 — это второе поколение, у которого пространство состояний расширено в 8 раз, а скорость обучения увеличена на 50%.

В статье Mamba2 было обнаружено, что механизм внимания в Transformer имеет очень тесную математическую связь с SSM, и статья была успешно отобрана для ICML 2024.

Также была выпущена математическая модель.

Помимо Codestral Mamba, Mistral AI также запустила математическую модель с открытым исходным кодом ——Математический(7Б), в ознаменование 2311-й годовщины со дня рождения Архимеда.

Mathstral основан на Mistral 7B и ориентирован на STEM (наука, технология, инженерия, математика) с контекстным окном размером 32 КБ.

В эталонном тесте Mathstral MATH набрал 56,6%, а MMLU достиг 63,47%.

Дело в том, что Mathstral также может достичь лучших результатов, используя больше вычислений времени вывода:

При использовании механизма голосования большинством Mathstral 7B набрал 68,37% в тесте MATH, а при применении модели сильного вознаграждения среди 64 моделей-кандидатов оценка была улучшена до 74,59%.

Ниже представлена разница в производительности между Mathstral 7B и Mistral 7B в различных предметах MMLU:

Справочные ссылки:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569

Новости

Мамба действительно превосходит Трансформера в написании кода!Оригинальный доклад выбран для лучшей новой конференции

Производительность 7B близка к производительности 22BTransformer.

Также была выпущена математическая модель.

Введение

моя контактная информация