новости

Независимо от того, где вы не знаете, как сканировать! Играйте в самую мощную в мире математическую модель онлайн, поддерживаемую мультимодальными моделями Alibaba.

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Дом возник из храма Аофэй.
Кубиты | Публичный аккаунт QbitAI

Теперь каждый может поиграть с самой мощной крупномасштабной математической моделью!

Когда я проснулся, команда Alibaba Qianwen Big Model выпустила демо-версию Qwen2-Math.В Hug Face можно играть онлайн.

Как ни странно, если вам затруднительно вводить математические формулы,Вы можете сделать снимок экрана или отсканировать вопрос, который хотите задать, и загрузить его, чтобы решить проблему.

Это довольно удобно.



В пробном интерфейсе четко указано: «Функция оптического распознавания символов в этом пробном интерфейсе поддерживается большой командой разработчиков Qwen2-VL компании Alibaba Qianwen; возможности математического рассуждения поддерживаются Qwen2-Math».

Старший эксперт по алгоритмам Alibaba Линь Цзюньян также пояснил в комментариях в Твиттере:

В настоящее время Qwen2-VL и Qwen2-Math по-прежнему отвечают за свои части.
Но в ближайшем будущем мы объединим мультимодальные возможности и возможности математического рассуждения в одну модель.Ну давай же.



Многие пользователи сети в восторге от этой интерактивной модели:

Варигуд! Используйте изображения для загрузки и ждите, пока большая модель решит проблему, мне это нравится!



Итак, каков эффект от начала работы с Qwen2-Math, самой мощной математической моделью?

Каков эффект? Просто сыграй сейчас

Пришло время Qwen2-Math пройти пять уровней и победить шесть генералов!

Давайте начнем с нескольких относительно простых вопросов по расчетам, которые помогут вам начать работу.

Позвольте мне заранее объяснить, что во время опыта двух людей Qwen2-Math не отображал расчет одновременно, а напрямую отображал процесс и результаты после завершения расчета.

(И должно быть так, что людей начинает играть всё больше и больше, а время генерации результата постепенно удлиняется)

Вопрос 1:В «Вычислении AxA+A=240» значение A.

Qwen2-Math дает правильный ответ: A=14 или A=-16.



Второй вопрос:Учитывая значение a, вычислите результат уравнения.

Qwen2-Math подсчитала, что ответ — 0, что тоже верно.



Вопрос 3:(A+3) (A+4) (A+5) = 120, найдите значение A.

Бинго! Ответ: 1.



Хорошо, разминка окончена, давайте усложним Qwen2-Math.

Тогда давайте взглянем на то, что уже является стандартным для (математических) оценок больших моделей:

Какой из них больше, 9,9 или 9,11?



Qwen2-Math уверенно отвечает:

9,9 больше, чем 9,11!



Тогда усложните задачу!

Задайте вопрос, на который пока правильно ответил только GPT-4o:

После того, как инопланетянин прибудет на Землю, он может выбрать одно из следующих четырех дел:
1. Самоуничтожение;
2. Разделиться на двух инопланетян;
3. Разделиться на трёх инопланетян;
4. Ничего не делайте.
После этого каждый день каждый инопланетянин будет делать выбор независимо друг от друга.
Найти вероятность того, что в конечном итоге на Земле не останется инопланетян.

На этот вопрос Qwen2-Math потребовалось около 30 секунд, чтобы дать ответ: 1.

К сожалению, ответ неправильный. Правильный ответ — √2 минус 1.



Мы просмотрели области комментариев основных платформ и обнаружили, что помимо ошибок в расчетах существует еще одна возможность, которая может привести к неправильным ответам ——

Это Qwen2-VLПри определении темы что-то пошло не так.

Ошибка на первом шаге. В этом случае ответ, полученный большой моделью, определенно не будет правильным.



В то же время Линь Цзюньян также сказал в комментариях пользователей сети:

Наша Qwen2-МатематикаЯ пока не умею решать задачи по геометрии



Вы также можете задавать вопросы на китайском языке.

Главный герой на этот раз, Qwen2-Math, разработан на основе модели большого языка Tongyi Qianwen с открытым исходным кодом Qwen2 и выпущен командой больших моделей Alibaba Qianwen десять дней назад.

Он специально разработан для решения математических задач и может решать тестовые вопросы соревновательного уровня.

Qwen2-Math имеет всего три версии параметров:

72Б, 7Б и 1,5Б.



На основе Qwen2-Math-72B команда Qianwen также доработала версию Instruct.

Это также флагманская модель Qwen2-Math. Это математическая модель вознаграждения, которая объединяет сигнал вознаграждения с сигналом истинного или ложного суждения в качестве метки обучения, а затем создает данные контролируемой точной настройки (SFT) посредством выборки отклонения. и, наконец, использует GRPO на основе оптимизации метода SFT.

Qwen2-Math-72B-Instruct решает различные математические задачи, такие как алгебра, геометрия, счет и теория вероятностей, а также теория чисел с точностью 84%.

И как только он был выпущен, он «воцарился» в крупных математических моделях, набрав на 7 баллов больше, чем GPT-4o на наборе данных MATH, что в пропорции выше на 9,6%.

Прямо превосходит Llama 3.1-405B с открытым исходным кодом и GPT-4o с закрытым исходным кодом, Claude 3.5 и т. д.



На момент публикации Qwen2-Math-72B-Instruct был загружен более 13,2 тыс. раз.

И вот последнее открытие:

Хотя команда утверждает, что Qwen2-Math в настоящее время ориентирована в основном на англоязычную сцену,Если вы зададите китайский вопрос, Qwen2-Math все равно сможет на него ответить.

Я просто отвечаю вам по-английски.

Понятно, что Qwen2-MathДвуязычная версия на китайском и английском языках будет выпущена позже.

Справочные ссылки:
[1]https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
[2]https://x.com/Alibaba_Qwen/status/1825559009497317406
[3]https://x.com/JustinLin610/status/1825559557411860649