ニュース

スキャン方法が分からない場所でも大丈夫! Alibaba のマルチモーダル モデルによってサポートされる、世界で最も強力な数学モデルをオンラインでプレイします

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

この家はアオフェイ寺院に由来します
パブリックアカウント QbitAI

今、誰もが最も強力な大規模数学モデルで遊ぶことができます!

私が目覚めたとき、Alibaba Qianwen Big Model チームが Qwen2-Math のデモをリリースしていました。ハグフェイスはオンラインでプレイできます

意外と数式を入力するのが面倒な方は、スクリーンショットを撮るか、質問したい質問をスキャンしてアップロードすると、問題を解決できます。

とても便利です。



試用版インターフェイスには、「この試用版インターフェイスの OCR 機能は、Alibaba Qianwen の大規模モデル チーム Qwen2-VL によってサポートされています。数学的推論機能は Qwen2-Math によってサポートされています。」と明記されています。

アリババの上級アルゴリズム専門家、リン・ジュンヤン氏もTwitterのコメント欄でさらに詳しく説明した。

現時点では、Qwen2-VL と Qwen2-Math がそれぞれ独自の部分を担当しています。
しかし、近い将来、マルチモーダル機能と数学的推論機能が 1 つのモデルに統合されるでしょう。来て。



多くのネチズンはこのインタラクティブ モデルに非常に熱心です。

ウォーリーグッド!画像を使用してアップロードし、大きなモデルが問題を解決するのを待ちます。とても気に入りました。



では、最も強力な数学モデルである Qwen2-Math を使い始めると、どのような効果があるのでしょうか?

効果は何ですか?今すぐプレイしてください

Qwen2-Math が 5 つのレベルを通過し、6 人の将軍を倒す時が来ました!

まずは比較的簡単な計算問題から始めましょう。

あらかじめ説明しておくと、お二人の体験ではQwen2-Mathは計算を同時に表示するのではなく、計算完了後の過程と結果を直接表示していました。

(そして、ますます多くの人がプレイし始めており、結果の生成時間は徐々に長くなっているはずです)

質問1:「AxA+A=240の計算」では、Aの値。

Qwen2-Math は正しい答え、A=14 または A=-16 を返します。



2 番目の質問:a の値を指定して、方程式の結果を計算します。

Qwen2-Math は答えが 0 であると計算しましたが、これも正しいです。



質問 3:(A+3) (A+4) (A+5) = 120、A の値を求めます。

ビンゴ!答えは 1 です。



OK、ウォームアップは終わりました。Qwen2-Math に少し難しさを与えてみましょう。

次に、(数学的な) 大規模モデル評価の標準となっているものを見てみましょう。

9.9 と 9.11 ではどちらが大きいですか?



Qwen2-Math は自信を持って次のように答えます。

9.9 は 9.11 よりも大きいです。



だったらもっと難しくしてみろよ!

これまでのところ GPT-4o だけが正しく答えている質問を投げてください。

エイリアンは地球に来た後、次の 4 つのことのうち 1 つを完了することを選択できます。
1. 自己破壊。
2. 2 人のエイリアンに分かれます。
3. 3 人のエイリアンに分かれます。
4. 何もしない。
その後毎日、各エイリアンは互いに独立して選択を行うことになります。
最終的に地球上に宇宙人が存在しなくなる確率を求めてください。

この質問に対して、Qwen2-Math は次の答えを得るまでに約 30 秒かかりました。 1.

残念ながら、答えは間違っています。正解は √2 マイナス 1 です。



主要なプラットフォームのコメント欄を閲覧したところ、計算ミスのほかに、不正解につながる可能性があることを発見しました——

それがQwen2-VLですトピックを特定するときに問題が発生しました。

この場合、間違いは最初のステップにあります。大規模モデルで得られた答えは決して正解ではありません。



同時に、リン・ジュンヤンはネチズンのコメント欄でも次のように述べた。

私たちの Qwen2-Math幾何学の問題はまだできません



中国語で質問することもできます

今回の主役である Qwen2-Math は、Tongyi Qianwen オープンソース大規模言語モデル Qwen2 に基づいて開発され、10 日前に Alibaba Qianwen 大規模モデル チームによってリリースされました。

数学の問題を解くために特別に設計されており、競技レベルのテスト問題を解くことができます。

Qwen2-Math には、合計 3 つのパラメーター バージョンがあります。

72B、7B、1.5B。



Qwen2-Math-72B に基づいて、Qianwen チームは Instruct バージョンも微調整しました。

これは、Qwen2-Math の主力モデルでもあり、学習ラベルとして報酬信号と真偽判定信号を組み合わせ、拒否サンプリングを通じて教師あり微調整 (SFT) データを構築する数学固有の報酬モデルです。最後に、SFT メソッドの最適化に基づいて GRPO を使用します。

Qwen2-Math-72B-Instruct は、代数、幾何学、計数と確率、数論などのさまざまな数学問題を 84% の精度で処理します。

そして、リリースされるとすぐに、大規模な数学モデルで「王座」を獲得し、MATH データセットで GPT-4o よりも 7 ポイント高いスコアを獲得し、比率では 9.6% 高くなりました。

オープンソースの Llama 3.1-405B やクローズドソースの GPT-4o、Claude 3.5 などを直接上回ります。



本稿執筆時点で、Qwen2-Math-72B-Instruct は 13.2k 回以上ダウンロードされています。

そして、最新の発見があります。

チームは Qwen2-Math が現在主に英語シーンをターゲットにしていると主張していますが、中国語の質問をしても、Qwen2-Math は答えることができます。

ただ英語で答えているだけです。

Qwen2-Math であることがわかります。中国語と英語のバイリンガル版も後日発売予定

参考リンク:
[1]https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
[2]https://x.com/Alibaba_Qwen/status/1825559009497317406
[3]https://x.com/JustinLin610/status/1825559557411860649