私の連絡先情報
郵便管理者@information.bz
2024-08-20
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
この家はアオフェイ寺院に由来します
パブリックアカウント QbitAI
今、誰もが最も強力な大規模数学モデルで遊ぶことができます!
私が目覚めたとき、Alibaba Qianwen Big Model チームが Qwen2-Math のデモをリリースしていました。ハグフェイスはオンラインでプレイできます。
意外と数式を入力するのが面倒な方は、スクリーンショットを撮るか、質問したい質問をスキャンしてアップロードすると、問題を解決できます。
とても便利です。
試用版インターフェイスには、「この試用版インターフェイスの OCR 機能は、Alibaba Qianwen の大規模モデル チーム Qwen2-VL によってサポートされています。数学的推論機能は Qwen2-Math によってサポートされています。」と明記されています。
アリババの上級アルゴリズム専門家、リン・ジュンヤン氏もTwitterのコメント欄でさらに詳しく説明した。
現時点では、Qwen2-VL と Qwen2-Math がそれぞれ独自の部分を担当しています。
しかし、近い将来、マルチモーダル機能と数学的推論機能が 1 つのモデルに統合されるでしょう。来て。
多くのネチズンはこのインタラクティブ モデルに非常に熱心です。
ウォーリーグッド!画像を使用してアップロードし、大きなモデルが問題を解決するのを待ちます。とても気に入りました。
では、最も強力な数学モデルである Qwen2-Math を使い始めると、どのような効果があるのでしょうか?
Qwen2-Math が 5 つのレベルを通過し、6 人の将軍を倒す時が来ました!
まずは比較的簡単な計算問題から始めましょう。
あらかじめ説明しておくと、お二人の体験ではQwen2-Mathは計算を同時に表示するのではなく、計算完了後の過程と結果を直接表示していました。
(そして、ますます多くの人がプレイし始めており、結果の生成時間は徐々に長くなっているはずです)
質問1:「AxA+A=240の計算」では、Aの値。
Qwen2-Math は正しい答え、A=14 または A=-16 を返します。
2 番目の質問:a の値を指定して、方程式の結果を計算します。
Qwen2-Math は答えが 0 であると計算しましたが、これも正しいです。
質問 3:(A+3) (A+4) (A+5) = 120、A の値を求めます。
ビンゴ!答えは 1 です。
OK、ウォームアップは終わりました。Qwen2-Math に少し難しさを与えてみましょう。
次に、(数学的な) 大規模モデル評価の標準となっているものを見てみましょう。
9.9 と 9.11 ではどちらが大きいですか?
Qwen2-Math は自信を持って次のように答えます。
9.9 は 9.11 よりも大きいです。
だったらもっと難しくしてみろよ!
これまでのところ GPT-4o だけが正しく答えている質問を投げてください。
エイリアンは地球に来た後、次の 4 つのことのうち 1 つを完了することを選択できます。
1. 自己破壊。
2. 2 人のエイリアンに分かれます。
3. 3 人のエイリアンに分かれます。
4. 何もしない。
その後毎日、各エイリアンは互いに独立して選択を行うことになります。
最終的に地球上に宇宙人が存在しなくなる確率を求めてください。
この質問に対して、Qwen2-Math は次の答えを得るまでに約 30 秒かかりました。 1.
残念ながら、答えは間違っています。正解は √2 マイナス 1 です。
主要なプラットフォームのコメント欄を閲覧したところ、計算ミスのほかに、不正解につながる可能性があることを発見しました——
それがQwen2-VLですトピックを特定するときに問題が発生しました。
この場合、間違いは最初のステップにあります。大規模モデルで得られた答えは決して正解ではありません。
同時に、リン・ジュンヤンはネチズンのコメント欄でも次のように述べた。
私たちの Qwen2-Math幾何学の問題はまだできません。
今回の主役である Qwen2-Math は、Tongyi Qianwen オープンソース大規模言語モデル Qwen2 に基づいて開発され、10 日前に Alibaba Qianwen 大規模モデル チームによってリリースされました。
数学の問題を解くために特別に設計されており、競技レベルのテスト問題を解くことができます。
Qwen2-Math には、合計 3 つのパラメーター バージョンがあります。
72B、7B、1.5B。
Qwen2-Math-72B に基づいて、Qianwen チームは Instruct バージョンも微調整しました。
これは、Qwen2-Math の主力モデルでもあり、学習ラベルとして報酬信号と真偽判定信号を組み合わせ、拒否サンプリングを通じて教師あり微調整 (SFT) データを構築する数学固有の報酬モデルです。最後に、SFT メソッドの最適化に基づいて GRPO を使用します。
Qwen2-Math-72B-Instruct は、代数、幾何学、計数と確率、数論などのさまざまな数学問題を 84% の精度で処理します。
そして、リリースされるとすぐに、大規模な数学モデルで「王座」を獲得し、MATH データセットで GPT-4o よりも 7 ポイント高いスコアを獲得し、比率では 9.6% 高くなりました。
オープンソースの Llama 3.1-405B やクローズドソースの GPT-4o、Claude 3.5 などを直接上回ります。
本稿執筆時点で、Qwen2-Math-72B-Instruct は 13.2k 回以上ダウンロードされています。
そして、最新の発見があります。
チームは Qwen2-Math が現在主に英語シーンをターゲットにしていると主張していますが、中国語の質問をしても、Qwen2-Math は答えることができます。。
ただ英語で答えているだけです。
Qwen2-Math であることがわかります。中国語と英語のバイリンガル版も後日発売予定。
参考リンク:
[1]https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
[2]https://x.com/Alibaba_Qwen/status/1825559009497317406
[3]https://x.com/JustinLin610/status/1825559557411860649