Di mana pun Anda tidak tahu cara memindai! Model matematika paling kuat di dunia dapat dimainkan secara online, didukung oleh model

Di mana pun Anda tidak tahu cara memindai! Mainkan model matematika paling kuat di dunia secara online, didukung oleh model multi-modal Alibaba

2024-08-20

Rumah itu berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Sekarang, semua orang bisa bermain dengan model matematika skala besar yang paling kuat!

Saat saya bangun, Tim Model Besar Alibaba Qianwen merilis demo Qwen2-Math.Pelukan Wajah dapat dimainkan secara online。

Anehnya, jika Anda merasa kesulitan memasukkan rumus matematika,Anda dapat mengambil screenshot atau memindai pertanyaan yang ingin Anda tanyakan dan mengunggahnya untuk menyelesaikan masalah.

Ini cukup nyaman.

Antarmuka uji coba dengan jelas menyatakan, "Fungsi OCR dari antarmuka uji coba ini didukung oleh tim model besar Alibaba Qianwen Qwen2-VL; kemampuan penalaran matematis didukung oleh Qwen2-Math."

Pakar algoritma senior Alibaba, Lin Junyang juga menjelaskan lebih lanjut di area komentar Twitter:

Saat ini Qwen2-VL dan Qwen2-Math masih bertanggung jawab atas bagiannya masing-masing.
Namun dalam waktu dekat, kami akan menggabungkan kemampuan multimodal dan kemampuan penalaran matematis ke dalam satu modelAyo.

Banyak netizen yang sangat antusias dengan model interaktif ini:

Hati-hati! Gunakan gambar untuk diunggah dan tunggu model besar menyelesaikan masalahnya, saya menyukainya!

Jadi, bagaimana pengaruh memulai Qwen2-Math, model matematika paling kuat?

Apa efeknya? Mainkan saja sekarang

Saatnya Qwen2-Math melewati lima level dan mengalahkan enam jenderal!

Mari kita mulai dengan beberapa pertanyaan perhitungan yang relatif sederhana untuk membantu Anda memulai.

Izinkan saya menjelaskan terlebih dahulu bahwa selama pengalaman dua orang tersebut, Qwen2-Math tidak menampilkan perhitungan secara bersamaan, tetapi langsung menampilkan proses dan hasil setelah perhitungan selesai.

(Dan seharusnya semakin banyak orang yang mulai bermain, dan waktu pembuatan hasil secara bertahap diperpanjang)

Pertanyaan 1:Dalam "Hitung AxA+A=240", nilai A.

Qwen2-Math memberikan jawaban yang benar, A=14 atau A=-16.

Pertanyaan kedua:Mengingat nilai a, hitunglah hasil persamaan tersebut.

Qwen2-Math menghitung jawabannya adalah 0, yang juga benar.

Pertanyaan 3:(A+3) (A+4) (A+5) = 120, tentukan nilai A.

Bingo! Jawabannya adalah 1.

Oke, pemanasan sudah selesai, mari kita berikan kesulitan pada Qwen2-Math.

Lalu mari kita lihat sesuatu yang sudah menjadi standar untuk penilaian model besar (matematis):

Mana yang lebih besar, 9.9 atau 9.11?

Qwen2-Math menjawab dengan percaya diri:

9.9 lebih besar dari 9.11!

Maka buatlah menjadi lebih sulit!

Berikan pertanyaan yang sejauh ini hanya GPT-4o yang bisa menjawab dengan benar:

Setelah alien datang ke Bumi, dia dapat memilih untuk menyelesaikan salah satu dari empat hal berikut:
1. Penghancuran diri;
2. Terbagi menjadi dua alien;
3. Dibagi menjadi tiga alien;
4. Jangan melakukan apa pun.
Setiap hari setelahnya, setiap alien akan membuat pilihan, secara independen satu sama lain.
Temukan kemungkinan bahwa pada akhirnya tidak akan ada alien di Bumi.

Untuk pertanyaan ini, Qwen2-Math membutuhkan waktu sekitar 30 detik untuk memberikan jawabannya: 1.

Sayangnya jawabannya salah. Jawaban yang benar adalah √2 dikurangi 1.

Kami menelusuri area komentar di platform utama dan menemukan bahwa selain kesalahan penghitungan, ada kemungkinan lain yang dapat menyebabkan jawaban salah——

Itu adalah Qwen2-VLSaat mengidentifikasi topik, ada yang tidak beres.

Kesalahannya ada pada langkah pertama, dalam hal ini jawaban yang diperoleh model besar pasti bukan jawaban yang benar.

Di saat yang sama, Lin Junyang juga mengatakan di kolom komentar netizen:

Qwen2-Matematika kamiSaya belum bisa mengerjakan soal geometri。

Anda juga dapat mengajukan pertanyaan dalam bahasa Mandarin

Protagonis kali ini, Qwen2-Math, dikembangkan berdasarkan model bahasa besar sumber terbuka Tongyi Qianwen Qwen2 dan dirilis oleh tim model besar Alibaba Qianwen sepuluh hari yang lalu.

Ini dirancang khusus untuk memecahkan masalah matematika dan dapat menyelesaikan soal tes tingkat kompetisi.

Qwen2-Math memiliki total tiga versi parameter:

72B, 7B dan 1.5B.

Berdasarkan Qwen2-Math-72B, tim Qianwen juga menyempurnakan versi Instruct.

Ini juga merupakan model andalan Qwen2-Math. Ini adalah model penghargaan khusus matematika yang menggabungkan sinyal penghargaan dengan sinyal penilaian benar atau salah sebagai label pembelajaran, kemudian membuat data penyetelan terawasi (SFT) melalui pengambilan sampel penolakan. dan terakhir menggunakan GRPO berdasarkan model SFT.

Qwen2-Math-72B-Instruct menangani berbagai soal matematika seperti aljabar, geometri, penghitungan dan probabilitas, serta teori bilangan dengan akurasi 84%.

Dan segera setelah dirilis, ia "bertahta" dalam model matematika besar, mencetak 7 poin lebih banyak daripada GPT-4o pada kumpulan data MATEMATIKA, yang proporsinya 9,6% lebih tinggi.

Langsung melampaui sumber terbuka Llama 3.1-405B dan sumber tertutup GPT-4o, Claude 3.5, dll.

Pada waktu pers, Qwen2-Math-72B-Instruct telah diunduh lebih dari 13,2 ribu kali.

Dan ada penemuan terbaru:

Meskipun tim mengklaim bahwa Qwen2-Math saat ini terutama ditargetkan pada adegan bahasa Inggris,Jika Anda mengajukan pertanyaan berbahasa Mandarin, Qwen2-Math masih bisa menjawabnya.。

Saya hanya menjawab Anda dalam bahasa Inggris.

Dapat dipahami bahwa Qwen2-MathVersi bilingual Cina dan Inggris akan diluncurkan nanti。

Tautan referensi:
[1]https://huggingface.co/spaces/Qwen/Demo-Matematika-Qwen2
[2]https://x.com/Alibaba_Qwen/status/1825559009497317406
[3]https://x.com/JustinLin610/status/1825559557411860649

berita

Di mana pun Anda tidak tahu cara memindai! Mainkan model matematika paling kuat di dunia secara online, didukung oleh model multi-modal Alibaba

Apa efeknya? Mainkan saja sekarang

Anda juga dapat mengajukan pertanyaan dalam bahasa Mandarin

Perkenalan

Informasi kontak saya