Nachricht

Egal wo Sie nicht scannen können! Spielen Sie das leistungsstärkste mathematische Modell der Welt online, unterstützt durch die multimodalen Modelle von Alibaba

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Das Haus stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Jetzt kann jeder mit dem leistungsstärksten groß angelegten mathematischen Modell spielen!

Als ich aufwachte, veröffentlichte das Alibaba Qianwen Big Model Team die Demo von Qwen2-Math.Hug Face kann online gespielt werden

Überraschenderweise, wenn Sie Schwierigkeiten haben, mathematische Formeln einzugeben,Sie können einen Screenshot machen oder die Frage, die Sie stellen möchten, scannen und hochladen, um das Problem zu lösen.

Es ist ziemlich praktisch.



In der Testschnittstelle heißt es eindeutig: „Die OCR-Funktion dieser Testschnittstelle wird von Alibaba Qianwens großem Modellteam Qwen2-VL unterstützt; die Fähigkeit zum mathematischen Denken wird von Qwen2-Math unterstützt.“

Lin Junyang, leitender Algorithmusexperte bei Alibaba, erklärte im Twitter-Kommentarbereich auch weiter:

Derzeit sind Qwen2-VL und Qwen2-Math noch für ihre eigenen Teile verantwortlich.
Aber in naher Zukunft werden wir multimodale Fähigkeiten und mathematische Denkfähigkeiten in einem Modell kombinierenAufleuchten.



Viele Internetnutzer sind von diesem interaktiven Modell sehr begeistert:

Vorsicht, gut! Verwenden Sie Bilder zum Hochladen und warten Sie, bis das große Modell das Problem löst. Ich liebe es!



Wie wirkt es sich also aus, mit Qwen2-Math, dem leistungsstärksten mathematischen Modell, zu beginnen?

Was ist der Effekt? Spielen Sie es jetzt einfach

Es ist Zeit für Qwen2-Math, fünf Level zu bestehen und sechs Generäle zu besiegen!

Beginnen wir mit einigen relativ einfachen Berechnungsfragen, um Ihnen den Einstieg zu erleichtern.

Lassen Sie mich im Voraus erklären, dass Qwen2-Math während der Erfahrung der beiden Personen die Berechnung nicht gleichzeitig anzeigte, sondern den Prozess und die Ergebnisse direkt nach Abschluss der Berechnung anzeigte.

(Und es sollte so sein, dass immer mehr Leute anfangen zu spielen und die Zeit für die Ergebnisgenerierung allmählich länger wird.)

Frage 1:In „Berechnen AxA+A=240“ der Wert von A.

Qwen2-Math gibt die richtige Antwort: A=14 oder A=-16.



Zweite Frage:Berechnen Sie anhand des Werts von a das Ergebnis der Gleichung.

Qwen2-Math hat berechnet, dass die Antwort 0 ist, was auch richtig ist.



Frage 3:(A+3) (A+4) (A+5) = 120, ermitteln Sie den Wert von A.

Bingo! Die Antwort ist 1.



OK, das Aufwärmen ist vorbei, lasst uns Qwen2-Math etwas schwierig machen.

Dann werfen wir einen Blick auf etwas, das für (mathematische) Bewertungen großer Modelle bereits Standard ist:

Welches ist größer, 9,9 oder 9,11?



Qwen2-Math antwortet selbstbewusst:

9,9 ist größer als 9,11!



Dann mach es schwieriger!

Stellen Sie eine Frage, die bisher nur GPT-4o richtig beantwortet hat:

Nachdem ein Außerirdischer auf die Erde gekommen ist, kann er sich dafür entscheiden, eines der folgenden vier Dinge zu erledigen:
1. Selbstzerstörung;
2. In zwei Außerirdische aufgeteilt;
3. In drei Außerirdische aufgeteilt;
4. Nichts tun.
Danach trifft jeder Außerirdische jeden Tag unabhängig voneinander eine Wahl.
Ermitteln Sie die Wahrscheinlichkeit, dass es letztendlich keine Außerirdischen auf der Erde geben wird.

Für diese Frage benötigte Qwen2-Math etwa 30 Sekunden, um die Antwort zu geben: 1.

Leider ist die Antwort falsch. Die richtige Antwort ist √2 minus 1.



Wir haben die Kommentarbereiche großer Plattformen durchstöbert und festgestellt, dass es neben Rechenfehlern noch eine weitere Möglichkeit gibt, die zu falschen Antworten führen kann –

Das ist Qwen2-VLBeim Identifizieren des Themas ist etwas schief gelaufen.

Der Fehler liegt im ersten Schritt. In diesem Fall ist die vom großen Modell erhaltene Antwort definitiv nicht die richtige.



Gleichzeitig sagte Lin Junyang auch im Kommentarbereich der Internetnutzer:

Unsere Qwen2-MathIch kann noch keine Geometrieaufgaben lösen



Sie können Fragen auch auf Chinesisch stellen

Der Protagonist dieses Mal, Qwen2-Math, basiert auf dem Open-Source-Großsprachenmodell Qwen2 von Tongyi Qianwen und wurde vor zehn Tagen vom Alibaba Qianwen-Großmodellteam veröffentlicht.

Es wurde speziell für die Lösung mathematischer Probleme entwickelt und kann Testfragen auf Wettbewerbsebene lösen.

Qwen2-Math verfügt insgesamt über drei Parameterversionen:

72B, 7B und 1,5B.



Basierend auf Qwen2-Math-72B hat das Qianwen-Team auch die Instruct-Version verfeinert.

Dies ist auch das Flaggschiffmodell von Qwen2-Math. Es handelt sich um ein mathematikspezifisches Belohnungsmodell, das das Belohnungssignal mit dem wahren oder falschen Beurteilungssignal als Lernbezeichnung kombiniert und dann durch Ablehnungsstichproben Daten zur überwachten Feinabstimmung erstellt. und verwendet schließlich GRPO basierend auf der SFT-Methodenoptimierung.

Qwen2-Math-72B-Instruct behandelt eine Vielzahl mathematischer Probleme wie Algebra, Geometrie, Zählen und Wahrscheinlichkeit sowie Zahlentheorie mit einer Genauigkeit von 84 %.

Und sobald es veröffentlicht wurde, „thronte“ es in großen mathematischen Modellen und erzielte im MATH-Datensatz 7 Punkte mehr als GPT-4o, was im Verhältnis 9,6 % höher ist.

Übertrifft direkt die Open-Source-Version Llama 3.1-405B und die Closed-Source-Version GPT-4o, Claude 3.5 usw.



Zum Zeitpunkt der Drucklegung wurde Qwen2-Math-72B-Instruct mehr als 13,2.000 Mal heruntergeladen.

Und es gibt eine neueste Entdeckung:

Obwohl das Team behauptet, dass Qwen2-Math derzeit hauptsächlich auf englische Szenen ausgerichtet ist,Wenn Sie eine chinesische Frage stellen, kann Qwen2-Math diese trotzdem beantworten.

Ich antworte Ihnen nur auf Englisch.

Es versteht sich, dass Qwen2-MathEine zweisprachige Version auf Chinesisch und Englisch wird später veröffentlicht

Referenzlinks:
[1]https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
[2]https://x.com/Alibaba_Qwen/status/1825559009497317406
[3]https://x.com/JustinLin610/status/1825559557411860649