notizia

Non importa dove non sai come scansionare! Gioca online al modello matematico più potente del mondo, supportato dai modelli multimodali di Alibaba

2024-08-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La casa ha origine dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Ora tutti possono giocare con il più potente modello matematico su larga scala!

Quando mi sono svegliato, il team Alibaba Qianwen Big Model ha rilasciato la demo di Qwen2-Math.Hug Face può essere giocato online

Sorprendentemente, se trovi difficile inserire formule matematiche,Puoi fare uno screenshot o scansionare la domanda che vuoi porre e caricarla per risolvere il problema.

È abbastanza conveniente.



L'interfaccia di prova afferma chiaramente: "La funzione OCR di questa interfaccia di prova è supportata dal grande team di modelli Qwen2-VL di Alibaba Qianwen; la capacità di ragionamento matematico è supportata da Qwen2-Math".

Lin Junyang, esperto senior di algoritmi di Alibaba, ha spiegato ulteriormente nell'area commenti di Twitter:

Al momento, Qwen2-VL e Qwen2-Math sono ancora responsabili delle proprie parti.
Ma nel prossimo futuro combineremo capacità multimodali e capacità di ragionamento matematico in un unico modelloDai.



Molti netizen sono molto entusiasti di questo modello interattivo:

Attenzione, bene! Usa le immagini per caricare e attendi che il modello grande risolva il problema, lo adoro!



Allora, quali sono gli effetti di iniziare con Qwen2-Math, il modello matematico più potente?

Qual è l'effetto? Giocaci e basta adesso

È tempo che Qwen2-Math superi cinque livelli e sconfigga sei generali!

Cominciamo con alcune domande di calcolo relativamente semplici per iniziare.

Vorrei spiegare in anticipo che durante l'esperienza delle due persone, Qwen2-Math non ha visualizzato il calcolo contemporaneamente, ma ha visualizzato direttamente il processo e i risultati dopo che il calcolo è stato completato.

(E dovrebbe essere che sempre più persone inizino a giocare, e il tempo di generazione dei risultati si sta gradualmente allungando)

Domanda 1:In "Calcola AxA+A=240", il valore di A.

Qwen2-Math dà la risposta corretta, A=14 o A=-16.



Seconda domanda:Dato il valore di a, calcola il risultato dell'equazione.

Qwen2-Math ha calcolato che la risposta è 0, anche questo corretto.



Domanda 3:(A+3) (A+4) (A+5) = 120, trova il valore di A.

Bingo! La risposta è 1.



OK, il riscaldamento è finito, diamo qualche difficoltà a Qwen2-Math.

Quindi diamo un’occhiata a qualcosa che è già standard per le valutazioni (matematiche) di grandi modelli:

Quale è più grande, 9.9 o 9.11?



Qwen2-Math risponde con sicurezza:

9.9 è più grande di 9.11!



Allora rendilo più difficile!

Lancia una domanda a cui finora solo GPT-4o ha risposto correttamente:

Dopo che un alieno arriva sulla Terra, può scegliere di completare una delle seguenti quattro cose:
1. Autodistruzione;
2. Diviso in due alieni;
3. Diviso in tre alieni;
4. Non fare nulla.
Ogni giorno da allora in poi, ogni alieno farà una scelta, indipendentemente l'uno dall'altro.
Trova la probabilità che alla fine non ci saranno più alieni sulla Terra.

Per questa domanda, Qwen2-Math ha impiegato circa 30 secondi per dare la risposta: 1.

Sfortunatamente la risposta è sbagliata. La risposta corretta è √2 meno 1.



Abbiamo sfogliato le aree commenti delle principali piattaforme e scoperto che oltre agli errori di calcolo, esiste un'altra possibilità che può portare a risposte errate——

Questo è Qwen2-VLDurante l'identificazione dell'argomento, qualcosa è andato storto.

L'errore sta nel primo passaggio. In questo caso la risposta ottenuta dal modello grande non sarà sicuramente quella corretta.



Allo stesso tempo, Lin Junyang ha anche detto nell'area commenti dei netizen:

Il nostro Qwen2-MathNon posso ancora fare problemi di geometria



Puoi anche fare domande in cinese

Il protagonista questa volta, Qwen2-Math, è sviluppato sulla base del modello linguistico di grandi dimensioni open source Tongyi Qianwen Qwen2 ed è stato rilasciato dal team del modello di grandi dimensioni Alibaba Qianwen dieci giorni fa.

È appositamente progettato per risolvere problemi matematici e può risolvere domande di test a livello di competizione.

Qwen2-Math ha un totale di tre versioni di parametri:

72B, 7B e 1,5B.



Basandosi su Qwen2-Math-72B, il team di Qianwen ha anche messo a punto la versione Instruct.

Questo è anche il modello di punta di Qwen2-Math. Si tratta di un modello di ricompensa specifico per la matematica che combina il segnale di ricompensa con il segnale di giudizio vero o falso come etichetta di apprendimento, quindi costruisce dati di regolazione fine supervisionata (SFT) attraverso il campionamento del rifiuto. e infine utilizza GRPO basato sul modello di ottimizzazione del metodo.

Qwen2-Math-72B-Instruct gestisce una varietà di problemi matematici come algebra, geometria, conteggio e probabilità e teoria dei numeri con una precisione dell'84%.

E non appena è stato rilasciato, ha "tronizzato" in grandi modelli matematici, segnando 7 punti in più rispetto a GPT-4o sul set di dati MATH, che è del 9,6% più alto in proporzione.

Superando direttamente l'open source Llama 3.1-405B e il closed source GPT-4o, Claude 3.5, ecc.



Al momento della stesura di questo articolo, Qwen2-Math-72B-Instruct è stato scaricato più di 13,2k volte.

E c'è un'ultima scoperta:

Sebbene il team affermi che Qwen2-Math è attualmente rivolto principalmente alle scene inglesi,Se fai una domanda cinese, Qwen2-Math può comunque rispondere.

Ti rispondo solo in inglese.

Resta inteso che Qwen2-MathSuccessivamente verrà lanciata una versione bilingue cinese e inglese

Link di riferimento:
[1]https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
[2]https://x.com/Alibaba_Qwen/status/1825559009497317406
[3]https://x.com/JustinLin610/status/1825559557411860649