Não importa onde você não sabe digitalizar! O modelo matemático mais poderoso do mundo pode ser jogado online, apoiado pelo modelo multimodal do Alibaba

Não importa onde você não sabe digitalizar! Jogue online o modelo matemático mais poderoso do mundo, apoiado pelos modelos multimodais do Alibaba

2024-08-20

A casa originou-se do Templo Aofei
Qubits | Conta pública QbitAI

Agora todos podem brincar com o modelo matemático de grande escala mais poderoso!

Quando acordei, a equipe de grandes modelos do Alibaba Qianwen lançou a demonstração do Qwen2-Math.Abraço Face pode ser jogado online。

Surpreendentemente, se você achar difícil inserir fórmulas matemáticas,Você pode fazer uma captura de tela ou escanear a pergunta que deseja fazer e carregá-la para resolver o problema.

É bastante conveniente.

A interface de teste afirma claramente: "A função OCR desta interface de teste é suportada pela grande equipe de modelos Qwen2-VL do Alibaba Qianwen; a capacidade de raciocínio matemático é suportada pelo Qwen2-Math."

O especialista sênior em algoritmos do Alibaba, Lin Junyang, também explicou mais detalhadamente na área de comentários do Twitter:

Atualmente, Qwen2-VL e Qwen2-Math ainda são responsáveis por suas próprias peças.
Mas num futuro próximo, combinaremos capacidades multimodais e capacidades de raciocínio matemático num só modelo.Vamos.

Muitos internautas estão muito entusiasmados com este modelo interativo:

Cuidado, bom! Use imagens para fazer upload e espere a modelo grande resolver o problema, adorei!

Então, qual é o efeito de começar com o Qwen2-Math, o modelo matemático mais poderoso?

Qual é o efeito? Apenas jogue agora

Chegou a hora do Qwen2-Math passar cinco níveis e derrotar seis generais!

Vamos começar com algumas questões de cálculo relativamente simples para você começar.

Deixe-me explicar antecipadamente que durante a experiência das duas pessoas, o Qwen2-Math não exibiu o cálculo ao mesmo tempo, mas exibiu diretamente o processo e os resultados após a conclusão do cálculo.

(E deve acontecer que mais e mais pessoas estejam começando a jogar, e o tempo de geração de resultados esteja aumentando gradativamente)

Pergunta 1:Em "Calcular AxA+A=240", o valor de A.

Qwen2-Math dá a resposta correta, A=14 ou A=-16.

Segunda pergunta:Dado o valor de a, calcule o resultado da equação.

Qwen2-Math calculou que a resposta é 0, o que também está correto.

Pergunta 3:(A+3) (A+4) (A+5) = 120, encontre o valor de A.

Bingo! A resposta é 1.

OK, o aquecimento acabou, vamos dar alguma dificuldade ao Qwen2-Math.

Então, vamos dar uma olhada em algo que já é padrão para avaliações (matemáticas) de grandes modelos:

Qual é maior, 9,9 ou 9,11?

Qwen2-Math responde com confiança:

9,9 é maior que 9,11!

Então torne isso mais difícil!

Faça uma pergunta que apenas o GPT-4o respondeu corretamente até agora:

Depois que um alienígena chega à Terra, ele pode optar por completar uma das quatro coisas a seguir:
1. Autodestruição;
2. Dividido em dois alienígenas;
3. Dividido em três alienígenas;
4. Não faça nada.
A partir de então, todos os dias, cada alienígena fará uma escolha, independentemente um do outro.
Encontre a probabilidade de que, em última análise, não haja alienígenas na Terra.

Para esta pergunta, Qwen2-Math levou cerca de 30 segundos para dar a resposta: 1.

Infelizmente, a resposta está errada. A resposta correta é √2 menos 1.

Navegamos nas áreas de comentários das principais plataformas e descobrimos que, além dos erros de cálculo, existe outra possibilidade que pode levar a respostas incorretas——

Isso é Qwen2-VLAo identificar o tema, algo deu errado.

O erro está no primeiro passo. Nesse caso, a resposta obtida pelo modelo grande definitivamente não será a resposta correta.

Ao mesmo tempo, Lin Junyang também disse na área de comentários dos internautas:

Nosso Qwen2-MatemáticaAinda não consigo resolver problemas de geometria。

Você também pode fazer perguntas em chinês

O protagonista desta vez, Qwen2-Math, foi desenvolvido com base no modelo de linguagem grande de código aberto Tongyi Qianwen Qwen2 e foi lançado pela grande equipe de modelos do Alibaba Qianwen há dez dias.

Ele é especialmente projetado para resolver problemas matemáticos e pode resolver questões de testes em nível de competição.

Qwen2-Math tem um total de três versões de parâmetros:

72B, 7B e 1,5B.

Com base no Qwen2-Math-72B, a equipe Qianwen também aprimorou a versão do Instruct.

Este também é o modelo principal do Qwen2-Math. É um modelo de recompensa específico da matemática que combina o sinal de recompensa com o sinal de julgamento verdadeiro ou falso como um rótulo de aprendizagem e, em seguida, constrói dados de ajuste fino supervisionado (SFT) por meio de amostragem de rejeição. e finalmente usa GRPO baseado no modelo de otimização do método SFT.

Qwen2-Math-72B-Instruct lida com uma variedade de problemas matemáticos, como álgebra, geometria, contagem e probabilidade e teoria dos números com uma precisão de 84%.

E assim que foi lançado, ele “entronizou” em grandes modelos matemáticos, marcando 7 pontos a mais que o GPT-4o no conjunto de dados MATH, que é 9,6% maior em proporção.

Superando diretamente o Llama 3.1-405B de código aberto e o GPT-4o de código fechado, Claude 3.5, etc.

Até o momento desta publicação, Qwen2-Math-72B-Instruct foi baixado mais de 13,2 mil vezes.

E há uma descoberta mais recente:

Embora a equipe afirme que o Qwen2-Math atualmente é direcionado principalmente para cenas inglesas,Se você fizer uma pergunta em chinês, o Qwen2-Math ainda poderá respondê-la.。

Só estou respondendo em inglês.

Entende-se que Qwen2-MathUma versão bilíngue em chinês e inglês será lançada posteriormente。

Links de referência:
[1]https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
[2]https://x.com/Alibaba_Qwen/status/1825559009497317406
[3]https://x.com/JustinLin610/status/1825559557411860649

notícias

Não importa onde você não sabe digitalizar! Jogue online o modelo matemático mais poderoso do mundo, apoiado pelos modelos multimodais do Alibaba

Qual é o efeito? Apenas jogue agora

Você também pode fazer perguntas em chinês

Introdução

Minhas informações de contato