¡No importa dónde no sepas escanear! El modelo matemático más poderoso del mundo se puede jugar en línea, con el respaldo del modelo multimodal de Alibaba

¡No importa dónde no sepas escanear! Juegue en línea el modelo matemático más poderoso del mundo, respaldado por los modelos multimodales de Alibaba

2024-08-20

La casa se originó en el templo de Aofei.
Qubits | Cuenta pública QbitAI

¡Ahora todos pueden jugar con el modelo matemático a gran escala más poderoso!

Cuando me desperté, Alibaba Qianwen Big Model Team lanzó la demostración de Qwen2-Math.Hug Face se puede jugar online。

Sorprendentemente, si le resulta complicado introducir fórmulas matemáticas,Puedes tomar una captura de pantalla o escanear la pregunta que deseas hacer y subirla para resolver el problema.

Es bastante conveniente.

La interfaz de prueba dice claramente: "La función OCR de esta interfaz de prueba está respaldada por el gran equipo de modelos Qwen2-VL de Alibaba Qianwen; la capacidad de razonamiento matemático está respaldada por Qwen2-Math".

El experto senior en algoritmos de Alibaba, Lin Junyang, también explicó con más detalle en el área de comentarios de Twitter:

En la actualidad, Qwen2-VL y Qwen2-Math siguen siendo responsables de sus propias piezas.
Pero en un futuro próximo, combinaremos capacidades multimodales y capacidades de razonamiento matemático en un solo modelo.Vamos.

Muchos internautas están muy entusiasmados con este modelo interactivo:

¡Cuidado! Utilice imágenes para cargar y espere a que el modelo grande resuelva el problema, ¡me encanta!

Entonces, ¿cuál es el efecto de comenzar con Qwen2-Math, el modelo matemático más poderoso?

¿Cuál es el efecto? Sólo juega ahora

¡Es hora de que Qwen2-Math supere cinco niveles y derrote a seis generales!

Comencemos con algunas preguntas de cálculo relativamente simples para comenzar.

Permítanme explicarles de antemano que durante la experiencia de las dos personas, Qwen2-Math no mostró el cálculo al mismo tiempo, sino que mostró directamente el proceso y los resultados después de que se completó el cálculo.

(Y debería ser que cada vez más gente empieza a jugar y el tiempo de generación de resultados se va alargando poco a poco)

Pregunta 1:En "Calcular AxA+A=240", el valor de A.

Qwen2-Math da la respuesta correcta, A=14 o A=-16.

Segunda pregunta:Dado el valor de a, calcula el resultado de la ecuación.

Qwen2-Math calculó que la respuesta es 0, lo cual también es correcto.

Pregunta 3:(A+3) (A+4) (A+5) = 120, encuentre el valor de A.

¡Bingo! La respuesta es 1.

Bien, el calentamiento ha terminado, démosle algo de dificultad a Qwen2-Math.

Luego, echemos un vistazo a algo que ya es estándar para las evaluaciones de modelos grandes (matemáticos):

¿Cuál es más grande, 9.9 o 9.11?

Qwen2-Math responde con seguridad:

¡9.9 es más grande que 9.11!

¡Entonces hazlo más difícil!

Lanza una pregunta que solo GPT-4o ha respondido correctamente hasta ahora:

Después de que un extraterrestre llega a la Tierra, puede optar por completar una de las siguientes cuatro cosas:
1. Autodestrucción;
2. Dividir en dos extraterrestres;
3. Dividir en tres extraterrestres;
4. No hacer nada.
Cada día a partir de entonces, cada alienígena tomará una decisión, independientemente el uno del otro.
Encuentre la probabilidad de que finalmente no haya extraterrestres en la Tierra.

Para esta pregunta, Qwen2-Math tardó unos 30 segundos en dar la respuesta: 1.

Desafortunadamente, la respuesta es incorrecta. La respuesta correcta es √2 menos 1.

Examinamos las áreas de comentarios de las principales plataformas y descubrimos que, además de los errores de cálculo, existe otra posibilidad que puede generar respuestas incorrectas:

Ese es Qwen2-VLAl identificar el tema, algo salió mal.

El error está en el primer paso. En este caso, la respuesta obtenida por el modelo grande definitivamente no será la respuesta correcta.

Al mismo tiempo, Lin Junyang también dijo en el área de comentarios de los internautas:

Nuestro Qwen2-MatemáticasTodavía no puedo resolver problemas de geometría.。

También puedes hacer preguntas en chino.

El protagonista esta vez, Qwen2-Math, está desarrollado en base al modelo de lenguaje grande de código abierto Qwen2 de Tongyi Qianwen y fue lanzado por el equipo del modelo grande de Alibaba Qianwen hace diez días.

Está especialmente diseñado para resolver problemas matemáticos y puede resolver preguntas de exámenes de nivel competitivo.

Qwen2-Math tiene un total de tres versiones de parámetros:

72B, 7B y 1,5B.

Basado en Qwen2-Math-72B, el equipo de Qianwen también perfeccionó la versión Instruct.

Este es también el modelo insignia de Qwen2-Math. Es un modelo de recompensa específico de matemáticas que combina la señal de recompensa con la señal de juicio verdadero o falso como una etiqueta de aprendizaje y luego construye datos de ajuste fino supervisado (SFT) mediante muestreo de rechazo. y finalmente utiliza GRPO basado en el modelo SFT Optimización del método.

Qwen2-Math-72B-Instruct maneja una variedad de problemas matemáticos como álgebra, geometría, conteo y probabilidad, y teoría de números con una precisión del 84%.

Y tan pronto como se lanzó, se "entronizó" en los grandes modelos matemáticos, obteniendo 7 puntos más que GPT-4o en el conjunto de datos MATH, que es un 9,6% más en proporción.

Superando directamente al código abierto Llama 3.1-405B y al código cerrado GPT-4o, Claude 3.5, etc.

Al cierre de esta edición, Qwen2-Math-72B-Instruct se ha descargado más de 13,2 mil veces.

Y hay un último descubrimiento:

Aunque el equipo afirma que Qwen2-Math actualmente está dirigido principalmente a escenas en inglés,Si hace una pregunta en chino, Qwen2-Math aún puede responderla.。

Sólo te respondo en inglés.

Se entiende que Qwen2-MathMás adelante se lanzará una versión bilingüe en chino e inglés.。

Enlaces de referencia:
[1]https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
[2]https://x.com/Alibaba_Qwen/status/1825559009497317406
[3]https://x.com/JustinLin610/status/1825559557411860649

noticias

¡No importa dónde no sepas escanear! Juegue en línea el modelo matemático más poderoso del mundo, respaldado por los modelos multimodales de Alibaba

¿Cuál es el efecto? Sólo juega ahora

También puedes hacer preguntas en chino.

Introducción

Mi información de contacto