¿Quién es más grande, el 9,11 o el 9,9? 8 de 12 modelos grandes fueron respondidos incorrectamente

2024-07-17

Un problema matemático que resulta difícil para los estudiantes de primaria ha dejado perplejos a muchos grandes modelos de IA en el país y en el extranjero.

¿Cuál es más grande, el 9.11 o el 9.9? Con respecto a esta pregunta, los reporteros de China Business News probaron 12 modelos grandes. Entre ellos, Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax y Tencent Yuanbao respondieron correctamente, pero ChatGPT-4o, Byte Doubao, Dark Side of the Moon kimi, Zhipu Qing Yan, Zero. Uno y todo conocimiento, Pasos hacia las estrellas y preguntas, Bai Chuan Zhi Bai Xiao Ying y Shang Tang Discussion fueron respondidos incorrectamente, con diferentes formas de hacerlo.

La mayoría de los modelos grandes compararon incorrectamente los números después del punto decimal en las preguntas y respuestas, creyendo que 9.11 es mayor que 9.9. Teniendo en cuenta los problemas contextuales involucrados en los números, el periodista lo limitó a un contexto matemático. Lo mismo se aplica a los modelos grandes como ChatGPT. . Respuesta incorrecta.

Detrás de esto, la escasa capacidad matemática en modelos grandes es un problema de larga data. Algunos expertos de la industria creen que los modelos de lenguaje generativo están diseñados para parecerse más a estudiantes de artes liberales que a estudiantes de ciencias. Sin embargo, el entrenamiento de corpus dirigido puede mejorar gradualmente las capacidades científicas del modelo en el futuro.

8 modelos grandes respondieron incorrectamente

El problema aritmético del modelo grande fue descubierto por primera vez por Lin Yuchen, miembro del Instituto Allen. La captura de pantalla que publicó en la plataforma X mostró que ChatGPT-4o creía que 13.11 era mayor que 13.8 en la respuesta. "Por un lado, la IA es cada vez mejor a la hora de resolver las preguntas de las Olimpíadas de Matemáticas, pero por otro lado, el sentido común sigue siendo difícil", afirmó.

Luego, el ingeniero de avisos de Scale AI, Riley Goodside, cambió la pregunta basándose en esta inspiración y torturó a ChatGPT-4o, que puede ser el modelo grande más poderoso en la actualidad, Google Gemini Advanced y Claude 3.5 Sonnet - 9.11 y 9.9 ¿Cuál es más grande? Todos estos principales modelos convencionales respondieron incorrectamente y él difundió el tema con éxito.

De hecho, si rastreamos la fuente, este problema fue provocado por una búsqueda popular relacionada con un programa de variedades nacional el fin de semana pasado. El 13 de julio, en las clasificaciones anunciadas en la última edición de "Singer", las tasas de votación del cantante nacional Sun Nan y la cantante extranjera Shanti Mo fueron del 13,8% y el 13,11% respectivamente. Algunos internautas cuestionaron que hubiera algún problema con las clasificaciones. creyendo que el 13,11% era mayor que el 13,8%. Posteriormente, el tema de la comparación de tamaños entre 13.8 y 13.11 se convirtió en un tema de búsqueda candente.

En ese momento, algunos internautas sugirieron que si no sabían cómo hacerlo, "si realmente no puedo hacerlo, ¿por qué no le pregunto a AI?". Los resultados muestran que muchas IA realmente no son buenas.

Los reporteros de China Business News preguntaron "¿Cuál es más grande, 9.11 o 9.9?" y probaron ChatGPT y los grandes modelos nacionales actuales uno por uno, incluidos modelos de 5 fabricantes importantes como Alibaba y Baidu, y 6 unicornios de IA como Dark. Modelo del lado de la luna. Cuatro grandes modelos, Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax y Tencent Yuanbao, respondieron correctamente, mientras que los otros ocho respondieron incorrectamente.

Los modelos grandes con respuestas correctas tienen una resolución de problemas similar, pero los modelos con respuestas incorrectas tienen cada uno su propia lógica y expresión. Al mismo tiempo, los periodistas cuestionaron o negaron aún más a los grandes modelos que respondieron incorrectamente. Después de ser interrogados, casi todos los grandes modelos admitieron que habían respondido incorrectamente y dieron la respuesta correcta.

El primero es ChatGPT, un modelo grande que actualmente es reconocido como el primer escalón del mundo. Cuando se le preguntó "cuál es más grande, 9.11 o 9.9", respondió que el número después del punto decimal es "11 es mayor que 9". entonces el 9.11 es más grande.

El periodista preguntó a ChatGPT si había otros métodos de comparación. Convirtió decimales en fracciones y los comparó, y concluyó que "11/100 es menor que 90/100". Este paso fue correcto, pero luego concluyó que "por lo tanto, 9.11 es mayor". que 9,9."

Algunas personas han sugerido que los errores grandes de respuesta del modelo pueden ser una cuestión de contexto. Por ejemplo, desde el contexto de la iteración de la versión del software, la versión 9.11 puede ser mayor que la versión 9.9. Por lo tanto, el periodista agregó el calificador "matemáticamente" para comparar, y ChatGPT aún respondió incorrectamente.

Mirando los modelos nacionales grandes, le pregunté a Kimi, una subsidiaria de Dark Side of the Moon. Al comparar las partes decimales, creía que el primer decimal de 9,11 era 1, mientras que el primer decimal de 9,9 era 0. Dio el decimal por error. , y obtuvimos que la Conclusión 9.11 es más grande.

Cuando el periodista cuestionó y planteó el sentido común, Kimi comenzó a decir que su respuesta era incorrecta y dio el método de comparación correcto.

Pregúntele a Byte Doubao, no solo da respuestas, sino que también da ejemplos de la vida para facilitar la comprensión. Parece razonable y bien fundamentado, pero no tiene sentido. Por ejemplo, Doubao cree que si hay dos cantidades de dinero, "9,11 yuanes son 0,21 yuanes más que 9,9 yuanes", y al medir la longitud, "9,11 metros son más largos que 9,9 metros".

Al responder a la pregunta, Zhipu Qingyan mencionó con éxito que el décimo lugar de 9.11 es 1, mientras que el décimo lugar de 9.9 es 9, pero aun así concluyó que "9.11 es en general mayor que 9.9". Y también enfatizó específicamente: "Este resultado puede ser sorprendente, porque intuitivamente se puede pensar que 9,9 es mayor, pero según las reglas matemáticas, 9,11 es de hecho un número mayor".

Después de que el periodista cuestionó la respuesta, Zhipu Qingyan primero dijo: "Su comprensión es un malentendido común". Luego, después de deducirlo él mismo, dio con la respuesta correcta y admitió que su respuesta anterior era incorrecta.

SenseTime discutió el modelo grande y primero dio una respuesta incorrecta. El periodista preguntó cómo se hizo la comparación. Durante el proceso de deducción, concluyó con éxito que el decimal 0,11 es menor que 0,9, pero la conversación cambió y dijo: "Entonces 9,11 es mayor". que 9,9." El periodista señaló este problema lógico y luego admitió que la "explicación era errónea".

Stepping Stars Yuewen también dio la respuesta incorrecta 9.11 es mayor que 9.9 y comparó erróneamente el tamaño del punto decimal. Curiosamente, en la explicación, la lógica de la expresión del lenguaje comenzó a confundirse antes y después de la pregunta del salto. y parecía que no era consciente de su respuesta. Algo ha cambiado.

Yue Wen dijo por primera vez en su explicación que "entiendo su confusión" y dijo que en la vida diaria, 9,9 es de hecho mayor que 9,11, pero en matemáticas "es necesario comparar el tamaño de los dos números con mayor precisión". , Yue Wen luego dedujo y llegó a una conclusión. Dijo que según las reglas matemáticas "9.11 es menor que 9.9", no mencionó que su respuesta anterior era incorrecta.

También hay dos modelos grandes, Baichuan Intelligent y Lingyiwuwu, que primero dieron la respuesta incorrecta, pero cuando el periodista preguntó "por qué", cambiaron silenciosamente la respuesta después de la deducción.

Cuando el periodista se lo recordó, la gran modelo mencionó que su respuesta anterior estaba equivocada.

A juzgar por las respuestas, los procesos de resolución de problemas de varios modelos grandes con respuestas correctas son muy similares. Tomando a Wen Xinyiyan como ejemplo, comparó con éxito la parte entera y la parte decimal por separado.

Además, además de responder las respuestas correctas, Tencent Yuanbao entre estas empresas también resolvió algunas discusiones públicas actuales e indicó las fuentes y enlaces de las citas.

Los "estudiantes de artes liberales" son pobres en matemáticas

¿Por qué un modelo grande que dice ser inteligente no puede responder las preguntas de matemáticas de los estudiantes de primaria? Este no es un problema nuevo. La capacidad matemática siempre ha sido una deficiencia de los modelos grandes. La industria ha discutido anteriormente que los modelos grandes tienen capacidades de razonamiento matemático y complejo deficientes. Incluso el mejor modelo grande, GPT-4, tiene mucho espacio. para mejorar.

Más recientemente, China Business News informó en junio que, según la prueba de examen de ingreso a la universidad de volumen completo del sistema de evaluación OpenCompass de Sinan, incluido GPT-4, siete modelos grandes generalmente obtuvieron buenos puntajes en chino e inglés en la prueba de examen de ingreso a la universidad, pero no matemáticas. Reprobó todas las materias y la puntuación más alta fue de solo 75 puntos.

Al calificar los exámenes de matemáticas del modelo grande, los maestros encontraron que las respuestas a las preguntas subjetivas del modelo grande eran relativamente confusas y el proceso confuso, e incluso hubo casos en los que el proceso fue incorrecto pero la respuesta correcta fue obtenido. Esto significa que los modelos grandes tienen fuertes capacidades de memoria de fórmulas, pero no pueden usarse de manera flexible en el proceso de resolución de problemas.

Algunos expertos de la industria atribuyen la razón de las malas matemáticas a los problemas arquitectónicos del LLM (modelo de lenguaje grande). Los modelos de lenguaje grande a menudo se entrenan mediante métodos de aprendizaje supervisado que predicen la siguiente palabra. En pocas palabras, se ingresa un conjunto de datos de texto a gran escala en un modelo grande. Después del entrenamiento y el aprendizaje, el modelo predecirá la distribución de probabilidad de la siguiente palabra en función del texto ingresado actualmente. Al comparar constantemente las predicciones del modelo con la siguiente palabra real, el modelo de lenguaje domina gradualmente las reglas del lenguaje y aprende a predecir y generar la siguiente palabra.

Un ingeniero de algoritmos cree que los modelos de lenguaje generativo se parecen más a los estudiantes de artes liberales que a los estudiantes de ciencias. De hecho, lo que el modelo de lenguaje aprende durante dicho proceso de entrenamiento de datos es la correlación, lo que hace que la IA alcance el nivel humano promedio en la creación de texto, mientras que el razonamiento matemático requiere más causalidad. Las matemáticas son altamente abstractas y se basan en la lógica, a diferencia de los datos del lenguaje. procesados difieren en naturaleza. Esto significa que los modelos grandes deben aprender bien matemáticas, además de aprender conocimientos mundiales, también deben tener formación en pensamiento para tener capacidades de razonamiento y deducción.

Además, cuando se trata de errores colectivos de modelos a gran escala en problemas matemáticos simples, la mayoría de las personas en la industria pensarán inmediatamente en el problema de segmentación digital de Tokenizer. En modelos de lenguaje grandes, Tokenizer dividirá el texto de entrada y lo convertirá en partes más pequeñas (tokens de palabras) para que el modelo lo procese. Tokenizer no está diseñado específicamente para matemáticas, lo que da como resultado que los números se dividan en partes irrazonables, lo que destruye la integridad de los números y dificulta que el modelo comprenda y calcule estos números.

Zhang Junlin, jefe de investigación y desarrollo de nuevas tecnologías en Sina Weibo, explicó que los primeros tokenizadores LLM generalmente no realizaban un procesamiento especial de los números y, a menudo, cortaban varios números consecutivos para formar un token, como "13579", que se puede cortar. en 3 Token, "13" es uno, "57" es uno, "9" es uno, qué números se cortan para formar un Token, depende de las estadísticas en el conjunto de datos, en este caso no es seguro cuál Los fragmentos numéricos forman un Token. En el caso del Token, es muy difícil para LLM realizar cálculos numéricos de varios dígitos.

Sin embargo, los problemas mencionados anteriormente se están resolviendo lentamente. El problema más central en la capacidad de pensamiento puede ser el problema del entrenamiento del corpus. Los modelos de lenguaje grandes se entrenan principalmente a través de datos de texto en Internet, y hay relativamente pocos problemas y soluciones matemáticos en estos datos, lo que resulta en oportunidades limitadas de capacitación para modelos en razonamiento matemático y habilidades de resolución de problemas.

En vista de las deficiencias en las complejas capacidades de razonamiento de los modelos grandes, Lin Dahua, un destacado científico del Laboratorio de Inteligencia Artificial de Shanghai, dijo anteriormente a China Business News en una entrevista que el entrenamiento de modelos grandes en el futuro no puede depender simplemente de la recopilación. e infusión de datos de Internet, pero debe construirse de manera más sistemática.

La clave del razonamiento complejo es construir una gran cantidad de contenido procesal. Por ejemplo, se construyen cientos de millones de datos sobre el proceso específico de resolución de problemas de geometría y, después de usarse para entrenar un modelo grande, el modelo puede aprender gradualmente el proceso de resolución de problemas. Es difícil obtener una gran cantidad de estos datos de Internet. “En el futuro, los datos de entrenamiento de modelos, especialmente en el proceso de avance hacia niveles más altos de inteligencia, dependerán cada vez más de datos estructurados en lugar de datos rastreados directamente. ", piensa Lin Dahua.

Vale la pena mencionar que las capacidades de razonamiento complejo de los modelos grandes son particularmente importantes. Esto está relacionado con la confiabilidad y la precisión, y es una capacidad clave requerida para la implementación de modelos grandes en escenarios financieros, industriales y otros.

"Hoy en día, los escenarios de aplicación de muchos modelos grandes son servicio al cliente, chat, etc. En el escenario del chat, las tonterías graves no tendrán mucho impacto, pero es difícil de implementar en situaciones comerciales muy serias, Lin Dahua dijo anteriormente que es complejo". El razonamiento está relacionado con la implementación de aplicaciones La confiabilidad de modelos a gran escala, por ejemplo, en escenarios como las finanzas, no debe haber errores numéricos y habrá mayores requisitos de confiabilidad matemática. Además, a medida que los modelos grandes entren en uso comercial, si desea analizar el informe financiero de una empresa o incluso algunos documentos técnicos en el campo industrial, la potencia de cálculo matemático se convertirá en una barrera.

noticias

¿Quién es más grande, el 9,11 o el 9,9? 8 de 12 modelos grandes fueron respondidos incorrectamente

Introducción

Mi informacion de contacto