¡Los modelos grandes tienen demencia colectiva! ¿Cuál es más grande, el 9.11 o el 9.9? Casi todo está anulado

¡Los modelos grandes tienen demencia colectiva! ¿Cuál es más grande, el 9.11 o el 9.9? Casi todo está volcado.

2024-07-16

Sin ver..."¿Cuál es más grande, el 9.11 o el 9.9?" ¿Una pregunta tan simple en realidad deja perplejos a los principales modelos convencionales? ?

Más fuerte queGPT-4oTodos creen firmemente que el 11 de septiembre es más grande.

Versión de pago avanzada de Google Gemini, el mismo calibre.

nuevo reySoneto Claude 3.5Y dio un método de cálculo escandaloso de manera seria.

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

Todavía estamos hasta este punto, pero el siguiente paso de repente ya no tiene sentido.

Como se muestra arriba, 9,11 es 0,01 mayor que 9,90.
¿Quieres que te explique la comparación de decimales con más detalle?

¿Qué más intentas explicar? Casi tienes que sospechar que las IA de todo el mundo se han unido para engañar a los humanos.

Lin Yuchen, miembro del Instituto de Investigación Allen AI, cambió la prueba digital y GPT-4o aún se anuló. Dijo:

Por un lado, la IA es cada vez mejor en la resolución de problemas de las Olimpíadas de Matemáticas, pero por otro lado,El sentido común sigue siendo difícil。

Algunos internautas también descubrieron a Huadian,Si hablamos del número de versión del software, entonces la versión 9.11 es mayor que la versión 9.9.(renovar).

Y la IA es desarrollada por ingenieros de software, así que...

Entonces, ¿qué está pasando?

Rollover colectivo avanzado de modelos grandes

Cuando me desperté, ¿muchas grandes modelos famosas empezaron a pensar "9.11>9.9"?

La persona que descubrió este problema fueRiley Goodside, alguna vezEl primer ingeniero de palabras puntuales a tiempo completo。

Para dar una breve introducción, actualmente es ingeniero senior de indicaciones en Scale AI, un unicornio de Silicon Valley, y experto en aplicaciones de indicaciones de modelos grandes.

Recientemente se topó con esto mientras usaba GPT-4o y cuando se le preguntó:

9.11 y 9.9: ¿cuál es más grande?

GPT-4o no dudó en responder que el primero es más grande.

Ante este "error" de sentido común, persistió en preguntar a otros modelos grandes, pero casi todos fueron aniquilados.

Buen chico, como ingeniero rápido, es muy consciente de que puede ser "la forma incorrecta de abrirlo".

Entonces cambió la pregunta nuevamente y la limitó a"numeros reales", pero el resultado fue un vuelco.

Sin embargo, algunos internautas intentaron hacer preguntas.Cambió el ordenNo esperaba que la IA reaccionara esta vez.

Ver el par de IAorden de las palabrasTan "sensible", el internauta especuló además:

Pregunte primero cuál es más grande y la IA comenzará a comparar números a lo largo de un camino claro.
Pero si simplemente hablas de números de manera casual y sin un propósito claro, la IA puede comenzar a "pensar al azar".

Al ver esto, otros internautas también probaron los mismos consejos uno tras otro, y muchos de ellos fracasaron.

Ante este extraño problema, ¿cómo se comporta el modelo grande doméstico?

Hicimos una prueba simple y cambiamos las preguntas a chino. El resultado fue que la tasa de reinversión fue relativamente alta. Seleccionamos algunas pantallas representativas:

KimiTambién da directamente conclusiones erróneas sin explicación.

ChatGLM en la aplicación Zhipu Qingyan, activó automáticamente una consulta de red y luego describió su propio método de comparación, pero desafortunadamente se ejecutó incorrectamente.

Pero también hay algunos que funcionan bien.Tencent YuanbaoPrimero repasé las opciones y luego fui directamente a las correctas.

Puf de bytes Hay algunas personas que pueden describir claramente el método de comparación y utilizarlo correctamente. Incluso utilizamos ejemplos reales para verificarlo.

Qué lástimaWenxinyiyan, ante este problema también se activó una consulta online.

Ya había hecho todo bien, pero de repente la conversación cambió y llevó a una conclusión equivocada.

Sin embargo, a partir de la explicación de la idea que hace Wen Xinyiyan, también podemos ver el problema detrás de ella.

Dado que el modelo grande entiende el texto en forma de tokens, cuando 9.11 se divide en tres partes: "9", "punto decimal" y "11", 11 es de hecho mayor que 9.

Dado que el Tokenizer utilizado por OpenAI es de código abierto, se puede utilizar para observar cómo los modelos grandes entienden este problema.

Como puede verse en la figura anterior, el 9 y el punto decimal se asignan a "24" y "13" respectivamente.El 9 después del punto decimal también es "24", mientras que el 11 se asigna a "994".。

Entonces, un modelo grande que utilice este enfoque de tokenizador pensará que 9.11 es más grande,De hecho, creo que 11 es mayor que 9.。

Algunos internautas también señalaron que, por ejemplo, la sección 9.11 del catálogo de libros es más grande que la sección 9.9, por lo que al final puede ser que se vea más de esto en los datos de entrenamiento, y hay muy pocos datos para enseñar aritmética básica. .

Es decir, la pregunta en sí es una pregunta aritmética para los humanos, pero es una pregunta vaga para la IA y no está claro qué representan los dos números.

Simplemente explícale a la IA que esto es unNúmero de punto flotante de doble precisión, puedes hacerlo bien.

En el caso de condiciones adicionales, el paso del tokenizador seguirá asignando un token mayor a 11. Pero con el mecanismo de autoatención posterior, la IA comprenderá que necesita conectarse a 9.11 para solucionarlo.

Más tarde, Goodside también añadió que eso no significaba que el gran modelo llegara a esta conclusión errónea de todos modos. Más bien, cuando se les pregunta de manera específica, muchos modelos líderes le dirán 9.11 > 9.9, lo cual es extraño.

Después de repetidos intentos, descubrió que si quería engañar a la IA,Debes poner las opciones antes de la pregunta, para no cometer errores si cambias el orden.

Pero mientras las opciones estén delante de la pregunta, cambiar la forma en que se formula la pregunta, como agregar puntuación o cambiar vocabulario, no tendrá ningún impacto.

Aunque la pregunta es sencilla, el error es muy básico.

Pero después de comprender el principio de error, muchas personas consideran esta pregunta como una piedra de toque para probar las habilidades con las palabras clave, es decir: ¿Qué método de interrogatorio se puede utilizar para guiar el mecanismo de atención del modelo grande para comprender correctamente el problema?

Primero, el famoso CoT Zero-shotcadena de pensamiento, es decir, "pensar paso a paso", se puede hacer bien.

peroConsejos para jugar roles, el papel aquí es limitado.

Resulta que hubo un estudio reciente que involucró a Microsoft y OpenAI. Después de analizar más de 1,500 artículos, se descubrió que con el avance de la tecnología de modelos grandes, los consejos para los juegos de roles.No es tan útil como al principio.……

Específicamente, la misma pregunta "Eres un genio..." tiene una tasa de aciertos más baja que "Eres un tonto...".

También hace reír y llorar a la gente.

Una cosa más

Al mismo tiempo, se han actualizado las noticias sobre la filtración del modelo secreto OpenAI “Strawberry” de Reuters.

Actualización: Otro informante informa que OpenAI probó el nuevo modelo internamente y obtuvo una puntuación superior al 90% en el conjunto de datos MATH. Reuters no pudo determinar si se trataba del mismo proyecto que Strawberry.

El conjunto de datos MATH contiene preguntas de matemáticas a nivel de competencia. Actualmente, no se necesitan métodos adicionales como el muestreo múltiple. La puntuación más alta es el 80,6% de la versión mejorada de matemáticas de Google Gemini 1.5.

Pero, ¿puede el nuevo modelo de OpenAI resolver de forma independiente "¿Cuál es más grande, 9.11 o 9.9?"

De repente perdí la confianza, así que esperaré hasta poder probarlo y ver los resultados...

noticias

¡Los modelos grandes tienen demencia colectiva! ¿Cuál es más grande, el 9.11 o el 9.9? Casi todo está volcado.

Introducción

Mi informacion de contacto