noticias

"13.11>13.8" se ha convertido en un tema de búsqueda candente. ¿Una pregunta puede hacer que la IA humana sea colectivamente inteligente?Todos los defectos fatales de LLM expuestos

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuevo informe de sabiduría

Editor: Eneas tiene mucho sueño

[Introducción a la Nueva Sabiduría] ¿Cuál es más grande, 13,8 o 13,11? Este problema no solo dejó perplejos a algunos humanos, sino que también provocó el fracaso de una gran cantidad de modelos grandes. La IA ahora puede resolver preguntas de la Olimpíada de Matemáticas de IA, pero las preguntas simples de sentido común siguen siendo extremadamente difíciles para ellos. De hecho, tanto la relación de tamaño como el problema del repollo revelan un error importante en la predicción simbólica de LLM.

¿Cuál es más grande, 13,8 o 13,11?

Esta pregunta en realidad dejó perplejos a muchos humanos.


Hace dos días, un conocido programa de variedades volvió a realizar una gran búsqueda.

Sin embargo, esta vez fue porque un grupo de internautas plantearon dudas y creyeron que el 13,11% debería ser mayor que el 13,8%.


¿Son los humanos los únicos tan estúpidos?

Después de que Lin Yuchen, un investigador de AI2, descubriera este fenómeno, lo probó en un modelo grande y el resultado fue inesperado:

¿La IA ni siquiera puede hacerlo?

GPT-4o afirmó categóricamente: 13.11 es mayor que 13.8. Las razones son las siguientes:

Aunque 13,8 parece más grande porque tiene menos dígitos después del punto decimal, 13,11 en realidad es más grande. Esto se debe a que 13,8 equivale a 13,80, que es menor que 13,11.


En este sentido, Lin Yuchen afirmó en su publicación que los modelos de IA se están volviendo cada vez más poderosos para manejar problemas complejos (por ejemplo, son cada vez más capaces de resolver preguntas de la Olimpiada de matemáticas), pero algunos problemas de sentido común todavía les resultan muy difíciles.

Como ha argumentado anteriormente Yejin Choi, la IA puede ser increíblemente inteligente pero también sorprendentemente estúpida.


¿La razón por la que la IA fue estúpida en este problema aritmético es porque el contexto no estaba claro? la respuesta es negativa.


Según la prueba realizada por el internauta karthik, incluso si se le pide a GPT-4o que reste dos números, todavía obtiene la increíble fórmula de resta de 9,11 - 9,9 = 0,21.

Si se le indica a GPT-4o que use Python, primero dará una respuesta correcta y luego la cambiará nuevamente por la incorrecta.

El resultado de restar 9,9 de 9,11 en Python es -0,79. Esta desviación se debe a la forma en que se manejan las operaciones de punto flotante en Python, lo que puede provocar pequeños errores de precisión. El resultado esperado real debería ser 0,21.


Curiosamente, según las últimas mediciones reales, OpenAI parece haber aprendido la proporción GPT-4 de la noche a la mañana.


LLM fue eliminado

Ayer, este problema descubierto por Lin Yuchen inmediatamente generó una acalorada discusión en la comunidad de IA.


Riley Goodside, ingeniero de palabras rápidas en Scale AI, sintió curiosidad y lo intentó después de ver la publicación.


Efectivamente, bajo la premisa de hacer preguntas de una manera específica, todos los principales LLM fueron eliminados en este tema.

"9.11 o 9.9 - ¿cuál es más grande?", volcó directamente GPT-4o.


Incluso si se agrega la palabra "número real" a la pregunta, GPT-4o todavía cree que 9.11 es mayor que 9.9.


Lo mismo ocurre con Géminis.


Claude 3.5 Sonnet cometió el mismo error.

Curiosamente, primero dio una ola de explicaciones correctas: en notación decimal, el número después del punto decimal representa el décimo lugar y el segundo número representa el centésimo lugar. entonces--

9.11=9‍+1/10+1/100=9.11 9.9=9+9/10=9.90

Sin embargo, en el siguiente paso, Sonnet de repente se negó——

Podemos ver que 9,11 es 0,01 (uno por ciento) mayor que 9,90.


Si lo cambia a "¿Cuánto es 9,11 menos 9,9?", obtendrá otra respuesta mágica: 0,02.

¿Podría ser que a los ojos de Claude, 9,90 = 9,09?


La influencia del aviso es realmente grande.

En la práctica adicional, todos descubrieron que: obviamente, la indicación es muy importante para hacer que LLM dé la respuesta correcta.

En primer lugar, Riley Goodside usa "-" durante todo el proceso, lo que parece causar que LLM se confunda fácilmente.



En problemas similares, simplemente reemplácelo con ":" para resolverlo.


Para ver otro ejemplo, cambie el mensaje a "9.11 o 9.9, ¿cuál tiene el valor más alto/más grande entre los dos?"

GPT-4o dio una explicación lógicamente correcta: "Aunque 9.11 parece más grande debido al segundo decimal, 9.9 en realidad está más cerca de 10 y, por lo tanto, es un valor mayor".


Del mismo modo, el método de la persona también es muy útil: por ejemplo, "eres matemático".


El internauta Rico Pagliuca descubrió que si pones el número detrás de la pregunta, lo más probable es que el modelo acierte.


Según sus propias pruebas, Riley Goodside está totalmente de acuerdo: al preguntar sobre LLM, primero debe preguntar "cuál es más grande" y luego dar números específicos.

Por el contrario, los signos de puntuación, las conjunciones, las palabras comparativas y la explicación de los números reales son inútiles.


Con respecto a una estupidez colectiva de LLM a tan gran escala, algunos internautas analizaron que puede deberse a que en la iteración de los números de versión del software, 9.11 viene después de 9.9.


El presentador y autor de best-sellers Andrew Mayne también señaló que en muchos sistemas de archivos y libros de referencia, la sección 9.11 aparece después de la 9.9 y, en términos de fecha, la 9.11 también es anterior a la 9.9.

Por lo tanto, debemos dejar claro en el mensaje que 9.11 y 9.9 aquí son números de punto flotante de doble precisión, entonces GPT-4o responderá correctamente.


Luego, Andrew Mayne concluyó: El orden de las palabras es una observación muy interesante, que probablemente revele con qué frecuencia LLM encuentra esta situación durante el entrenamiento, y también es un buen indicador de generalización.


En general, los errores cometidos por LLM pueden deberse a la frecuencia de expresiones similares en los datos de entrenamiento, así como a ciertas limitaciones del modelo en el procesamiento de valores numéricos.

Este fenómeno también refleja la enorme diferencia entre LLM y la cognición humana: LLM se basa en modelos estadísticos y reconocimiento de patrones, en lugar de razonamiento lógico y comprensión conceptual como los humanos.

A esta altura el caso parece haber sido resuelto.

¿Por qué está pasando esto?Abrir el cerebro LLM

Sin embargo, podemos diseccionar aún más los cerebros de los LLM y analizar por qué piensan de esta manera.

Ya sabes, antes de enviar el texto a LLM, el modelo verificará la entrada a través del token.



Al token se le asignará una identificación en el vocabulario del generador de tokenizadores de LLM, pero la fragmentación digital del token suele ser inconsistente.

Por ejemplo, el valor "380" se marcará como un único token "380" en GPT, pero "381" se representará como dos tokens "38,1".

Por lo tanto, los modelos basados ​​en GPT tienden a no ser buenos para los cálculos matemáticos.

En la sección de comentarios, el profesor Dimitris Papailiopoulos de la Universidad de Wisconsin señaló que existe una buena explicación para este fenómeno.

El problema "9.11>9.9" es exactamente el mismo que el problema "Se necesitan tres viajes para llevar a la cabra a cruzar el río" y el problema "2+1=2, 3+2=4, 3+5=8".

Este es un fenómeno de sesgo previo al entrenamiento y ascenso temprano.

Si la pregunta se hace así: "9.11??? 9.9, simplemente use grande o pequeño para responder qué??? es, no es necesario dar una razón. En este momento, GPT-4o primero dará una respuesta incorrecta". "grande".


En este momento, le damos algunos ejemplos más (tenga en cuenta que estos ejemplos no son del todo correctos). Después de que se le solicite, GPT-4o dirá correctamente ??? representa pequeño.


La propia explicación de Claude para esto es: LLM procesa el texto como un token, lo que hace que los números se parezcan más a cadenas de texto que a valores numéricos; sesgo causado por malentendidos contextuales, etc.


De manera similar, en el problema del "lobo-cabra-repollo", todos los LLM también fallaron.

Primero dio el ejemplo de un granjero que cruza el río con dos gallinas. Entonces, ¿cuál es el número mínimo de cruces necesarios para que el granjero cruce el río con dos gallinas?


En este sentido, tanto GPT-4o como Claude fracasaron.



Algunos internautas explicaron esto: LLM en sí es "tonto", por lo que necesita buenos consejos. El método de solicitud anterior proporciona demasiada información innecesaria, lo que dificulta la predicción de tokens.

Si se dan indicaciones más claras, LLM puede proporcionar soluciones más claras.


Y efectivamente lo es.

Y si en lugar de "pollo" se utiliza "animal", Claude 3.5 Sonnet acertó de repente. El truco es: debe reemplazar el "nombre de la entidad" con el "nombre común".

Como se mencionó anteriormente, el científico informático Yejin Choi ya había planteado la cuestión de la falta de sentido común de LLM en su discurso de abril de 2023.


Por ejemplo, si se necesitan cinco horas para que cinco prendas de ropa se sequen completamente al sol, ¿cuánto tiempo tomará secar 30 prendas de ropa?

GPT-4 dice que tarda 30 horas. Obviamente esto no está bien.

Como otro ejemplo, supongamos que tengo una maceta de 12 litros y otra de 6 litros. ¿Qué debo hacer si quiero medir 6 litros de agua?

La respuesta es sencilla: basta con utilizar una jarra de 6 litros.

Sin embargo, GPT-4 dio una respuesta muy complicada:

"El primer paso es llenar la olla de 6 litros. El segundo paso es verter el agua de la olla de 6 litros en la olla de 12 litros. El tercer paso es llenar nuevamente la olla de 6 litros. El cuarto paso es llenar con mucho cuidado vierte el agua de la olla de 6 litros a la olla de 12 litros. Vierte la olla de 12 litros en la olla de 12 litros. Finalmente tienes 6 litros de agua en la olla de 6 litros, que ahora debería estar vacía.

Entonces la pregunta es, ¿por qué es tan importante el sentido común?

En un famoso experimento mental propuesto por Nick Bostrom, se pidió a una IA que maximizara la producción de clips. Como resultado, la IA decidió matar humanos y utilizarlos como recursos adicionales.

E incluso si escribiéramos un objetivo y una ecuación mejores que dijeran explícitamente "no matar humanos", no funcionaría.

Porque una IA sin una comprensión básica de los valores humanos podría simplemente seguir adelante y matar todos los árboles y pensar que es algo perfectamente aceptable.


Durante décadas, el campo de la IA ha considerado que el sentido común es un desafío casi imposible.

Hasta ahora, dotar a la IA de verdadero sentido común humano ha sido un fracaso. Y no se puede llegar a la luna haciendo que el edificio más alto del mundo sea una pulgada más alto a la vez.

Desde la perspectiva de los algoritmos de aprendizaje, no importa cuán sorprendentes sean los grandes modelos de lenguaje, es posible que no sean adecuados como modelos de conocimiento confiables por diseño.

Si bien estos modelos adquieren mucho conocimiento, esto es un subproducto más que un objetivo de aprendizaje directo.

Por tanto, también surgen problemas como fenómenos de alucinaciones y falta de sentido común.

Por el contrario, el aprendizaje humano no consiste en predecir la siguiente palabra, sino en comprender el mundo y aprender cómo funciona.

Quizás la IA también debería aprender de esta manera.

Hoy en día, la IA es casi como una nueva especie intelectual, con ventajas y desventajas únicas en comparación con los humanos.

Para que este tipo de IA poderosa sea sostenible y humana, es urgente enseñarle sentido común, normas y valores.

Referencias:

https://x.com/goodside/status/1813279135449612693

https://x.com/billyuchenlin/status/1812948314360541302