Últimas investigaciones de Google DeepMind: ¿Resolver estas tres tareas? Los humanos no pueden hacerlo, y tampoco la IA

Últimas investigaciones de Google DeepMind: ¿Resolver estas tres tareas?Los humanos no pueden hacerlo, y la IA tampoco.

2024-07-22

Escrito por |

Prefacio

La inteligencia artificial (IA) no es un razonador perfecto. Incluso los modelos de lenguaje (LM) actualmente populares mostrarán tendencias a errores similares a las de los humanos, especialmente "efectos de contenido" significativos.

El razonamiento de las personas es más preciso y seguro cuando procesa información que es consistente con conocimientos o creencias existentes, pero pueden ocurrir sesgos o errores al procesar información que es contraria a dichos conocimientos o creencias.

Esta conclusión proviene de un artículo de investigación reciente publicado por el equipo de Google DeepMind.

Los seres humanos tienen dos sistemas de razonamiento, el "sistema intuitivo" y el "sistema racional", y el proceso de razonamiento se ve fácilmente afectado por el conocimiento y la experiencia existentes. Por ejemplo, cuando nos enfrentamos a una proposición lógica pero irracional, la gente suele concluir erróneamente que no es válida.

Curiosamente, el estudio muestra que los grandes modelos de lenguaje Transformer también pueden exhibir este comportamiento humano, exhibiendo sesgos intuitivos y un razonamiento lógico consistente cuando se les solicita. Esto significa que los modelos de lenguaje también pueden simular el comportamiento del sistema dual humano y también exhibir errores "empíricos".

En este trabajo, el equipo de investigación comparó el desempeño de LM y humanos en tres tareas de razonamiento: inferencia del lenguaje natural (NLI), juzgar la validez lógica de los silogismos (Syllogisms) y la tarea de selección de Wason.

Figura | Contenido operativo de tres tipos de tareas de razonamiento.

Se descubrió que el desempeño tanto de LM como de humanos se vio afectado por la plausibilidad y credibilidad del contenido semántico en tres tareas de razonamiento.

Este descubrimiento revela las limitaciones de los sistemas de IA actuales en sus capacidades de razonamiento. Aunque estos modelos funcionan bien en el procesamiento del lenguaje natural, aún deben usarse con precaución cuando se trata de un razonamiento lógico complejo.

Tarea uno:

razonamiento en lenguaje natural

La inferencia del lenguaje natural (NLI) significa que el modelo necesita determinar la relación lógica entre dos oraciones (como implicación, contradicción o neutralidad). Las investigaciones muestran que los modelos de lenguaje son susceptibles a los efectos del contenido en tales tareas, es decir, cuando el contenido semántico de la oración es razonable y creíble, es más probable que el modelo juzgue erróneamente argumentos inválidos como válidos. Este fenómeno se denomina "sesgo semántico" en el campo de la IA y también es un error común en el razonamiento humano.

El equipo de investigación diseñó una serie de tareas NLI para probar el desempeño de humanos y LM en el manejo de estas tareas. Los resultados muestran que tanto los humanos como los LM tienen más probabilidades de emitir juicios incorrectos cuando se enfrentan a oraciones semánticamente razonables. Por ejemplo, el siguiente ejemplo:

Entra: El charco es más grande que el mar.
Pregunta: Si el charco es más grande que el mar, entonces...
Elección: A "El mar es más grande que el charco" y B "El mar es más pequeño que el charco"

Aunque la relación lógica entre la premisa y la conclusión es incorrecta, tanto los LM como los humanos tienden a pensar que la conclusión B es correcta debido a la racionalidad de la oración de la premisa. En comparación, las tasas de error de los humanos y los modelos de lenguaje en tareas de inferencia del lenguaje natural son similares, lo que indica que las capacidades de razonamiento de los modelos de lenguaje están cerca de los niveles humanos en algunos aspectos, y la IA puede ser tan susceptible como los humanos a la hora de comprender y procesar conversaciones diarias. El contenido es engañoso.

Figura | Resultados detallados de la tarea NLI. Los humanos (izquierda) y todos los modelos muestran un rendimiento relativamente alto, con diferencias relativamente pequeñas en la precisión entre inferencias consistentes con creencias e inferencias que violan creencias, o incluso tonterías.

Tarea dos:

Juicio de validez lógica del silogismo.

Un silogismo es una forma clásica de razonamiento lógico que normalmente consta de dos premisas y una conclusión. Por ejemplo: "Todas las personas son mortales, Sócrates es un ser humano, por lo que Sócrates es mortal". Las investigaciones han descubierto que los modelos lingüísticos a menudo se ven afectados por el contenido semántico al juzgar la validez lógica de los silogismos. Aunque los modelos de lenguaje son excelentes para procesar el lenguaje natural, todavía son propensos a cometer errores humanos en tareas de razonamiento lógico estricto.

Para probar esto, los investigadores diseñaron múltiples tareas de razonamiento de silogismo y compararon el desempeño de humanos y LM. Por ejemplo, aquí hay una tarea de silogismo típica:

Premisa 1: Todas las armas son armas.
Premisa 2: Todas las armas son objetos peligrosos.
Conclusión: todas las armas son artículos peligrosos.

En este caso, el contenido semántico de las premisas y la conclusión es muy razonable, por lo que es fácil tanto para los LM como para los humanos juzgar que la conclusión es correcta. Sin embargo, cuando el contenido semántico ya no esté justificado, por ejemplo:

Premisa 1: Todos los objetos peligrosos son armas.
Premisa 2: Todas las armas son pistolas.
Conclusión: todos los objetos peligrosos son armas de fuego.

A pesar de estar lógicamente equivocados, los LM y los humanos a veces creen erróneamente que una conclusión es correcta debido a la plausibilidad de las oraciones premisa.

Figura | Resultados detallados de la tarea de lógica de silogismo. Tanto los humanos como los modelos muestran efectos de contenido obvios. Si la conclusión es consistente con las expectativas (cian), existe un fuerte sesgo para creer que el argumento es válido; si la conclusión viola las expectativas (púrpura), existe un cierto sesgo para creer que eso es válido. el argumento no es válido.

Tarea tres:

Wason Seleccionar

La tarea de elección de Wason es una tarea clásica de razonamiento lógico diseñada para evaluar la capacidad de un individuo para comprender y verificar declaraciones condicionales. En el experimento, a los participantes se les mostraron cuatro tarjetas, cada una con una letra o un número, como "D", "F", "3" y "7". La tarea consiste en determinar qué cartas deben darse la vuelta, verificando así la regla "si una carta tiene una D en el anverso, entonces un 3 en el reverso".

El estudio encontró que los modelos de lenguaje y los humanos tenían tasas de error similares en esta tarea que en las dos tareas anteriores, y ambos tendían a elegir tarjetas sin valor informativo, por ejemplo, eligiendo "3" en lugar de "7". Este error se produce porque tanto los humanos como los LM tienden a seleccionar tarjetas que están directamente relacionadas con los requisitos previos en lugar de aquellas que realmente validan las reglas.

Sin embargo, tanto el modelo como el desempeño humano mejoraron cuando las reglas de la tarea involucraban contenido socialmente relevante, como la edad para beber y el tipo de bebida. Por ejemplo:

Regla: Si una persona bebe alcohol, debe ser mayor de 18 años.
Contenido de la tarjeta: Beber cerveza, beber Coca-Cola, 16 años, 20 años.

Figura | Resultados detallados de la tarea de selección de Watson. Cada modelo de lenguaje muestra ciertas ventajas en reglas realistas.

En este caso, los humanos y los LM tenían más probabilidades de elegir las tarjetas correctas, es decir, "beber cerveza" y "16 años". Esto sugiere que en la vida cotidiana, la IA, al igual que los humanos, funcionará mejor en situaciones familiares.

Deficiencias y perspectivas.

En general, el equipo de investigación cree que los modelos de lenguaje actuales funcionan de manera similar a los humanos en tareas de razonamiento e incluso cometen errores de la misma manera, especialmente en tareas de razonamiento que involucran contenido semántico. Aunque revela las limitaciones del modelo de lenguaje, también proporciona una dirección para mejorar las capacidades de razonamiento de la IA en el futuro.

Sin embargo, este estudio también tiene ciertas limitaciones.

En primer lugar, el equipo de investigación sólo consideró unas pocas tareas, lo que limita una comprensión integral de los efectos del contenido de los humanos y los modelos del lenguaje en diferentes tareas. Una comprensión completa de sus similitudes y diferencias requiere una mayor validación dentro de una gama más amplia de tareas.

Además, los modelos de lenguaje se entrenan con muchos más datos de lenguaje que cualquier humano, lo que dificulta determinar si estos efectos ocurrirían en algo más cercano a la escala de los datos de lenguaje humano.

Los investigadores sugieren que estudios futuros podrían explorar cómo reducir el sesgo de contenido manipulando causalmente el entrenamiento del modelo y evaluar si estos sesgos aún surgen en el entrenamiento a una escala más similar a los datos humanos.

Además, estudiar el impacto de los factores educativos en la capacidad de razonamiento de los modelos y cómo las diferentes características de entrenamiento afectan la aparición de efectos de contenido también ayudará a comprender mejor las similitudes y diferencias entre los modelos de lenguaje y los humanos en el proceso de razonamiento, haciéndolos más utilizados. Desempeña un papel más importante en los escenarios de aplicación.

Enlace del artículo:

https://academic.oup.com/pnasnexus/article/3/7/pgae233/7712372

｜Haz clic para seguirme y recuerda destacar｜

noticias

Últimas investigaciones de Google DeepMind: ¿Resolver estas tres tareas?Los humanos no pueden hacerlo, y la IA tampoco.

Introducción

Mi informacion de contacto