Mi información de contacto
Correo[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Informe del corazón de la máquina
Editor: Zenan, Asia Oriole
El comportamiento antropomórfico de los modelos grandes nos está dando el efecto de valle asombroso.
「prueba de turingEs una prueba pobre porque las habilidades de conversación y el razonamiento son cosas completamente diferentes. “En los últimos días, una nueva visión se ha vuelto popular en el círculo de la IA.
Ahora que estamos en la era de la IA generativa, nuestros estándares para evaluar la inteligencia deberían cambiar.
"¿Pueden las máquinas pensar?" Esta es la pregunta que formula Alan Turing en su artículo de 1950 "Computing Machinery and Intelligence". Turing se apresuró a señalar que, dada la dificultad de definir el "pensamiento", la pregunta "carecía de sentido y no merecía ser discutida". Como es habitual en los debates filosóficos, sugirió sustituirla por otra pregunta.
Turing imaginó un "juego de imitación" en el que un juez humano habla con una computadora y un humano (contraataque), en el que ambas partes intentan convencer al juez de que son verdaderamente humanos.
Es importante destacar que la computadora, el florete y el juez no podían mirarse y se comunicaban completamente a través de texto. Después de hablar con cada candidato, los jueces adivinan quién es el verdadero ser humano.
La nueva pregunta de Turing fue: "¿Existe alguna computadora digital concebible que pueda sobresalir en el Juego de la Imitación?"
Enlace del artículo:
https://academic.oup.com/mind/article/LIX/236/433/986238?login=false
Este juego propuesto por Turing, ahora ampliamente conocido como prueba de Turing, se utilizó para refutar la intuición generalizada de que "debido a la naturaleza mecánica de las computadoras, es imposible pensar a nivel de principios".
El punto de Turing es el siguiente: si una computadora es conductualmente indistinguible de un ser humano (excepto por su apariencia y otras características físicas), entonces ¿por qué no la tratamos como una entidad pensante? ¿Por qué deberíamos limitar la calificación para “pensar” a los humanos (o, más ampliamente, a entidades hechas de células biológicas)? Como lo describe el informático Scott Aronson, la propuesta de Turing era "un llamamiento contra el chauvinismo carnal".
La prueba de Turing es una idea más que un "método"
Turing formuló su prueba como un experimento mental filosófico más que como una forma de medir realmente la inteligencia de las máquinas. Sin embargo, en la percepción pública, la prueba de Turing se ha convertido en el hito definitivo de la inteligencia artificial (IA), el criterio principal para juzgar si la inteligencia artificial general ha llegado.
Ahora, casi 75 años después, los informes sobre IA están llenos de afirmaciones de que se ha superado la prueba de Turing, especialmente con el lanzamiento de chatbots como ChatGPT de OpenAI y Claude de Anthropic.
El año pasado, el director ejecutivo de OpenAI, Sam Altman, escribió: "Frente al cambio tecnológico, la adaptabilidad y la resiliencia de las personas han quedado bien demostradas: la prueba de Turing pasó silenciosamente y la mayoría de las personas continuaron con sus vidas".
Los principales medios de comunicación también han publicado titulares similares. Por ejemplo, un periódico informó que "ChatGPT pasó la famosa 'prueba de Turing', lo que indica que el robot con inteligencia artificial tiene una inteligencia comparable a la de los humanos".
El antiguo periódico publicado diariamente en el Reino Unido: Daily Mail
Incluso uno de los medios de comunicación más grandes del mundo y una organización de medios públicos muy influyente como la BBC llegó a proponer en 2014 que la IA informática había pasado la prueba de Turing.
https://www.bbc.com/news/technology-27762088
Sin embargo, la pregunta es: ¿los chatbots modernos realmente pasan la prueba de Turing? Si es así, ¿deberíamos concederles el estatus de "pensantes", como propuso Turing?
Sorprendentemente, a pesar de la amplia importancia cultural de la Prueba de Turing, la comunidad de IA lleva mucho tiempo sin ponerse de acuerdo sobre los criterios para aprobar la Prueba de Turing. Muchos se preguntan si tener habilidades de conversación capaces de engañar a las personas realmente revela la inteligencia subyacente o la capacidad de “pensar” de un sistema.
Probablemente haya mil estándares de prueba de Turing a los ojos de mil personas.
El ganador del Premio Turing, Geoffery Hinton, habló sobre su "Estándar de prueba de Turing" en una entrevista. Cree que los chatbots como Palm pueden explicar por qué un chiste es divertido, lo que puede considerarse como un signo de su inteligencia. Los grandes modelos actuales, como el GPT-4, son muy buenos explicando por qué un chiste es divertido, lo que se considera parte de sus criterios de prueba de Turing.
En comparación con las definiciones serias de la prueba de Turing de otros científicos, las opiniones de Hinton, aunque divertidas, todavía expresan sus pensamientos sobre la proposición última de "si la inteligencia artificial tiene la capacidad de pensar".
Enlace del vídeo de la entrevista: https://www.youtube.com/watch?v=PTF5Up1hMhw
Una "farsa de Turing"
Dado que a Turing no se le ocurrió una prueba con instrucciones prácticas completas.
Su descripción del "juego de la imitación" carece de detalles:
¿Cuánto tiempo debe durar la prueba?
¿Qué tipo de preguntas están permitidas?
¿Qué cualidades deben poseer los jueces humanos o los “foiladores”?
Turing no dio más detalles sobre estas cuestiones específicas. Sin embargo, hizo una predicción concreta: "Creo que dentro de unos 50 años, los ordenadores estarán programados para ser tan buenos que el interrogador medio no tendrá más que la posibilidad de identificar a un ser humano real después de cinco minutos de interrogatorio. 70% ." En pocas palabras, en una conversación de cinco minutos, el evaluador fue engañado un promedio del 30% de las veces.
Algunos ven esta predicción arbitraria como el criterio "oficial" para pasar el Test de Turing. En 2014, la Royal Society celebró una competición de prueba de Turing en Londres, en la que participaron cinco programas informáticos, 30 láminas humanas y 30 jueces.
El grupo diverso de personas que participaron incluía jóvenes y mayores, hablantes nativos y no nativos de inglés, y expertos y no expertos en informática. Cada juez tuvo múltiples rondas de conversaciones paralelas de cinco minutos con un par de concursantes (un humano y una máquina), después de las cuales el juez tuvo que adivinar quién era el humano.
Un chatbot llamado "Eugene Goostman", que hacía el papel de un adolescente, engañó con éxito a 10 jueces (tasa de engaño: 33,3%).
Evidentemente la "tasa de engaño" ha superado el 30% que dijo Turing en su momento.
Eugene Goostman simula a un niño de 13 años.
Según el criterio del "30% de probabilidad de engaño en cinco minutos", los organizadores anunciaron: "La icónica prueba de Turing de hace 65 años fue superada por primera vez por el programa informático "Eugene Gustman". El hito pasará a la historia... ".
Después de leer la transcripción de la conversación entre el protagonista "Eugene Goostman" en esta prueba de Turing, los expertos en inteligencia artificial se burlaron de la idea de que el chatbot pasó la prueba de Turing, diciendo que no era lo suficientemente complejo y que el chatbot no fallaba. la prueba imaginada por Turing.
El tiempo limitado de conversación y la experiencia desigual de los jueces hicieron que la prueba fuera más una prueba de credulidad humana que una demostración de inteligencia artificial. El resultado es un ejemplo sorprendente del "efecto ELIZA", que lleva el nombre del chatbot ELIZA de los años 60 y que, a pesar de su extrema simplicidad, todavía puede engañar a muchas personas haciéndoles creer que es un psicoterapeuta comprensivo y compasivo.
Esto resalta nuestra tendencia humana a atribuir inteligencia a entidades que pueden hablar con nosotros.
ELIZA es uno de los primeros chatbots después de la "publicación" del Test de Turing. Es un chatbot de psicoterapia de Rogersite muy básico.
Otro concurso de prueba de Turing, el Premio Loebner, permite conversaciones más largas, invita a jueces más expertos y requiere que las máquinas participantes engañen al menos a la mitad de los jueces. Curiosamente,Cuando se elevaron los estándares, en casi 30 años de competencia anual, ni una sola máquina había pasado esta versión de la prueba.
La prueba de Turing comienza a dar un giro
Aunque el artículo original de Turing carecía de detalles sobre cómo se implementaría la prueba, estaba claro que el Juego de la Imitación requería tres jugadores: una computadora, un contraste humano y un juez humano. Sin embargo, con el tiempo, el significado del término "prueba de Turing" en el debate público evolucionó hacia una versión significativamente debilitada: cualquier interacción entre un humano y una computadora que se comporte lo suficientemente humano como para considerarse que ha pasado la prueba de Turing.
Por ejemplo, cuando el Washington Post informó en 2022 que “la IA de Google pasó una prueba famosa y mostró sus fallas”, no se refería a The Imitation Game sino al ingeniero de Google Blake Lemo porque (Blake Lemoine) cree que el chatbot LaMDA de Google tiene"Sensible"。
En 2024, un comunicado de prensa de la Universidad de Stanford anunció que la investigación del equipo de Stanford "marca la primera vez que la inteligencia artificial supera una de las rigurosas pruebas de Turing". Pero la llamada prueba de Turing aquí se realiza comparando las estadísticas de comportamiento de GPT-4 en encuestas psicológicas y juegos interactivos con estadísticas de comportamiento humano.
Esta definición puede estar lejos de la intención original de Turing: la definición del equipo de Stanford es "Creemos que una IA ha pasado la prueba de Turing cuando su respuesta es estadísticamente indistinguible de una respuesta humana seleccionada al azar".
El último caso afirmado de un chatbot que pasó la prueba de Turing proviene de un estudio de 2024 que utilizó una prueba de "dos jugadores": un juego de imitación de "tres jugadores" con Turing (en el que el árbitro interrogó tanto a la computadora como al humano). (florete), aquí cada árbitro solo interactúa con una computadora o un humano.
Los investigadores reclutaron a 500 participantes humanos, cada uno de ellos asignado para ser un árbitro o un contraste humano. Cada juez jugó una ronda de cinco minutos con Foil, GPT-4 (que generó sugerencias escritas por humanos sobre cómo engañar al juez) o una versión chatbot de ELIZA. Después de cinco minutos de hablar a través de una interfaz web, los jueces adivinaron si estaban hablando con un humano o con una máquina.
Finalmente, el florete humano fue considerado humano en el 67% de las rondas; GPT-4 fue considerado humano en el 54% de las rondas, y ELIZA fue considerada humana en el 22% de las rondas. Los autores definen "aprobar" como engañar a los jueces más del 50% de las veces, es decir, exceder la probabilidad de adivinanzas aleatorias. Según esta definición, GPT-4 pasa, aunque el oponente humano aún obtiene una puntuación más alta.
Lo preocupante es que la mayoría de los jueces humanos fueron engañados por GPT-4 a los cinco minutos de conversación. El uso de sistemas de inteligencia artificial generativa para hacerse pasar por humanos con el fin de difundir desinformación o cometer fraude es un riesgo al que la sociedad debe enfrentarse. Pero, ¿los chatbots actuales realmente pasan la prueba de Turing?
La respuesta, por supuesto, es que depende de qué versión de la prueba estés hablando. Un juego de imitación de tres personas con jueces expertos y tiempos de diálogo más largos aún no ha sido superado por ninguna máquina (hay planes para una versión súper estricta en 2029).
Dado que el objetivo del test de Turing es intentar engañar a los humanos, más que una prueba de inteligencia más directa. Muchos investigadores de IA han visto durante mucho tiempo la Prueba de Turing como una distracción, una prueba "no diseñada para que la IA la pase, sino para que los humanos fallen". Pero la importancia de la prueba todavía domina la mente de la mayoría de la gente.
Tener conversaciones es una forma importante para que cada uno de nosotros evalúe a otros humanos. Naturalmente, asumimos que un agente capaz de mantener una conversación fluida debe poseer una inteligencia humana y otras características psicológicas como creencias, deseos y conciencia de sí mismo.
Sin embargo, si algo nos ha enseñado la historia de la inteligencia artificial es que estos supuestos a menudo se basan en intuiciones erróneas. Hace décadas, muchos destacados expertos en inteligencia artificial creían que crear una máquina capaz de vencer a los humanos en una partida de ajedrez requeriría algo a la par de la inteligencia humana completa.
Los pioneros de la inteligencia artificial, Allen Newell y Herbert Simon, escribieron en 1958: "Si un hombre pudiera diseñar una máquina de ajedrez exitosa, parecería haber penetrado hasta el núcleo de la inteligencia humana". El científico cognitivo Douglas Hofstadter predijo en 1979 que en el futuro "habrá algo". Puede que sean programas que puedan vencer a cualquiera en el ajedrez, pero... serán programas con inteligencia general."
Por supuesto, durante las siguientes dos décadas, DeepBlue de IBM derrotó al campeón mundial de ajedrez Garry Kasparov, utilizando un enfoque de fuerza bruta que estaba lejos de lo que llamamos "inteligencia general". Del mismo modo, los avances en inteligencia artificial están demostrando que tareas que alguna vez se pensó que requerían inteligencia general (reconocimiento de voz, traducción de lenguaje natural e incluso conducción autónoma) pueden ser realizadas por máquinas que carecen de comprensión humana.
La prueba de Turing bien puede convertirse en otra víctima de nuestras cambiantes nociones de inteligencia. En 1950, Turing creía intuitivamente que la capacidad de hablar como humanos debería ser una prueba contundente del "pensamiento" y todas sus capacidades relacionadas. Esta intuición sigue siendo convincente hoy en día. Pero quizás lo que aprendimos de ELIZA y Eugene Goostman, y lo que todavía podemos aprender de ChatGPT y similares, es que ser capaz de hablar un lenguaje natural con fluidez, como jugar al ajedrez, no es una evidencia concluyente de la existencia de evidencia de inteligencia general.
De hecho, cada vez hay más pruebas en el campo de la neurociencia de que la fluidez del lenguaje está sorprendentemente desconectada de otros aspectos de la cognición. A través de una serie de experimentos cuidadosos y convincentes, el neurocientífico del MIT Ev Fedorenko y otros han demostrado que la red cerebral detrás de lo que llaman "habilidad del lenguaje formal" (la habilidad relacionada con la producción del lenguaje) está relacionada con el sentido común, el razonamiento y lo que podríamos llamar Las redes detrás de otros aspectos de lo que se llama "pensamiento" están en gran medida separadas. Estos investigadores afirman que nuestra intuición de que la fluidez en el lenguaje es condición suficiente para la inteligencia general es una "falacia".
Turing escribió en su artículo de 1950: "Creo que para finales de este siglo el uso de las palabras y la opinión educada general habrán cambiado tanto que la gente podrá hablar de máquinas que piensan sin ser refutadas". llegado a ese punto todavía. ¿Se equivocaron las predicciones de Turing simplemente por unas cuantas décadas? ¿Se está produciendo un cambio real en nuestro concepto de "pensamiento"? — ¿O es la verdadera inteligencia más compleja y sutil que la de Turing y nos damos cuenta? Todo está por verse.
Curiosamente, el ex director ejecutivo de Google, Eric Schmidt, también expresó su opinión en un discurso reciente en la Universidad de Stanford.
Durante mucho tiempo en la historia, la comprensión del universo por parte de la humanidad era más misteriosa. La revolución científica cambió esta situación. Sin embargo, la IA actual una vez más nos impide comprender verdaderamente sus principios. ¿Está cambiando la naturaleza del conocimiento? ¿Vamos a empezar a aceptar los resultados de estos modelos de IA sin necesidad de que nos los expliquen?
Schmidt lo expresa de esta manera: Podemos compararlo con ser un adolescente. Si tienes un adolescente, sabes que es humano, pero no puedes entender sus pensamientos. Nuestra sociedad se está adaptando claramente a la existencia de adolescentes. Es posible que tengamos sistemas de conocimiento que no podemos comprender completamente, pero que están dentro de los límites de nuestra capacidad para comprenderlos.
Probablemente sea lo mejor que podemos conseguir.