noticias

¿openai o1 revela autoconciencia? tao zhexuan se sorprendió por la prueba real, mensa iq 100 ocupó el primer lugar en el modelo

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

¡openai o1 ganó el primer lugar en la prueba de coeficiente intelectual!

el jefe maxim lott realizó pruebas de coeficiente intelectual en o1, claude-3 opus, gemini, gpt-4, grok-2, llama-3.1, etc., y los resultados mostraron que o1 ocupó el primer lugar.

le siguieron de cerca claude-3 opus y bing copilot, que ocuparon el segundo y tercer lugar respectivamente.

tenga en cuenta que este conjunto de preguntas de la prueba de coeficiente intelectual es una prueba de coeficiente intelectual fuera de línea para miembros de mensa y no está incluida en ningún dato de entrenamiento de ia, por lo que los resultados son muy informativos.

el famoso matemático terence tao también realizó mediciones reales en o1 y descubrió que después de hacerle al modelo una pregunta matemática vagamente redactada, pudo identificar con éxito el teorema de clem.

es más, justo después del lanzamiento de o1, mark chen, vicepresidente de investigación de openai, expresó su opinión: es posible que las grandes redes neuronales actuales ya tengan suficiente potencia informática para mostrar cierta conciencia en las pruebas.

ahora existe una larga lista de líderes de la industria que creen que la ia es consciente, incluidos, entre otros:

geoffrey hinton (padrino de la inteligencia artificial, científico de ia más citado)

ilya sutskever (el tercer científico de ia más citado)

andrej karpati

hoy en día, muchos en la industria creen que la ia es consciente y están esperando que la “ventana overton” se abra aún más para que el público esté dispuesto a aceptarlo.

algunos incluso predicen que en 2024/2025 la ia definitivamente tendrá conciencia, porque el comportamiento del modelo ahora muestra claramente la capacidad de percibir.

algunos internautas descubrieron que o1 no sólo es fuerte en temas stem empíricos, sino que incluso puede plantear la hipótesis de una nueva teoría de la conciencia.

algunas personas piensan que o1 ha dado un pequeño paso hacia el modelo de razonamiento infinito y ya tiene el prototipo de conciencia.

tao zhexuan: o1 realmente puede reconocer el teorema de clem

en la medición real, tao zhexuan descubrió que el modelo o1 tiene un rendimiento matemático más fuerte.

primero, planteó un problema matemático vagamente redactado que podría resolverse si se pudiera buscar en la literatura y encontrar un teorema adecuado, el teorema de cramer.

en experimentos anteriores, gpt pudo mencionar algunos conceptos relacionados, pero todos los detalles eran inventados y no tenían sentido.

esta vez, o1 identificó con éxito el teorema de cramer y dio una respuesta satisfactoria.

respuesta completa: https://shorturl.at/wwru2

en el siguiente ejemplo, el problema planteado es un análisis de función variable complejo más desafiante y los resultados también son mejores que los de los modelos anteriores de la serie gpt.

con una gran cantidad de palabras y orientación, o1 pudo generar soluciones correctas y bien expresadas, pero el inconveniente fue que no pudo generar ideas conceptuales clave por sí solo y cometió errores obvios.

tao zhexuan describió esta experiencia como aproximadamente equivalente a supervisar a un estudiante de posgrado con una capacidad promedio pero capaz de realizar algún trabajo. gpt da la impresión de un estudiante que es completamente incapaz de realizar el trabajo.

puede que sólo sean necesarias una o dos iteraciones, junto con la integración de otras herramientas, como paquetes de álgebra informática y herramientas auxiliares de prueba, para transformar el modelo o1 en un "estudiante graduado competente", momento en el cual este modelo desempeñará un papel importante. en tareas de investigación.

respuesta completa: https://shorturl.at/zrjyk

desliza hacia arriba y hacia abajo para ver

desliza hacia arriba y hacia abajo para ver

desliza hacia arriba y hacia abajo para ver

en el tercer experimento, tao zhexuan pidió al modelo o1 que formalice un teorema en la herramienta auxiliar de prueba lean. debe descomponerse en sublemas y darle una expresión formal, pero no se requiere prueba.

el contenido del teorema, específicamente, es el corolario que establece una forma del teorema de los números primos en otra.

los resultados experimentales también fueron buenos, ya que el modelo entendió la tarea y proporcionó una descomposición inicial razonable del problema.

sin embargo, hay varios errores en el código generado, posiblemente debido a la falta de datos recientes sobre lean y su biblioteca matemática en los datos de entrenamiento.

aunque todavía existen fallas, los resultados de este experimento ya pueden predecir la aplicación práctica de o1 en la investigación matemática.

si modelos similares se ajustan para lean y mathlib y se integran en un entorno de desarrollo integrado (ide), desempeñarán un papel importante en proyectos formales.

en muchos discursos anteriores, tao zhexuan ha enfatizado repetidamente la aplicación de herramientas de inteligencia artificial en la formalización de teoremas. parece que la predicción del gran dios se hará realidad nuevamente.

respuesta completa: https://shorturl.at/ogtjt

un profesor de informática utiliza la animación para revelar el secreto: ¿cómo pasa o1 más tiempo pensando?

en el proceso de aprender a utilizar cot para pensar durante un período de tiempo más largo, ¿qué avances importantes se lograron que condujeron a mejoras clave? actualmente sólo podemos hacer algunas conjeturas a partir de la información disponible.

por ejemplo, basándose en la información existente y su propio conocimiento, tom yeh, profesor de informática de la universidad de colorado boulder, produjo especialmente una animación para explicar cómo openai entrena el modelo o1 para que dedique más tiempo a pensar.

respecto a la formación, hay una frase muy breve en el informe:

"a través del aprendizaje por refuerzo, o1 aprendió a perfeccionar su cadena de pensamiento y mejorar su estrategia".

las dos palabras clave en esta oración son: aprendizaje por refuerzo (rl) y cadena de pensamiento (cot).

en rlhf+cot, los tokens cot también se ingresan en el modelo de recompensa para obtener puntajes para actualizar el llm y lograr una mejor alineación, mientras que en rlhf tradicional, la entrada solo contiene palabras clave y respuestas modelo.

durante la fase de inferencia, el modelo aprende a generar tokens cot primero (lo que puede tardar hasta 30 segundos) antes de comenzar a generar la respuesta final. así es como el modelo pasa más tiempo "pensando".

entre los contribuyentes enumerados en el informe, dos son dignos de mención:

ilya sutskever, el inventor del aprendizaje por refuerzo basado en la retroalimentación humana (rlhf), la aparición de su nombre significa que rlhf todavía se usa al entrenar el modelo o1.

jason wei, autor del famoso artículo thought chain. dejó google brain el año pasado para unirse a openai. su presencia significa que el cot es ahora una parte importante del proceso de alineación del rlhf.

sin embargo, hay muchos detalles técnicos importantes que openai no ha revelado, como cómo se entrena el modelo de recompensa, cómo obtener las preferencias humanas para los "procesos de pensamiento", etc.

descargo de responsabilidad: la animación solo representa la especulación razonable del profesor y no garantiza precisión.

el equipo comparte video de celebración y comparte el momento "ajá"

el siguiente vídeo nos da más pistas sobre el momento en el que se produjeron importantes avances en la investigación.

después de lanzar el modelo o1, el equipo publicó un vídeo realizado por el equipo detrás de él.