openai lanza un nuevo modelo o1: será tan "reflexivo" como los humanos

2024-09-13

autor｜sukhoi

sin ninguna precaución, se lanzó el tan esperado modelo “strawberry” de openai.

introducción al modelo o1, fuente: openai

temprano esta mañana, hora de beijing, openai lanzó un nuevo modelo llamado openai o1, que también era el "strawberry" informado anteriormente, pero inicialmente o1 tenía el nombre en código "q *". el director ejecutivo de openai, sam altman, lo llamó "el comienzo de un nuevo paradigma".

a juzgar por la información oficial de openai,en resumen, las características de o1 son: más grande, más fuerte, más lento y más caro.

a través del aprendizaje por refuerzo (reinforcement learning), openai o1 ha logrado avances significativos en las capacidades de razonamiento. el equipo de i + d observó que con la extensión del tiempo de entrenamiento (aumento del aprendizaje por refuerzo) y el tiempo de pensamiento (cálculo durante las pruebas), el rendimiento del modelo o1 mejoró gradualmente. los desafíos de ampliar este enfoque son distintos de las limitaciones previas al entrenamiento de los modelos de lenguajes grandes (llm).

el rendimiento de o1 mejora constantemente con el tiempo de entrenamiento y el cálculo del tiempo de prueba, fuente: openai

en cuanto a los rumores en el mercado de que "el modelo o1 puede realizar de forma independiente tareas de nivel de operación del sistema o del navegador para los usuarios", la información pública actual no menciona esta función.

el funcionario de openai dijo: "aunque este modelo inicial aún no tiene funciones como buscar información en línea, cargar archivos e imágenes, ha logrado avances significativos en la resolución de problemas de razonamiento complejos, lo que representa un nuevo nivel de tecnología de inteligencia artificial. así que lo hicimos decidimos darle a esta serie un nuevo punto de partida y llamarla openai o1”.la aplicación principal de o1 todavía se centra en la respuesta y el análisis de preguntas a través de la interacción de texto, en lugar de controlar directamente el navegador o el sistema operativo.

a diferencia de versiones anteriores,el modelo o1 "piensa profundamente" antes de dar una respuesta como lo haría un humano,se necesitan entre 10 y 20 segundos para generar una larga cadena de ideas internas y poder probar diferentes estrategias e identificar sus propios errores.

esta poderosa capacidad de razonamiento ofrece una amplia gama de posibilidades de aplicación en múltiples industrias, especialmente en tareas científicas, matemáticas y de programación complejas. cuando se trata de problemas de física, química y biología, el desempeño de o1 es incluso comparable al de los estudiantes de doctorado en este campo. en el examen de calificación de la olimpiada internacional de matemáticas (aime), la tasa de precisión de o1 fue del 83%, ingresando con éxito en las filas de los 500 mejores estudiantes de los estados unidos, mientras que la tasa de precisión del modelo gpt-4o fue solo del 13%.

altman también compartió o1 en x, fuente: x

openai proporciona algunos casos de uso específicos. por ejemplo, los investigadores médicos pueden utilizar o1 para anotar datos de secuenciación celular; los físicos pueden utilizar o1 para generar fórmulas matemáticas complejas necesarias para la óptica cuántica y los desarrolladores de software pueden utilizarlo para crear y ejecutar flujos de trabajo complejos de varios pasos. más.

la serie o1 incluye tres modelos, openai o1, openai o1-preview y openai o1-mini. ambos modelos están disponibles para los usuarios a partir de hoy:

openai o1: modelo de inferencia avanzado, temporalmente no abierto al público.

vista previa de openai o1: esta versión se centra más en el procesamiento del razonamiento en profundidad y se puede utilizar 30 veces por semana.

openai o1-mini: esta versión es más eficiente y rentable, adecuada para tareas de codificación y se puede utilizar 50 veces por semana.

los desarrolladores e investigadores ahora pueden acceder a estos modelos a través de chatgpt e interfaces de programación de aplicaciones.

en cuanto al precio, the information dio a conocer anteriormente la noticia de que los ejecutivos de openai están discutiendo el precio de sus próximos nuevos modelos grandes "strawberry" y "orion" a 2.000 dólares estadounidenses al mes, lo que generó muchas quejas y condenas. pero hoy alguien descubrió que la membresía chatgpt pro ya está en línea y tiene un precio de 200 dólares estadounidenses al mes. la diferencia entre 2.000 y 200 dólares hace que sea difícil no tener ganas de "aprovechar". la guerra psicológica en materia de precios la ha librado claramente openai.

en mayo de este año,altman se reúne con la presidenta del mit, sally kornbluthse mencionó en una charla informal,gpt-5 puede separar datos de motores de inferencia.

"gpt-5 o gpt-6 pueden convertirse en el mejor motor de inferencia. actualmente, la única forma de lograr el mejor motor es entrenar una gran cantidad de datos".pero, de hecho, el modelo desperdicia muchos recursos de datos al procesar datos.como gpt-4. también funciona como una base de datos, excepto que la inferencia es lenta, costosa y "menos que ideal".estos problemas son esencialmente un desperdicio de recursos causado por la forma en que se diseña y entrena el modelo.

"inevitablemente, esto es un efecto secundario de la única forma en que podemos crear modelos para motores de inferencia. él puede prever nuevos enfoques en el futuro".se trata de separar la capacidad de razonamiento del modelo de la demanda de big data.

pero en el lanzamiento de hoy, gpt-5 no apareció y también faltaba la idea de separar los datos y los motores de inferencia.

en cuanto al precio, the information dio a conocer anteriormente la noticia de que los ejecutivos de openai planeaban fijar el precio de los nuevos modelos grandes "strawberry" y "orion" en 2.000 dólares estadounidenses al mes, lo que provocó muchas quejas y condenas. pero hoy alguien descubrió que la membresía chatgpt pro ya está en línea y tiene un precio de 200 dólares estadounidenses al mes.

la diferencia entre 2.000 y 200 dólares hace que sea difícil para los usuarios no sentir que se están aprovechando. openai claramente juega la guerra psicológica sobre los precios.

2. pulir la “cadena de pensamiento”

los modelos grandes siempre han sido criticados por su "incapacidad para contar".la razón fundamental es que los modelos grandes carecen de la capacidad de realizar un razonamiento estructurado.

el razonamiento es una de las habilidades centrales de la inteligencia humana.los modelos grandes se entrenan principalmente a través de datos de texto no estructurados, que generalmente incluyen artículos de noticias, libros, texto de páginas web, etc. el texto está en forma de lenguaje natural y no sigue reglas lógicas o estructurales estrictas, por lo que lo que el modelo aprende es principalmente cómo generar un lenguaje basado en el contexto, en lugar de cómo razonar o procesar información lógicamente siguiendo reglas fijas.

pero muchas tareas de razonamiento complejas están estructuradas.

como razonamiento lógico, resolución de problemas matemáticos o programación. si queremos salir de un laberinto, debemos seguir una serie de reglas lógicas y espaciales para encontrar la salida. este tipo de problema requiere que el modelo sea capaz de comprender y aplicar un conjunto de pasos o reglas fijas, algo de lo que carecen la mayoría de los modelos grandes.

por lo tanto, aunque modelos como chatgpt y bard pueden generar respuestas aparentemente razonables basadas en datos de entrenamiento, en realidad se parecen más a un "repito estocástico".a menudo no pueden comprender verdaderamente la compleja lógica detrás de esto ni realizar tareas de razonamiento avanzadas.

recuerde, los modelos grandes funcionan bien cuando procesan texto en lenguaje natural no estructurado, porque este es el foco de los datos de entrenamiento. pero cuando se trata de tareas que requieren un razonamiento lógico estructurado, a menudo tienen dificultades para realizarlas con una precisión humana.

para solucionar este problema, openai pensó en utilizarcadena de pensamiento (cot)ven a "romper la situación".

el encadenamiento de pensamientos es una tecnología que ayuda a los modelos de ia a razonar. funciona permitiendo que el modelo explique paso a paso cada paso del proceso de razonamiento al responder preguntas complejas, en lugar de dar la respuesta directamente. por lo tanto, cuando el modelo responde una pregunta, es como un ser humano cuando resuelve un problema, primero piensa en la lógica de cada paso y luego deduce gradualmente el resultado final.

sin embargo, en el proceso de entrenamiento de la ia, el etiquetado manual de las cadenas de pensamiento requiere mucho tiempo y es costoso. la cantidad de datos necesarios bajo la guía de la ley de escala es básicamente una tarea imposible para los humanos.

en este punto, el aprendizaje por refuerzo se convierte en una alternativa más práctica.

el aprendizaje por refuerzo permite que el modelo aprenda por sí solo mediante la práctica y la prueba y error. no requiere anotaciones manuales de cómo dar cada paso. en cambio, optimiza el método de resolución de problemas mediante experimentación y retroalimentación continua.

específicamente, el modelo ajusta su comportamiento en función de las consecuencias (buenas o malas) de las acciones que realiza al intentar resolver el problema. de esta manera, el modelo puede explorar de forma autónoma múltiples soluciones posibles y encontrar el método más eficaz mediante prueba y error. por ejemplo, en juegos o entornos de simulación, la ia puede optimizar continuamente las estrategias a través del juego autónomo y, eventualmente, aprender a realizar con precisión tareas complejas sin guía manual para cada paso.

por ejemplo, alphago, que arrasó en el mundo del go en 2016, combinó métodos de aprendizaje profundo y aprendizaje por refuerzo, optimizó continuamente su modelo de toma de decisiones a través de una gran cantidad de juegos de autojuego y finalmente pudo derrotar al mejor jugador de go del mundo, lee. sedol.

el modelo o1 utiliza el mismo método que alphago para resolver problemas gradualmente.

en este proceso, o1 mejora continuamente su proceso de pensamiento mediante el aprendizaje por refuerzo, aprende a identificar y corregir errores, divide pasos complejos en partes más simples y prueba nuevos métodos cuando encuentra obstáculos. este método de entrenamiento mejora significativamente la capacidad de razonamiento de o1 y le permite resolver problemas de manera más efectiva.

greg brockman, uno de los cofundadores de openai, está "muy orgulloso" de esto.esta es la primera vez que entrenamos un modelo utilizando aprendizaje por refuerzo." dijo.

fragmentos de los tweets de brockman, fuente: x

según brockman, el modelo de openai originalmente realizaba el pensamiento del sistema 1 (toma de decisiones rápida e intuitiva), mientras que la tecnología de la cadena de pensamiento iniciaba el pensamiento del sistema 2 (pensamiento analítico y cauteloso).

el pensamiento del sistema 1 es adecuado para respuestas rápidas, mientras que el pensamiento del sistema 2 utiliza tecnología de "cadena de pensamiento" para permitir que el modelo razone y resuelva problemas paso a paso. la práctica ha demostrado que mediante prueba y error continuos, el rendimiento del modelo se puede mejorar enormemente entrenando completamente el modelo de principio a fin (como cuando se aplica en juegos como go o dota).

además, aunque la tecnología o1 aún se encuentra en las primeras etapas de desarrollo, ha tenido un buen desempeño en términos de seguridad. por ejemplo, el modelo mejorado se puede utilizar para realizar un razonamiento en profundidad sobre la estrategia para mejorar su solidez contra los ataques y reducir el riesgo de fenómenos de alucinación. esta capacidad de razonamiento profundo ya está empezando a mostrar resultados positivos en las evaluaciones de seguridad.

"desarrollamos un nuevo modelo basado en el modelo o1, lo dejamos participar en la olimpiada internacional de informática (ioi) de 2024 y obtuvimos 213 puntos en el 49% de las clasificaciones", dijo openai.

compitió en las mismas condiciones que los concursantes humanos, resolviendo seis problemas algorítmicos con 50 oportunidades de presentación cada uno. la eficacia de su estrategia de selección se demuestra al seleccionar múltiples candidatos y seleccionar presentaciones basadas en casos de prueba públicos, casos de prueba generados por modelos y funciones de puntuación, con puntuaciones promedio más altas que las de las presentaciones aleatorias.

cuando el número de envíos se redujo a 10.000 por pregunta, el modelo funcionó mejor y obtuvo una puntuación superior al estándar de oro. finalmente, el modelo demostró capacidades de codificación "sorprendentes" en una competencia de programación simulada de codeforces. gpt-4o tiene una calificación elo de 808, lo que lo coloca en el percentil 11 de los competidores humanos. y nuestro nuevo modelo tiene una calificación elo de 1807, superando al 93 % de los competidores.

un mayor ajuste mejoró el rendimiento del modelo o1 en la competencia de programación. fuente: openai.

2. los “tiempos difíciles” de openai

antes del lanzamiento de o1, openai había estado bajo la nube de cambios en la alta dirección principal de la empresa.

en febrero de este año, andrej karpathy, miembro fundador de openai e investigador científico, anunció en x que había dejado la empresa. capas dijo que dejó openai de manera amistosa y "no por ningún incidente, problema o drama específico".

el ex científico jefe y cofundador ilya sutskever anunció su renuncia en mayo y el equipo de super alignment también se disolvió. la industria cree que este es el equilibrio de openai entre la búsqueda de avances tecnológicos y la garantía de la seguridad de la ia.

de derecha a izquierda, ilya sutskvi, greg brockman, sam altman y mira mulati. fuente: new york times

horas después del anuncio de ilya, jan leike, uno de los inventores de rlhf y codirector del equipo super alignment, también siguió sus pasos y se fue, añadiendo una vez más más incertidumbre al futuro del sexo openai.

en agosto, el cofundador e investigador científico de openai, john schulman, reveló su partida y se unió a anthropic para centrarse en una investigación en profundidad sobre la alineación de la ia. explicó que su partida fue para centrarse en la alineación de la ia y el trabajo técnico, no porque openai no apoyara la investigación de alineación. schulman agradeció a sus colegas de openai y expresó "plena confianza" en su desarrollo futuro.

anthropic fue fundada por el hermano y la hermana dario amodei, vicepresidente de investigación de openai, quien renunció en 2020, y daniela amodei, entonces vicepresidenta de seguridad y políticas.

brockman también anunció un año sabático en el mismo mes, sus "primeras vacaciones largas" desde que cofundó openai hace nueve años.

el 10 de septiembre, alexis conneau, quien dirige la investigación de interacción de audio de los modelos openai gpt-4o y gpt-5, anunció su renuncia y comenzó su propio negocio. la investigación de conneau se dedica a realizar las características que se muestran en la película "her". experiencia de interacción de voz, pero el lanzamiento de productos relacionados se ha retrasado repetidamente.

desde su creación, openai ha atraído mucha atención por su doble condición de organización sin fines de lucro y comercialización. a medida que se aceleraba el proceso de comercialización, las tensiones internas sobre su misión sin fines de lucro se hicieron cada vez más evidentes, lo que también contribuyó al desgaste de los miembros del equipo. mientras tanto, una demanda reciente de elon musk también puede estar relacionada con el desgaste.

el investigador de openai, daniel kokotajlo, dijo en una entrevista exclusiva con los medios después de su renuncia que durante el incidente de la "pelea de palacio" que ocurrió el año pasado, altman fue despedido brevemente y luego rápidamente reintegrado. los tres miembros de la junta centrados en la seguridad de agi fueron destituidos. "esto permite a altman y brockman consolidar aún más su poder, mientras que aquellos que se preocupan principalmente por la seguridad de agi quedan marginados. (altman) se desvían de los planes de la compañía para 2022".

además, openai enfrenta una pérdida esperada de hasta 5 mil millones de dólares estadounidenses y costos operativos de hasta 8,5 mil millones de dólares estadounidenses, la mayoría de los cuales son costos de capacitación y alquiler de servidores. para hacer frente a la elevada presión operativa, openai está buscando una nueva ronda de financiación con una valoración que podría superar los 100.000 millones de dólares, y inversores potenciales como microsoft, apple y nvidia han expresado interés. los ejecutivos de las empresas buscan inversiones a nivel mundial para satisfacer sus crecientes necesidades de capital.

para aliviar la presión financiera, openai está buscando una nueva ronda de financiación. según un informe del new york times del día 11, openai también esperaba recaudar aproximadamente mil millones de dólares la semana pasada con una valoración de 100 mil millones de dólares. sin embargo, debido a que la potencia informática necesaria para construir sistemas de ia a gran escala generará mayores gastos, la empresa decidió recientemente aumentar su monto de financiación a 6.500 millones de dólares.

sin embargo, algunos medios extranjeros citaron a personas familiarizadas con el asunto y análisis de datos financieros internos no revelados que dijeron que openai podría enfrentar enormes pérdidas de hasta 5 mil millones de dólares este año, y se espera que los costos operativos totales alcancen los 8,5 mil millones de dólares. entre ellos, el costo de alquilar servidores de microsoft llega a los 4 mil millones de dólares y el costo de la capacitación en datos es de 3 mil millones de dólares. la presión financiera sobre la empresa se ve reforzada por los mayores costes de funcionamiento de modelos más avanzados como el strawberry y el orion.

(fuente de la imagen de portada: openai)

noticias

openai lanza un nuevo modelo o1: será tan "reflexivo" como los humanos

introducción

mi información de contacto