noticias

sale el modelo openai o1, ¡agi de cinco niveles se abre paso nuevamente! un hombre con un título de súper doctor en razonamiento, un chino de la universidad de fudan en la dinastía qing del norte que ha realizado actos meritorios.

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

justo ahora, los modelos de la serie o1 más potentes de openai de repente entraron en línea. sin previo aviso, openai lanzó este trueno.

¡el modelo de fresa, que se decía que estaría disponible en dos semanas, en realidad llegó en dos días!

a partir de hoy, o1-preview se implementará para todos los usuarios plus y team en chatgpt, y para los desarrolladores de nivel 5 en la api.

al mismo tiempo, openai también lanzó o1-mini, un modelo de inferencia rentable que es muy bueno en stem, especialmente en matemáticas y codificación.

el modelo o1 todavía tiene defectos y limitaciones, y es más impresionante en el primer uso que a largo plazo.

el rendimiento de la nueva serie o1 en razonamiento complejo se ha elevado a un nivel completamente nuevo. se puede decir que tiene verdaderas capacidades de razonamiento universal.

en una serie de pruebas de referencia, o1 ha logrado una vez más una gran mejora en comparación con gpt-4o. tiene la capacidad de ganar una medalla de oro en la olimpiada de matemáticas. en pruebas de referencia sobre problemas de física, biología y química, supera directamente al. ¡nivel de doctorado humano!

el investigador de openai jason wei dijo que o1-mini es el resultado de investigación más sorprendente que ha visto el año pasado. de hecho, un modelo pequeño logró una puntuación superior al 60% en el concurso de matemáticas aime.

sin embargo, a juzgar por el apéndice del artículo de openai, la vista previa y el mini lanzados esta vez parecen ser simplemente "versiones castradas" de o1.

el escalado de inferencia abre un nuevo paradigma

el científico senior de nvidia, jim fan, analizó con más detalle los principios detrás del modelo o1.

dijo que el nuevo paradigma de escalamiento temporal de inferencia se está popularizando y desplegando ampliamente. como dijo sutton en "a bitter lesson", sólo hay dos tecnologías que pueden escalar infinitamente la potencia informática: el aprendizaje y la búsqueda.

ahora es el momento de centrarnos en esto último.

1. no necesitas modelos enormes para hacer inferencias.

2. transferir una gran cantidad de cálculos del pre-entrenamiento/post-entrenamiento a los servicios de inferencia.

3. openai debe haber descubierto la regla de escala de razonamiento muy temprano, pero la comunidad académica recién ha comenzado a descubrirla.

4. poner o1 en uso práctico es mucho más difícil que obtener buenos resultados académicos

5. la fresa puede convertirse fácilmente en un volante de datos

a juzgar por la clasificación anterior de openai, o1 ha alcanzado capacidades de razonamiento de nivel l2.

alguien lo probó y descubrió que o1 escribió con éxito un poema muy difícil. en el proceso, la planificación y el pensamiento necesarios para completar con éxito esta tarea fueron una locura y el cálculo del tiempo de razonamiento fue genial.

sin embargo, el experto en ia karpathy se quejó después de probar o1-mini: "se ha negado a resolver la hipótesis de riemann para mí. la pereza del modelo sigue siendo un problema importante, lo cual es realmente triste".

el profesor asistente de la universidad de nueva york, xie saining, también intentó probar la clásica pregunta "¿quién es más grande, 9.11 o 9.8?" inesperadamente, o1-preview todavía obtuvo la respuesta incorrecta.

el problema clásico de "cuántas r hay en la fresa" naturalmente no es un problema para o1.

big v matthew sabia dijo que lo más aterrador es que gpt-5 es 69 veces más poderoso que el modelo o1. la gente común simplemente no comprende el razonamiento y las habilidades lógicas de los elefantes.

¿están los humanos realmente preparados?

los problemas de razonamiento lógico que confunden a los humanos se resuelven con o1

todos sabemos que el razonamiento lógico fue una montaña difícil de cruzar para los llm anteriores.

pero esta vez, sorprende la capacidad del modelo o1 para resolver problemas lógicos complejos.

por ejemplo, la siguiente pregunta lógica:

la edad de la princesa es igual a la edad del príncipe en algún momento del futuro, cuando la edad de la princesa será el doble de la edad del príncipe en algún momento del pasado y en ese momento del pasado, la edad de la princesa será la mitad de la edad; suma de sus edades actuales. ¿cuáles son las edades de la princesa y el príncipe ahora? proporcione todas las soluciones a este problema.

esta pregunta es extremadamente difícil de pronunciar, incluso para los humanos, se necesitaría mucho esfuerzo para traducir y comprender el significado de la pregunta correctamente.

sorprendentemente, ¡el modelo o1 dio la respuesta correcta después de algunos pasos de reflexión!

a través de pasos como definir variables, comprender problemas y resolver ecuaciones, se concluye que la edad de la princesa es de 8k años y la edad del príncipe es de 6k años, donde k es un número entero positivo.

en otra demostración, jason wei nos mostró cómo o1 programaba un videojuego basándose en indicaciones.

como puede ver, copió el mensaje en el modelo o1.

posteriormente, el modelo pensó durante 21 segundos y mostró todos los pasos de pensamiento.

posteriormente, el modelo recibe el código.

después de ejecutar el código, ¡resultó ser un juego muy fluido!

incluso descartamos un montón de oraciones coreanas confusas y le pedimos que las tradujera al inglés, y realmente lo hizo.

porque, aunque la oración no es clara gramaticalmente, o1 aún la decodifica paso a paso.

al final, o1 dio la respuesta y dijo con humor: ningún traductor en el planeta puede hacerlo, pero los coreanos pueden identificarlo fácilmente. este es un método para cifrar el coreano mediante varios cambios de vocales y consonantes.

por el contrario, gpt-4o estaba completamente confundido y no podía entender.

se puede ver que el súper desempeño de o1 ha elevado el razonamiento lógico a un nuevo nivel.

¿cómo se hace?

el aprendizaje por refuerzo hace grandes contribuciones, se acerca el momento del modelo grande alphago

la diferencia entre los modelos de la serie o1 y el pasado es que pasará más tiempo "pensando en el problema" antes de responder la pregunta, al igual que los humanos.

a través del entrenamiento, aprenden a refinar sus procesos de pensamiento, probar diferentes estrategias y reconocer errores por sí mismos.

detrás de esto, el poderoso algoritmo de "aprendizaje por refuerzo" ha hecho grandes contribuciones. en aquel entonces, cuando alphago derrotó a ajedrecistas humanos, se utilizó el algoritmo rl detrás.

completa una formación eficiente con datos de alto nivel y enseña a llm a pensar de forma productiva utilizando cot.

jason wei, el desarrollador detrás de la propuesta de cot y el investigador de openai, dijo que o1 no completa cot simplemente a través de indicaciones, sino que utiliza modelos de entrenamiento rl para, en última instancia, realizar mejor el pensamiento en cadena.

además, el equipo de openai también descubrió una "nueva ley" en la ley de escala del modelo.

el rendimiento de o1 continúa mejorando a medida que se invierte más aprendizaje por refuerzo (cálculos del tiempo de entrenamiento) y más tiempo para pensar (cálculos del tiempo de prueba).

las limitaciones de este método durante el escalado son bastante diferentes de las limitaciones del entrenamiento previo de llm.

el rendimiento de o1 mejora constantemente con el aumento en la cantidad de cálculos en la fase de entrenamiento y la fase de prueba.

lista de equipos con medalla de oro

estudio de razonamiento

entre los contribuyentes fundadores, ilya sutskever, que dejó su trabajo para iniciar un negocio, figura claramente, pero no figura en el liderazgo ejecutivo (liderazgo ejecutivo) con greg brockman y otros. debe ser su trabajo de investigación anterior el que sentó las bases. para o1.

después de que ilya renunció, openai también sacó muchos de sus artículos y comenzó a publicarlos, como la investigación sobre la interpretabilidad del modelo gpt-4.

hoy en día, ssi, que él mismo está fundando, también está en auge. ha recaudado 1.000 millones de dólares en financiación sin siquiera tener un producto, con una valoración de 5.000 millones de dólares.

hong yu ren

hongyu ren se licenció en informática en la universidad de pekín y obtuvo un doctorado en stanford. se unió a openai desde julio del año pasado. anteriormente trabajó en empresas como google, apple, nvidia y microsoft.

jason wei

jason wei es actualmente investigador en openai. trabajó en google brain de 2020 a 2023, propuso el famoso cot, el ajuste de instrucciones, y publicó un artículo sobre la capacidad de aparición de modelos grandes.

kevin yu

kevin yu es actualmente investigador en openai. recibió su maestría en física y astrofísica y su doctorado en neurología de uc berkeley en 2014 y 2021 respectivamente.

shengjia zhao

shengjia zhao se graduó de la universidad de tsinghua con una licenciatura y también recibió un doctorado de stanford. después de graduarse en junio de 2022, se unió al equipo técnico de openai. también es uno de los autores de gpt-4.

wenda zhou

wenda zhou se unió a openai el año pasado. anteriormente, fue miembro de moore-sloan en el laboratorio del centro de ciencia de datos de la universidad de nueva york.

recibió una maestría de la universidad de cambridge en 2015 y un doctorado en estadística de la universidad de columbia en 2020.

canción de francis

francis song obtuvo una licenciatura en física de la universidad de harvard y un doctorado en física de la universidad de yale. se unió a openai en 2022. anteriormente se desempeñó como científico investigador en deepmind y científico investigador asistente en la universidad de nueva york.

marca chen

mark chen se ha desempeñado como director de frontier research desde que se unió a openai en 2018, supervisando un grupo de trabajo bajo la dirección del vicepresidente de investigación bob mcgrew.

después de graduarse del mit, chen recibió una doble licenciatura en matemáticas e informática. durante la universidad, realizó una pasantía en microsoft y trading, y fue académico visitante en la universidad de harvard.

actualmente, también se desempeña como entrenador del equipo de entrenamiento estadounidense ioi.

the information especuló una vez que mark chen se convertirá en miembro del liderazgo de openai en el futuro.

además, el equipo de liderazgo también incluye a jakub pachocki, el científico jefe que reemplazó a ilya, y wojciech zaremba, uno de los pocos cofundadores restantes de openai.

razonamiento sobre seguridad técnica.

jie qi yu

jieqi yu se graduó de la universidad de fudan con una licenciatura en ingeniería electrónica. fue a la universidad de ciencia y tecnología de hong kong para realizar un intercambio y luego obtuvo un doctorado en la universidad de princeton. trabajó en facebook durante 12 años, pasando de ingeniera de software a gerente de ingeniería de software, y se unió a openai como gerente de ingeniería en agosto del año pasado.

kai xiao

xiao kai se graduó en el mit con su título universitario y su doctorado. también recibió una doble licenciatura en matemáticas e informática. fue a la universidad de oxford para realizar visitas académicas y realizó prácticas en empresas como deepmind y microsoft he. se unió a openai en septiembre de 2022.

lilian weng

lilian weng es actualmente la jefa del sistema de seguridad openai y se dedica principalmente al aprendizaje automático, el aprendizaje profundo y otras investigaciones.

se graduó en la universidad de pekín con una licenciatura en sistemas de información e informática. fue a la universidad de hong kong para un intercambio de corta duración y luego recibió su doctorado en la universidad de indiana en bloomington.

al igual que mark chen, lilian es considerada una estrella en ascenso en el liderazgo de openai.

la lista completa de equipos es la siguiente:

física bioquímica, más allá del nivel de doctorado humano

como nueva serie de modelos creados por openai, ¿cuál es la fuerza de o1?

clasificado en el 89% de los mejores problemas de programación de competencia (codeforces) clasificado entre los 500 mejores estudiantes en los clasificatorios de la competencia de la olimpiada estadounidense de matemáticas (aime);

lo más importante es que supera el nivel de doctorado humano en la prueba de referencia de problemas de física, biología y química (gpqa).

en pruebas de referencia comúnmente utilizadas como math y gsm8k para razonamiento, o1 y muchos modelos de vanguardia recientes han alcanzado un rendimiento saturado y son difíciles de distinguir. por lo tanto, openai también elige principalmente aime para evaluar las capacidades matemáticas y de razonamiento del modelo. como otras pruebas en humanos y benchmark.

aime está diseñado para desafiar las habilidades matemáticas de los mejores estudiantes de secundaria de los estados unidos. en el examen aime de 2024, gpt-4o resolvió solo el 12 % (1,8/15) de las preguntas en promedio.

sin embargo, la mejora de o1 es bastante significativa, resolviendo el 74% (11,1/15) de las preguntas en promedio y alcanzando el 83% (12,5/15) cuando se realiza la votación por mayoría en 64 muestras. si utilizamos la función de puntuación y reordenamos 1000 muestras, la precisión alcanza incluso el 93% (13,9/15).

una puntuación de 13,9 significa que el nivel de o1 ha alcanzado los 500 mejores estudiantes del país y superó la puntuación final de la olimpiada estadounidense de matemáticas.

en tareas desafiantes como codeforces y gpqa diamond, o1 supera con creces a gpt-4o.

o1 supera ampliamente a gpt-4o en un desafiante punto de referencia de inferencia

gpqa diamond pone a prueba la experiencia en los campos de la química, la física y la biología. para comparar el modelo con los humanos, el equipo reclutó expertos con doctorados para responder sus preguntas.

como resultado, o1 superó a estos expertos humanos (69,7) (78,0), convirtiéndose en el primer modelo en superar a los humanos en este punto de referencia.

sin embargo, este resultado no significa que o1 sea más fuerte que un humano con un doctorado en todos los aspectos, solo muestra que puede resolver algunos problemas del nivel correspondiente con mayor habilidad.

además, o1 también actualizó sota en pruebas comparativas como math, mmlu y mathvista.

después de habilitar las capacidades de percepción visual, o1 logró una puntuación del 78,1 % en mmmu, convirtiéndose en el primer modelo en competir con expertos humanos, superando a gpt-4o en 54 de las 57 subcategorías de mmlu.

o1 supera a gpt-4o en una amplia gama de puntos de referencia, incluidas las subclases de 54/57 mmlu

cadena de pensamiento

a través del aprendizaje por refuerzo, o1 aprendió a reconocer y corregir sus propios errores y a dividir pasos complejos en otros más simples.

también probará diferentes métodos cuando el actual no funcione. este proceso mejora significativamente las capacidades de inferencia del modelo.

tomemos el ejemplo de la "criptografía".

la pregunta es: "pensar paso a paso" está encriptado y corresponde a "oyfjdnisdr rtqwainr acxz mynzbhhx". pregunte cuál es el significado de "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz".

se puede ver que gpt-4o está completamente indefenso ante este tipo de problemas.

o1 razonó sobre el método de cálculo de cifrado basándose en la información conocida y finalmente dio la respuesta correcta: hay tres r en fresa.

gpt-4o

o1-vista previa

programación

en esta evaluación, openai entrenó aún más un modelo mejorado con programación basado en o1.

en la olimpiada internacional de informática (ioi) de 2024, el nuevo modelo obtuvo 213 puntos, ubicándose en la posición del 49%.

durante el curso, los modelos tienen diez horas para resolver seis desafiantes problemas algorítmicos, con 50 presentaciones permitidas por problema.

cuando se relajan las restricciones de envío, el rendimiento del modelo se puede mejorar significativamente. al permitir 10.000 envíos por pregunta, el modelo logró una puntuación de 362,14, superando el umbral de la medalla de oro.

finalmente, openai también simuló una competencia de programación competitiva organizada por codeforces, siguiendo estrictamente las reglas y permitiendo 10 presentaciones.

la puntuación elo de gpt-4o es 808, lo que representa el 11% de los jugadores humanos. el nuevo modelo superó con creces a gpt-4o y o1, alcanzando una puntuación alta de 1807, superando al 93% de los jugadores.

mayores ajustes mejoraron o1 en competencias de programación: el modelo mejorado se ubicó en el percentil 49 según las reglas de competencia en la olimpiada internacional de informática de 2024

evaluación de preferencias humanas

además de los exámenes y los puntos de referencia académicos, openai evaluó las preferencias humanas por o1-preview frente a gpt-4o en palabras desafiantes y abiertas en una amplia gama de dominios.

en esta evaluación, los humanos ven respuestas anónimas a palabras de o1-preview y gpt-4o y votan qué respuesta prefieren.

en categorías con mucho razonamiento, como análisis de datos, programación y matemáticas, es más probable que las personas elijan o1-preview. pero en algunas tareas de lenguaje natural, gpt-4o es mejor.

en otras palabras, o1-preview actualmente no es adecuado para todos los escenarios de uso.

en áreas donde la capacidad de razonamiento es más importante, es más probable que las personas elijan o1-preview

o1-mini es extremadamente rentable

para brindar a los desarrolladores soluciones más eficientes, openai lanzó o1-mini, un modelo de inferencia más rápido y económico.

como modelo más pequeño, el o1-mini es un 80% más barato que el o1-preview.

este es un modelo poderoso y rentable para aplicaciones que requieren razonamiento pero no requieren conocimiento general del mundo.

sin embargo, la serie o1 actual aún se encuentra en sus primeras etapas y aún no se han integrado capacidades como complementos de red, transferencia de archivos a larga distancia e imágenes. a corto plazo, gpt-4o sigue siendo el jugador más fuerte.

referencias:

https://openai.com/index/learning-to-reason-with-llms/