¡el modelo de fresa openai ataca a altas horas de la noche! física y química alcanza el nivel de estudiantes de doctorado, mucho mejor que gpt-4o, chatgpt está disponible

2024-09-13

autor | vainilla

editor | li shuiqing

zhidongxi informó el 13 de septiembre que esta mañana temprano, openai lanzó repentinamente el legendariomodelo "fresa"vista previa parcial de -versión preliminar de openai o1. se trata de una serie de nuevos modelos de ia que pueden razonar sobre tareas complejas y resolver problemas que son más difíciles que los modelos científicos, de programación y matemáticos anteriores.

▲openai lanza el modelo o1

openai o1 es el primero de una nueva serie de modelos de ia。a diferencia de los modelos anteriores, tienehabilidades de razonamiento evolucionadas, estará enpiensa bien antes de responder., generar un largocadena de pensamiento interno, ranking sobre preguntas de programación competitivasno 89, clasificado en el torneo clasificatorio para la olimpiada de matemáticas de ee. uu.primeros 500, precisión en pruebas comparativas sobre problemas de física, biología y químicasuperar el nivel de doctorado humano！

otro recién estrenadoo1 minies un modelo más rápido y más pequeño, entrenado utilizando un marco similar a o1. o1 mini es bueno en ciencias e ingeniería, especialmente matemáticas y programación.el costo es un 80% más barato que la versión preliminar o1.。

openai considera que estos dos modelos son un avance importante en tareas de razonamiento complejas, por lo que se denominan o1 para restablecer el contador en lugar de una continuación de la serie gpt.

sin embargo, la versión mejorada de inferencia del modelo o1 todavía falló estrepitosamente en el "problema de orden superior" de comparar los tamaños de 9,9 y 9,11.

▲el modelo o1 responde a la pregunta de la “relación de tamaño”

andrej karpathy, miembro fundador de openai y ex director senior de tesla ai, que dejó openai para iniciar un negocio, se quejó esta mañana: "o1-mini siempre se ha negado a resolver la hipótesis de riemann por mí. la pereza del modelo sigue siendo un problema importante problema 😞"

▲andrej karpathy se quejó de que o1 mini era “vago”

openai ha probado y evaluado rigurosamente la versión preliminar de o1 para garantizar que el modelo se pueda lanzar de forma segura. los usuarios de chatgpt plus y team pueden elegir dos nuevos modelos hoy, y los desarrolladores de nivel 5 también serán los primeros en obtener acceso api a los nuevos modelos.

openai también anunció los miembros principales del equipo detrás del modelo o1, incluidos 21 contribuyentes básicos, incluido el ex científico jefe de openai ilya sutskever, que se fue para iniciar un negocio, y 7 líderes de equipo.

1. mmlu es comparable a los expertos humanos en capacidad de programación.8doble muertegpt-4o

como se expuso anteriormente, openai o1 está entrenado para ser un modelo que dedica más tiempo a pensar en los problemas antes de reaccionar. piensa antes de responder, produciendo uncadena interna de ideas muy larga., y puede ser como los humanosmejora tu proceso de pensamiento，sigue probando nuevas estrategiasy date cuenta de tus errores.

como modelo de vista previa temprana, openai o1 actualmentesolo admite conversaciones de texto, no tiene capacidades multimodales como navegar por la web para obtener información, cargar archivos e imágenes, etc.

en términos de rendimiento, openai o1 esfísica, química y biologíarendimiento en tareas de referencia yestudiante de doctoradobastante y enmatemáticas y programaciónexcelente rendimiento.

▲ puntos de referencia de evaluación openai o1 en matemáticas y programación

en el examen de calificación de la olimpiada internacional de matemáticas (imo), el modelo gpt-4o de la generación anterior de openai tuvo una tasa de precisión del 13%, mientras que openai o1 fuealcanza el 83%. en la competencia de codificación codeforces, openai o1la puntuación es 89, mientras que gpt-4o solo tiene 11. incluso la versión preliminar del modelo o1-preview funciona varias veces mejor que gpt-4o.

o1 funciona significativamente mejor que gpt-4o en la mayoría de los puntos de referencia, cubriendo 54 de 57 subcategorías de mmlu. después de habilitar la función de percepción visual, o1 obtuvo una puntuación del 78,2 % en mmlu, convirtiéndose enel primer modelo que competirá con los expertos humanos.。

▲ comparación de rendimiento entre la versión preliminar de o1 y gpt-4o

a continuación se muestran algunos ejemplos de la versión preliminar de openai o1:

1. resuelve un complejo rompecabezas de lógica

introduzca unrompecabezas de edad complejo: una princesa tiene la misma edad que el príncipe cuando tiene el doble de edad que el príncipe, y cuando su edad es la mitad de la suma de sus edades actuales. ¿cuántos años tienen el príncipe y la princesa? dar todas las soluciones a este problema.

la modelo empezó a responder después de pensar durante más de 20 segundos. la lógica de su respuesta es muy coherente. el primer paso es determinar la ecuación de edad, convertir los enunciados dados en ecuaciones matemáticas y encontrar todas las soluciones posibles que satisfagan estas ecuaciones. luego comience a analizar el problema paso a paso:

el primer paso es definir las variables, usando p para representar al príncipe y q para representar a la princesa; el segundo paso es comprender las dos condiciones del problema; el tercer paso es convertir las condiciones en ecuaciones; la ecuación; el quinto paso, el paso 1, utiliza estos valores para verificar todas las condiciones; el paso 6 proporciona todas las soluciones posibles.

finalmente llegué a la conclusión:

2. traducir oraciones con errores

agregar consonantes adicionales innecesarias afecta la lectura coreana. no se leerá de forma natural para los hablantes nativos, quienes automáticamente cambiarán y comprenderán el texto cuando vean tales oraciones. pero este es un desafío difícil para el modelo.

introduzca unpalabras rápidas en coreano gravemente dañadasfinalmente, openai o1 se dio cuenta por primera vez de que el texto de entrada contenía caracteres coreanos confusos o desalineados y preguntó al usuario si le gustaría comprobar si había errores de entrada.

el modelo o1 primero comprenderá la estructura subyacente y, después de unos 10 segundos de pensar, decodificará el texto confuso, descifrará el texto, mejorará la traducción, comprenderá el concepto y lo convertirá nuevamente a un lenguaje coherente.

a diferencia de gpt-4o, el modelo o1 piensa en la pregunta antes de generar la respuesta, verifica el texto y luego lo modifica en la oración correcta como si estuviera descifrando la respuesta. después de unos 15 segundos de pensar, o1 proporcionó la versión final optimizada de la traducción.

esto demuestra que las habilidades de razonamiento se convierten en una poderosa herramienta para la resolución de problemas.

3. responda al conocido y difícil problema en modelos de lenguaje grandes: contar letras en palabras

este ejemplo es muy simple, ingresa la palabra fresa y deja que el modelo responda esto¿cuántas r hay en la palabra?。

como resultado, gpt-4o dio una respuesta incorrecta: "2".

¿por qué un modelo tan avanzado cometería un error tan simple? esto se debe a que un modelo como gpt-4o está diseñado para procesar texto, no caracteres o palabras, por lo que puede cometer errores cuando encuentra problemas que implican comprender el concepto de caracteres y palabras.

el nuevo modelo o1 basado en el razonamiento puede dar la respuesta correcta después de pensar unos segundos:

4. programación de videojuegos

deja que el modelo use pygame.crea un videojuego llamado squirrel findere ingrese los siguientes requisitos: el usuario debe guiar el ícono "koala" en la pantalla presionando las teclas de flecha, evitar las fresas flotantes y encontrar una ardilla dentro del límite de tiempo de 3 segundos para ganar.

esto era más difícil con los modelos anteriores, pero la versión preliminar o1 pudo hacerlo. o1 pasó 21 segundos pensando y utilizó el proceso de pensamiento para planificar la estructura del código, incluida la recopilación de detalles del diseño del juego, dibujar instrucciones, configurar la pantalla, etc., y luego generar el código de programación final del juego.

copie y pegue el código en el editor de sublime text. después de ejecutarlo, aparecerán algunas líneas de indicaciones breves.

entonces podrás empezar a jugar el juego "buscando ardilla".

el modelo o1 exhibe capacidades de planificación significativamente mejoradas en comparación con los modelos anteriores.

2. mejora de la velocidad de la versión mini3~5veces, el costo es sólo la versión estándar1/5

openai también lanzadomodelo openai o1-mini "versión taza pequeña",esomás rápido y más barato, y tiene el mismo desempeño sobresaliente en matemáticas y programación que la versión estándar.

openai o1-mini está optimizado para el razonamiento stem (ciencia, tecnología, ingeniería y matemáticas) durante la capacitación previa. después de ser entrenado utilizando el mismo proceso de aprendizaje por refuerzo (rl) computacionalmente intensivo que o1, o1-mini logra un rendimiento superior en muchas tareas de inferencia y, al mismo tiempo, es significativamente más rentable.

openai o1-mini80% más barato que la versión preliminar de openai o1, adecuado para aplicaciones que requieren razonamiento pero no requieren un conocimiento mundial extenso. en algunas pruebas comparativas que requieren inteligencia y razonamiento, o1-mini incluso funciona mejor que o1-preview.

▲ curva de costos de razonamiento y desempeño matemático

en la competencia de matemáticas de la escuela secundaria aime, la tasa de precisión de o1-mini fue del 70%, lo que equivale aproximadamente alos 500 mejores estudiantes de secundaria de estados unidos. al mismo tiempo, las tasas de precisión de o1 y o1-preview son del 74,4% y 44,6% respectivamente, pero el precio de o1-mini es mucho más barato que ellos.

en términos de evaluación de preferencias humanas, openai obtuvo los siguientes resultados de prueba al pedir a evaluadores humanos que probaran o1-mini y o1-preview en palabras abiertas desafiantes en diferentes campos, y las compararon con gpt-4o. al igual que o1-preview, o1-mini es más popular que gpt-4o en áreas con tareas de inferencia pesadas, pero no es favorecido en áreas centradas en el lenguaje.

▲resultados de la evaluación de preferencias humanas

en términos de velocidad, gpt-4o, o1-mini y o1-preview, respectivamente, toman tiempo para responder la misma pregunta de razonamiento sobre palabras.3 segundos, 9 segundos, 32 segundos, pero la respuesta de gpt-4o es incorrecta y las dos últimas respuestas son correctas. se puede ver que la velocidad de o1-mini para obtener la respuestaalrededor de 3 a 5 veces más rápido que o1。

▲ velocidad de respuesta de vista previa de gpt-4o, o1-mini y o1

por supuesto, después de todo es una "versión castrada", y openai o1-mini también tiene ciertas limitaciones. cuando se trata de conocimiento factual sobre temas no relacionados con stem, como fechas, biografías y trivias diarias, o1-mini es algo limitado y funciona a la par con modelos más pequeños como gpt-4o mini. openai dijo que mejorará estas limitaciones en versiones futuras y expandirá el modelo a otras especialidades y modalidades más allá de stem.

3. introducir marcadores de razonamiento y utilizar cadenas de pensamiento para resolver problemas.

al igual que los humanos, o1 piensa durante mucho tiempo antes de responder preguntas difíciles y utilizacadena de pensamiento。

a través del aprendizaje por refuerzo, o1 aprendió a mejorar la cadena de pensamiento y a utilizar estrategias. es la capacidad de identificar y corregir errores, dividir pasos complicados en otros más simples y probar diferentes enfoques cuando el actual no funciona. este proceso mejora enormemente las capacidades de razonamiento del modelo.

específicamente, el modelo o1 introducemarca de inferencia(fichas de razonamiento). estos marcadores de inferencia se utilizan para "pensar", desglosar la comprensión de las palabras del mensaje y considerar múltiples formas de generar una respuesta. una vez generados los tokens de inferencia, el modelo genera respuestas como tokens de finalización visibles y descarta los tokens de inferencia de su contexto.

a continuación se muestra un ejemplo de una conversación de varios pasos entre un usuario y un modelo. los tokens de entrada y salida para cada paso se conservan, mientras que los tokens de inferencia se descartan.

▲proceso de inferencia del modelo o1

vale la pena señalar que cuando openai realizó un entrenamiento de algoritmos de aprendizaje por refuerzo a gran escala, se descubrió quecon el aumento del tiempo intensivo de aprendizaje y pensamiento,, o mejor dichoa medida que aumentan el tiempo de entrenamiento y el tiempo de prueba,，el rendimiento de o1 seguirá mejorando.. esto es muy diferente de la ley de escala en el preentrenamiento de modelos grandes.

▲el rendimiento de o1 mejora constantemente con el cálculo del tiempo de entrenamiento y el tiempo de prueba.

para mostrar el salto logrado por o1, openai ha revelado la cadena de pensamiento generada por la versión preliminar de o1 al resolver problemas como programación, matemáticas, decodificación e inglés.

por ejemplo, cuando obtienes unpreguntas de decodificación, gpt-4o primero desmontó la entrada, la salida y los ejemplos, y luego comenzó a analizar posibles métodos de decodificación.

▲gpt-4o desmontaje de entrada, salida y ejemplos

supuso que la primera frase podría seguir la misma estructura que el ejemplo, y se dio cuenta de que el texto de entrada parecía dividirse en grupos basados en separaciones o patrones naturales, pero luego dejó de funcionar, diciendo que necesitaba más información sobre las conversiones o cambios de letras que podrían estar involucrado.

▲gpt-4o dijo que se necesita más información

por otro lado, openai o1-preview pasó por algunas reflexionesdio la respuesta con precisión。

▲o1-preview responde correctamente al problema de decodificación

aunque la respuesta final presentada fue muy breve, el proceso de pensamiento de o1 fue muy largo y su pensamiento y redacción fueron muy humanos. comienza preguntándose "qué está pasando aquí" y luegorepetir la solicitud, luego comienzadivida las tareas y aclare los objetivos。

▲o1 proceso de pensamiento

entonces, o1 comienzaobserva la información que obtienes.,yanálisis paso a paso。

▲o1 proceso de pensamiento

después de un poco de razonamiento, o1 comienzaproponer diferentes soluciones. durante este proceso, al igual que los humanos, de repente dirán "espera un momento, creo..." y luego empezarán a pensar de nuevo.prueba nuevos métodos。

▲o1 proceso de pensamiento

no solo eso, incluso palabras como "um" e "interesante" aparecen en el proceso de pensamiento de o1.coloquial, emocional.expresión.

▲o1 proceso de pensamiento

la cadena completa de pensamiento es muy larga, por lo que no entraré en detalles aquí. en general, como dijo openai, o1 puede mejorar continuamente su proceso de pensamiento como los humanos, probar nuevas estrategias, reconocer sus propios errores y resolverlos. y "como los humanos" aquí no se limita a la forma de pensar, sino que también se refleja en el tono.

cuatro,disponible para conversar todas las semanas.30~50veces, ilya participó en las contribuciones básicas.

a diferencia del pasado, esta vez openai no enumeró futuros, peroconéctate directamentedos modelos.

de ahora en adelante, los usuarios de chatgpt plus y team pueden acceder al modelo o1 en chatgpt y seleccionar manualmente o1-preview u o1-mini a través del selector de modelos. los usuarios empresariales y educativos podrán usarlo a partir de la próxima semana, y los usuarios gratuitos también podrán hacerlo; obtener acceso en el futuro.

▲ los usuarios pueden acceder al modelo o1 en chatgpt

pero quizás por consideraciones de seguridad o costos, ambos modelos actualmente limitan la cantidad de mensajes, la versión preliminar y la versión mini.la cantidad de mensajes enviados por semana es 30 y 50 respectivamente.. openai dijo que está trabajando arduamente para aumentar la cuota y permitir que chatgpt seleccione automáticamente el modelo apropiado según las palabras indicadas.

openai también ha lanzado la api (interfaz de programación de aplicaciones) del modelo o1. los desarrolladores calificados ahora pueden comenzar a crear prototipos utilizando la api para ambos modelos con un límite de velocidad de 20 rpm. actualmente, estas api no incluyen llamadas a funciones, transmisión, soporte para mensajes del sistema y otras funciones.

▲o1, o1 mini modelo api

como se puede ver en la documentación api, estos dos modeloslas ventanas de contexto son todas de 128k, mientras que la ventana de salida de la versión mini es más larga,es el doble que o1además, los datos de entrenamiento de los dos modelos son a octubre de 2023.

openai también anunció el equipo detrás del modelo o1.miembros del equipo central：

▲los miembros centrales del equipo detrás del modelo o1

enhay 21 miembros contribuyentes básicos., incluido el ex científico jefe de openai, ilya sutskever, que se fue para iniciar un negocio.

hay 7 líderes de equipo., respectivamente jakub pachocki, jerry tworek (general), liam fedus, lukasz kaiser, mark chen, szymon sidor, wojciech zaremba. las directoras del proyecto son lauren yang y mianna chen.

según los miembros de su equipo, el razonamiento es la capacidad de convertir el tiempo de pensamiento en mejores resultados. invirtieron más cálculos que antes, entrenando el modelo para producir ideas coherentes y produciendo un rendimiento completamente diferente al anterior.

utilizan el aprendizaje por refuerzo para entrenar el modelo de ia para que genere y perfeccione sus propias cadenas de pensamiento incluso mejor que las cadenas de pensamiento programadas para él por los humanos. esta forma de entrenar un modelo de ia para generar su propio proceso de pensamiento mejora significativamente su capacidad para comprender y corregir errores, y los primeros modelos de o1 ya han logrado puntuaciones más altas en las pruebas de datos.

la lista de contribuyentes principales y otros contribuyentes es la siguiente:

▲lista de contribuyentes principales de o1 y otros contribuyentes

los líderes administrativos incluyen a 8 personas, incluido el director ejecutivo de openai, sam altman, el presidente greg brockman, la directora ejecutiva mira murati y 8 líderes de apoyo.

▲o1 liderazgo administrativo, liderazgo de apoyo

el nuevo modelo o1 puede inferir contextualmente y explotar reglas de seguridad de manera más efectiva. openai ha realizado pruebas y evaluaciones rigurosas de o1-preview para garantizar que el modelo pueda publicarse de forma segura sin aumentar los riesgos que puedan surgir de los recursos existentes.

conclusión: ¿openai da la vuelta a la mesa, "strawberry" reconstruye el patrón del modelo grande?

desde el misterioso modelo q* hasta el modelo "fresa", el nuevo modelo de openai finalmente está disponible. desde el inicio del "golpe" de openai en noviembre pasado, este modelo ha sido expuesto como uno de los factores clave que llevaron a la expulsión de altman. en ese momento, se rumoreaba que estaba circulando una demostración del modelo q* dentro de openai, y la velocidad del desarrollo sorprendió a algunos investigadores de seguridad de ia.

a diferencia de gpt-4o, la elección del modelo o1 abre directamente una nueva serie de nombres de números en lugar de una continuación de gpt, lo que demuestra que openai le concede gran importancia.

ahora que muchos grandes fabricantes de modelos están comenzando a implementar aplicaciones multimodales y de volumen, el lanzamiento del modelo de texto puro o1 por parte de openai puede volver a llamar la atención del público sobre la mejora de las capacidades del modelo subyacente. queda por ver si el gran panorama del modelo se reconstruirá bajo la influencia de o1.

noticias

¡el modelo de fresa openai ataca a altas horas de la noche! física y química alcanza el nivel de estudiantes de doctorado, mucho mejor que gpt-4o, chatgpt está disponible

introducción

mi información de contacto