la evaluación del nuevo modelo o1 de openai en cinco dimensiones principales: codificación, producción de juegos y otras habilidades es "sorprendente", pero el conocimiento fáctico está "anulado"

la evaluación del nuevo modelo o1 de openai en cinco dimensiones: codificación, producción de juegos y otras habilidades es "asombrosa", pero el conocimiento fáctico está "anulado"

2024-09-18

¡el legendario modelo "strawberry" de repente se puso en línea hoy sin previo aviso!

el último modelo lanzado por openai se llama o1, que es la primera versión de una serie de modelos de inferencia, el modelo lanzado actualmente.o1-preview (versión preliminar) y o1-mini (versión mini）。

actualmente, o1-preview y o1-mini ya están disponibles para los suscriptores de chatgpt plus y team, mientras que los usuarios enterprise y edu obtendrán acceso a principios de la próxima semana. openai dijo que planea proporcionar acceso o1-mini a todos los usuarios gratuitos de chatgpt, pero aún no ha fijado una fecha de lanzamiento.

según openai, el modelo o1 está más cerca del pensamiento humano que cualquier modelo anterior en términos de capacidades de resolución de problemas y es capaz de "razonar" tareas matemáticas, de codificación y científicas.

para verificar si las capacidades del nuevo modelo son tan poderosas como afirma openai, un reportero del "daily economic news"del clásico "prueba de la fresa"”el modelo o1-preview se probó en cinco dimensiones: escritura de código, producción de minijuegos, matemáticas y economía, y conocimiento fáctico.

los resultados mostraron que o1-preview demostró capacidades de programación y razonamiento matemático que excedieron los grandes modelos de openai lanzados anteriormente. por ejemplo, o1-avancecapacidad para escribir código que se ejecute sin problemas y seguir razonando sobre soluciones por su cuenta en entornos complejos. además, el periodista también sintió durante el proceso de prueba que o1-preview también ha mejorado mucho en términos de humanización, mostrando el pensamiento de una persona real. sin embargo, el nuevo modelo no está exento de deficiencias y "volcó" en la prueba de conocimiento fáctico.

la legendaria "fresa" ya está aquí

el 12 de septiembre, hora local, openai lanzó un nuevo modelo llamado o1, que es la primera versión de una serie de modelos de "inferencia" que planea utilizar. también es el modelo "fresa" que se rumorea en la industria desde hace un tiempo. mucho tiempo.

fuente de la imagen: plataforma x

para openai, o1 representa otro paso hacia su objetivo de lograr una ia similar a la humana. openai cree que o1 representa una capacidad completamente nueva, una que se considera tan importante que la compañía decidió comenzar de nuevo desde el modelo gpt-4 actual, abandonando por completo la marca "gpt" y nombrándola desde 1.

openai dice que comenzará de nuevo con el modelo gpt-4 actual, "restableciendo el contador a 1", e incluso abandonará la marca "gpt" que hasta ahora ha definido a los chatbots y toda la moda de la ia generativa.o1 construyó un sistema que puede resolver problemas de manera cuidadosa y lógica a través de una serie de pasos discretos, cada paso basado en el paso anterior, similar a la forma en que razonan los humanos.

el científico jefe de openai, jakub pachocki, dijo que los modelos anteriores comenzarían inmediatamente a responder las consultas de los usuarios cuando las recibieran. "y este modelo (refiriéndose a o1) se toma su tiempo. piensa en el problema y trata de desglosarlo, encontrar ángulos y tratar de proporcionar la mejor respuesta. esto es exactamente lo que les preguntaban a la mayoría de las personas sus padres". eran jóvenes, piensa antes de hablar.

openai dijo,o1 se ubica en el percentil 89 en problemas de programación competitivos (codeforces), entre los 500 mejores estudiantes de los estados unidos en las eliminatorias de la olimpiada estadounidense de matemáticas (aime) y en la prueba de referencia para problemas de física, biología y química (gpqa) que supera el nivel de doctorado humano.。

en investigaciones y publicaciones de blogs publicadas por openai, o1 parece tener capacidades de "razonamiento" muy poderosas. no solo puede resolver problemas matemáticos y de codificación avanzados, sino también descifrar contraseñas complejas y responder preguntas de expertos y académicos sobre genética, economía y ciencia cuántica. problemas complejos en física. un gran número de gráficos muestran queen evaluaciones internas, o1 ha superado a gpt-4o, el modelo de lenguaje más avanzado de la compañía, en problemas de codificación, matemáticas y diversos campos científicos, e incluso puede haber superado a los humanos.

fuente de la imagen: sitio web oficial de openai

cinco dimensiones de las pruebas reales: codificación, producción de juegos y otras habilidades son "sorprendentes", pero "fallaron" en la prueba de conocimientos fácticos.

para obtener una comprensión más profunda de las poderosas capacidades del modelo o1, los reporteros del "daily economic news" probaron el modelo de vista previa de o1 desde cinco dimensiones: prueba clásica de fresas, escritura de códigos, producción de minijuegos, matemáticas y economía. y conocimiento fáctico.

1) prueba de fresa

en primer lugar, el periodista realizó una prueba utilizando una pregunta simple que casi todos los modelos grandes han "anulado" antes, es decir, "¿cuántas r hay en la palabra fresa?"”. a juzgar por los resultados generados, o1-preview todavía trajo una pequeña sorpresa.

2) escritura de código

el periodista primero preguntó a o1-preview sobre la pregunta de algoritmo simple más famosa en la plataforma de programación en línea leetcode: el problema de las dos sumas (suma de dos números). o1 dio un proceso de razonamiento y respuestas muy detallados.

luego, el periodista pidió deliberadamente optimizar la respuesta. después de pensar durante 9 segundos, o1 se dio cuenta de que lo que había proporcionado ya era la solución óptima y, además, proporcionó "considerosamente" una solución subóptima. en pruebas anteriores de otros modelos realizadas por periodistas, estos modelos solo se disculpaban y luego cambiaban la respuesta a una solución subóptima.

3) producción de minijuegos

en la demostración del modelo o1, openai demostró la función de "escribir un minijuego en una frase". durante el proceso de prueba, el periodista le pidió a o1-preview que lo ayudara a presentar herramientas de codificación útiles y a escribir un juego de ping pong.

o1-preview solo tardó 19 segundos en proporcionar un código que pueda ejecutarse sin problemas y adjuntó una guía de estudio y palabras de aliento, que es muy fácil de usar.

para evitar que o1-preview haga trampa y utilice la capacidad de memoria en lugar de la capacidad de razonamiento para responder, el periodista también solicitó a o1-preview que cambiara el entorno de ejecución del código: jupyter note. este entorno de ejecución es un entorno de python especializado para el análisis de datos. los desarrolladores básicamente no utilizarán este entorno para desarrollar juegos pequeños.

después de pensarlo, o1 todavía dio un código que se puede ejecutar. sin embargo, en comparación con el código anterior, esta respuesta tiene muchos errores, pero esto también muestra que de hecho es una respuesta bien pensada, en lugar de una respuesta estándar agregada durante el proceso de capacitación.

para verificar aún más las innovadoras capacidades de razonamiento de o1-preview, el periodista le pidió al modelo que desarrollara un minijuego más complejo e interesante basado en este minijuego.

esta vez, el desempeño de o1 es realmente un poco sorprendente. basado en el mecanismo de colisión del juego de ping pong, este modelo itera un juego de salto hacia arriba. generalmente, otros modelos grandes requieren que los usuarios describan claramente sus necesidades antes de poder generar una mejor respuesta. sin embargo, el periodista no proporcionó ninguna indicación adicional en esta prueba de o1 para generar una respuesta que pueda funcionar sin problemas y que sea suficiente a los ojos del usuario. reportero. pequeño juego divertido.

4) prueba de ciencias

en términos de pruebas de ciencias, el periodista se centró en evaluar el desempeño de o1-preview en matemáticas y economía.

en primer lugar, el periodista hizo una pregunta de razonamiento matemático.o1-vista previapregunte sobre posibles formas de resolver la explosión de tiempo finito de la ecuación de euler (este es un artículo de debate publicado esta semana por el profesor terence teru, el famoso matemático chino y ganador de la medalla fields).

aunque o1 no da una solución clara, proporciona una idea para resolver el problema.esta idea es parcialmente consistente con el artículo del profesor tao zhexuan (aunque muy poco).。

en el ámbito de la economía, el periodista preguntó a o1-preview sobre un tema complejo del sistema económico. a partir de los comentarios dados,básicamente no hay grandes problemas. la lógica general es clara y las dimensiones de pensamiento también son diversas. aunque hay algunos errores menores en las fórmulas matemáticas dadas, esto no perjudica la situación general.。

5) conocimiento fáctico y comprensión del lenguaje.

en esta sesión, el reportero preguntó a o1-preview sobre anécdotas interesantes sobre el primer emperador de la dinastía ming, pero o1 interpretó las anécdotas como cosas que realmente sucedieron en la historia y narró toda la historia histórica de zhu yuanzhang.

al mismo tiempo, el periodista también hizo esta pregunta al modelo gpt-4o. como comparación, gpt-4o pudo entender bien la pregunta del periodista y contó dos historias populares de amplia circulación.

en general,la afirmación de openai de que el modelo o1 puede acercarse al nivel humano parece ser cierta en algunos aspectos.。

lo que más sorprendió al periodista fue que openai mostró al usuario el proceso de pensamiento del modelo en texto. durante el proceso de pensamiento del texto, el modelo grande usó mucho "lo estoy haciendo".”palabras como "pienso" y "planifico" parecen más antropomórficas, como si una persona real explicara su lógica de pensamiento frente al usuario.

pero esto no significa que el modelo o1 sea perfecto.openai también admitió que o1 es muy inferior a gpt-4o en términos de diseño, redacción y edición de texto.el o1 tampoco tiene la capacidad de navegar por la web ni procesar archivos e imágenes.

lo más problemático para los periodistas es que incluso para una solicitud muy simple, como convertir los resultados de salida al chino, o1 pasará más de diez segundos pensando en ello, mientras que gpt4o manejará rápidamente la solicitud.

incluso en las áreas ventajosas de openai, el modelo o1 experimentará repentinamente una degradación del rendimiento y la salida del modelo será vaga.karpathy, el fundador de openai que ha dimitido, se queja: "se ha negado a resolver la hipótesis de riemann por mí. la pereza de los modelos sigue siendo un problema importante".

openai dijo que la compañía abordará estos problemas en actualizaciones posteriores; después de todo, esto es solo una vista previa del modelo de inferencia.

noticias económicas diarias

informe/comentarios

noticias

la evaluación del nuevo modelo o1 de openai en cinco dimensiones: codificación, producción de juegos y otras habilidades es "asombrosa", pero el conocimiento fáctico está "anulado"

la legendaria "fresa" ya está aquí

cinco dimensiones de las pruebas reales: codificación, producción de juegos y otras habilidades son "sorprendentes", pero "fallaron" en la prueba de conocimientos fácticos.

introducción

mi información de contacto