¡pesado! un gran modelo de razonamiento openai que puede "pensar en la lógica de resolución de problemas" está en el mercado, y la cognición saltará al "nivel de un estudiante de doctorado en ciencias"

¡pesado! el modelo de razonamiento openai a gran escala que puede "pensar en la lógica de resolución de problemas" está en escena, y la cognición saltará al "nivel de un estudiante de doctorado en ciencias".

2024-09-13

aproximadamente a la 1 de la madrugada del viernes, hora de beijing, la era de la ia marcó el comienzo de un nuevo punto de partida: los grandes modelos capaces de realizar razonamientos generales y complejos finalmente pasaron a primer plano.

fuente de la imagen: visual china-vcg31n2008743681

openai anunció en su sitio web oficial que,comenzó a impulsar el modelo de vista previa de openai o1 para todos los suscriptores: el modelo grande "strawberry" ampliamente esperado.. openai afirmó que para tareas de razonamiento complejas,el nuevo modelo representa un nuevo nivel de capacidades de inteligencia artificial, por lo que vale la pena restablecer el conteo a 1 y darle un nuevo nombre que sea diferente al de la serie "gpt-4".

las características de los grandes modelos de inferencia sonla ia pasará más tiempo pensando antes de responder, al igual que los humanos piensan en el proceso de resolución de problemas.. la lógica detrás de los grandes modelos anteriores era predecir la secuencia de generación de palabras mediante el aprendizaje de patrones en una gran cantidad de conjuntos de datos. estrictamente hablando, realmente no entendieron la pregunta.

como primera versión del modelo de la serie o1, openai solo lanzó la versión preliminar o1-preview y la versión mini o1-mini, y se lanzó por etapas para usuarios de pago, usuarios gratuitos y desarrolladores, y el precio para los desarrolladores es bastante caro. .

el costo de usar el modelo o1 es al menos 3 veces mayor que el de gpt-4o. se entrena utilizando un nuevo método.

según los informes, el nuevo modelo o1 puede responder a problemas científicos, matemáticos y de programación más complejos a través del nuevo método de entrenamiento detrás de él. "pensará" antes de dar la respuesta y es más rápido que los humanos. la versión mini, más pequeña y económica, se centra en casos de uso de programación.

los usuarios pagos de chatgpt plus y team tendrán acceso inmediato a ambos modelos, seleccionando manualmente en el menú desplegable del selector de modelo de ia en la interfaz de usuario. ambos modos estarán disponibles para los usuarios de chatgpt enterprise y edu la próxima semana, y el acceso a o1-mini estará disponible para todos los usuarios gratuitos en un momento desconocido en el futuro. openai espera seleccionar automáticamente el modelo correcto según las indicaciones en el futuro.

sin embargo, el acceso de los desarrolladores a o1 es muy costoso. en la api (interfaz de programación de aplicaciones), o1-preview cobra $15 por cada millón de tokens de entrada, tres veces el costo de gpt-4o y $60 por cada millón de tokens de salida. cuatro veces el costo de gpt-4o. un millón de tokens es el tamaño del bloque de texto que analiza el modelo, lo que equivale aproximadamente a 750.000 palabras.

jerry tworek, jefe de investigación de openai, dijo a los medios:o1el método de entrenamiento detrás de esto es fundamentalmente diferente de los modelos anteriores.

en primer lugar, o1 fue "entrenado utilizando un algoritmo de optimización completamente nuevo y un nuevo conjunto de datos de entrenamiento diseñado específicamente para él", que contenía "datos de inferencia" y literatura científica específicamente diseñada para él.

en segundo lugar, el método de entrenamiento del modelo gpt anterior consistía en imitar las reglas/paradigmas del conjunto de datos, mientras que o1 utiliza "aprendizaje por refuerzo" para enseñar al modelo a resolver problemas por sí solo a través de recompensas y castigos, y luego a través de la "cadena de ideas". " (cadena de ideas) pensamientos) para abordar los problemas de consulta de los usuarios y brindar una versión resumida de la cadena de pensamientos, similar a la forma en que los humanos abordan los problemas paso a paso.

en la imagen de la derecha, puedes hacer clic en la cadena de ideas para ver cómo "piensa" el modelo o1.

un diagrama que muestra la cadena de ideas para un problema matemático complejo.

openai cree que este nuevo método de entrenamiento hará que el modelo o1 sea más preciso y reducirá el problema de las "alucinaciones" al inventar respuestas, pero no puede eliminar por completo la aparición de "alucinaciones". la principal diferencia entre el nuevo modelo y gpt-4o es que puede resolver mejor problemas complejos como programación y matemáticas, al mismo tiempo que mejora su proceso de razonamiento, prueba diferentes estrategias e identifica y corrige errores en sus propias respuestas.

la cognición saltará al "nivel de un estudiante de doctorado en ciencias"

openai ha explicado que gpt-4, lanzado en 2023, es similar al nivel de inteligencia de los estudiantes de secundaria, mientras que gpt-5 completa el crecimiento de la ia desde "estudiantes de secundaria hasta doctorados". este modelo o1 es un paso clave.

en comparación con los modelos grandes existentes, como gpt-4o, openai o1 puede resolver problemas de razonamiento más difíciles y al mismo tiempo mejorar las fallas mecánicas existentes en modelos anteriores.

por ejemplo, el nuevo modelo puede contar cuántas "r" hay en la fresa.

al mismo tiempo, la ia estará más organizada a la hora de responder preguntas de programación.antes de comenzar a escribir código, piense en todo el proceso de respuesta.y luego genera el código.

por ejemplo, en la tarea de escribir poesía con condiciones preestablecidas (por ejemplo, la última palabra de la segunda oración debe terminar con i), gpt-4o, que "coge el bolígrafo y escribe", da una respuesta, pero a menudo sólo se cumplen parte de las condiciones. tampoco se autocorrige. esto significa que la ia debe encontrar la respuesta correcta la primera vez que se genera, de lo contrario cometerá errores. pero en el modelo o1, la ia seguirá probando y puliendo sus respuestas, mejorando así significativamente la precisión y la calidad de los resultados generados.

lo interesante es que cuando haces clic en el proceso de pensamiento de la ia, la ia también aparecerá diciendo "estoy pensando en esto, ¿está bien hacer esto?", "oh, no tengo suficiente tiempo, hay que dar la respuesta lo antes posible”, etc. openai confirmó que lo que se muestra aquí no es la cadena de pensamiento original, sino un "resumen generado por el modelo", y la compañía también admitió francamente que existen factores para mantener una "ventaja competitiva" aquí.

jerry tworek, jefe de investigación de openai, reveló que el entrenamiento detrás del modelo o1 es fundamentalmente diferente al de productos anteriores.mientras que los modelos gpt anteriores se diseñaron para imitar patrones en sus datos de entrenamiento, o1 fue entrenado para resolver problemas por sí solo. en el proceso de aprendizaje por refuerzo, se utilizan mecanismos de recompensa y castigo para "educar" a la ia a utilizar "cadenas de pensamiento" para abordar los problemas, tal como los humanos aprenden a desmantelar y analizar problemas.

según la prueba,el modelo o1 pudo obtener una puntuación del 83% en el examen de calificación de la olimpiada internacional de matemáticas, mientras que gpt-4o solo pudo resolver correctamente el 13% de los problemas.en la competencia de capacidad de programación codeforces, el modelo o1 obtuvo un 89%, mientras que gpt-4o solo obtuvo un 11%.

openai dijo que, según las pruebas, en la próxima versión actualizada,la ia puede desempeñarse a nivel de doctorado en puntos de referencia desafiantes en física, química y biología.。

desventajas: incapaz de navegar por páginas web en tiempo real, incapaz de cargar archivos e imágenes, falta de conocimiento amplio del mundo o propenso a alucinaciones

pero al igual que la versión inicial del modelo o1, la versión preliminar de o1 lanzada hoy también tiene deficiencias obvias. por ejemplo, es solo una "versión de solo texto" que temporalmente no puede navegar por información web ni cargar archivos e imágenes, lo que significa que no tiene muchas de las funciones de chatgpt. no es tan poderoso como gpt-4o en muchos aspectos. casos de uso y existen restricciones de uso, la versión de vista previa o1 tiene un límite semanal de 30 mensajes y la versión mini tiene un límite semanal de 50 mensajes.

otras limitaciones mencionadas incluyen: el modelo o1 no es tan capaz como gpt-4o en muchas áreas y tiene un rendimiento deficiente en el conocimiento fáctico del mundo; la capacidad de razonamiento es más lenta en algunos casos de uso y puede tardar más en responder preguntas; actualmente o1 lo es. solo un modelo de texto puro, que carece de la capacidad de razonar sobre documentos específicos o recopilar información en tiempo real de la red.

además, dejar que el modelo ai juegue tic-tac-toe siempre se ha considerado un problema en la industria. el nuevo modelo o1 con capacidad de razonamiento seguirá cometiendo errores en este juego, es decir, no podrá superar por completo las dificultades técnicas. .

openai también admitió en un documento técnico que había recibido algunos "comentarios anecdóticos" de que la vista previa o1 y la versión mini tenían más probabilidades de producir "ilusiones" que gpt-4o y su versión mini, es decir, la ia todavía era muy confiado inventa respuestas y o1 rara vez admite que no sabe la respuesta a una pregunta.

techcrunch, un conocido medio tecnológico, señaló que openai señaló en una publicación de blog relacionada con el modelo o1 que decidió no mostrar a los usuarios la "cadena de pensamiento" original de este nuevo modelo, sino que optó por dar un resumen de la cadena de pensamiento en la respuesta el propósito es para mantener una "ventaja competitiva" y compensar posibles deficiencias, "nos esforzamos por enseñar al modelo a reproducir en sus respuestas cualquier idea útil en la cadena de pensamiento".

noticias económicas diarias información pública integral.

noticias económicas diarias

informe/comentarios

noticias

¡pesado! el modelo de razonamiento openai a gran escala que puede "pensar en la lógica de resolución de problemas" está en escena, y la cognición saltará al "nivel de un estudiante de doctorado en ciencias".

el costo de usar el modelo o1 es al menos 3 veces mayor que el de gpt-4o. se entrena utilizando un nuevo método.

la cognición saltará al "nivel de un estudiante de doctorado en ciencias"

desventajas: incapaz de navegar por páginas web en tiempo real, incapaz de cargar archivos e imágenes, falta de conocimiento amplio del mundo o propenso a alucinaciones

introducción

mi información de contacto