¿openai "strawberry" vale un billón?

2024-09-13

autor | bi andi, editor |

¿qué tienen en común ultraman y ma baoguo? respuesta: a todos les gusta realizar ataques furtivos.

la noticia de "strawberry" lleva varios meses circulando. se dice que se trata de un proyecto misterioso dentro de openai, que parece ser bastante diferente al modelo de la generación anterior. pero openai lo ha mantenido en secreto. el momento más cercano a ser expuesto fue una foto de fresas reales publicada por el director ejecutivo sam altman en las redes sociales.

hace apenas unos días, the information dio la noticia de que "strawberry" se lanzará en las próximas dos semanas.

incluso con tanta atención, openai todavía tomó al mundo por sorpresa: en la tarde del 12 de septiembre, hora local, sin previo aviso ni conferencia de prensa, openai lanzó repentinamente un nuevo modelo.

sin embargo, el nombre del nuevo modelo no es tan delicioso como "fresa", pero sí muy serio y significativo: o1.

ya sabes, el modelo openai se ha repetido anteriormente en la serie "gpt", desde gpt-1 en 2018 hasta gpt-4o en mayo de este año. hoy, openai está abriendo una nueva línea.

en la publicación oficial del blog que anuncia o1, openai dijo lo siguiente: "como modelo inicial, aún no tiene muchas de las características que hacen que chatgpt sea útil... pero para tareas de inferencia complejas, esto es una mejora significativa y representa capacidades de ia. nuevo nivel. dado esto, reiniciamos el contador a 1 y llamamos a esta serie openai o1”.

actualmente, el nuevo modelo solo está abierto para suscriptores pagos de chatgpt y algunos programadores. para mostrar que el modelo aún no está maduro, se llama temporalmente "o1-preview", y vista previa significa vista previa. además, openai también lanzó una versión de modelo pequeño o1-mini. ya sea o1-preview u o1-mini, actualmente existe un límite en la cantidad de respuestas por semana.

el propio ultraman elogió el nuevo modelo en las redes sociales.

gary marcus, un estudioso de la ia a quien siempre le gusta echarle agua fría a chatgpt, bromeó diciendo que la medida de openai es una "receta familiar": anunciar la demostración, abrirla a un número limitado de usuarios, recaudar fondos y hacerlo de nuevo.

en el momento en que se lanzó o1, openai se encontraba en una nueva ronda de financiación. según las últimas noticias de bloomberg, esta ronda de financiación será un evento importante con una escala de decenas de miles de millones de dólares estadounidenses y una valoración objetivo de 150 mil millones de dólares.

primero echemos un vistazo al modelo en sí.

como se rumoreaba anteriormente, uno de los principales objetivos de o1 es el "razonamiento". la clave detrás del "razonamiento" es el "pensamiento".

para los usuarios, la sensación más intuitiva es que o1-preview tardará más en responder la pregunta.

bajo el modelo de vista previa o1, la lista alfabética pregunta a chatgpt "¿qué día del mes y día de la semana es hoy?" después de enviar la pregunta, chatgpt muestra sus pasos de pensamiento en curso uno por uno: responder la pregunta sobre la fecha, revisar las pautas, comprender la fecha actual y luego dar la respuesta, marcada como "piensa durante 8 segundos".

por el contrario, en el modelo gpt-4o, chatgpt ofrece una respuesta directa en 3 segundos sin mostrar pasos intermedios.

"este es un nuevo modelo de gran oráculo entrenado a través del aprendizaje por refuerzo y diseñado para realizar tareas de razonamiento complejas. o1 piensa antes de responder preguntas; puede generar una larga 'cadena de pensamiento' interna antes de responder", escribió openai en una publicación de blog.

esta vez se lanzó el modelo o1, los funcionarios de openai revelaron muy pocos detalles técnicos y lo que enfatizaron repetidamente fue la "cadena de pensamiento".

según openai, o1 utiliza cadenas de pensamiento cuando intenta resolver problemas, de forma muy similar a como los humanos piensan detenidamente antes de responder una pregunta difícil. a través del aprendizaje por refuerzo, o1 aprendió a refinar su cadena de pensamiento y optimizar sus estrategias de uso. es capaz de reconocer y corregir sus propios errores y aprender a dividir pasos complejos en otros más simples. cuando el método actual no funciona, prueba con un método diferente.

"este proceso mejora enormemente las capacidades de inferencia del modelo".

entonces, ¿qué tan fuerte es la habilidad de o1? además de los numerosos vídeos de demostración publicados por openai, lo más convincente son los resultados de las pruebas. openai dice que o1 se desempeña "comparablemente a los expertos humanos" en una serie de puntos de referencia intensivos en inferencia y supera a las técnicas anteriores. por ejemplo, en la olimpiada internacional de matemáticas (omi), la puntuación técnica anterior era del 13% y la puntuación de o1 llegaba al 83%.

en el concurso de programación codeforces, o1 logró una puntuación excelente del 89%. basado en o1, openai también desarrolló o1-ioi, que es mejor en programación, y sus resultados superaron al 93% de los concursantes de una sola vez.

otra prueba que openai "muestra" específicamente es gpqa-diamond, que es una prueba de referencia para la experiencia en química, física y biología. openai invitó a expertos con doctorados a competir y descubrió que "el desempeño de o1 superó a estos expertos humanos".

openai también dijo que después de habilitar las capacidades de percepción visual, o1 obtuvo una puntuación del 78,2% en la prueba mmmu, "convirtiéndose en el primer modelo que puede competir con expertos humanos". además, o1 supera a gpt-4o en 54 de 57 subcategorías de mmlu.

en resumen, o1 presta más atención a la capacidad de razonamiento que los modelos anteriores de openai, y sus habilidades en matemáticas y programación se han mejorado especialmente. para exagerar, es como un doctor en boxeo y un experto en patadas y a través de la "cadena de pensamiento". también se espera que reduzca la ilusión del modelo.

sin embargo, o1 se encuentra todavía en una fase relativamente temprana, como destacó ultraman, "aún existen fallos y limitaciones".

sólo en el intento superficial de la lista alfabética, se produjeron errores en o1-preview. por ejemplo, cuando se le preguntó "¿cuál es más grande, 9.11 o 9.9?", gpt-4o respondió incorrectamente y o1-preview también respondió incorrectamente, diciendo seriamente que "9.11 es de hecho más grande que 9.9. porque 9.11 (es decir, 9.11) es más grande que 9,9 (9,90)." hay un toque de humor en la verbosidad, sin mencionar que me tomó 15 segundos pensar en ello.

the information también informó que algunos usuarios que probaron o1-preview dijeron que muchas interacciones "no valían los 10 a 20 segundos adicionales de espera" y que preferían la velocidad de respuesta de gpt-4o.

actualmente, o1-preview y o1-mini están abiertos a usuarios pagos, pero el número es limitado: o1-preview tiene 30 mensajes por semana y o1-mini tiene 50 mensajes por semana.

a partir de la próxima semana, ambos modelos también serán accesibles para los usuarios empresariales y educativos (edu) de chatgpt. openai también declaró que le gustaría proporcionar o1-mini a todos los usuarios de forma gratuita en el futuro, pero no se ha anunciado la hora específica.

esta es la primera vez que openai agrega un sufijo similar a "vista previa" al lanzar un modelo. anteriormente, tanto gpt-4 como gpt-4o habían lanzado directamente el modelo completo.

una característica de o1 que no se puede ignorar es que es caro.

el costo del acceso de los desarrolladores a o1 es muy alto: en términos de api, o1-preview cobra $15 por cada millón de tokens de entrada o bloques de texto analizados por el modelo, tres veces más que gpt-4o, y $60 por cada millón de tokens de salida. , cuatro veces mayor que el gpt-4o.

the atlantic analizó en el informe que o1 está diseñado específicamente para requerir más tiempo, lo que inevitablemente consumirá más recursos y aumentará la dificultad de la rentabilidad de aigc.

gary marcus, mencionado al principio de este artículo, es un académico en la intersección de la neurociencia humana y la inteligencia artificial, profesor honorario de la universidad de nueva york y fundador y director ejecutivo de la startup de inteligencia artificial, geometry intelligence. es " "la espina clavada en el mundo de la ia" ha criticado repetidamente a openai.

en su opinión, el repentino lanzamiento de o1-preview por parte de openai es más un método de propaganda.

después de todo, openai está atravesando una importante ronda de financiación. según el último informe de bloomberg, openai está negociando para recaudar 6.500 millones de dólares de inversores con una valoración de 150.000 millones de dólares. además, también quiere recaudar 5.000 millones de dólares. bancos en forma de crédito rotativo.

"envíe una demostración, ábrala a usuarios limitados, recaude dinero y repita". así es como marcus resume los "medios" de openai.

en julio de este año, the information informó que openai podría perder hasta 5 mil millones de dólares este año. entre ellos, los costos de los empleados de openai este año son de aproximadamente 1.500 millones de dólares, los costos de inferencia y entrenamiento de ia pueden llegar a los 7.000 millones de dólares y se espera que los ingresos anuales estén entre 3.500 y 4.500 millones de dólares.

en ese momento, the information predijo que a este ritmo de quema de dinero, openai pronto necesitaría recaudar fondos. la última financiación importante para openai fue a principios de 2023, cuando microsoft invirtió decenas de miles de millones de dólares.

esta no es la primera vez que openai lanza "productos inmaduros" en nodos clave.

en octubre del año pasado, hubo noticias de que openai buscaba vender acciones. en ese momento, se rumoreaba que la posible valoración era de 86 mil millones de dólares. pero al mes siguiente, openai experimentó un cambio impactante en su alta dirección. altman fue expulsado de la empresa, pero pronto regresó a su puesto de ceo, ganando la "batalla del palacio". sin embargo, el plan de venta de acciones se retrasó brevemente y no hubo noticias de que la transacción "volviera a la normalidad" hasta finales de noviembre. en ese momento, personas familiarizadas con el asunto dijeron que los empleados estaban preocupados de que la emergencia afectara las ventas de acciones y afectara la valoración de la empresa.

curiosamente, el 15 de febrero de este año, openai anunció repentinamente un nuevo modelo de generación de video, sora, y la demostración causó conmoción en el mundo exterior. en tres días, el new york times informó que openai completó la venta de acciones de los empleados y la valoración de la empresa superó los 80 mil millones de dólares "como se esperaba".

ha pasado más de medio año y sora no ha estado abierto al público, ni siquiera ha promovido pruebas a gran escala. el mundo exterior comenzó a sospechar que sora en realidad no tenía suficiente potencia informática para respaldar su funcionamiento. un informe publicado por la organización de investigación de mercado factorial funds cree que se necesitarán 720.000 chips nvidia h100 para implementar sora.

a principios de septiembre, el "taiwan economic daily" informó que el chip a16 de nivel angstrom de tsmc ya había recibido pedidos de los principales clientes, incluidos apple y openai. openai utilizará chips personalizados para mejorar las capacidades de generación de video de sora. esto también parece confirmar que sora se encontró antes con un problema de potencia informática.

ahora que chatgpt con sabor a fresa está aquí, quizás pronto veamos la noticia de que openai ha completado con éxito una nueva ronda de financiación y está valorada en más de un billón de yuanes.

noticias

¿openai "strawberry" vale un billón?

introducción

mi información de contacto