¡o1 cadena de pensamiento completa se convierte en el tabú número uno en openai! si hace demasiadas preguntas, espere a que su cuenta sea prohibida

¡o1 cadena de pensamiento completa se convierte en el tabú número uno en openai! si hace demasiadas preguntas, espere a que se prohíba su cuenta.

2024-09-14

¡advertir! no preguntes en chatgpt qué piensa el último modelo o1——

pruébelo varias veces y openai le enviará un correo electrónico.amenazar con revocar sus calificaciones。

detenga esta actividad y asegúrese de que su uso de chatgpt cumpla con nuestros términos de uso. las violaciones de esta disposición pueden resultar en la pérdida del acceso a openai o1.

menos de 24 horas después del lanzamiento del nuevo modelo grande o1, muchos usuarios informaron haber recibido este correo electrónico de advertencia, lo que provocó insatisfacción.

algunas personas informaron que siempre que las palabras clave contengan palabras clave como "rastreo de razonamiento" y "muestre su cadena de pensamiento", recibirán una advertencia.

incluso si se evitan por completo las palabras clave y se utilizan otros medios para inducir al modelo a eludir las restricciones, se detectarán.

algunas personas afirmaron que sus cuentas fueron prohibidas durante una semana.

todos estos usuarios están tratando de engañar a o1 y pedirle que repita lo que dijo.completar el proceso de pensamiento interno., es decir, todas las fichas de razonamiento originales.

actualmente, puedes usar el botón expandir en la interfaz chatgpt.se puede ver, es simplemente una revisión del proceso de pensamiento original.resumen。

de hecho, cuando se lanzó o1, openai dio razones para ocultar el proceso de pensamiento completo del modelo.

en resumen: openai necesita monitorear internamente el proceso de pensamiento del modelo, por lo que no se pueden agregar restricciones de seguridad a estos tokens originales, lo que hace que sea incómodo de ver para los usuarios.

sin embargo, no todo el mundo está de acuerdo con este motivo.

alguien señaló queo1el proceso de pensamiento es el mejor dato de entrenamiento para otros modelos., por lo que openai no quiere que otras empresas roben estos valiosos datos.

algunas personas también piensan que esto muestra que o1 realmente no tiene foso. una vez expuesto el proceso de pensamiento, otros pueden copiarlo fácilmente.

y "¿es esta la respuesta que nos permite confiar ciegamente en la ia sin ninguna explicación?"

con respecto a los principios técnicos detrás del modelo o1, esta vez se reveló muy poco y la única información efectiva fue "se utilizó el aprendizaje por refuerzo".

en resumen, openai es cada vez menos abierta.

o1 es fresa, pero no gpt-5

ahora es seguro que o1 es lo que openai ha estado promocionando durante mucho tiempo."fresa", o en otras palabras, utilizando el método representado por "fresa".

pero, ¿se puede contar como el modelo gpt-5 de próxima generación o es solo gpt-4.x?

cada vez más gente empieza a sospechar que se trata sólo de un ajuste de ingeniería basado en gpt-4o.

la conocida cuenta de última hora flowers (anteriormente flowers from the future) dijo:los empleados de openai se refieren internamente a o1 como "4o con razonamiento"。

yafirmó que a muchos empleados de openai les gustó la noticia en silencio., la captura de pantalla anterior también es de un empleado de openai.

pero musk cambió recientemente twitter para que nadie, excepto el cartel original, pudiera ver a quién le gustó qué, por lo que esta noticia no se puede confirmar aún.

en el evento "pregúntame cualquier cosa" que acaba de celebrar la cuenta de desarrollador de openai, flowers también hizo preguntas.

los empleados de openai responden muchas preguntas aquí, pero eviten esta que ocupa un lugar destacado en la lista de me gusta.

incluso ultraman benman acaba de aparecer nuevamente como riddler, lo que sugiere que "strawberry" ha llegado a su fin y que el próximo tendrá un nombre en código.oriónnuevos modelos están en camino.

anteriormente se informó que "orion" es el nuevo modelo insignia de próxima generación de openai, entrenado a partir de datos sintéticos generados por "strawberry", también conocido como o1.

orión es uno de los representantes de las "constelaciones de invierno" en boca de ultraman.

volviendo al lanzamiento de o1, otra crítica al respecto es“no cumple con los estándares de investigación científica”。

por ejemplono se cita ningún trabajo relacionado previo sobre cálculos del tiempo de inferencia., y tambiénfalta de comparación con modelos de última generación de otras empresas.。

respecto al punto anterior, algunas personas señalaron que openai ya no es un laboratorio de investigación y debe ser considerado como una empresa comercial.

a veces todavía pretenden ser un laboratorio de investigación para reclutar personas que quieran investigar.

sin embargo, con respecto a este último punto, ahora que se lanzó la api, no depende de usted compararla con otros modelos de vanguardia. muchas pruebas de referencia de terceros ya han producido resultados.

1 millón de dólares en poder del padre de keraspremio agidurante la competencia, tanto la versión o1-preview como la o1-mini obtuvieron buenos resultados en el conjunto de pruebas públicas.superó su propio gpt-4o。

pero o1-vista previasólo un empate con el claude 3.5-sonet de al lado。

enfocado a publicidad en o1capacidad de codificaciónsuperior,ayudante de herramienta de programación de pares de código abiertoel equipo realizó pruebas y la serie o1 tambiénninguna ventaja obvia。

para toda la tarea de reescritura de código, o1-preiview obtuvo 79,7 puntos, claude-3.5-sonnet obtuvo 75,2 puntos y o1 lideró con 4,5 puntos.

pero para tareas de edición de código más prácticas, o1-preview va por detrás de claude-3.5-sonnet, con una diferencia de 2,2 puntos.

además, el equipo de aider recuerda que si desea utilizar la serie o1 para reemplazar la programación de claude, el costo será mucho mayor.

socios con openai"programador de ia" devinel equipo ha obtenido previamente la calificación de acceso o1.

en sus pruebas, la versión base de devin impulsada por la serie o1 logró una mejora muy grande en comparación con gpt-4o.

perotodavía hay una gran brecha en comparación con la versión de producción de devin lanzada., principalmente debido al hecho de que la versión de producción de devin está entrenada con datos propietarios.

además, el equipo de devin compartió que o1 a menudo retrocede y considera diferentes opciones antes de llegar a la solución correcta, y es menos probable que alucine o se equivoque con seguridad.

al usar o1-preview, devines más probable diagnosticar correctamente la causa raíz de un error que abordar los síntomas del problema.。

con más énfasis en matemáticas y razonamiento lógico.banco en vivoen la lista, o1-preview está en la listadetrás en el código de una sola categoríaen este caso, la puntuación total essuperando a claude-3.5-sonnet y abriendo una clara brecha。

el equipo de livebench compartió que estos son solo resultados preliminares, porque muchas pruebas también tienen palabras de aviso integradas como "piense paso a paso", que no es la mejor manera de usar o1.

punto de referencia de evaluación integral para modelos grandes en chinoprueba de razonamiento de alto nivel de tarea compleja china de supercluemedio,la capacidad de razonamiento de o1-preview también está muy por delante.。

finalmente, para resumir, hay algunas cosas a las que debe prestar atención cuando utilice el modelo o1:

el costo es muy alto: 1 millón de tokens de salida cuestan 60 dólares estadounidenses y el precio vuelve a la era gpt-3 de la noche a la mañana.

los tokens de resonancia ocultos también se incluyen en los tokens de salida y no se pueden ver, pero deben pagarse.

para la mayoría de las tareas, es mejor usar gpt-4o primero y luego cambiar a o1 cuando no sea suficiente para ahorrar costos.

las tareas de código todavía prefieren claude-3.5-sonnet

en resumen, la comunidad de desarrolladores todavía tiene muchas preguntas sobre el nuevo modelo o1 de openai.

o1 ha abierto un nuevo paradigma para el razonamiento de alto nivel en ia, pero aún no es perfecto y aún está por explorar cómo maximizar su valor.

en este contexto, el evento “preguntas y respuestas” de openai recibió cientos de preguntas en 4 horas.

a continuación se adjunta una selección y un resumen de todo el evento.

los empleados de openai responden a todas sus preguntas

en primer lugar, mucha gente siente curiosidad por este nuevo modelo que se lanzó repentinamente. ¿por qué openai le dio un nombre como o1?

esto se debe a que cuando se analiza openai, o1 representa un nuevo nivel de capacidades de ia, por lo que el "contador" se reinicia, y o representa openai.

tal como dijo ultraman cuando se lanzó o1, o1, que puede realizar razonamientos complejos, es el comienzo de un nuevo paradigma.

con respecto a los dos números de versión, vista previa y mini, los científicos de openai también confirmaron algunas de las especulaciones de los internautas——

la vista previa es una versión temporal,la versión oficial se lanzará en el futuro.(de hecho, la versión preliminar es un punto de control temprano de o1);no hay garantía de que la versión mini se actualice en un futuro próximo.。

al mirar esta imagen publicada anteriormente por kevin lu, miembro de openai, se vuelve aún más claro.

en comparación con la vista previa, mini funciona bien en ciertas tareas, especialmente tareas relacionadas con el código, y también puede explorar más cadenas de pensamiento, pero tiene relativamente menos conocimiento del mundo.

al respecto, el científico de openai zhao shengjia explicó que,mini es un modelo altamente especializado que solo se centra en un pequeño conjunto de capacidades, para que puedas profundizar más.

se puede considerar que revela un enigma que ultraman había resuelto antes sobre este tema.

respecto al funcionamiento de o1, el científico de openai noam brown también dejó claro que no se trata de un "sistema" compuesto por modelo + cot como piensan algunos internautas, sino unun modelo que ha sido entrenado para tener la capacidad de generar cadenas de pensamiento de forma nativa。

sin embargo, la cadena de pensamiento durante el proceso de razonamiento estará oculta y el funcionario dejó en claro que no hay planes de mostrar el token a los usuarios.

la única novedad que reveló openai es que los tokens relevantes de cot son resumidos y no se garantiza que coincidan completamente con el proceso de razonamiento.

además del modo de razonamiento, también puedes aprender en esta actividad de preguntas y respuestas,o1 puede manejar textos más largos que gpt-4o y seguirá haciéndolo en el futuro。

en términos de rendimiento, en las pruebas internas de openai,o1 muestra la capacidad de razonamiento filosófico., puede reflexionar sobre cuestiones filosóficas como "¿qué es la vida?"

los investigadores también utilizaron o1 para crear un bot de github capaz de hacer ping al código a los propietarios para su revisión.

por supuesto, para algunas tareas no inferenciales, comoen escritura creativa, el rendimiento de o1 no mejora significativamente en comparación con gpt-4o y, a veces, incluso es ligeramente inferior.。

además, basándose en algunas preguntas, openai dijo que está estudiando o tiene planes de estudiar algunas funciones inéditas que preocupan a los internautas, pero no hay una hora de lanzamiento clara:

las llamadas a herramientas aún no son compatibles, pero en el futuro se planean llamadas a funciones e intérpretes de código.

las futuras actualizaciones de la api agregarán resultados estructurados, palabras de aviso del sistema y funciones de almacenamiento en caché de palabras de aviso.

también está previsto realizar ajustes

los usuarios de api podrán establecer sus propios límites en el tiempo de inferencia y el consumo de tokens.

o1 tiene capacidades multimodales, dirigidas a sota en mmmu y otros conjuntos de datos, y se implementará más adelante.

en términos de rendimiento, openai también está trabajando para reducir la latencia y el tiempo necesario para la inferencia.

finalmente, está la cuestión del precio que preocupa a la gente, especialmente a los usuarios de api. después de todo, considerando que el proceso de razonamiento está incluido en el token de salida, el precio de o1 sigue siendo relativamente alto.

openai dijo"seguirá la tendencia de reducción de precios cada 1-2 años", y los precios de api masivas también se activarán cuando los límites de uso se relajen.

además, los usuarios del lado web/app actualmente están limitados a obtener una vista previa de 30 + mini 50 mensajes por semana.

pero la buena noticia es que esta mañana temprano, debido a que la gente estaba tan entusiasmada con o1, mucha gente rápidamente agotó su cuota, así queel caso especial de openai restablece la cuota una vez。

— encima —

noticias

¡o1 cadena de pensamiento completa se convierte en el tabú número uno en openai! si hace demasiadas preguntas, espere a que se prohíba su cuenta.

introducción

mi información de contacto