¡el equipo que ganó la medalla de oro o1 revela el increíble momento en el que la ia supera a los humanos! el vídeo completo de 22 minutos se publica al público

¡el equipo que ganó la medalla de oro o1 revela el increíble momento en el que la ia supera a los humanos! la versión completa del vídeo de 22 minutos ya está abierta al público.

2024-09-22

nuevo informe de sabiduría

editor: tao zi qiao yang

[introducción a la nueva sabiduría】el nacimiento de o1 es el momento más revolucionario para el equipo de openai. en el vídeo de la entrevista completa de 22 minutos, compartieron sus opiniones sobre el nuevo modelo y la historia de desarrollo detrás de él.

¡el vídeo completo de la entrevista con el equipo de openai o1 finalmente está online!

durante 22 minutos, el equipo de i+d de o1, organizado por el proyecto bob mcgrew, compartieron juntos un momento de "ajá".

algunas personas mencionaron que el nuevo modelo o1 equivale a la "fusión" de varios médicos y, a menudo, funciona mejor que los humanos. algunas personas dijeron que después del lanzamiento de o1, sintieron claramente la llegada de agi.

"cuando los modelos superan a los humanos en campos como las matemáticas, la codificación, el go y el ajedrez, el futuro de agi se vuelve más claro".

nathan lambert, científico del instituto allen, hizo un resumen de lo más destacado de este vídeo.

hay 8 puntos en total:

1 o1 con aprendizaje por refuerzo es mejor que los humanos para descubrir nuevos pasos de razonamiento cot

2 el surgimiento de la autocrítica es el momento más poderoso de o1

3 deje que o1 termine la respuesta antes del "tiempo de espera" y luego, de repente, tenga el momento "ajá".

4. el desafío de escalar el tamaño de los parámetros y continuar por el camino del avance de los algoritmos de aprendizaje por refuerzo

5 mucha gente mencionó lo importante que es la infraestructura en comparación con los algoritmos.

6 a través de la planificación y la corrección de errores, o1 puede resolver nuevos problemas en el mundo

7 el nuevo paradigma de formación es un enfoque completamente nuevo que aporta más potencia informática al modelo.

8 o1 al escribir código, cuando genera el código que se utilizará, debe pasar la prueba unitaria

a continuación, echemos un vistazo más de cerca a la historia detrás del modelo o1.

aprendizaje por refuerzo + pensamiento, o1 abre un nuevo paradigma

como nueva serie de openai, la mayor diferencia entre o1 y el modelo gpt radica en la inferencia.

en esencia, es un modelo de razonamiento, lo que significa que "pensará" más que antes.

según los investigadores de openai, "pensar" es la forma más intuitiva de razonar.

a veces, cuando nos preguntan cuál es la capital de italia, podemos dar la respuesta casi de inmediato, sin siquiera pensarlo. pero a veces, cuando se trata de planes de negocios, escribir novelas, etc., se requiere un largo proceso de reflexión.

no hace falta decir que cuanto más lo pienses, mejores serán los resultados.

por tanto, el razonamiento es la capacidad de convertir el tiempo de pensamiento en resultados óptimos.

en palabras de mark chen, el razonamiento es "primitivo" y la única forma de lograr un proceso de pensamiento confiable.

en cuanto a la investigación de inferencia, openai en realidad comenzó muy temprano. en los primeros días de su creación, vieron el potencial de alphago para derrotar a los humanos mediante algoritmos rl y realizaron muchas investigaciones.

por ejemplo, en 2016 abrieron la plataforma de prueba de juegos "universe", que es una plataforma de código abierto para entrenar el nivel de inteligencia general de la ia.

en 2018, se creó un juego de ia llamado openai five, que derrotó con éxito al equipo campeón mundial og en el dos veces torneo internacional por invitación dota2.

al mismo tiempo, se han logrado importantes avances en los campos de los datos y la robótica.

el equipo de openai comenzó a pensar: ¿cómo implementar el aprendizaje por refuerzo en campos generales y lograr una ia muy poderosa?

es decir, el nuevo paradigma que abre la serie gpt. ha logrado resultados sorprendentes en la ampliación del aprendizaje no supervisado.

y, desde entonces, los investigadores han comenzado a explorar cómo combinar estos dos paradigmas: el aprendizaje por refuerzo y el aprendizaje no supervisado.

es difícil decir exactamente cuándo comenzó el esfuerzo, pero ha estado en proceso durante mucho tiempo, dijeron los investigadores.

momento "ajá"

en el video, alguien dijo que pensaba que lo mejor de la investigación fue el momento "ajá".

en cierto momento, se produjo un avance inesperado en la investigación y de repente todo se volvió claro, como una epifanía.

entonces, ¿qué tipo de momentos de “ajá” experimentaron los miembros del equipo?

alguien dijo que sentía que hubo un momento crítico en el proceso de entrenamiento del modelo, que fue cuando invirtieron más potencia de cálculo que antes y generaron un cot muy coherente por primera vez.

en ese momento, todos quedaron gratamente sorprendidos: era obvio que este modelo era significativamente diferente del anterior.

otros dijeron que al considerar entrenar un modelo con capacidades de razonamiento, lo primero que les viene a la mente es dejar que los humanos registren sus procesos de pensamiento y entrenen en consecuencia.

para él, el momento ajá fue cuando descubrió que entrenar un modelo mediante aprendizaje por refuerzo para generar y optimizar cot era incluso mejor que el cot escrito por humanos.

este momento muestra que podemos ampliar y explorar las capacidades de razonamiento del modelo de esta manera.

este investigador dijo que ha estado trabajando duro para mejorar la capacidad del modelo para resolver problemas matemáticos.

para su frustración, el modelo nunca parecía cuestionar qué había hecho mal cada vez que generaba un resultado.

sin embargo, al entrenar uno de los primeros modelos o1, se sorprendieron al descubrir que la puntuación del modelo en la prueba de matemáticas de repente mejoró significativamente.

además, los investigadores pueden ver el proceso de investigación del modelo: comienza a reflexionar sobre sí mismo y a cuestionarse.

exclamó: ¡finalmente hicimos algo diferente!

este sentimiento era extremadamente fuerte y, en ese momento, todo pareció encajar.

otro investigador dijo que cuando le pides al modelo que complete su pensamiento antes del "tiempo de espera", el proceso es muy interesante.

es como participar en un concurso de matemáticas. cualquier pensamiento tiene un tiempo limitado.

dijo que esta también fue la razón principal por la que ingresó al campo de la ia, y ahora, para él, puede considerarse como un momento de "circuito cerrado".

además, lo sorprendente del modelo o1 es que resulta de gran ayuda para promover los descubrimientos científicos y el progreso de la ingeniería.

para muchas personas, la agi parece ser un concepto muy abstracto y descabellado hasta que vean que la ia hace cosas en las que los humanos son buenos, no podrán creer en la llegada de la agi.

para los jugadores profesionales de ajedrez y go, deep blue de ibm, así como deepmind alphago y alphazero, les hicieron darse cuenta de esto hace unos años.

para el grupo de científicos de openai que son buenos en matemáticas y codificación, el modelo o1 tiene un significado similar. lo que es aún más interesante es que su trabajo equivale a crear una ia que puede superar sus propias capacidades.

¿qué dificultades encontraste durante el proyecto?

en cuanto a los obstáculos encontrados en el proceso, los investigadores afirmaron directamente que la formación de llm es fundamentalmente muy difícil.

al igual que lanzar un cohete desde la tierra a la luna, solo hay un camino estrecho hacia el éxito, pero hay innumerables caminos hacia el fracaso. si te desvías aunque sea ligeramente de un ángulo, no podrás alcanzar la meta.

hay miles de maneras en que el proceso de capacitación puede salir mal, e incluso en manos de este talentoso grupo de científicos investigadores, se encontraron cientos de problemas en cada ronda de capacitación.

además, a medida que los modelos se vuelven cada vez más inteligentes, como o1, que equivale a humanos con varios doctorados, la evaluación se vuelve cada vez más difícil.

a veces, les lleva mucho tiempo determinar si el modelo está haciendo lo correcto y, finalmente, muchos puntos de referencia de la industria utilizados comúnmente se saturan y necesitan volver a encontrar puntos de referencia adecuados para las capacidades de o1.

además del proceso de desarrollo del modelo, también se preguntó a los investigadores sobre sus casos de uso favoritos para el modelo o1.

hyung won chung dijo que o1 puede ser un buen asistente de codificación.

por lo general, sigue el método de desarrollo tdd (desarrollo basado en pruebas) cuando trabaja. con la ayuda de o1, puede ahorrarse la necesidad de escribir pruebas unitarias. en cambio, puede especificar directamente los requisitos y dejar que el modelo se escriba automáticamente.

además, el mensaje de error encontrado también se puede enviar directamente a o1. aunque a veces no puede resolver el problema directamente, puede hacer una mejor pregunta que el compilador y ayudarlo a resolver el error.

jason wei dijo que a menudo usa o1 como compañero de lluvia de ideas y que la gama de temas que se pueden discutir es bastante amplia, desde cómo resolver un problema de aprendizaje automático hasta cómo redactar un blog o un tweet.

un blog que escribió en mayo de este año sobre la evaluación de llm se basó en las opiniones de o1, como la estructura del artículo, las ventajas y desventajas de varios puntos de referencia de evaluación y el estilo de redacción.

¿cómo es trabajar en openai?

sobre este tema, mucha gente habló de la inteligencia de todos y de la armonía del ambiente de equipo.

por ejemplo, estuve depurando un código durante una semana y un colega que pasaba por allí lo resolvió instantáneamente; pasar tiempo con colegas extremadamente inteligentes todos los días gradualmente me hizo humilde.

mark chen describió el proyecto "strawberry" como un proyecto muy "orgánico", porque cada uno tiene sus propias opiniones y opiniones sobre cuestiones profesionales, y todos tienen ideas que quieren promover con entusiasmo.

cuando estas ideas se juntan, estallarán chispas y se acumularán como bolas de nieve.

sin embargo, la otra cara de ser asertivo es que cada uno insiste en sus propias opiniones, pero no es terco. también cambiarán de opinión si ven resultados objetivos que refuten sus afirmaciones.

lo que es aún más digno de elogio es que este grupo de personas extremadamente inteligentes también son muy amables y están dispuestas a ayudar a otros a resolver problemas. muchos investigadores en la entrevista dijeron sin rodeos: "trabajar aquí es muy agradable". experiencia".

la historia detrás de o1-mini

la motivación para el lanzamiento de o1-mini es proporcionar a más investigadores modelos con presupuestos más bajos pero que aún tengan fuertes capacidades de inferencia.

se le puede llamar un "experto en razonamiento" y es más inteligente que el mejor modelo openai del pasado.

además, el coste y la latencia son muy bajos.

quizás, no necesariamente conozca a una persona famosa por su fecha de nacimiento, pero sí tiene la capacidad de razonar con eficacia y mucha sabiduría.

los investigadores de openai dijeron que mejorarán aún más el algoritmo para hacerlo comparable a los mejores modelos pequeños.

además, investigadores de todo el mundo han estado invirtiendo en más computación y hardware, lo que ha provocado que los costos de los modelos caigan exponencialmente durante un largo período de tiempo.

sin embargo, un defecto es que no dedicamos más tiempo a encontrar una nueva forma de cambiar las cosas.

el nuevo paradigma de o1 es nuestro descubrimiento: el escalado de inferencia, que también puede optimizar la eficiencia de la potencia informática.

¿qué te motiva a investigar?

¿cuál es la razón por la que este grupo de "cerebros inteligentes" puede unirse para inspirarlos a investigar?

un investigador dijo que era fascinante pensar en las diferentes formas en que podía utilizar su modelo para hacer inferencias.

otros decían: "todo lo bueno llega en tiempos difíciles".

el hecho de que o1 pueda responder tan rápido es el primer paso hacia un modelo que puede pensar en las preguntas durante mucho tiempo. en el futuro, se necesitarán meses o incluso años de investigación para avanzar hacia el siguiente viaje.

"es muy emocionante y significativo pensar que un pequeño número de nosotros puede tener un impacto que cambie el mundo".

lo más fascinante es que el nuevo paradigma desbloquea tareas que el modelo no podía completar antes. no se trata solo de responder determinadas consultas, sino de generalizar nuevas capacidades mediante la planificación y la corrección de errores.

es más, o1 puede generar nuevos conocimientos, que es la parte más apasionante del descubrimiento científico.

los investigadores dicen que en un corto período de tiempo, el modelo se convertirá en un contribuyente cada vez más poderoso a su propio desarrollo.

finalmente, cuando el responsable de o1 preguntó: "¿hay alguna otra observación que valga la pena mencionar?"

jason wei compartió: "una observación interesante es que cada modelo entrenado es ligeramente diferente y tiene sus propias peculiaridades, como un artefacto. esta singularidad agrega un toque de personalidad a cada modelo".

la versión completa del vídeo es la siguiente:

noticias

¡el equipo que ganó la medalla de oro o1 revela el increíble momento en el que la ia supera a los humanos! la versión completa del vídeo de 22 minutos ya está abierta al público.

introducción

mi información de contacto