openai vuelve a "hacer burbujas" en modelos grandes para alargar su vida

openai vuelve a dar a los modelos grandes una "burbuja" para alargar su vida

2024-09-14

texto丨él qianming

editor: cheng manqi huang junjie

el producto más importante de openai este año, el modelo o1, se lanzó según lo previsto. el precio de las acciones de nvidia, la mayor generadora de beneficios en ia, ha subido un 10% en dos días.

o1, que consume más potencia informática para responder preguntas, "pensará" durante decenas de segundos o incluso más cuando vea una pregunta antes de dar una respuesta. openai dice que puede responder preguntas de matemáticas de las olimpíadas o completar tareas de programación mucho mejor que los modelos grandes que ya están en el mercado.

pero el buen humor del director ejecutivo de openai, sam altman, se vio rápidamente interrumpido. bajo su tweet anunciando el lanzamiento completo de o1, el comentario principal fue: "¿cuándo estará disponible la nueva función de voz?". inmediatamente respondió: "¿puedes tomarte unas semanas para agradecerte por esta magia y luego querer?" ¿un juguete nuevo?

lo que este usuario quiere después de altman no es un juguete nuevo, sino la próxima función de voz de extremo a extremo gpt-4o que openai prometió en mayo de este año. en la demostración en vivo de ese momento, esta nueva ia sonaba natural, respondía muy rápidamente y sabía cuándo interrumpir, lo que dificultaba que otros distinguieran la verdad de lo falso. según el calendario oficial, decenas de millones de usuarios de pago de chatgpt habrían utilizado esta función en unas pocas semanas, pero el pago se ha retrasado hasta ahora.

el año pasado, los productos de openai han sido "futuros" similares: gpt-4 ha estado en línea durante más de un año y el modelo gpt-5 de próxima generación de openai aún no tiene señales de lanzamiento. el modelo de video que sora lanzó por openai a principios de este año no se ha lanzado a gran escala hasta ahora, solo unos pocos profesionales de la industria seleccionados por ellos lo han utilizado.

los principales retrasos de la industria han agotado repetidamente la paciencia del mercado de capitales con los grandes modelos de ia. algunos gigantes tecnológicos chinos y grandes empresas de modelos suspendieron la capacitación de modelos básicos a mediados de este año, invirtieron más recursos en el desarrollo de aplicaciones o alquilaron potencia informática gpu a clientes externos. les preocupa que no haya mucho espacio para el avance de la tecnología, por lo que comienzan a reducir la inversión y a esforzarse por obtener ganancias.

antes de esta semana, el valor de mercado de nvidia había caído más de un 20% desde su máximo de junio, y el valor de mercado de microsoft también se había reducido un 13%, perdiendo cada uno cientos de miles de millones de dólares. el director financiero de microsoft afirmó que las decenas de miles de millones de dólares que han invertido en el campo de los modelos grandes tendrán que esperar 15 años o más para recuperarse.

la investigación de sequoia muestra que la inversión en el campo de la ia superó los ingresos en más de 120 mil millones de dólares el año pasado y puede expandirse a 500 mil millones de dólares este año. pero, a excepción de nvidia, pocas empresas han experimentado una gran proporción de crecimiento de ingresos. cada vez más personas en la industria están comenzando a discutir que si las capacidades de los modelos grandes se detienen aquí, ¿volverá a estallar la burbuja de la ia?

las "burbujas" no son necesariamente algo malo. antes de que una nueva tecnología cambie el mundo, habrá una etapa en la que la visión superará con creces la realidad. la diferencia radica en si la visión se puede realizar y cuándo. si no se puede cumplir a largo plazo, la burbuja estallará y la empresa irá a la quiebra. un estallido grave de la burbuja puede incluso destruir un campo o incluso varias economías. si la visión se cumple, no será más que una nota a pie de página del progreso tecnológico.

el o1 lanzado por openai revertirá al menos temporalmente la vacilación de que no hay espacio para el progreso en los modelos grandes y extenderá la vida útil de la "burbuja" de los modelos grandes.

cualquier nueva tecnología debe seguir avanzando antes de que pueda cambiar el mundo. la singularidad de o1 no es solo que el rendimiento en programación, matemáticas, física y otros campos ha mejorado enormemente, sino que también ha encontrado un camino a seguir para un grupo de seguidores de openai y los inversores detrás de ellos: en el pasado, la informática la potencia se utilizó más para "memorizar conocimientos". al utilizar una gran cantidad de datos para entrenar el modelo, o1 asigna más potencia informática a "pensar al responder preguntas", es decir, el proceso de razonamiento y la capacidad lógica mejoran enormemente.

antes de esto, el entrenamiento de modelos grandes había caído en el cuello de botella de las leyes de escalado originales. después de expandir la escala de parámetros del modelo, la mejora del rendimiento se desaceleró gradualmente.

especialmente optimizado para matemáticas, programación y problemas científicos, o1-mini también muestra un potencial de aplicación considerable. no solo puede ayudar directamente a los científicos y desarrolladores a mejorar la eficiencia del trabajo, sino que también indica el rendimiento y la seguridad del desarrollo en otros campos verticales de alto valor. son mejores enfoques modelo.

como es habitual con varios lanzamientos, openai eligió cuidadosamente el momento del lanzamiento de o1. según informes de los medios, antes del lanzamiento de o1, openai buscaba 7 mil millones de dólares en nueva financiación con una valoración de 150 mil millones de dólares. entre los posibles inversores se incluyen apple, nvidia, microsoft y el fondo de inversión de los emiratos árabes unidos. ahora, la carrera por la inversión en recursos tiene otra razón para continuar.

del modelo de lenguaje amplio al "modelo de inferencia", o1 es fuerte en teoría y débil en literatura

esta vez openai lanzó dos modelos para los usuarios: o1-preview y o1-mini, y anunció que hay más modelos de la serie o1 en camino.

la razón por la que esta serie se llama o1 en lugar de usar gpt es porque hay cambios obvios en los métodos de entrenamiento de los dos. en la publicación del blog de openai que presenta o1, se le llama muchas veces modelo de razonamiento, en lugar del modelo de lenguaje grande que se usa comúnmente al llamar a gpt.

la lógica de entrenamiento general de los modelos tradicionales de lenguaje grande, como gpt, es preentrenamiento más ajuste fino: primero use datos masivos para enseñarle al modelo grande a predecir la siguiente palabra en la etapa de preentrenamiento, y luego déjelo aprender a predecir la siguiente palabra en la etapa de ajuste fino. el modelo grande aprende conocimientos en un campo específico y permite a los humanos escribir respuestas para enseñarle al modelo grande qué respuestas quiere la gente, y la máquina mejora en función de la retroalimentación.

las nuevas palabras clave de o1 son aprendizaje por refuerzo y cadena de pensamiento (cot).

openai describe el proceso de esta manera: “a través del aprendizaje por refuerzo, o1 aprende a perfeccionar su cadena de pensamiento y refinar las estrategias que utiliza. aprende a reconocer y corregir sus propios errores; aprende a dividir pasos complejos en otros más simples; "mejora enormemente las capacidades de inferencia del modelo al probar diferentes métodos cuando el método actual no funciona".

alphago, que derrotó al campeón mundial de go en 2016, y su modelo posterior alphazero, utilizó el aprendizaje por refuerzo para permitir que el modelo jugara por sí mismo y aprendiera qué estrategias usar para mejorar la tasa de victorias en diferentes estados (juegos). el modelo también puede generar datos mediante pruebas continuas para entrenar el modelo.

openai o1 utiliza un método similar: proporciona al modelo grande datos de resolución de problemas paso a paso, lo que le permite aprender a autocorregirse y aprender a responder preguntas en cada paso para obtener la respuesta óptima.

"la capacidad del modelo de ia todavía proviene de los datos. si originalmente falta algo o es insuficiente en los datos, el modelo no puede aprenderlo. o1 equivale a implementar un método de síntesis de datos profesionales. con estos datos profesionales, o1 puede aprender capacidades profesionales", afirmó yuan jinhui, fundador de silicon mobile.

o1 al responder una pregunta, también la dividirá en una serie de pequeñas preguntas y la responderá razonando paso a paso. esta es la "cadena de pensamiento". según la visualización de openai, el proceso de respuesta de o1 a las preguntas es el siguiente (en la versión utilizada por el usuario, openai oculta el contenido de la cadena de pensamiento):

pregunta (originalmente en inglés):

escriba un script bash que reciba una matriz (representada como una cadena en el formato '[1,2],[3,4],[5,6]') e imprima la transpuesta de la matriz en el mismo formato.

ideas de resolución de problemas de o1-preview (cadena de pensamiento):

un usuario solicitó escribir un script bash que pueda recibir una cadena que represente una matriz, como '[1,2],[3,4],[5,6]', y generar su transposición en el mismo formato.

primero comprendamos los formatos de entrada y salida.

entrada: '[1,2],[3,4],[5,6]', su matriz correspondiente es:

1 2

3 4

5 6

por lo tanto, la entrada es una serie de líneas encerradas entre corchetes y separadas por comas.

la transpuesta de esta matriz es:

1 3 5

2 4 6

por lo tanto, el resultado requerido es '[1,3,5],[2,4,6]'.

misión general:

escriba un script bash que tome un argumento (una cadena que representa una matriz) y genere su transposición en el mismo formato.

bien, ahora consideremos cómo analizar una cadena de entrada en bash, construir una matriz (posiblemente usando una matriz), transponerla y luego generar la matriz transpuesta, manteniendo el mismo formato.

restricciones:

- como se trata de bash, debemos tener cuidado con el análisis de cadenas.

-el script debe aceptar una cadena de entrada como parámetro.

método:

-analizar la cadena de entrada para extraer elementos de la matriz.

- construir una matriz como un conjunto de conjuntos.

-transponer la matriz.

- imprima la matriz transpuesta en el mismo formato.

pasos de implementación:

1. capture la cadena de entrada como parámetro.

2. elimine todos los espacios (si los hay).

3. analice la cadena de entrada y extraiga los números en una matriz.

-dado que el formato de entrada es '[1,2],[3,4],[5,6]', podemos:

--quite los soportes exteriores si es necesario.

--divida la cadena por ']' para obtener cada línea.

--para cada línea, elimine '[' y ']' y luego separe los elementos por ','.

4. construya una matriz bidimensional (matriz de matrices) en bash.

-dado que las matrices bash son unidimensionales, necesitamos simular una matriz bidimensional.

5. transponer la matriz.

-al transponer, necesitamos intercambiar filas y columnas.

6. genere la matriz transpuesta en el formato deseado.

-reconstruir la cadena de salida en el formato de '[1,3,5],[2,4,6]'.

ahora, comienza a escribir el código paso a paso.

problemas potenciales:

-bash en sí no tiene matrices multidimensionales nativas, por lo que necesitamos simularlo.

-necesitamos lidiar con números que pueden tener varios dígitos.

a continuación, podemos comenzar a escribir el marco de este script bash paso a paso.

【levemente】

ahora probemos este script usando la entrada de ejemplo '[1,2],[3,4],[5,6]'.

déjame intentar simular lo que sucedería.

lo escribiré como respuesta.

ni el aprendizaje por refuerzo ni el encadenamiento de pensamientos fueron las primeras direcciones técnicas propuestas por openai.

antes de que o1 estuviera en línea, google deepmind lanzó una versión actualizada del modelo alphageometry entrenado con un método similar en julio, que pudo ganar una medalla de plata en la olimpiada internacional de matemáticas de la omi.

pero openai demostró una vez más que puede tomar la iniciativa en la creación de modelos con resultados más sorprendentes basados en la industria. según openai, su modelo o1-ioi especialmente entrenado para la olimpiada internacional de informática puede ganar la medalla de oro.

con nuevos métodos de entrenamiento e inferencia, openai o1-preview supera significativamente a gpt-4o en la resolución de problemas matemáticos difíciles y el procesamiento de tareas de programación. por ejemplo, en el conjunto de datos de competencia de matemáticas aime 2024, la puntuación de vista previa de o1 es más de 4 veces mayor que la de gpt-4o; en el conjunto de datos de competencia de programación codeforces, la brecha se vuelve 5,6 veces.

en competencias de matemáticas, competencias de programación y pruebas de conjuntos de datos de preguntas y respuestas científicas, o1-preview y o1 superaron significativamente a gpt-4o.

openai dijo que las versiones actualmente limitadas de openai o1-preview y openai o1-mini son solo las primeras versiones. su próximo modelo funciona de manera similar a un estudiante de doctorado en preguntas desafiantes de exámenes en física, química, biología, etc., mientras que el modelo anterior es la mayoría. son a nivel de pregrado o maestría.

al convertir la tecnología en realidad, openai mencionó 212 contribuyentes, lo que es comparable a los contribuyentes de la parte de texto de gpt-4o (234 personas). pero entrenar o1 requiere más tipos de datos. openai mencionó que los datos utilizados en el entrenamiento previo de o1 provienen de conjuntos de datos públicos, datos de propiedad de los socios y conjuntos de datos personalizados desarrollados internamente, mientras que gpt-4o solo usa los dos primeros tipos de datos cuando domina las capacidades de texto.

la serie o1, que está sesgada hacia los "modelos de inferencia", no ha superado por completo al gpt-4o y su capacidad lingüística es su relativa debilidad.

en las pruebas de openai, la mayoría de la gente cree que o1-preview es mejor que gpt-4o para responder preguntas que valoran el razonamiento, como el análisis de datos, la programación y las matemáticas. sin embargo, en términos de escritura personal, edición de texto, etc., gpt-4o. es todavía mejor.

los problemas que no se pueden resolver con gpt-4o también aparecerán en o1-preview. por ejemplo, también hará "tonterías" y pensará que 9.11 es mayor que 9.2.

para escritura personal, edición de texto, etc., gpt-4o es mejor.

el mayor tiempo de respuesta (pensamiento) que aporta la cadena de pensamiento puede ser una deficiencia de la serie o1 en el uso real. cuando se le pidió "enumerar los nombres de cinco países cuya tercera letra es a", gpt-4o solo tomó 3 segundos, mientras que o1-mini tomó 9 segundos, o1-preview tomó 32 segundos y gpt-4o diez veces. básicamente no está disponible para preguntas simples.

por el momento, o1-preview y mini no tienen las funciones de navegar por la web, obtener información y procesar archivos e imágenes cargados como gpt-4o. en la actualidad, parece que las personas más rápidas que pueden usar o1 para mejorar la productividad son los desarrolladores de software, pero openai también limita la forma en que llaman a la api: solo pueden llamar 20 veces por minuto, excluyendo funciones como llamadas a funciones, streaming y soporte de mensajes del sistema.

del entrenamiento al escalado al escalado de inferencia, la competencia por la potencia informática continuará

en opinión de muchos investigadores de modelos grandes, el cambio más importante de o1 es que muestra un nuevo camino para mejorar en gran medida las capacidades de los modelos grandes.

las leyes de escala originales significan que el uso de más datos y potencia informática para entrenar un modelo con parámetros más grandes dará como resultado un mejor rendimiento.

como se muestra en la figura siguiente, o1 muestra que si el modelo dedica más tiempo y más potencia informática a responder preguntas (cómputo en el momento de la prueba), el rendimiento seguirá mejorando. el científico senior de inteligencia artificial de nvidia, jim fan, dijo en las redes sociales que esta puede ser la imagen más importante en la investigación de modelos grandes desde que deepmind propuso las leyes de escala de chinchill (una optimización de las leyes de escala originales) en 2022.

jim fan también propuso una posibilidad para la evolución futura de modelos grandes: los modelos futuros pueden separar el razonamiento del conocimiento, tener un pequeño "núcleo de razonamiento" y también utilizar una gran cantidad de parámetros para memorizar hechos (conocimiento) para pruebas como preguntas de trivia. y respuestas excelente desempeño.

openai también mencionó específicamente en el artículo que presenta o1 que continuarán desarrollando la serie de modelos gpt. esto puede indicar que openai introducirá los métodos utilizados en o1 en el modelo gpt de próxima generación.

ya sea que o1 se convierta en el nuevo método principal o que o1 se combine con la serie gpt para evolucionar la próxima generación de modelos grandes, los requisitos de potencia informática deberían aumentar aún más.

openai no ha revelado el costo de inferencia de la serie o1, pero a partir del tiempo que tarda el modelo o1 en responder preguntas y las restricciones de uso de openai en o1, se puede inferir que o1 requiere recursos informáticos de inferencia mucho mayores que la serie gpt.

los usuarios pagos de chatgpt plus que gastan $20 por mes actualmente solo pueden usar o1-preview 30 veces y o1-mini 50 veces por semana. el límite actual de gpt-4o es 4480 veces por semana (80 veces cada 3 horas), que es 90 veces mayor que el de o1-mini y 150 veces mayor que el de o1-preview.

el tiempo que tarda o1-preview para responder preguntas ha aumentado de segundos para los modelos de la serie gpt a decenas de segundos o incluso más. también procesa significativamente más texto al responder preguntas. tome los problemas de programación enumerados en el artículo al mostrar el proceso de la "cadena de pensamiento" como ejemplo. cuando o1 lo resolvió, incluida la cadena de pensamiento, procesó 6632 caracteres, que fue 4,2 veces mayor que gpt-4o. un mayor tiempo de cálculo y una mayor producción significan mayores costos de energía informática.

o1 la estimulación de las perspectivas de la ia y el consumo de energía informática se reflejó rápidamente en el mercado de capitales. desde que los medios informaron a principios de esta semana que openai está a punto de lanzar un nuevo modelo, el precio de las acciones de nvidia se ha recuperado un 10% y microsoft también ha subido.

para aquellas empresas que no están seguras de la dirección de la evolución tecnológica o que han ralentizado su investigación sobre modelos básicos, ahora hay nuevo trabajo que hacer y nuevas direcciones que seguir. la alta probabilidad de que se publique o1 significa que, en términos de "modelos de inferencia", la brecha competitiva se ha ampliado una vez más y está a punto de producirse una ronda acelerada de recuperación e inversión.

"es hora de ponerse manos a la obra, de lo contrario no estaremos más en el juego", afirmó un investigador chino de modelos a gran escala.

imagen del título: visual china

en 1957, un objeto creado por el hombre entró en el universo por primera vez y orbitó la tierra durante tres semanas. cuando los humanos miran hacia arriba, pueden ver un pequeño destello de luz que cruza el cielo por la noche, paralelo a las estrellas míticas.

tales hazañas trascienden razas e ideologías y provocan alegría en todo el mundo. pero no la alegría de la victoria que podríamos sospechar movida por las hazañas humanas. según la observación de la filósofa política hannah arendt en ese momento, el estado de ánimo de la gente está más cerca de un alivio largamente esperado: la ciencia finalmente ha alcanzado las expectativas y “la humanidad finalmente está saliendo de la prisión de la tierra”. sido tomado."

la gente siempre ajusta rápidamente sus expectativas del mundo basándose en la exploración tecnológica. cuando la fantasía de un escritor de ciencia ficción se convierte en realidad, suele ser cuando la tecnología finalmente alcanza las expectativas de la gente o, en palabras de arendt, “la tecnología se da cuenta y confirma que los sueños de la gente no son ni locos ni nihilistas”.

en momentos como hoy, es mejor soñar más.

esta es también la expectativa del lanzamiento de "latepost" de la columna tech tuesday. esperamos presentar periódicamente nuevas investigaciones científicas y avances tecnológicos además del mundo empresarial al que "late" presta atención diaria.

pueden tratarse del progreso de una investigación de vanguardia, de una observación de una aplicación tecnológica o de un homenaje a algunas tecnologías destacadas o incluso a una época.

esta columna registrará los diversos cambios en el mundo desde la perspectiva de la ciencia y la tecnología. durante este viaje, espero que los lectores puedan unirse a nosotros y comprender un poco más el mundo.

· fin ·

noticias

openai vuelve a dar a los modelos grandes una "burbuja" para alargar su vida

introducción

mi información de contacto