o1 exposición repentina a información privilegiada? google reveló el principio anteriormente: no hay foso para los modelos grandes sólo con software.

2024-09-17

mingmin viene del templo de aofei.
qubits | cuenta pública qbitai

menos de una semana después de su lanzamiento, el foso del modelo o1 más potente de openai ha desaparecido.

alguien descubrió que un artículo publicado por google deepmind en agosto revelaba el principio y cómo funciona o1.casi unánime。

este estudio muestra que aumentar los cálculos del tiempo de prueba es más eficiente que ampliar los parámetros del modelo.

según la estrategia de expansión del cálculo del tiempo de prueba de cálculo óptimo propuesta en el artículo, el modelo básico más pequeño puede superar uno en algunas tareas.14 veces más grandemodelo.

los internautas dijeron:

este es casi el principio de o1.
como todos sabemos, a ultraman le gusta estar por delante de google, entonces, ¿es por eso que o1 lanzó primero la versión preliminar?

algunas personas lamentaron esto:

de hecho, como dijo el propio google, nadie tiene un foso y nadie jamás tendrá un foso.

en este momento, openai aumentó la velocidad de o1-mini 7 veces y puede usar 50 elementos por día; o1-preview mencionó 50 elementos por semana.

ahorre 4 veces la cantidad de cálculo

el título de este artículo de google deepmind es:al optimizar las pruebas llm, el cálculo es más eficiente que expandir la escala de parámetros del modelo.。

el equipo de investigación se basó en los patrones de pensamiento humano. dado que las personas tardarán más en pensar y mejorar sus decisiones cuando se enfrentan a problemas complejos, ¿puede ocurrir lo mismo con el llm?

en otras palabras, cuando se enfrenta a una tarea compleja, ¿llm puede utilizar de manera más efectiva los cálculos adicionales durante las pruebas para mejorar la precisión?

algunos estudios previos han demostrado que esta dirección es efectivamente factible, pero el efecto es relativamente limitado.

entonces, ¿este estudio quería descubrir cuánto se puede mejorar el rendimiento del modelo cuando se utilizan relativamente pocos cálculos de inferencia adicionales?

diseñaron una serie de experimentos para probar el conjunto de datos math utilizando palm2-s*.

se analizan principalmente dos métodos:

(1) autorevisión iterativa: deje que el modelo intente responder una pregunta varias veces, revisándola después de cada intento para obtener una mejor respuesta.
(2) buscar: en este enfoque, el modelo genera múltiples respuestas candidatas,

se puede ver que cuando se utiliza el método de autorrevisión, a medida que aumenta la cantidad de cálculo durante las pruebas, la brecha entre la estrategia estándar mejor de n y la estrategia de expansión computacional óptima se amplía gradualmente.

el uso del método de búsqueda para calcular la estrategia de expansión óptima muestra ventajas obvias en la etapa inicial. y bajo ciertas circunstancias, puede lograr el mismo efecto que la mejor estrategia n,la cantidad de cálculo es sólo 1/4 de eso.。

en una evaluación coincidente de flop comparable a los cálculos previos al entrenamiento, se compara un modelo previamente entrenado 14 veces más grande (sin inferencia adicional) con palm 2-s* (usando la estrategia computacional óptima).

se descubrió que cuando se utiliza el método de autorrevisión, cuando los tokens de inferencia son mucho más pequeños que los tokens previos al entrenamiento, el efecto de utilizar la estrategia de cálculo del tiempo de prueba es mejor que el efecto previo al entrenamiento. pero a medida que aumenta la proporción, o en problemas más difíciles, el entrenamiento previo sigue funcionando mejor.

es decir, en ambos casos, la clave para calcular si el método de extensión es válido según diferentes pruebas esdificultad de la pista。

el estudio comparó además diferentes métodos de búsqueda de prm y los resultados mostraron que la búsqueda directa (extremo derecho) requiere más cálculos.

cuando la cantidad de cálculo es pequeña, utilizar la estrategia de cálculo óptima puede ahorrar hasta 4 veces más recursos.

comparando el modelo o1 de openai, este estudio casi llega a la misma conclusión.

el modelo o1 aprende a refinar su proceso de pensamiento, probar diferentes estrategias y reconocer sus errores. y con más aprendizaje por refuerzo (calculado durante el entrenamiento) y más tiempo para pensar (calculado durante las pruebas), el rendimiento de o1 continúa mejorando.

sin embargo, openai lanzó el modelo más rápido, mientras que google usa palm2 y no ha publicado una actualización sobre gemini2.

internauta: ¿el foso es sólo sobre hardware?

estos nuevos hallazgos inevitablemente recuerdan a las personas las opiniones expresadas en los documentos internos de google el año pasado:

no tenemos un foso, y openai tampoco. el modelo de código abierto puede vencer a chatgpt.

hoy en día, la velocidad de cada investigación es muy rápida y nadie puede garantizar que siempre estará por delante.

el único foso puede ser el hardware.

(¿entonces musk va a construir un centro de computación?)

algunas personas dicen que nvidia ahora controla directamente quién tiene más potencia informática. entonces, ¿qué sucede si google/microsoft desarrolla un chip personalizado que funcione mejor?

vale la pena mencionar que el primer chip de openai fue expuesto hace algún tiempo y utilizará el proceso de nivel de angstrom a16 más avanzado de tsmc y está especialmente diseñado para aplicaciones de video sora.

obviamente, para campos de batalla de modelos grandes, simplemente hacer rodar el modelo en sí ya no es suficiente.

enlaces de referencia:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/

noticias

o1 exposición repentina a información privilegiada? google reveló el principio anteriormente: no hay foso para los modelos grandes sólo con software.

ahorre 4 veces la cantidad de cálculo

internauta: ¿el foso es sólo sobre hardware?

introducción

mi información de contacto