noticias

Jia Yangqing: Los modelos de gran tamaño están volviendo al antiguo camino de CNN Musk: Lo mismo ocurre con Tesla;

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La casa se originó en el templo de Aofei.
Qubits | Cuenta pública QbitAI

¡El gran tamaño del modelo de Transformer cambia y regresa al antiguo camino de CNN!

Al ver que todos se sienten atraídos por LLaMA 3.1,Jia YangqingQué sentimiento.



Comparando el desarrollo de modelos de gran tamaño con el desarrollo de CNN, podemos encontrar una tendencia y un fenómeno obvios:

En la era ImageNet, los investigadores y profesionales técnicos presenciaron un rápido crecimiento en el tamaño de los parámetros y luego comenzaron a pasar a modelos más pequeños y eficientes.

¿Suena igual que la ampliación de los parámetros del modelo por parte de GPT? La industria generalmente está de acuerdo con la Ley de Escala, y luego aparecen GPT-4o mini, Apple DCLM-7B y Google Gemma 2B.

Jia Yangqing dijo con una sonrisa: "Esto es de la era anterior a las grandes modelos y es posible que muchas personas no lo recuerden bien :)".



Además, Jia Yangqing no es el único que percibe esto.El maestro de IA Kapasi también lo cree así.

  • La competencia en los modelos de gran tamaño está aumentando... ¡pero los rollos vienen en la dirección opuesta!
  • El modelo primero debe buscar "más grande" antes de buscar "más pequeño", porque necesitamos este proceso para ayudarnos a reconstruir los datos de entrenamiento en un formato sintético ideal.

Incluso apuesta a que veremos modelos buenos y fiables para pensar.

Y la escala de parámetros es muy pequeña.



Incluso Musk dijo repetidamente en el área de comentarios de Kapasi:



Lo anterior probablemente pueda llamarse "los grandes ven lo mismo".

Ampliar y hablar

La emoción de Jia Yangqing comienza con LLaMA 3.1, que solo permaneció en el trono más fuerte por un corto día.

Fue la primera vez que se realizó "el modelo de código abierto más sólido = el modelo más sólido". No es sorprendente que atrajera mucha atención.

Sin embargo, Jia Yangqing planteó un punto en este momento:

"Pero yo pienso,La industria realmente prosperará con los pequeños modelos verticales.。”

En cuanto a qué son los modelos verticales pequeños, Jia Yangqing también lo dejó muy claro, como esos grandes modelos pequeños y medianos representados por Iynx de Patrouns AI (el modelo de detección de alucinaciones de la compañía, que supera al GPT-4o en tareas de alucinaciones).



Jia Yangqing dijo que, en términos de preferencias personales, a él personalmente le gusta mucho el modelo de 100 mil millones de parámetros.

Pero en realidad, observó que los modelos grandes con rangos de parámetros entre 7B y 70B son más fáciles de usar para todos:

  • Son más fáciles de alojar y no requieren mucho tráfico para ser rentables;
  • Siempre que haga preguntas claras, podrá obtener resultados de calidad decente, contrariamente a algunas creencias anteriores.

Al mismo tiempo, escuchó que los modelos más recientes y más rápidos de OpenAI también estaban comenzando a ser más pequeños que los modelos más grandes "de última generación".



"Si mi comprensión es correcta, entonces esto es definitivamente indicativo de las tendencias de la industria". Jia Yangqing expresó directamente su punto de vista, "es decir, en el mundo real, utilice modelos que sean aplicables, rentables y aún poderosos".

Desde entonces, Jia Yangqing resolvió brevemente la historia del desarrollo de CNN.

En primer lugar, es la era del surgimiento de CNN.

Tomando a AlexNet (2012) como punto de partida, comenzó un período de aproximadamente tres años de crecimiento a escala del modelo.

VGGNet, que apareció en 2014, es un modelo con un rendimiento y una escala muy potentes.

En segundo lugar, hay un período de reducción de personal.

En 2015, GoogleNet redujo el tamaño del modelo del nivel "GB" al nivel "MB", lo que representa una reducción de 100 veces; sin embargo, el rendimiento del modelo no disminuyó drásticamente debido a esto, pero mantuvo un buen rendimiento;

Siguiendo tendencias similares está el modelo SqueezeNet lanzado en 2015.

Durante un tiempo, el desarrollo se centró en la búsqueda del equilibrio.

Estudios posteriores, como ResNet (2015), ResNeXT (2016), etc., han mantenido un tamaño de modelo moderado.

Vale la pena señalar que el control del tamaño del modelo no produce una reducción en la cantidad de cálculos; de hecho, todos están dispuestos a invertir más recursos informáticos y buscar un estado de "mismos parámetros pero más eficiente".

Lo que siguió fue un período en el que CNN bailaba al margen.

Por ejemplo, MobileNet es un esfuerzo interesante lanzado por Google en 2017.

Lo interesante es que consume muy pocos recursos pero tiene un rendimiento excelente.

La semana pasada, alguien le mencionó a Jia Yangqing: "Vaya, todavía usamos MobileNet porque puede ejecutarse en el dispositivo y tiene una excelente generalidad de incorporación de funciones".

Finalmente, Jia Yangqing tomó prestada una imagen de "Una encuesta sobre redes neuronales convolucionales eficientes y aceleración de hardware" de Ghimire et al.:



Y una vez más hizo su pregunta:

¿Los modelos de gran tamaño seguirán la misma tendencia que en la era CNN?

¿Qué piensan los internautas?

De hecho, hay muchos ejemplos de GPT-4o mini que han tomado el camino del desarrollo de modelos grandes, "no grandes sino pequeños".

Cuando las personas mencionadas anteriormente expresaron esta opinión, algunas personas inmediatamente asintieron y propusieron otros ejemplos similares para demostrar que vieron la misma tendencia.

Alguien lo siguió inmediatamente:

  • ¡Tengo un nuevo ejemplo positivo aquí! Gemma-2 destila el conocimiento del modelo con un tamaño de parámetro de 27B en una versión más pequeña.



Algunos internautas dijeron que desarrollar modelos más grandes significa "intensificar" el entrenamiento de generaciones posteriores de modelos más pequeños y verticales.

Este proceso iterativo produce en última instancia lo que se llama un "conjunto de entrenamiento perfecto".

De esta manera, los modelos grandes más pequeños pueden ser tan inteligentes o incluso más que los modelos grandes actuales con enormes parámetros en campos específicos.

En una palabra,Primero se debe agrandar el modelo antes de poder hacerlo más pequeño.



La mayoría de las personas que discutieron este punto de vista todavía están de acuerdo con esta tendencia. Algunas personas dijeron sin rodeos: "Esto es algo bueno y es más práctico y útil que la competencia de parámetros 'Mi modelo es más grande que tu modelo'".

¡Pero por supuesto!

Navegar por las secciones de comentarios en línea,Otros hicieron ruidos diferentes.

Por ejemplo, este amigo dejó un mensaje debajo del tweet de Jia Yangqing:

  • Mistral Large (la empresa detrás de esto, Mistral AI), LLaMA 3.1 (la compañía detrás de esto, Meta) y OpenAI, las compañías con los modelos más competitivos, pueden estar entrenando modelos más grandes actualmente.
  • No veo una tendencia de “avances tecnológicos con modelos más pequeños”.



Ante esta pregunta, Jia Yangqing respondió con prontitud.

Esto es lo que dijo: "¡Es cierto! Cuando digo que los modelos de gran tamaño pueden estar siguiendo el antiguo camino de CNN, definitivamente no me refiero a pedir a todos que dejen de entrenar modelos más grandes".

Explicó además que la intención original de decir esto es que a medida que la tecnología (incluida CNN y los modelos grandes) se implementa cada vez más, todos han comenzado a prestar cada vez más atención a modelos más rentables. "



Por lo tanto, quizás modelos pequeños y grandes más eficientes puedan redefinir la "inteligencia" de la IA y desafiar la suposición de que "cuanto más grande, mejor".

¿Está de acuerdo con este punto de vista?

Enlaces de referencia:
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497