Detrás del GPT-4o mini, más pequeño y potente, el futuro de los modelos de IA ya no es más grande ni mejor

Detrás del GPT-4o mini, más pequeño y potente, el futuro de los modelos de IA ya no es que cuanto más grande, mejor

2024-07-27

la semana pasada IA abierta Haz un gran movimiento a altas horas de la nocheGPT-4o El mini sacó del retiro al GPT-3.5 Turbo e incluso superó al GPT-4 en el ámbito de los modelos grandes LMSYS.

Esta semana Meta lanzó Para los modelos grandes, si todavía se espera el tamaño 405B del primer escalón, entonces los tamaños 8B y 70B de las nuevas versiones traen más sorpresas.

Y puede que este no sea el final de la competencia por los modelos pequeños, sino más bien un nuevo punto de partida.

No es que los modelos grandes sean inasequibles, pero los modelos pequeños son más rentables.

En el vasto mundo de los círculos de la IA, los modelos pequeños siempre han tenido sus propias leyendas.

Mirando hacia afuera, el éxito de taquilla Mistral 7B del año pasado fue aclamado como el "mejor modelo 7B" tan pronto como se lanzó. Superó al modelo de parámetros 13B Llama 2 en múltiples puntos de referencia de evaluación y lo superó en razonamiento, matemáticas y generación de código. .

Este año, Microsoft también abrió el modelo grande de parámetros pequeños más potente, phi-3-mini. Aunque el número de parámetros es de solo 3.800 millones, los resultados de la evaluación del rendimiento superan con creces el mismo nivel de escala de parámetros y son comparables a modelos más grandes como GPT-. 3.5 y Soneto de Claude-3.

Mirando hacia adentro, Wall Intelligence lanzó MiniCPM, un modelo de lenguaje de lado a lado con solo 2B de parámetros a principios de febrero. Utiliza un tamaño más pequeño para lograr un rendimiento más potente. Su rendimiento supera al popular modelo francés Mistral-7B, conocido como ". Pequeño Acero". pistola".

No hace mucho, MiniCPM-Llama3-V2.5, que tiene un tamaño de parámetro de solo 8B, también superó a modelos más grandes como GPT-4V y Gemini Pro en términos de rendimiento integral multimodal y capacidades de OCR. Equipo de IA de la Universidad de Stanford.

Hasta la semana pasada, OpenAI, que estaba bombardeando a altas horas de la noche, lanzó lo que describió como "el modelo de parámetros pequeños más poderoso y rentable": GPT-4o mini, que atrajo la atención de todos nuevamente hacia el modelo pequeño.

Desde que OpenAI arrastró al mundo a la imaginación de la IA generativa, desde contextos prolongados hasta parámetros móviles, agentes y ahora guerras de precios, el desarrollo en el país y en el extranjero siempre ha girado en torno a una lógica: permanecer en el campo avanzando hacia la comercialización. . En la mesa de juego.

Por tanto, en el ámbito de la opinión pública, lo más llamativo es que OpenAI, que ha reducido los precios, parece estar entrando en una guerra de precios.

Es posible que muchas personas no tengan una idea clara del precio del GPT-4o mini. GPT-4o mini por 1 millón de entradassimbólico El precio es de 15 centavos y el precio por millón de tokens de salida es de 60 centavos, lo que es más de un 60% más barato que GPT-3.5 Turbo.

En otras palabras, GPT-4o mini genera un libro de 2500 páginas por sólo 60 centavos.

El CEO de OpenAI, Sam Altman, también lamentó sobre X que, en comparación con GPT-4o mini, el modelo más potente de hace dos años, no solo tenía una enorme brecha de rendimiento, sino que también tenía un costo de uso 100 veces mayor que ahora.

Si bien la guerra de precios por los modelos grandes es cada vez más feroz, es más probable que algunos modelos pequeños de código abierto eficientes y económicos atraigan la atención del mercado. Después de todo, no es que los modelos grandes no puedan usarse, sino que los modelos pequeños son más rentables. .

Por un lado, cuando las GPU en todo el mundo están agotadas o incluso agotadas, los modelos pequeños de código abierto con menores costos de capacitación e implementación son suficientes para ganar ventaja gradualmente.

Por ejemplo, MiniCPM lanzado por Mianbi Intelligence puede lograr una caída vertiginosa en los costos de inferencia con sus parámetros más pequeños, e incluso puede lograr la inferencia de la CPU. Solo requiere una máquina para el entrenamiento continuo de parámetros y una tarjeta gráfica para el ajuste de parámetros. También hay mejoras continuas en el costo del espacio.

Si es un desarrollador maduro, incluso puede entrenar un modelo vertical en el campo legal construyendo un modelo pequeño usted mismo, y el costo de inferencia puede ser solo una milésima parte del costo de ajustar un modelo grande.

La implementación de algunas aplicaciones de "modelos pequeños" del lado de la terminal ha permitido a muchos fabricantes ver los albores de la rentabilidad. Por ejemplo, Facewall Intelligence ayudó al Tribunal Popular Intermedio de Shenzhen a lanzar un sistema de juicio asistido por inteligencia artificial, demostrando el valor de la tecnología para el mercado.

Por supuesto, es más exacto decir que el cambio que comenzaremos a ver no es un cambio de modelos grandes a pequeños, sino un cambio de una única categoría de modelos a una cartera de modelos, dependiendo la elección del modelo correcto. sobre las necesidades específicas de la organización, Complejidad de tareas y recursos disponibles.

Los modelos pequeños, por otro lado, son más fáciles de implementar e integrar en dispositivos móviles, sistemas integrados o entornos de bajo consumo.

La escala de parámetros de un modelo pequeño es relativamente pequeña en comparación con un modelo grande, su demanda de recursos informáticos (como potencia informática de IA, memoria, etc.) es menor y puede funcionar sin problemas en dispositivos finales con limitaciones. recursos. Además, los equipos finales suelen tener requisitos más extremos en cuanto a consumo de energía, generación de calor y otros problemas. Los modelos pequeños especialmente diseñados pueden adaptarse mejor a las limitaciones de los equipos finales.

El CEO de Honor, Zhao Ming, dijo que debido a problemas de potencia informática de IA en el lado del cliente, los parámetros pueden estar entre 1B y 10B, y el modelo de red grandecomputación en la nubeLa capacidad puede alcanzar entre 10 y 100 mil millones, o incluso más. Esta capacidad es la brecha entre los dos.

El teléfono está en un espacio muy limitado, ¿verdad? Admite 7 mil millones en una batería limitada, una disipación de calor limitada y un entorno de almacenamiento limitado. Si imagina que hay tantas limitaciones, debe ser la más difícil.

También hemos revelado a los héroes detrás de escena responsables de operar los teléfonos inteligentes de Apple. Entre ellos, el modelo pequeño 3B afinado se dedica a tareas como resumir y pulir. Con la bendición de un adaptador, sus capacidades son mejores que. Gemma-7B y es adecuado para ejecutarse en terminales de telefonía móvil.

Así, vemos que el ex gurú de OpenAI, Andrej Karpathy, recientemente consideró que la competencia en el tamaño del modelo será una "involución inversa", no cada vez más grande, sino quién es más pequeño y más flexible.

¿Por qué los modelos pequeños pueden derrotar a los grandes con los pequeños?

La predicción de Andrej Karpathy no es infundada.

En esta era centrada en los datos, los modelos se están volviendo rápidamente más grandes y complejos. La mayoría de los modelos muy grandes (como GPT-4) entrenados con datos masivos en realidad se utilizan para recordar una gran cantidad de detalles irrelevantes, es decir, memorizar información. por rutina.

Sin embargo, el modelo perfeccionado puede incluso "ganar a los grandes con los pequeños" en tareas específicas, y su usabilidad es comparable a la de muchos "modelos súper grandes".

El director ejecutivo de Hugging Face, Clem Delangue, también sugirió que hasta el 99% de los casos de uso se pueden resolver mediante el uso de modelos pequeños y predijo que 2024 será el año de los modelos de lenguaje pequeños.

Antes de investigar las razones, primero debemos popularizar algunos conocimientos científicos.

En 2020, OpenAI propuso una ley famosa en un artículo: la ley de escala, que significa que a medida que aumenta el tamaño del modelo, su rendimiento también aumentará. Con la introducción de modelos como GPT-4, las ventajas de la ley de escala han ido surgiendo gradualmente.

Los investigadores e ingenieros en el campo de la IA creen firmemente que al aumentar el número de parámetros del modelo, se pueden mejorar aún más la capacidad de aprendizaje y la capacidad de generalización del modelo. De esta manera, hemos sido testigos del salto de escala del modelo de miles de millones de parámetros a cientos de miles de millones, e incluso ascender hacia modelos con billones de parámetros.

En el mundo de la IA, el tamaño de un modelo no es el único criterio para medir su inteligencia.

Por el contrario, un modelo pequeño bien diseñado, al optimizar el algoritmo, mejorar la calidad de los datos y adoptar tecnología de compresión avanzada, a menudo puede mostrar un rendimiento comparable o incluso mejor que el de un modelo grande en tareas específicas.

Esta estrategia de utilizar lo pequeño para lograr mayores resultados se está convirtiendo en una nueva tendencia en el campo de la IA.Entre ellos, mejorar la calidad de los datos es una de las formas en que los modelos pequeños pueden ganarse a los grandes.

Satish Jayanthi, CTO y cofundador de Coalesce, describió una vez el papel de los datos en los modelos:

Si hubiera existido en el siglo XVII Máster en Derecho , y le preguntamos a ChatGPT si la Tierra era redonda o plana, y respondió que la Tierra era plana, eso sería porque los datos que le proporcionamos lo convencieron de que ese era el caso. Los datos que proporcionamos a LLM y cómo los entrenamos afectarán directamente su resultado.

Para producir resultados de alta calidad, es necesario entrenar modelos de lenguaje grandes con datos específicos de alta calidad para temas y dominios específicos. Así como los estudiantes necesitan libros de texto de calidad para aprender, los LLM también necesitan fuentes de datos de calidad.

Abandonando la tradicional estética violenta de trabajar duro para lograr milagros, Liu Zhiyuan, profesor asociado permanente en el Departamento de Ciencias de la Computación de la Universidad de Tsinghua y científico jefe de la inteligencia de la pared, propuso recientemente la ley de la pared en la era de las grandes modelos, es decir, la densidad de conocimiento del modelo continúa aumentando, duplicándose cada ocho meses en promedio.

Entre ellos, densidad de conocimiento = capacidad del modelo/parámetros del modelo involucrados en el cálculo.

Liu Zhiyuan explicó vívidamente que si le dan 100 preguntas de una prueba de coeficiente intelectual, su puntuación no solo dependerá de cuántas preguntas responda correctamente, sino también de la cantidad de neuronas que utilice para completar estas preguntas. Cuantas más tareas realices con menos neuronas, mayor será tu coeficiente intelectual.

Esta es exactamente la idea central que transmite la densidad del conocimiento:

Tiene dos elementos. Un elemento es la capacidad de este modelo. El segundo elemento es el número de neuronas necesarias para esta capacidad, o el correspondiente consumo de potencia informática.

En comparación con el GPT-3 de 175 mil millones de parámetros lanzado por OpenAI en 2020, en 2024 lanzó MiniCPM-2.4B con el mismo rendimiento pero solo 2,4 mil millones de parámetros que GPT-3, lo que aumentó la densidad de conocimiento aproximadamente 86 veces.

Un estudio de la Universidad de Toronto también muestra que no todos los datos son necesarios, identificando subconjuntos de alta calidad a partir de grandes conjuntos de datos que son más fáciles de procesar y retienen toda la información y diversidad del conjunto de datos original.

Incluso si se elimina hasta el 95% de los datos de entrenamiento, es posible que el rendimiento predictivo del modelo dentro de una distribución específica no se vea afectado significativamente.

El ejemplo más reciente es sin duda el modelo grande Meta Llama 3.1.

Cuando Meta entrenó a Llama 3, alimentó datos de entrenamiento de tokens de 15T, pero Thomas Scialom, un investigador de Meta AI responsable del trabajo posterior al entrenamiento de Llama2 y Llama3, dijo: El texto en Internet está lleno de información inútil y entrenamiento basado en esta información es un desperdicio de recursos informáticos.

Llama 3 no tuvo ninguna respuesta escrita por humanos en su entrenamiento posterior... simplemente aprovechó los datos puramente sintéticos de Llama 2.

Además, la destilación de conocimientos es también uno de los métodos importantes para "conquistar lo grande con lo pequeño".

La destilación de conocimientos se refiere al uso de un "modelo de maestro" grande y complejo para guiar la capacitación de un "modelo de estudiante" pequeño y simple, que puede transferir el poderoso rendimiento y la capacidad de generalización superior del modelo grande a modelos computacionales más livianos. menos.

Después del lanzamiento de Llama 3.1, el CEO de Meta, Zuckerberg, también destacó la importancia de ajustar y destilar modelos pequeños en su extenso artículo "La IA de código abierto es el camino a seguir".

Necesitamos entrenar, perfeccionar y destilar nuestros propios modelos. Cada organización tiene diferentes necesidades que se satisfacen mejor mediante el uso de modelos entrenados o ajustados a diferentes escalas y con datos específicos.

Ahora puede tomar modelos Llama de última generación, continuar entrenándolos con sus propios datos y luego reducirlos al tamaño de modelo que mejor se adapte a sus necesidades, sin que nosotros ni nadie más vea sus datos.

También se cree generalmente en la industria que las versiones 8B y 70B de Meta Llama 3.1 se destilan de copas ultragrandes, por lo que el rendimiento general ha mejorado significativamente y la eficiencia del modelo también es mayor.

O la optimización de la arquitectura del modelo también es clave. Por ejemplo, la intención original del diseño de MobileNet es implementar modelos eficientes de aprendizaje profundo en dispositivos móviles.

Reduce significativamente la cantidad de parámetros del modelo mediante convolución separable en profundidad. En comparación con ResNet, MobileNetV1 reduce la cantidad de parámetros entre 8 y 9 veces.

MobileNet es computacionalmente más eficiente debido al número reducido de parámetros. Esto es especialmente importante para entornos con recursos limitados, como los dispositivos móviles, ya que puede reducir significativamente los requisitos de computación y almacenamiento sin sacrificar demasiado el rendimiento.

A pesar de los avances técnicos, la propia industria de la IA todavía enfrenta el desafío de la inversión a largo plazo y los altos costos, y el ciclo de retorno es relativamente largo.

Según estadísticas incompletas del "Daily Economic News", a finales de abril de este año se habían lanzado en China un total de unos 305 modelos grandes, pero al 16 de mayo todavía quedaban unos 165 modelos grandes que aún no habían sido lanzados. registro completado.

El fundador de Baidu, Robin Li, criticó públicamente que la existencia de muchos modelos básicos actuales es un desperdicio de recursos y sugirió que los recursos deberían usarse más para explorar la posibilidad de combinar modelos con industrias y desarrollar la próxima súper aplicación potencial.

Este es también un tema central en la industria actual de la IA: la contradicción desproporcionada entre el aumento del número de modelos y la implementación de aplicaciones prácticas.

Ante este desafío, el enfoque de la industria se ha centrado gradualmente en acelerar la aplicación de la tecnología de inteligencia artificial, y los modelos pequeños con bajos costos de implementación y mayor eficiencia se han convertido en un punto de avance más adecuado.

También han comenzado a surgir algunos modelos pequeños centrados en campos específicos, como grandes modelos de cocina y grandes modelos para transmisión en vivo. Aunque estos nombres puedan parecer un poco engañosos, van exactamente en el camino correcto.

En resumen, la IA en el futuro ya no será una existencia única y enorme, sino que será más diversa y personalizada. El auge de los modelos pequeños es un reflejo de esta tendencia. Su excelente desempeño en tareas específicas demuestra que lo "pequeño pero hermoso" también puede ganarse respeto y reconocimiento.

Una cosa más

Si desea ejecutar el modelo con anticipación en su iPhone, también puede probar una aplicación de iOS llamada "Hugging Chat" lanzada por Hugging Face.

Al descargar la aplicación con una cuenta de Magic y Outer Zone App Store, los usuarios pueden acceder y utilizar una variedad de modelos de código abierto, incluidos, entre otros, Phi 3, Mixtral, Command R+ y otros modelos.

Recordatorio: para una mejor experiencia y rendimiento, se recomienda utilizar la versión Pro de última generación del iPhone.

noticias

Detrás del GPT-4o mini, más pequeño y potente, el futuro de los modelos de IA ya no es que cuanto más grande, mejor

Introducción

Mi informacion de contacto