La dirección de los modelos a gran escala ha cambiado, OpenAI y Apple han cambiado

La dirección de los modelos a gran escala ha cambiado y OpenAI Apple ha dado un giro de 180 grados

2024-07-22

cosas inteligentes
AutorZeR0
Editor Mo Ying

La IA generativa parece tener un patrón invisible: de vez en cuando, habrá un impactante "accidente automovilístico" a gran escala.

Solo este año, se lanzó el modelo Google Gemini 1.5 Pro, se lanzó el modelo de generación de video OpenAI Sora y se lanzó el OpenAI GPT-4o en la Conferencia de desarrolladores de Google I/O, lo que permitió a los espectadores de todo el mundo oler la fuerte competencia por Hegemonía entre los grandes modelos. El olor a pólvora.

Si todas las coincidencias anteriores sugieren que OpenAI interceptó deliberadamente a Google, entonces, en cuatro días la semana pasada, Hugging Face, OpenAI, Mistral y Apple lanzaron sucesivamente sus modelos livianos más potentes, que es definitivamente la última tendencia en la industria de la IA.

Ahora, los grandes modelos de IA ya no se tratan solo de carreras"Más grande y más fuerte", y se enrolló violentamente"Haz cosas pequeñas y haz cosas buenas"。

Superar el GPT-4o ya no es el único KPI. Los modelos grandes han entrado en un período de juego crítico para competir por el mercado. Para impresionar a los usuarios, no solo debemos confiar en mostrar fortaleza técnica, sino también demostrar que nuestros propios modelos son más costosos. -eficaz--El modelo es más pequeño con el mismo rendimiento y el rendimiento es mayor con los mismos parámetros y ahorra dinero.。

▲ Los modelos livianos GPT-4o mini y Mistral NeMo lanzados recientemente la semana pasada son muy líderes en términos de rentabilidad (Fuente: Análisis artificial)

De hecho, esta tendencia tecnológica de "modelos grandes rebobinados hacia la miniaturización" comenzó a gestarse en la segunda mitad del año pasado.

Los que cambian el juego son dos empresas. Una es la startup francesa de IA Mistral AI. En septiembre del año pasado, utilizó un modelo grande con 7 mil millones de parámetros para derrotar a Llama 2 con 13 mil millones de parámetros. Sorprendió a todos y se hizo famosa en la comunidad de desarrolladores. Face the Wall Intelligence lanzó en febrero de este año un modelo MiniCPM de extremo más concentrado, logrando un rendimiento superior al Llama 2 13B con solo 2,4 mil millones de parámetros.

Ambas startups son muy conocidas en la comunidad de desarrolladores y muchos modelos han encabezado la lista de código abierto. En particular, Wall-Facing Intelligence, que surgió del Laboratorio de Procesamiento del Lenguaje Natural de la Universidad de Tsinghua, causó un gran revuelo este año cuando su modelo multimodal fue "desgranado" por un equipo de las mejores universidades de los Estados Unidos. El trabajo original ha sido reconocido en círculos académicos nacionales y extranjeros, lo que hace que los modelos nacionales de IA de código abierto estén orgullosos de sí mismos.

Apple también ha comenzado a investigar modelos de terminales que puedan adaptarse mejor a los teléfonos móviles desde el año pasado. OpenAI, que ha seguido la ruta de una expansión extensa y violenta, es un nuevo participante relativamente sorprendente. El lanzamiento del modelo liviano GPT-4o mini la semana pasada significa que el hermano mayor del modelo tomó la iniciativa de bajar del "altar" y comenzó a seguir la tendencia de la industria, tratando de utilizar modelos más baratos y más fáciles de conseguir para aprovechar. un mercado más amplio.

¡2024 será un año crítico para la "miniaturización" de modelos grandes!

▲ Las estadísticas incompletas de los modelos de lenguaje general livianos lanzados recientemente en 2024 solo se incluyen en el modelo de lenguaje general con una cantidad de parámetros de ≤8B que se puede implementar en el lado del dispositivo, y los modelos multimodales no están incluidos (Fuente: Zhidongxi)

1. La “Ley de Moore” en la era de los grandes modelos: sólo la eficiencia puede conducir a la sostenibilidad

Actualmente, la investigación y el desarrollo de grandes modelos están cayendo en una inercia:Milagro vigorosamente。

En 2020, un artículo de OpenAI verificó que existe una fuerte correlación entre el rendimiento del modelo y la escala. Siempre que absorba más datos de alta calidad y entrene un modelo más grande, podrá obtener un mayor rendimiento.

Siguiendo este camino simple pero efectivo, en los últimos dos años se ha producido una rápida carrera global para buscar modelos más grandes. Esto plantea el peligro oculto de la hegemonía algorítmica. Sólo los equipos con suficientes fondos y potencia informática tienen el capital para participar en la competición durante mucho tiempo.

El año pasado, el director ejecutivo de OpenAI, Sam Altman, reveló que el costo de entrenar GPT-4 es al menos100 millones de dólares . En ausencia de un modelo de negocios de alta rentabilidad, incluso las grandes empresas tecnológicas con mucho dinero tendrán dificultades para permitirse inversiones a largo plazo, independientemente del costo. El entorno ecológico no puede tolerar que se permita este juego sin fondo de quema de dinero.

La brecha de rendimiento entre los principales modelos de lenguajes grandes se está reduciendo visiblemente. Aunque GPT-4o ocupa firmemente el primer lugar, la diferencia en las puntuaciones de referencia con Claude 3 Opus y Gemini 1.5 Pro se mantiene sin cambios. En algunas capacidades, decenas de miles de millones de modelos grandes pueden incluso lograr un mejor rendimiento. El tamaño del modelo ya no es el único factor decisivo que influye en el rendimiento.

No es que los modelos grandes superiores no sean atractivos, es que los modelos livianos son más rentables.

La siguiente imagen es un gráfico de tendencias de costos de inferencia de IA compartido por la ingeniera de IA Karina Ngugen en plataformas sociales a fines de marzo de este año. Muestra claramente la relación entre el desempeño de modelos de lenguaje grandes en el punto de referencia MMLU y su costo desde 2022: Más. Con el tiempo, el modelo de lenguaje obtiene puntuaciones de precisión MMLU más altas y los costos asociados se reducen significativamente. La precisión del nuevo modelo alcanza alrededor del 80%, mientras que la rentabilidad es mucho menor que hace unos años.

El mundo está cambiando muy rápido y en los últimos meses ha habido una ola de nuevos modelos livianos y rentables.

▲ Los modelos de menor tamaño pueden lograr un rendimiento excelente a un costo menor (Fuente: IA integrada)

"La competencia por modelos de lenguaje de gran tamaño se está intensificando, ¡al revés!", apuesta el gurú de la tecnología de inteligencia artificial, Andrej Karpathy: "Veremos algunos modelos muy, muy pequeños 'pensando' muy bien y de manera confiable".

Capacidad del modelo ÷ parámetros del modelo involucrados en el cálculo = densidad de conocimiento , esta dimensión de medición se puede utilizar para representar que los modelos con la misma escala de parámetros pueden tener una gran inteligencia. El gran modelo GPT-3 lanzado en junio de 2020 tiene 175 mil millones de parámetros.En febrero de este año, el tamaño de los parámetros del modelo inteligente MiniCPM-2.4B de pared que logró el mismo rendimiento se redujo a 2.400 millones, lo que equivale a un aumento de la densidad de conocimiento de aproximadamente86 veces。

Basándose en estas tendencias, Liu Zhiyuan, profesor asociado permanente del Departamento de Ciencias de la Computación de la Universidad de Tsinghua y científico jefe de inteligencia orientada a la pared, presentó recientemente un punto de vista interesante:La era de los grandes modelos tiene su propia "Ley de Moore"。

En particular,Con el desarrollo coordinado de datos, potencia informática y algoritmos, la densidad de conocimiento de los grandes modelos sigue aumentando, duplicándose cada ocho meses en promedio.。

▲ De los cambios en la lista de OpenCompass, podemos ver que los parámetros pequeños y los modelos de alto rendimiento se han convertido en una tendencia.

Al aumentar la densidad de circuitos en el chip, los dispositivos informáticos con la misma potencia informática evolucionarán desde supercomputadoras que caben en varias habitaciones hasta teléfonos móviles que se pueden llevar en los bolsillos. El desarrollo posterior de modelos grandes seguirá un patrón similar. Liu Zhiyuan nombró la ley rectora que propuso como "Ley de revestimiento de paredes".

Si esta tendencia continúa,Para entrenar un modelo con 100 mil millones de parámetros, podrá alcanzar las capacidades de un modelo con 50 mil millones de parámetros en 8 meses, y en otros 8 meses se puede lograr con solo 25 mil millones de parámetros.。

2. Las fuerzas están divididas en múltiples direcciones: la guerra de precios de código cerrado está en pleno apogeo y China, Estados Unidos y Europa de código abierto compiten entre sí.

Los jugadores que actualmente participan en la competencia de modelos livianos de gran tamaño se dividen en muchos grupos.

OpenAI, Google y Anthropic han tomado la ruta del código cerrado. Sus modelos insignia, como GPT-4o, Claude 3.5 Sonnet y Gemini 1.5 Pro, controlan los niveles de rendimiento más altos, y la escala de parámetros de estos modelos alcanza cientos de miles de millones o incluso billones.

El modelo liviano es una versión simplificada de su modelo insignia. Después del lanzamiento de OpenAI la semana pasada, GPT-4o mini se ha convertido en la opción más rentable del mercado por debajo de 10 mil millones en virtud de su rendimiento, superando a Gemini Flash y Claude Haiku reemplazó a GPT-3.5 para uso gratuito por parte de los usuarios. ToB redujo drásticamente el precio de la API en un puñado, lo que redujo el umbral para adoptar tecnología de modelos grandes.

Andriy Burkov, autor de "Machine Learning Engineering", deduce que las especificaciones de parámetros del GPT-4o mini rondan los 7B según el precio. El director ejecutivo de Wall-facing Intelligence, Li Dahai, especula que GPT-4o mini es un modelo de "moE amplio" con una gran cantidad de expertos, en lugar de un modelo del lado del dispositivo. Se posiciona como un modelo de nube rentable para reducir en gran medida la industria. Costo de implementar modelos grandes.

El campo de modelos ligeros de código abierto es aún mayor, con jugadores representativos de China, Estados Unidos y Europa.

Alibaba nacional, Wall-Facing Intelligence, SenseTime y el Laboratorio de Inteligencia Artificial de Shanghai han abierto algunos modelos livianos.Entre ellos, los modelos de la serie Qwen de Alibaba se utilizan con frecuencia en pruebas comparativas de modelos livianos, y los modelos de inteligencia de pared de la serie MiniCPM también son ejemplos del uso de parámetros pequeños para superar modelos grandes en segundos y son muy elogiados en la comunidad de código abierto.

Face Wall Intelligence es un equipo empresarial con visión de futuro que tomó la iniciativa en China en 2020 y comenzó a explorar cómo utilizar tecnología de ajuste eficiente para reducir los costos de capacitación. de AI Agent a principios del año pasado y lanzó más de 100 mil millones de agentes de AI en agosto. Modelo grande modal, aplica tecnología de agentes y modelos grandes a finanzas, educación, asuntos gubernamentales, terminales inteligentes y otros escenarios, formula la dirección del dispositivo. colaboración en la nube a finales de año y luego lanzar de forma intensiva una variedad de modelos de dispositivos de alta eficiencia y bajo consumo de energía este año.

En los últimos seis meses, Wallface Intelligence ha lanzado los modelos base MiniCPM 2.4B y MiniCPM 1.2B, el modelo de texto largo MiniCPM-2B-128k, el modelo multimodal MiniCPM-V 2.0 y el nivel de rendimiento MiniCPM-4V. Llama3-V 2.5 modelo experto híbrido MiniCPM-MoE-8x2B, etc. Hasta ahora, el volumen total de descargas de la serie MiniCPM ha alcanzado casi 950.000, con 12.000 estrellas.

Esta startup también implementó un modelo MiniCPM-S 1.2B más eficiente energéticamente a través de una arquitectura dispersa eficiente: la densidad de conocimiento alcanzó 2,57 veces la del modelo denso MiniCPM 1.2B de la misma escala y 12,1 veces la de Mistral-7B, deduciendo además la "ley de revestimiento de paredes" promueve una reducción significativa en el costo de la inferencia de modelos grandes.

▲ El modelo inteligente de la serie MiniCPM orientado a la pared itera rápidamente y mejora la densidad del conocimiento

En el campo del modelo de código abierto liviano en los Estados Unidos, las principales empresas de tecnología tienen un alto grado de participación, incluidas Meta, Microsoft, Google, Apple, Stability AI, etc., y la historia de "la ola de atrás golpea a la ola de adelante". La playa" se representa con frecuencia.

Hugging Face también lanzó la semana pasada modelos SmolLM con tres especificaciones de parámetros: 135M, 360M y 1.7B. En comparación con modelos del mismo tamaño, el rendimiento es muy competitivo. La versión 1.7B ha superado a Microsoft Phi-1.5 en múltiples pruebas de referencia. , Google MobileLLM-1.5B y Alibaba Qwen2-1.5B.

Apple, que es famosa por ser "cerrada", es una conocida escuela de código abierto en el campo de la IA: lanzó el modelo multimodal Ferret en octubre del año pasado y en abril de este año lanzó cuatro entrenamientos previos de OpenELM; modelos con parámetros que van desde 2.7 mil millones a 30 mil millones; y Entre los últimos modelos DCLM, el rendimiento de la versión 6.9B supera al Mistral 7B y la puntuación MMLU de la versión 1.4B supera a SmolLM-1.7B.

▲ Apple utiliza DCLM-Baseline para entrenar el modelo (naranja), que muestra un buen rendimiento en comparación con los modelos de código cerrado (cruces) y otros conjuntos de datos y modelos de código abierto (círculos).

El jugador representativo en Europa no es otro que el unicornio francés de gran tamaño Mistral AI.La semana pasada lanzó el modelo de copa pequeña Mistral Nemo 12B, que admite procesamiento de contexto de 128k. Su rendimiento supera a Google Gemma 2 9B y Llama 2 8B. Su razonamiento, conocimiento mundial y capacidades de codificación son los más fuertes entre los modelos de código abierto de la misma magnitud. .

Estos avances están mostrando el potencial de aplicación de la miniaturización de modelos grandes.

Clem Delangue, cofundador y director ejecutivo de Hugging Face, predijo: “Modelos más pequeños, más baratos, más rápidos y más personalizados cubrirán el 99% de los casos de uso . No necesitas un auto de Fórmula 1 de un millón de dólares para ir al trabajo todos los días, ¡y no necesitas un chatbot de cliente de banco que te diga el significado de la vida! "

3. ¿Cómo te convertiste en un experto en ahorrar dinero en la industria de los modelos grandes?

El rebobinado y la miniaturización de modelos grandes es una tendencia inevitable para que la IA beneficie a todos.

No todas las aplicaciones requieren el modelo grande más potente. La competencia empresarial considera la rentabilidad y enfatiza la alta calidad y el bajo precio. Los diferentes escenarios y empresas tienen demandas muy diferentes de calidad de producción y rentabilidad.

Los modelos a muy gran escala traerán elevados costos de aprendizaje para los desarrolladores y requerirán muchos problemas desde la capacitación hasta la implementación. Un modelo más optimizado puede reducir la relación insumo-producto y utilizar menos fondos, datos, recursos de hardware y ciclos de capacitación para construir modelos competitivos, reduciendo así los costos de infraestructura, ayudando a mejorar la accesibilidad y acelerar el desarrollo del modelo y la implementación de aplicaciones.

▲ Según el documento Apple DataComp-LM, cuantos menos parámetros del modelo, menos potencia informática y tiempo de capacitación se necesitarán.

Para aplicaciones específicas, los modelos livianos requieren menos datos, por lo que se pueden ajustar más fácilmente para tareas específicas para lograr el rendimiento y la eficiencia que satisfacen sus necesidades. Debido a una arquitectura optimizada, este tipo de modelo requiere menos capacidad de almacenamiento y potencia informática. Después de optimizar el diseño del hardware final, puede ejecutarse localmente en computadoras portátiles, teléfonos inteligentes u otros dispositivos pequeños, con baja latencia, fácil acceso y protección. Las ventajas de privacidad y seguridad garantizan que los datos personales no se transmitirán externamente.

Aunque el modelo liviano de alto rendimiento es pequeño, debe ser "Utilice potencia informática y consumo de energía limitados para condensar el conocimiento en un modelo con parámetros más pequeños"El umbral técnico no es bajo.

El proceso de formación esPrimero hazte más grande, luego hazte más pequeño , destilando la esencia del conocimiento a partir de grandes modelos complejos. Por ejemplo, el modelo multimodal de copa pequeña Gemma-2 de Google se perfecciona utilizando el conocimiento del modelo 27B.

Pero en términos de rutas técnicas específicas, diferentes jugadores tienen diferentes enfoques.

Por ejemplo endatos de entrenamiento Por otro lado, Meta se enorgullece de proporcionar datos de entrenamiento de tokens Llama 3 15T. Microsoft, Apple, etc. se centran en optimizar los conjuntos de datos de entrenamiento y la innovación de métodos de datos. Microsoft Phi-3 solo usa tokens de 3.3T y Apple DCLM 7B solo usa tokens de 2.6T. Según el artículo de Apple DataComp-LM,Mejorar los conjuntos de datos de entrenamiento puede lograr un equilibrio entre computación y rendimiento, reduciendo los costos de entrenamiento. . Lanzado recientemente la semana pasada, Mistral NeMo comprime texto y código de manera más eficiente que los modelos anteriores mediante el uso del etiquetador avanzado Tekken.

“Hacerse más pequeño” todavía requiereInnovación en arquitectura . Por ejemplo, el modelo OpenELM de Apple realiza un diseño de ajuste jerárquico para los cuellos de botella de hardware para mejorar la eficiencia operativa en el extremo; el modelo disperso eficiente MiniCPM-S 1.2B inteligente orientado a la pared logra una escasez de casi el 88%, lo que permite que la capa de enlace completa llegue al final. el consumo se reduce al 84% y la velocidad de decodificación es 2,8 veces mayor que la del modelo denso correspondiente sin comprometer el rendimiento.

▲ Clasificación técnica para la realización de modelos de lenguajes grandes eficientes en recursos (Fuente: documento "Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models")

El modelo grande es un proyecto sistemático que necesita ser explorado "ciencia de la inteligencia artificial"Dirección, eso esMediante la iteración continua de soluciones técnicas como algoritmos, arquitectura, gobernanza de datos y fusión multimodal, podemos entrenar modelos de manera más confiable, predecible y con mayor calidad., para mejorar continuamente la densidad de conocimiento de modelos grandes.

Para entrenar y optimizar modelos rápidamente, es necesario establecer una línea de producción eficiente.Es necesario construir una plataforma de conjunto de herramientas de proceso completo y formar una estrategia de capacitación de modelos eficiente y escalable. . Por ejemplo, el mecanismo de zona de pruebas del modelo orientado a la pared logra una rápida formación de capacidades del modelo mediante el uso de modelos pequeños para predecir el rendimiento de modelos grandes y compartiendo esquemas de hiperparámetros entre modelos grandes y pequeños.

▲ Comparación real de la velocidad de decodificación de inferencia MiniCPM 1.2B y MiniCPM-S 1.2B

Para acelerar el uso de modelos grandes en terminales inteligentes, Facewall Intelligence ha abierto recientemente el primer conjunto de herramientas de modelos grandes del lado del cliente listo para usar de la industria, "MobileCPM", y ha proporcionado tutoriales estilo niñera para ayudar a los desarrolladores a integrar modelos grandes. en aplicaciones con un solo clic.

▲ Conjunto de herramientas de modelo grande del lado del terminal inteligente orientado a la pared "MobileCPM"

Este año coincide con la explosión de la IA en el lado de los dispositivos, desde gigantes de chips como Intel, Nvidia, AMD y Qualcomm hasta los principales fabricantes de PC y teléfonos inteligentes con IA, todos están promoviendo una variedad de aplicaciones de IA en el lado de los dispositivos. Los fabricantes de terminales han comenzado a unir fuerzas con los fabricantes de modelos generales para promover la implementación de modelos livianos en una amplia gama de dispositivos finales.

A medida que el rendimiento de los chips finales se vuelve más fuerte y la densidad del conocimiento del modelo aumenta, los modelos que se pueden ejecutar localmente en dispositivos finales se vuelven más grandes y mejores.Ahora GPT-4V puede ejecutarse en el lado del terminal, predice Liu ZhiyuanEn el próximo año, los modelos de nivel GPT-3.5 se podrán poner en funcionamiento en el lado del dispositivo, y en los próximos dos años, los modelos de nivel GPT-4o se podrán poner en funcionamiento en el lado del extremo.。

Conclusión: inicie una gran competencia de modelos que no gaste mucho dinero

En el mundo de la tecnología siempre es recurrente la tendencia histórica de volverse más pequeñas, más baratas y más fáciles de usar. En la era de las mainframes, las computadoras eran artículos de lujo de alta gama sólo accesibles para los ricos y la élite. Al entrar en la era de las minicomputadoras, los avances tecnológicos han hecho que los dispositivos informáticos sean más portátiles y más fáciles de usar, y las PC y los teléfonos móviles han entrado en el trabajo y la vida diaria del público en general.

Así como necesitamos supercomputadoras con una enorme potencia informática y teléfonos móviles que la gente común pueda guardar en sus bolsillos, la era de la IA generativa requiere modelos grandes extremadamente inteligentes que estén más cerca de los usuarios, más rentables y capaces de satisfacer aplicaciones económicas específicas. modelo de demanda.

OpenAI GPT-4o todavía se encuentra en la cima de los modelos grandes de IA más potentes, pero ya no es tan invencible como antes. Varios modelos grandes de nivel GPT-4 han logrado un rendimiento similar. Al mismo tiempo, modelos grandes más compactos y eficientes están desafiando el concepto de "cuanto más grande, mejor". Se espera que la nueva tendencia de "usar lo pequeño para hacer grande" cambie la forma de desarrollo de la IA y abra nuevas posibilidades para su implementación. de la IA en entornos empresariales y de consumo.

El cambio hacia la miniaturización marca un cambio importante en la industria de la IA. Las competiciones de modelos grandes han comenzado a pasar de centrarse en mejorar el rendimiento a centrarse en necesidades más detalladas del mundo real. En medio de esta locura, el poder de la fuente abierta de China, representado por la inteligencia de pared, está creciendo vigorosamente a través de una serie de innovaciones tecnológicas, verifica la ley de densidad de conocimiento de modelos grandes de una manera más económicamente viable y, en última instancia, promueve el uso de. Modelos grandes en escenarios de aplicación práctica.

noticias

La dirección de los modelos a gran escala ha cambiado y OpenAI Apple ha dado un giro de 180 grados

Introducción

Mi informacion de contacto