Microsoft y NVIDIA apuestan por los modelos pequeños ¿Los modelos grandes ya no son populares?

2024-08-26

En el desarrollo de la inteligencia artificial, los gigantes tecnológicos alguna vez compitieron para desarrollar modelos de lenguaje a gran escala, pero ahora ha surgido una nueva tendencia: los modelos de lenguaje pequeño (SLM) están surgiendo gradualmente, desafiando el concepto pasado de "cuanto más grande, mejor".

China Visual

El 21 de agosto, hora local, Microsoft y NVIDIA lanzaron sucesivamente los últimos modelos de lenguaje pequeño: Phi-3.5-mini-instruct y Mistral-NeMo-Minitron8B. El principal punto de venta de ambos modelos es su buen equilibrio entre el uso de recursos informáticos y el rendimiento funcional. En cierto modo, su rendimiento puede incluso rivalizar con los modelos más grandes.

Clem Delangue, director ejecutivo de la startup de inteligencia artificial Hugging Face, señaló que SLM puede resolver hasta el 99% de los escenarios de uso y predijo que 2024 será el año de SLM. Según estadísticas incompletas, gigantes tecnológicos como Meta, Microsoft y Google han lanzado 9 modelos pequeños este año.

Los costos de capacitación de modelos grandes aumentan

El auge de SLM no es accidental, sino que está estrechamente relacionado con los desafíos de los modelos grandes (LLM) en términos de mejora del rendimiento y consumo de recursos.

Una comparación de desempeño publicada en abril por las startups de inteligencia artificial Vellum y Hugging Face mostró que la brecha de desempeño entre los LLM se está cerrando rápidamente, especialmente en tareas específicas como preguntas de opción múltiple, razonamiento y problemas matemáticos, donde las diferencias entre los mejores modelos son extremadamente grandes. . Pequeño. Por ejemplo, en preguntas de opción múltiple, Claude 3 Opus, GPT-4 y Gemini Ultra lograron una precisión de más del 83%, mientras que en tareas de inferencia, Claude3 Opus, GPT-4 y Gemini 1.5Pro lograron una precisión de más del 92%.

Gary Marcus, exdirector de Uber AI, señaló: "Creo que todos dirían que GPT-4 está un paso por delante de GPT-3.5, pero no ha habido ningún salto cualitativo en más de un año desde entonces".

En comparación con la mejora limitada del rendimiento, el costo de formación de LLM aumenta constantemente. Entrenar estos modelos requiere cantidades masivas de datos y cientos de millones o incluso billones de parámetros, lo que resulta en un consumo de recursos extremadamente alto. La potencia informática y el consumo de energía necesarios para capacitar y ejecutar LLM son asombrosos, lo que dificulta que las pequeñas organizaciones o individuos participen en el desarrollo central de LLM.

La Agencia Internacional de Energía estima que el consumo de electricidad relacionado con los centros de datos, las criptomonedas y la inteligencia artificial será aproximadamente equivalente al consumo total de electricidad de Japón para 2026.

Altman, director ejecutivo de OpenAI, dijo una vez en un evento del MIT que entrenar GPT-4 costaría al menos 100 millones de dólares, mientras que el director ejecutivo de Anthropic, Dario Amodei, predijo que el costo de entrenar el modelo podría alcanzar los 100 mil millones de dólares en el futuro.

Además, la complejidad de las herramientas y técnicas necesarias para utilizar LLM también aumenta la curva de aprendizaje del desarrollador. Todo el proceso, desde la formación hasta la implementación, lleva mucho tiempo, lo que ralentiza el desarrollo. Un estudio de la Universidad de Cambridge muestra que las empresas pueden tardar 90 días o más en implementar un modelo de aprendizaje automático.

Otro problema importante con LLM es que es propenso a la "ilusión", es decir, el resultado generado por el modelo parece razonable, pero en realidad no es correcto. Esto se debe a que LLM está capacitado para predecir la siguiente palabra más probable basándose en patrones en los datos, en lugar de comprender verdaderamente la información. Como resultado, LLM puede generar con confianza declaraciones falsas, fabricar hechos o combinar conceptos no relacionados de manera absurda. Cómo detectar y reducir estas "ilusiones" es un desafío continuo en el desarrollo de modelos lingüísticos fiables y dignos de confianza.

Los modelos pequeños reducen costos

Las preocupaciones sobre las enormes demandas energéticas de LLM, así como las oportunidades de mercado para brindar a las empresas opciones de IA más diversas, han llevado a las empresas de tecnología a centrar gradualmente su atención en SLM.

Los reporteros del "Daily Economic News" notaron que tanto las nuevas empresas de inteligencia artificial como Arcee, Sakana AI y Hugging Face, como los gigantes tecnológicos, están atrayendo inversores y clientes a través de SLM y métodos más económicos.

Anteriormente, Google, Meta, OpenAI y Anthropic lanzaron modelos pequeños que son más compactos y flexibles que el modelo insignia LLM. Esto no sólo reduce los costos de desarrollo e implementación, sino que también brinda a los clientes comerciales una solución más económica. Dadas las crecientes preocupaciones entre los inversores sobre los altos costos y los retornos inciertos de las empresas de IA, es posible que más empresas de tecnología elijan este camino. Incluso Microsoft y NVIDIA han lanzado sus propios modelos pequeños (SLM).

Los SLM son versiones simplificadas de los LLM con menos parámetros y diseños más simples, y requieren menos datos y tiempo de capacitación: solo minutos u horas. Esto hace que SLM sea más eficiente y más fácil de implementar en dispositivos pequeños. Por ejemplo, pueden integrarse en teléfonos móviles sin consumir recursos de supercomputación, lo que reduce los costos y mejora significativamente la capacidad de respuesta.

Otra gran ventaja de SLM es su especialización para aplicaciones específicas. Los SLM se centran en tareas o dominios específicos, lo que los hace más eficientes en aplicaciones prácticas. Por ejemplo, los SLM a menudo superan a los modelos de propósito general en el análisis de sentimientos, el reconocimiento de entidades con nombre o la respuesta a preguntas de dominios específicos. Esta personalización permite a las empresas crear modelos que satisfagan eficientemente sus necesidades específicas.

Los SLM también son menos propensos a sufrir “alucinaciones” dentro de un dominio específico porque normalmente están entrenados en conjuntos de datos más limitados y específicos, lo que ayuda al modelo a aprender los patrones y la información más relevantes para su tarea. La naturaleza enfocada del SLM reduce la probabilidad de generar resultados irrelevantes, inesperados o inconsistentes.

A pesar de su tamaño más pequeño, el rendimiento del SLM no es inferior al de los modelos más grandes en algunos aspectos. El último Phi-3.5-mini-instruct de Microsoft sólo tiene 3.800 millones de parámetros, pero su rendimiento es mejor que el de modelos con parámetros mucho más altos que Llama3.18B y Mistral7B. Aaron Mueller, experto en investigación de modelos lingüísticos de la Universidad Northeastern (una de las principales universidades privadas de investigación ubicada en Boston, Massachusetts, EE. UU.), señaló que ampliar el número de parámetros no es la única forma de mejorar el rendimiento del modelo. también produce resultados similares.

Altman, director ejecutivo de OpenAI, dijo en un evento en abril que cree que estamos al final de la era de los modelos gigantes y "mejoraremos su rendimiento de otras maneras".

Sin embargo, cabe señalar que, si bien la especialización de SLM es una gran ventaja, también tiene limitaciones. Estos modelos pueden tener un desempeño deficiente fuera de su dominio de capacitación específico, carecer de una base de conocimientos amplia y no pueden generar contenido relevante sobre una amplia gama de temas en comparación con el LLM. Esta limitación requiere que los usuarios tengan que implementar múltiples SLM para cubrir diferentes áreas de demanda, lo que complica la infraestructura de IA.

Con el rápido desarrollo del campo de la IA, es posible que los estándares para modelos pequeños sigan cambiando. David Ha, cofundador y director ejecutivo de la startup de modelos pequeños Sakana, con sede en Tokio, dijo que los modelos de IA que parecían enormes hace unos años ahora parecen "modestos". "El tamaño siempre es relativo", afirmó David Ha.

noticias económicas diarias

Informe/Comentarios

noticias

Microsoft y NVIDIA apuestan por los modelos pequeños ¿Los modelos grandes ya no son populares?

Introducción

Mi información de contacto