¿Se acabó la era de los grandes modelos? El gran jefe Qi predice: Es posible que sea necesario reducir los modelos de IA antes de poder ampliarlos nuevamente

¿Se acabó la era de los grandes modelos?El gran jefe Qi predice: Es posible que sea necesario reducir los modelos de IA antes de poder ampliarlos nuevamente

2024-07-22

Nuevo informe de sabiduría

Editor: orejas

[Introducción a la Nueva Sabiduría]Con la llegada de los modelos pequeños, ¿llegará a su fin la "era de los modelos grandes"?

La "Semana de los modelos pequeños" ha pasado y acaba de abrirse el último campo de batalla para los modelos pequeños.

La semana pasada, se lanzaron sucesivamente GPT-4o mini y Mistral NeMo. Los modelos pequeños que "son pequeños pero tienen todos los órganos internos" se han convertido en una nueva dirección a la que los líderes de la industria están prestando mucha atención.

Entonces, ¿están a punto de caer en desgracia los modelos grandes? ¿La ley de escala está a punto de volverse ineficaz?

El ex investigador de OpenAI y Tesla AI, Andrej Karpathy, acaba de ingresar a la educación en IA. El "Teacher K" publicó recientemente un tweet para guiar a la industria, revelando la nueva tendencia detrás del cambio de los gigantes tecnológicos hacia la investigación y el desarrollo de modelos pequeños: la competencia de los grandes modelos de IA. está a punto de revertirse.

Predice que los modelos futuros serán más pequeños pero aún más inteligentes.

Los gigantes de la IA y algunos nuevos unicornios han lanzado recientemente modelos de inteligencia artificial que son más compactos, más potentes y más asequibles que sus pares. El último ejemplo es el GPT-4o mini de OpenAI.

Karpathy predice que esta tendencia continuará. "Apuesto a que veremos muchos modelos que pensarán de manera eficiente y confiable, y en tamaños muy pequeños", escribió.

Modelos pequeños: a hombros de gigantes

En las primeras etapas del desarrollo de LLM, es una tendencia inevitable procesar más datos y agrandar el modelo. Esto se debe principalmente a las siguientes razones:

Primero, las necesidades basadas en datos.

Al vivir en una era de explosión de datos, una gran cantidad de datos ricos y diversos requieren modelos más potentes para procesarlos y comprenderlos.

Los modelos grandes tienen la capacidad de acomodar y procesar cantidades masivas de datos mediante el entrenamiento de datos a gran escala, pueden descubrir patrones y leyes profundos.

En segundo lugar, la mejora de la potencia informática.

El avance continuo de la tecnología de hardware y el desarrollo de equipos informáticos de alto rendimiento, como las GPU, proporcionan un potente soporte de potencia informática para el entrenamiento de modelos grandes. Permite entrenar modelos grandes y complejos.

Además, busque un mayor rendimiento y precisión.

Los modelos grandes generalmente pueden demostrar un rendimiento excelente en múltiples campos, como la comprensión del lenguaje, la generación y el reconocimiento de imágenes. Cuanto más comprendan, más precisos serán los resultados que generen.

Finalmente, la capacidad de generalización es más fuerte.

Los modelos grandes pueden manejar mejor nuevos problemas y tareas que nunca antes se habían visto, pueden hacer conjeturas y respuestas razonables basadas en conocimientos aprendidos previamente y tienen capacidades de generalización más sólidas.

Junto con la feroz competencia en el campo de la IA, varias instituciones de investigación y gigantes se han comprometido a desarrollar modelos más grandes y más potentes para demostrar su fortaleza técnica y su posición de liderazgo. El tamaño del modelo volumétrico se ha convertido naturalmente en la dirección general de desarrollo de LLM.

Karpathy también atribuyó la escala de los modelos más potentes actuales a la complejidad de los datos de entrenamiento, añadiendo que los modelos de lenguaje grandes destacan en la memoria, superando las capacidades de la memoria humana.

Por analogía, si tienes que realizar un examen a libro cerrado durante la semana de exámenes finales, el examen requiere que recites un determinado párrafo del libro basándose en las primeras palabras.

Este es el objetivo del entrenamiento previo de los grandes modelos actuales. Karpathy dijo que los grandes modelos actuales son como serpientes codiciosas que sólo quieren tragarse todos los datos disponibles.

No sólo pueden recitar la serie SHA de algoritmos hash para números comunes, sino que también pueden recordar conocimientos de todos los campos, grandes y pequeños.

Pero esta forma de aprender es como memorizar todo lo que hay en la biblioteca y en Internet para un examen.

Es innegable que quienes pueden lograr este tipo de capacidad de memoria son genios, pero al final, ¡solo se usó una página durante el examen!

Para estudiantes tan talentosos, es difícil que LLM lo haga mejor porque en el proceso de capacitación los datos, la demostración del pensamiento y el conocimiento están "entrelazados".

Además, por un lado, desde la perspectiva de las aplicaciones prácticas, los modelos grandes enfrentan altos costos y consumo de recursos cuando se implementan y ejecutan, incluidos recursos informáticos, recursos de almacenamiento y consumo de energía.

Los modelos pequeños son más fáciles de implementar en diversos dispositivos y escenarios, cumpliendo con los requisitos de facilidad de uso y bajo consumo de energía.

Por otro lado, desde la perspectiva de la madurez tecnológica, una vez que la naturaleza y las leyes del problema se exploran y comprenden completamente a través de modelos grandes, estos conocimientos y patrones pueden refinarse y aplicarse al diseño y optimización de modelos pequeños.

Esto permite que los modelos pequeños reduzcan la escala y el costo manteniendo el mismo o incluso mejor rendimiento que los modelos grandes.

Aunque el desarrollo de modelos grandes ha encontrado un cuello de botella y los modelos pequeños se han convertido gradualmente en una nueva tendencia, Karpathy enfatizó que todavía se necesitan modelos grandes, incluso si no están entrenados de manera efectiva, pero los modelos pequeños se condensan a partir de modelos grandes.

Karpathy predice que cada modelo seguirá mejorando, generando datos de entrenamiento para el siguiente modelo, hasta que haya un "conjunto de entrenamiento perfecto".

Incluso un modelo listo para usar como GPT-2, que tiene 1.500 millones de parámetros, cuando entrena a GPT-2 con este conjunto de entrenamiento perfecto, puede convertirse en un modelo muy poderoso e inteligente para los estándares actuales.

Este GPT-2, entrenado con un conjunto de entrenamiento perfecto, puede obtener una puntuación ligeramente inferior, por ejemplo, en la prueba Massive Multi-task Language Understanding (MMLU), que cubre 57 tareas, incluidas matemáticas elementales, historia de Estados Unidos, informática, derecho, etc., que se utilizan para evaluar la cobertura del conocimiento básico y la capacidad de comprensión de modelos grandes.

Pero en el futuro, los modelos de inteligencia artificial más inteligentes no dependerán del volumen; podrán recuperar información y verificar hechos de manera más confiable.

Al igual que un excelente estudiante que realiza un examen a libro abierto, aunque no comprende completamente todos los conocimientos, puede localizar con precisión la respuesta correcta.

Según los informes, el proyecto Strawberry de OpenAI se centra en resolver este problema.

"Adelgazamiento" del modelo grande "hinchado"

Como dijo Karpathy, la mayoría de los modelos muy grandes (como GPT-4) entrenados con datos masivos en realidad se utilizan para recordar una gran cantidad de detalles irrelevantes, es decir, para memorizar información de memoria.

Esto está relacionado con el propósito del entrenamiento previo del modelo. En la etapa de entrenamiento previo, se requiere que el modelo recite el siguiente contenido con la mayor precisión posible, lo que equivale a memorizar el texto. Cuanto más preciso sea, mayor será. puntaje.

Aunque el modelo puede aprender conocimientos recurrentes, a veces hay errores y sesgos en los datos, y el modelo primero debe recordarlos todos antes de ajustarlos.

Karpathy cree que si hay un conjunto de datos de entrenamiento de mayor calidad, se puede entrenar un modelo más pequeño, más capaz y más capaz.

Con la ayuda de modelos muy grandes, se pueden generar y limpiar automáticamente conjuntos de datos de entrenamiento de mayor calidad.

Al igual que GPT-4o mini, se entrena utilizando datos limpiados por GPT-4.

Primero agrande el modelo y luego "reduzca su tamaño" sobre esta base. Esta puede ser una nueva tendencia en el desarrollo de modelos.

Para dar una metáfora vívida, es como si el modelo grande actual tuviera el problema de tener demasiados conjuntos de datos y fuera demasiado gordo. Después de la limpieza de datos y un entrenamiento extenso, se transforma en un modelo pequeño con músculos delgados.

Este proceso es como una evolución paso a paso, y cada generación de modelos ayudará a generar la próxima generación de datos de entrenamiento hasta que finalmente obtengamos un "conjunto de entrenamiento perfecto".

El director ejecutivo de OpenAI, Sam Altman, también hizo comentarios similares y declaró el "fin de la era" de los grandes modelos de IA ya en abril de 2023.

Además, se reconoce cada vez más que la calidad de los datos es un factor clave de éxito en el entrenamiento de IA, ya sean datos reales o sintéticos.

Altman cree que la pregunta clave es cómo los sistemas de inteligencia artificial pueden aprender más con menos datos.

Los investigadores de Microsoft hicieron el mismo juicio al desarrollar el modelo Phi. Los investigadores de Hugging Face AI también estuvieron de acuerdo con la búsqueda de conjuntos de datos de alta calidad y publicaron conjuntos de datos de entrenamiento de alta calidad.

Esto significa que la expansión ciega ya no es el único objetivo técnico de los gigantes tecnológicos. Incluso los modelos pequeños y de alta calidad pueden beneficiarse de más datos, más diversos y de mayor calidad.

Volver a modelos más pequeños y eficientes puede verse como el objetivo de la siguiente etapa de integración, y el lanzamiento del modelo de OpenAI indica claramente la dirección del desarrollo futuro.

Área de comentarios: correcta, pertinente y sangrienta

Karpathy también mencionó el enfoque similar de Tesla en la red de conducción autónoma.

Tesla tiene algo llamado "rastreador fuera de línea" que genera datos de entrenamiento más limpios ejecutando un modelo anterior más débil.

Tan pronto como escuchó que se decía que la tecnología de Tesla estaba a la vanguardia de los tiempos, Musk rápidamente corrió al área de comentarios:

Los internautas en el área de comentarios también expresaron su agradecimiento por la previsión de Karpathy, ¡y estoy de acuerdo!

Para la futura inteligencia artificial general, modelos de inteligencia artificial más pequeños y eficientes pueden redefinir la "inteligencia" en inteligencia artificial y desafiar la suposición de que "cuanto más grande, mejor".

Sebastian Raschka, autor de "Python Machine Learning", cree que esto es como destilar conocimientos: destilar un modelo pequeño como Gemma-2 a partir de un modelo grande 27B.

También nos recordó que las pruebas de opción múltiple como MMLU pueden evaluar conocimientos, pero no pueden reflejar completamente las habilidades reales.

Algunos internautas también son muy imaginativos. Si los modelos pequeños funcionan bien, entonces existe una especialización en el campo, ¿por qué no utilizar más modelos pequeños para generar respuestas una por una?

Convoca a 10 asistentes de IA y luego deja que el más inteligente haga el resumen final. Es simplemente la versión de IA de un grupo de expertos.

Entonces, ¿AGI es un modelo grande y todopoderoso o surge de la colaboración de muchos modelos pequeños?

Referencias:

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/

https://x.com/karpathy/status/1814038096218083497

noticias

¿Se acabó la era de los grandes modelos?El gran jefe Qi predice: Es posible que sea necesario reducir los modelos de IA antes de poder ampliarlos nuevamente

Introducción

Mi información de contacto