noticias

Los científicos revelan las propiedades lineales de las redes neuronales profundas, lo que ayuda a crear mejores algoritmos de fusión de modelos

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Aunque el aprendizaje profundo ha logrado un gran éxito en los últimos años, la comprensión de su teoría por parte de la gente aún está rezagada.

Por esta razón, han recibido más atención los temas de investigación que intentan explicar la función de pérdida y el proceso de optimización del aprendizaje profundo desde una perspectiva teórica.

Aunque las funciones de pérdida utilizadas en el aprendizaje profundo a menudo se consideran funciones complejas de caja negra de alta dimensión, se cree que estas funciones, especialmente aquellas que se encuentran en trayectorias de entrenamiento reales, contienen estructuras complejas benignas que pueden promover eficazmente el proceso de optimización basado en gradientes.

Como en muchas otras disciplinas científicas, un paso clave en la construcción de una teoría del aprendizaje profundo radica en comprender los fenómenos no triviales descubiertos a partir de experimentos para dilucidar sus mecanismos subyacentes.

Recientemente, los estudiosos en el campo han descubierto un fenómeno sorprendente: la conectividad del modo.

Es decir, diferentes puntos óptimos obtenidos a través de dos optimizaciones de gradiente independientes se pueden conectar mediante una ruta simple en el espacio de parámetros, mientras que la pérdida o precisión a lo largo de la ruta permanece casi constante.

Este fenómeno es sin duda sorprendente porque los diferentes puntos óptimos de una función no convexa probablemente estén ubicados en "valles" diferentes y aislados.

Sin embargo, esto no sucede con los puntos óptimos encontrados en la práctica.

Lo que es más interesante es que algunos investigadores han descubierto una conectividad en modo lineal que es más fuerte que la conectividad en modo.

La investigación sobre la conectividad en modo lineal muestra que se pueden conectar diferentes puntos óptimos mediante rutas lineales.

Aunque dos redes completamente independientes normalmente no satisfacen la conectividad en modo lineal, existen dos formas de obtener una red que sí lo haga:

La primera red es el método de generación.

Cuando la red comienza desde la inicialización y se entrena durante una pequeña cantidad de épocas, los parámetros se copian para obtener dos redes. Luego, las dos redes continuaron entrenándose de forma independiente bajo diferentes estocasticidades.

La segunda red es el método de permutación.

Es decir, las dos redes primero se entrenan de forma independiente y luego las neuronas de una red se reorganizan para que coincidan con las neuronas de la otra red.

En un trabajo anterior, el Dr. Zhou Zhanpeng de la Universidad Jiao Tong de Shanghai y colaboradores del Laboratorio de Inteligencia Artificial de Shanghai esperaban explicar la conectividad en modo lineal desde la perspectiva del aprendizaje de funciones.

Y plantea la pregunta: ¿Qué sucede con las características internas al interpolar linealmente los pesos de dos redes entrenadas?


Imagen | Zhou Zhanpeng (Fuente: Zhou Zhanpeng)

A través de la investigación, descubrieron que las características en casi todas las capas también satisfacen una forma fuerte de conexión lineal: es decir, los mapas de características en la red de interpolación de peso son aproximadamente los mismos que la interpolación lineal de los mapas de características en las dos redes originales.

A este fenómeno lo llaman conectividad de funciones lineales por capas.

Además, descubrieron que la conectividad de entidades lineales por capas siempre ocurre al mismo tiempo que la conectividad en modo lineal.

Y prueba esta regla: si dos modelos entrenados en el mismo conjunto de datos satisfacen la conectividad de entidades lineales por capas, entonces también pueden satisfacer la conectividad de modo lineal al mismo tiempo.

Además, el equipo de investigación llevó a cabo un estudio en profundidad de los motivos de la conectividad de funciones lineales por capas.

Y se identificaron dos condiciones clave: la débil aditividad de la función ReLU y la propiedad conmutativa entre las dos redes entrenadas.

A partir de estas dos condiciones, demostraron obtener la conectividad de características lineales por capas en la red ReLU y verificaron estas dos condiciones experimentalmente.

Al mismo tiempo, también demostraron que el método de permutación permite que dos redes satisfagan la conectividad en modo lineal haciéndolas intercambiables.

En general, el equipo de investigación encontró una propiedad lineal que es más detallada que la conectividad en modo lineal y puede satisfacer mejor la red neuronal.

Sin embargo, todos los hallazgos anteriores se basan en redes entrenadas con el mismo conjunto de datos.

Entonces, plantearon una nueva pregunta: ¿Se puede establecer una conectividad de características lineales por capas en dos modelos entrenados en diferentes conjuntos de datos?

El equipo notó que el método de generación está muy cerca del paradigma de entrenamiento de ajuste previo al entrenamiento. Es decir, tanto el método de generación como el ajuste fino parten de un modelo que ha sido entrenado durante un período de tiempo para realizar un entrenamiento adicional.

Sin embargo, el modelo en el método de generación continúa entrenándose con el mismo conjunto de datos, mientras que el modelo en ajuste fino se puede entrenar con diferentes conjuntos de datos.

En un trabajo reciente, descubrieron que bajo el paradigma de ajuste fino previo al entrenamiento, diferentes modelos de ajuste fino también satisfacen las propiedades de la conectividad de características lineales por capas, que el equipo de investigación llama linealidad de tareas cruzadas.

Se descubrió que bajo el paradigma de ajuste fino previo al entrenamiento, la red es en realidad más aproximada a un mapeo lineal desde el espacio de parámetros al espacio de características.

Es decir, la linealidad entre tareas extiende la definición de conectividad de entidades lineales por capas a modelos entrenados en diferentes conjuntos de datos.

Curiosamente, el equipo también utilizó los hallazgos de Cross-Task Linearity para explicar dos técnicas comunes de fusión de modelos:

En primer lugar, el promedio de modelos toma el promedio de los pesos de múltiples modelos ajustados en el mismo conjunto de datos pero utilizando diferentes configuraciones de hiperparámetros, mejorando así la precisión y la solidez.

En el estudio, el peso promedio del grupo de investigación se interpretó como el promedio de las características en cada capa, estableciendo así una estrecha conexión entre el promedio del modelo y la integración del modelo, explicando así la efectividad del promedio del modelo.

En segundo lugar, con operaciones aritméticas simples, Task Arithmetic puede combinar los pesos de modelos ajustados en diferentes tareas para controlar el comportamiento del modelo en consecuencia.

Durante la investigación, el equipo transformó operaciones aritméticas en el espacio de parámetros en operaciones en el espacio de características, explicando así la aritmética de tareas desde la perspectiva del aprendizaje de características.

Posteriormente, exploraron las condiciones bajo las cuales ocurre la linealidad de tareas cruzadas y descubrieron la importancia del entrenamiento previo para la linealidad de tareas cruzadas.

Los resultados experimentales muestran que el conocimiento común obtenido en la etapa de preentrenamiento ayuda a cumplir los requisitos de la linealidad entre tareas.

Durante el estudio, también hizo un intento preliminar de probar la linealidad de tareas cruzadas y descubrió que la aparición de la linealidad de tareas cruzadas está relacionada con la planitud del paisaje de la red y la brecha de peso entre los dos modelos ajustados.

Recientemente, en la Conferencia Internacional sobre Aprendizaje Automático (ICML) 2024 [1] se publicó un artículo relacionado titulado "Sobre la aparición de la linealidad entre tareas en el preentrenamiento y ajuste fino".


Figura | Artículos relacionados (Fuente: ICML 2024)

El equipo de investigación expresó la esperanza de que este descubrimiento pueda inspirar mejores algoritmos de fusión de modelos.

En el futuro, si es necesario construir un modelo grande optimizado con múltiples capacidades, la fusión de modelos grandes se convertirá en una de las tecnologías centrales. Este trabajo proporciona un sólido apoyo experimental y teórico para la fusión de modelos grandes y puede inspirar mejores algoritmos de fusión de modelos grandes.

A continuación, esperan comprender la conectividad del modo lineal, la conectividad de funciones lineales por capas y la linealidad entre tareas desde la perspectiva de la dinámica de entrenamiento.

Aunque han obtenido algunas explicaciones a nivel de características, todavía no pueden explicar la conectividad en modo lineal desde la perspectiva de los primeros principios.

Por ejemplo, ¿por qué el método de generación solo necesita entrenar algunas épocas primero para finalmente obtener dos modelos que cumplan con la conectividad en modo lineal?

¿Y cómo predecir ese tiempo de desove? Para responder a estas preguntas, debemos comprender la conectividad en modo lineal desde la perspectiva de la capacitación y la optimización, y este es también el esfuerzo de seguimiento del equipo.

Referencias:

1. Zhou, Z., Chen, Z., Chen, Y., Zhang, B. y Yan, J. Sobre el surgimiento de la linealidad entre tareas en el paradigma de preentrenamiento y ajuste fino. En la cuadragésima primera conferencia internacional sobre aprendizaje automático.

Operación/composición tipográfica: He Chenlong

01/ El equipo de la ciudad de Hong Kong desarrolla un nuevo tipo de membrana de nanocapas, que puede usarse para el tratamiento de agua dulce en escenarios especiales y encuentra avances para la aplicación de materiales bidimensionales.

02/ Décadas de problemas químicos han recibido respuestas creíbles. Los científicos han propuesto un nuevo mecanismo microscópico para la disolución del cloruro de hidrógeno para formar ácido clorhídrico, que promoverá el desarrollo de múltiples disciplinas.

03/ Los científicos crean un nuevo método de control de detección cuántica que puede detectar con precisión señales débiles y puede usarse para detectar y controlar espines nucleares individuales

04/ ¡Se anuncian oficialmente los nuevos ganadores de China de los "35 principales innovadores tecnológicos menores de 35" de "MIT Technology Review"!Sea testigo del poder innovador de la juventud científica y tecnológica en Shanghai

05/ Con una resistencia dinámica de 14GPa, el equipo de la Universidad de Pekín desarrolló con éxito fibras de nanotubos de carbono súper resistentes, que pueden usarse como materiales estructurales y protectores livianos y de alto rendimiento.