¿Arquitectura de red neuronal "diferentes caminos conducen al mismo objetivo"? Documento ICML 2024: Diferentes modelos, pero el mismo contenido de aprendizaje

2024-07-16

Nuevo informe de sabiduría

Editor: Qiao Yang

[Introducción a la Nueva Sabiduría] Las redes neuronales profundas vienen en muchos tamaños y arquitecturas, y generalmente se acepta que esto afecta las representaciones abstractas aprendidas por el modelo. Sin embargo, el primer artículo publicado por dos académicos de la UCL en ICML 2024 señaló que si la arquitectura del modelo es lo suficientemente flexible, ciertos comportamientos de red están generalizados entre las diferentes arquitecturas.

Desde que la IA entró en la era de los grandes modelos, la ley de escala casi se ha convertido en un consenso.

Dirección del artículo: https://arxiv.org/abs/2001.08361

Los investigadores de OpenAI propusieron en este artículo de 2020 que el rendimiento del modelo tiene una relación de ley de potencia con tres indicadores: el número de parámetros N, el tamaño del conjunto de datos D y la potencia informática de entrenamiento C.

Además de estos tres aspectos, factores como la selección de hiperparámetros y el ancho y profundidad del modelo tienen poco impacto en el rendimiento dentro de un rango razonable.

Además, la existencia de esta relación potencia-ley no implica ninguna estipulación sobre la arquitectura del modelo. En otras palabras, podemos pensar que la Ley de Escala es aplicable a casi cualquier arquitectura modelo.

Además, un artículo publicado en el campo de la neurociencia en 2021 parece abordar este fenómeno desde otro ángulo.

Dirección del artículo: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

Descubrieron que, aunque redes como AlexNet, VGG y ResNet diseñadas para tareas visuales tienen grandes diferencias estructurales, parecen ser capaces de aprender semánticas muy similares, como la relación jerárquica de categorías de objetos, después de entrenar con el mismo conjunto de datos. .

¿Pero cuál es la razón detrás de esto? Si vamos más allá de la experiencia superficial, ¿hasta qué punto son similares varias arquitecturas de red en el nivel esencial?

Dos investigadores de la UCL publicaron un artículo este año, tratando de responder a esta pregunta observando la representación abstracta aprendida por las redes neuronales.

Dirección del artículo: https://arxiv.org/abs/2402.09142

Derivaron una teoría que resume efectivamente la dinámica del aprendizaje de representación en arquitecturas de modelos complejas a gran escala, descubriendo sus características "ricas" y "perezosas". Cuando el modelo es lo suficientemente flexible, ciertos comportamientos de la red pueden generalizarse en diferentes arquitecturas.

Este artículo ha sido aceptado por la conferencia ICML 2024.

Proceso de modelado

El teorema de aproximación universal establece que, dados suficientes parámetros, una red neuronal no lineal puede aprender y aproximar cualquier función fluida.

Inspirándose en este teorema, el artículo asume primero que el mapeo de codificación desde la entrada a la representación oculta y el mapeo de decodificación desde la representación oculta a la salida son funciones arbitrarias suaves.

Por lo tanto, ignorando los detalles de la arquitectura de la red, la dinámica funcional se puede modelar de la siguiente manera:

El proceso de entrenamiento de una red neuronal puede verse como la optimización de una función de suavizado en un conjunto de datos específico, cambiando constantemente los parámetros de la red para minimizar la función de pérdida de MSE:

en⟨⋅⟩Los símbolos representan promedios de todo el conjunto de datos.

Dado que estamos interesados en estudiar los procesos dinámicos que representan el espacio, la función se puede dividir en una combinación de dos mapas suaves: el mapa de codificaciónℎ:→y mapeo de decodificación:→, en este momento la función de pérdida en la ecuación (1) se puede escribir como:

A continuación, el proceso de actualización de parámetros utilizando la regla de descenso de gradiente se puede escribir como:

¿Dónde está el recíproco de la tasa de aprendizaje?

Aunque la ecuación (4) es lo suficientemente precisa, el problema es que depende explícitamente de los parámetros de la red, y una expresión matemática suficientemente general requiere ignorar este detalle de implementación.

Idealmente, si la capacidad expresiva de la red neuronal es lo suficientemente rica, la optimización de la función de pérdida debería expresarse directamente como aproximadamente dos mapeos.ℎy función.

Sin embargo, aún no está claro cómo se logra esto matemáticamente. Por lo tanto, comencemos con el caso más simple: no considerando todo el conjunto de datos, sino dos puntos de datos.

Durante el entrenamiento, debido a la función de mapeo.ℎA medida que cambia la suma, las representaciones de diferentes puntos de datos se mueven en el espacio oculto, se acercan entre sí o interactúan entre sí.

Por ejemplo, para dos puntos del conjunto de datos, siℎ⁢(1) yℎ⁢(2) está lo suficientemente cerca yℎy es una función suave, entonces la media de los dos puntos se puede utilizar para realizar una aproximación lineal de las dos funciones de mapeo:

enℎy respectivamenteℎy la matriz jacobiana de .

Suponiendo que la red neuronal tiene suficiente expresividad y grados de libertad, los parámetros de linealizaciónℎy se puede optimizar de manera efectiva, entonces el proceso de descenso de gradiente se puede expresar como:

La ecuación (6) describe la principal hipótesis de modelado del artículo, que pretende ser una teoría equivalente para sistemas arquitectónicos complejos a gran escala y no está sujeta a métodos de parametrización específicos.

La Figura 1 es una expresión visual del proceso de modelado anterior. Para simplificar el problema, se supone que dos puntos de datos solo se acercarán o alejarán en el espacio oculto, pero no rotarán.

El principal indicador que nos importa es la distancia ‖ℎ‖ en el espacio oculto, que nos permite conocer la estructura de representación aprendida por el modelo, y la distancia ‖‖ generada por el modelo, que ayuda a modelar la curva de pérdida.

Además, se introduce una variable externa para controlar la velocidad de representación, o puede verse como una alineación de salida, que representa la diferencia angular entre la salida prevista y la salida real.

De esto obtenemos un sistema independiente de tres variables escalares:

Entre ellos, los detalles de implementación de la red neuronal se han expresado de manera abstracta como dos constantes: 1/ℎy 1/, que indica la tasa de aprendizaje efectiva.

Aprender la coherencia dinámica

Una vez completado el modelado, el artículo entrenó redes neuronales de diferentes arquitecturas en el conjunto de datos de dos puntos y comparó la dinámica de aprendizaje real con las soluciones numéricas de la teoría equivalente. Los resultados se muestran en la Figura 2.

La estructura predeterminada se refiere a una red de 20 capas, 500 neuronas por capa y ReLU con fugas.

Se puede ver que, aunque solo es necesario ajustar dos constantes, la teoría de equivalencia que acabamos de describir aún puede adaptarse bien a la situación real de varias redes neuronales.

La misma ecuación puede describir con precisión la dinámica de múltiples modelos y arquitecturas complejos durante el entrenamiento, lo que parece indicar que si el modelo es lo suficientemente expresivo, eventualmente convergerá a un comportamiento de red común.

Póngalo en un conjunto de datos más grande como MNIST y realice un seguimiento de la dinámica de aprendizaje de dos puntos de datos, y la teoría de la equivalencia seguirá siendo válida.

La arquitectura de red incluye 4 capas completamente conectadas, cada capa incluye 100 neuronas y utiliza la función de activación ReLU con fugas.

Sin embargo, vale la pena señalar que cuando el peso inicial aumenta gradualmente (Figura 3), los patrones de cambio de ‖ℎ‖, ‖⁢‖ y las tres variables cambiarán.

Debido a que cuando el peso inicial es grande, los dos puntos de datos estarán muy separados al comienzo del entrenamiento, por lo que la aproximación lineal de la fórmula (5) ya no se cumple y el modelo teórico anterior falla.

representación estructurada

A partir de las restricciones de suavidad y la teoría de equivalencia mencionada anteriormente, ¿podemos resumir las reglas en la estructura de representación de las redes neuronales?

Según la fórmula (7), se puede deducir que existe un punto fijo único, que es la distancia de representación final de dos puntos de datos:

Si el peso inicial es grande, la distancia de representación final convergerá a alta y el valor depende de la entrada de datos y la inicialización aleatoria; por el contrario, si el peso inicial es pequeño, convergerá a baja, lo que depende de la entrada y la salida; estructura de los datos.

Esta separación entre mecanismos aleatorios y mecanismos estructurados verifica aún más la "riqueza" y la "inercia" en el proceso de aprendizaje de redes neuronales profundas propuesto en artículos anteriores, especialmente considerando que la escala de los pesos iniciales se convertirá en un factor clave.

El artículo ofrece una explicación intuitiva para este fenómeno:

Si los pesos iniciales son grandes, los dos puntos de datos en el espacio oculto estarán muy separados al comienzo del entrenamiento, por lo que la flexibilidad de la red permite que el decodificador aprenda libremente la salida correcta para cada punto de datos individualmente sin necesidad de cambios significativos. adecuaciones. Estructura de representación. Por lo tanto, el patrón aprendido final se parece a la estructura que ya estaba presente en la inicialización.

Por el contrario, cuando el peso es pequeño, los dos puntos de datos se ubican más cerca uno del otro y, debido a limitaciones de suavidad, la función de mapeo de codificación debe ajustarse de acuerdo con la salida objetivo, moviendo la representación de los dos puntos de datos para ajustarse a los datos. .

Por tanto, veremos que cuando los pesos son pequeños, el aprendizaje de representación mostrará un efecto estructurado (Figura 5).

Cambiar la tarea de la red neuronal para adaptar una función OR exclusiva (XOR) puede demostrar esto de forma más intuitiva. Cuando el peso de inicialización es pequeño, el modelo obviamente aprende las características estructurales de la función XOR.

En la red neuronal con solo 2 capas a la derecha, existe una gran desviación entre la teoría y el experimento, lo que ilustra la importancia de la suposición de una alta expresividad del modelo en la teoría anterior.

en conclusión

La principal contribución de este artículo es la introducción de una teoría de equivalencia que es capaz de expresar partes comunes del proceso de aprendizaje dinámico en diferentes arquitecturas de redes neuronales y ha demostrado una representación estructurada.

Debido a la limitación de la fluidez del proceso de modelado y la simplificación de la interacción de los puntos de datos, esta teoría aún no puede convertirse en un modelo universal para describir el proceso de entrenamiento de redes neuronales profundas.

Sin embargo, lo más valioso de este estudio es que muestra que algunos de los elementos necesarios para el aprendizaje de la representación pueden ya estar incluidos en el proceso de descenso de gradiente, y no solo por el sesgo inductivo contenido en la arquitectura del modelo específico.

Además, la teoría también enfatiza que la escala de los pesos iniciales es un factor clave en la formación final de la estructura de representación.

En trabajos futuros, todavía necesitamos encontrar una manera de extender la teoría de la equivalencia para manejar conjuntos de datos más grandes y complejos, en lugar de simplemente modelar la interacción de dos puntos de datos.

Al mismo tiempo, muchas arquitecturas de modelos introducen sesgos inductivos que afectan el aprendizaje de la representación, interactuando potencialmente con los efectos representacionales del modelado.

Referencias:

https://arxiv.org/abs/2402.09142

noticias

¿Arquitectura de red neuronal "diferentes caminos conducen al mismo objetivo"? Documento ICML 2024: Diferentes modelos, pero el mismo contenido de aprendizaje

Introducción

Mi informacion de contacto