Arquitetura de rede neural “caminhos diferentes levam ao mesmo objetivo”? Artigo ICML 2024: Modelos diferentes, mas o mesmo conteúdo de aprendizagem

Arquitetura de rede neural “caminhos diferentes levam ao mesmo objetivo”? Documento ICML 2024: Modelos diferentes, mas o mesmo conteúdo de aprendizagem

2024-07-16

Novo Relatório de Sabedoria

Editor: Qiao Yang

[Introdução à Nova Sabedoria] As redes neurais profundas vêm em vários tamanhos e arquiteturas, e é geralmente aceito que isso afeta as representações abstratas aprendidas pelo modelo. No entanto, o primeiro artigo publicado por dois estudiosos da UCL no ICML 2024 apontou que se a arquitetura do modelo for suficientemente flexível, certos comportamentos de rede serão generalizados entre diferentes arquiteturas.

Desde que a IA entrou na era dos grandes modelos, a Lei de Escalabilidade tornou-se quase um consenso.

Endereço do artigo: https://arxiv.org/abs/2001.08361

Os pesquisadores da OpenAI propuseram neste artigo em 2020 que o desempenho do modelo tem uma relação de lei de potência com três indicadores: quantidade de parâmetro N, tamanho do conjunto de dados D e poder de computação de treinamento C.

Além desses três aspectos, fatores como a seleção de hiperparâmetros e a largura e profundidade do modelo têm pouco impacto no desempenho dentro de uma faixa razoável.

Além disso, a existência desta relação potência-lei não faz quaisquer estipulações sobre a arquitetura do modelo. Em outras palavras, podemos pensar que a Lei de Escala é aplicável a quase qualquer arquitetura de modelo.

Além disso, um artigo publicado na área de neurociências em 2021 parece abordar esse fenômeno de outro ângulo.

Endereço do artigo: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

Eles descobriram que, embora redes como AlexNet, VGG e ResNet projetadas para tarefas visuais tenham grandes diferenças estruturais, elas parecem ser capazes de aprender semânticas muito semelhantes, como o relacionamento hierárquico de categorias de objetos, após o treinamento no mesmo conjunto de dados. .

Mas qual é a razão por trás disso? Se você for além da experiência superficial, até que ponto as diversas arquiteturas de rede são semelhantes no nível essencial?

Dois pesquisadores da UCL publicaram um artigo este ano, tentando responder a essa questão observando a representação abstrata aprendida pelas redes neurais.

Endereço do artigo: https://arxiv.org/abs/2402.09142

Eles derivaram uma teoria que resume efetivamente a dinâmica da aprendizagem de representação em arquiteturas de modelos complexos e de grande escala, descobrindo suas características "ricas" e "preguiçosas". Quando o modelo é suficientemente flexível, certos comportamentos de rede podem ser difundidos em diferentes arquiteturas.

Este artigo foi aceito pela conferência ICML 2024.

Processo de modelagem

O teorema da aproximação universal afirma que, dados parâmetros suficientes, uma rede neural não linear pode aprender e aproximar qualquer função suave.

Inspirado neste teorema, o artigo primeiro assume que o mapeamento de codificação da entrada para a representação oculta e o mapeamento de decodificação da representação oculta para a saída são funções suaves arbitrárias.

Portanto, ignorando os detalhes da arquitetura da rede, a dinâmica funcional pode ser modelada da seguinte maneira:

O processo de treinamento de uma rede neural pode ser visto como a otimização de uma função de suavização em um conjunto de dados específico, alterando constantemente os parâmetros da rede para minimizar a função de perda do MSE:

em⟨⋅⟩Os símbolos representam médias de todo o conjunto de dados.

Como estamos interessados em estudar os processos dinâmicos que representam o espaço, a função pode ser dividida em uma combinação de dois mapas suaves: o mapa de codificaçãoℎ:→e mapeamento de decodificação:→, neste momento a função de perda na equação (1) pode ser escrita como:

A seguir, o processo de atualização de parâmetros usando a regra de gradiente descendente pode ser escrito como:

onde é o recíproco da taxa de aprendizagem.

Embora a equação (4) seja suficientemente precisa, o problema é que ela depende explicitamente dos parâmetros da rede, e uma expressão matemática suficientemente geral requer ignorar este detalhe de implementação.

Idealmente, se a capacidade expressiva da rede neural for rica o suficiente, a otimização da função de perda deve ser expressa diretamente como cerca de dois mapeamentosℎe função.

No entanto, como isso é alcançado matematicamente ainda não está claro. Portanto, vamos começar com o caso mais simples – não considerando todo o conjunto de dados, mas dois pontos de dados.

Durante o treinamento, devido à função de mapeamentoℎÀ medida que a soma muda, as representações de diferentes pontos de dados movem-se no espaço oculto, aproximam-se umas das outras ou interagem entre si.

Por exemplo, para dois pontos no conjunto de dados, seℎ⁢(1) eℎ⁢(2) está próximo o suficiente eℎe é uma função suave, então a média dos dois pontos pode ser usada para realizar uma aproximação linear das duas funções de mapeamento:

emℎe respectivamenteℎe a matriz Jacobiana de.

Supondo que a rede neural tenha expressividade e graus de liberdade suficientes, os parâmetros de linearizaçãoℎ, e pode ser efetivamente otimizado, então o processo de descida gradiente pode ser expresso como:

A equação (6) descreve a principal hipótese de modelagem do artigo, que pretende ser uma teoria equivalente para sistemas de arquitetura complexa de grande escala e não está sujeita a métodos de parametrização específicos.

A Figura 1 é uma expressão visual do processo de modelagem acima. Para simplificar o problema, assume-se que dois pontos de dados apenas se aproximarão ou se afastarão no espaço oculto, mas não girarão.

O principal indicador que nos interessa é a distância ‖ℎ‖ no espaço oculto, que nos permite conhecer a estrutura de representação aprendida pelo modelo, e a distância ‖‖ produzida pelo modelo, que ajuda a modelar a curva de perdas.

Além disso, uma variável externa é introduzida para controlar a velocidade de representação, ou pode ser vista como alinhamento de saída, representando a diferença angular entre a saída prevista e a saída verdadeira.

A partir disso, obtemos um sistema independente de três variáveis escalares:

Entre eles, os detalhes de implementação da rede neural foram expressos abstratamente como duas constantes: 1/ℎe 1/, indicando a taxa efetiva de aprendizagem.

Aprendendo consistência dinâmica

Após a conclusão da modelagem, o artigo treinou redes neurais de diferentes arquiteturas no conjunto de dados de dois pontos e comparou a dinâmica real de aprendizagem com a solução numérica da teoria equivalente.

A estrutura padrão refere-se a uma rede de 20 camadas, 500 neurônios por camada e ReLU com vazamento.

Pode-se ver que, embora existam apenas duas constantes que precisam ser ajustadas, a teoria da equivalência que acabamos de descrever ainda pode se ajustar bem à situação real de várias redes neurais.

As mesmas equações podem descrever com precisão a dinâmica de múltiplos modelos e arquiteturas complexas durante o treinamento, o que parece indicar que se o modelo for suficientemente expressivo, eventualmente convergirá para um comportamento de rede comum.

Coloque-o em um conjunto de dados maior como o MNIST e acompanhe a dinâmica de aprendizagem de dois pontos de dados, e a teoria da equivalência ainda será válida.

A arquitetura de rede inclui 4 camadas totalmente conectadas, cada camada inclui 100 neurônios e usa a função de ativação ReLU com vazamento

No entanto, é importante notar que quando o peso inicial aumenta gradualmente (Figura 3), os padrões de mudança de ‖ℎ‖, ‖⁢‖ e as três variáveis mudarão.

Porque quando o peso inicial é grande, os dois pontos de dados estarão distantes um do outro no início do treinamento, então a aproximação linear da fórmula (5) não é mais válida e o modelo teórico acima falha.

representação estruturada

A partir das restrições de suavidade e da teoria de equivalência mencionada acima, podemos resumir as regras na estrutura de representação das redes neurais?

De acordo com a fórmula (7), pode-se deduzir que existe um único ponto fixo, que é a distância final de representação de dois pontos de dados:

Se o peso inicial for grande, a distância de representação final convergirá para alto, e o valor depende da entrada de dados e da inicialização aleatória, inversamente, se o peso inicial for pequeno, convergirá para baixo, que depende da entrada e da saída; estrutura dos dados.

Esta separação entre mecanismos aleatórios e mecanismos estruturados verifica ainda mais a "riqueza" e a "inércia" no processo de aprendizagem de redes neurais profundas proposto em artigos anteriores, especialmente considerando que a escala dos pesos iniciais se tornará um fator chave.

O artigo dá uma explicação intuitiva para esse fenômeno:

Se os pesos iniciais forem grandes, os dois pontos de dados no espaço oculto estarão distantes um do outro quando o treinamento começar, de modo que a flexibilidade da rede permite que o decodificador aprenda livremente a saída correta para cada ponto de dados individualmente, sem a necessidade de ajustes significativos. Estrutura de representação. Portanto, o padrão final aprendido se assemelha à estrutura que já estava presente na inicialização.

Pelo contrário, quando o peso é pequeno, os dois pontos de dados estão localizados mais próximos e, devido às limitações de suavidade, a função de mapeamento de codificação deve ser ajustada de acordo com a saída alvo, movendo a representação dos dois pontos de dados para caber nos dados .

Portanto, veremos que quando os pesos são pequenos, o aprendizado de representação apresentará um efeito estruturado (Figura 5).

Mudar a tarefa da rede neural para ajustar uma função OR exclusiva (XOR) pode demonstrar isso de forma mais intuitiva. Quando o peso de inicialização é pequeno, o modelo obviamente aprende as características estruturais da função XOR.

Na rede neural com apenas 2 camadas à direita, há um grande desvio entre teoria e experimento, o que ilustra a importância da suposição de alta expressividade do modelo na teoria acima.

para concluir

A principal contribuição deste artigo é a introdução de uma teoria de equivalência que é capaz de expressar partes comuns do processo de aprendizagem dinâmica em diferentes arquiteturas de redes neurais e demonstrou uma representação estruturada.

Devido à limitação da suavidade do processo de modelagem e à simplificação da interação dos pontos de dados, esta teoria ainda não pode se tornar um modelo universal para descrever o processo de treinamento de redes neurais profundas.

No entanto, o mais valioso deste estudo é que ele mostra que alguns dos elementos necessários para a aprendizagem da representação já podem estar incluídos no processo de descida gradiente, e não apenas a partir do viés indutivo contido na arquitetura específica do modelo.

Além disso, a teoria também enfatiza que a escala dos pesos iniciais é um fator chave na formação final da estrutura de representação.

Em trabalhos futuros, ainda precisamos encontrar uma maneira de estender a teoria da equivalência para lidar com conjuntos de dados maiores e mais complexos, em vez de apenas modelar a interação de dois pontos de dados.

Ao mesmo tempo, muitas arquiteturas de modelos introduzem vieses indutivos que afetam o aprendizado da representação, interagindo potencialmente com os efeitos representacionais da modelagem.

Referências:

https://arxiv.org/abs/2402.09142

notícias

Arquitetura de rede neural “caminhos diferentes levam ao mesmo objetivo”? Documento ICML 2024: Modelos diferentes, mas o mesmo conteúdo de aprendizagem

Introdução

minhas informações de contato