minhas informações de contato
Correspondência[email protected]
2024-07-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Embora a aprendizagem profunda tenha alcançado grande sucesso nos últimos anos, a compreensão das pessoas sobre sua teoria ainda está atrasada.
Por esse motivo, tópicos de pesquisa que tentam explicar a função de perda e o processo de otimização do aprendizado profundo a partir de uma perspectiva teórica têm recebido mais atenção.
Embora as funções de perda usadas no aprendizado profundo sejam frequentemente consideradas funções de caixa preta complexas de alta dimensão, acredita-se que essas funções, especialmente aquelas encontradas em trajetórias de treinamento reais, contêm estruturas benignas complexas que podem efetivamente promover processos de otimização baseados em gradiente.
Como em muitas outras disciplinas científicas, um passo fundamental na construção de uma teoria de aprendizagem profunda reside na compreensão dos fenómenos não triviais descobertos a partir de experiências para elucidar os seus mecanismos subjacentes.
Recentemente, estudiosos da área descobriram um fenômeno impressionante: o modo de conectividade.
Ou seja, diferentes pontos ótimos obtidos através de duas otimizações de gradiente independentes podem ser conectados por um caminho simples no espaço de parâmetros, enquanto a perda ou precisão ao longo do caminho permanece quase constante.
Este fenômeno é sem dúvida surpreendente porque os diferentes pontos ótimos de uma função não convexa provavelmente estão localizados em “vales” diferentes e isolados.
Porém, isso não acontece para os pontos ótimos encontrados na prática.
O que é mais interessante é que alguns pesquisadores descobriram a Conectividade de Modo Linear que é mais forte que a Conectividade de Modo.
Pesquisas sobre conectividade em modo linear mostram que diferentes pontos ideais podem ser conectados por caminhos lineares.
Embora duas redes completamente independentes normalmente não satisfaçam a conectividade de modo linear, existem duas maneiras de obter uma rede que satisfaça:
A primeira rede é o Método Spawning.
Quando a rede inicia a partir da inicialização e treina por um pequeno número de épocas, os parâmetros são copiados para obter duas redes. As duas redes continuaram então a ser treinadas de forma independente sob diferentes estocasticidades.
A segunda rede é o Método de Permutação.
Ou seja, as duas redes são primeiro treinadas de forma independente e, em seguida, os neurônios de uma rede são reorganizados para corresponderem aos neurônios da outra rede.
Em um trabalho anterior, o Dr. Zhou Zhanpeng da Universidade Jiao Tong de Xangai e colaboradores do Laboratório de Inteligência Artificial de Xangai esperavam explicar a conectividade de modo linear da perspectiva do aprendizado de recursos.
E coloca a questão: O que acontece com os recursos internos ao interpolar linearmente os pesos de duas redes treinadas?
Foto | Zhou Zhanpeng (Fonte: Zhou Zhanpeng)
Por meio de pesquisas, eles descobriram que as feições em quase todas as camadas também satisfazem uma forte forma de conexão linear: ou seja, os mapas de feições na rede de interpolação de peso são aproximadamente iguais à interpolação linear dos mapas de feições nas duas redes originais.
Eles chamam esse fenômeno de conectividade de recursos lineares em camadas.
Além disso, eles descobriram que a conectividade de recursos lineares em camadas sempre ocorre ao mesmo tempo que a conectividade de modo linear.
E prova esta regra: se dois modelos treinados no mesmo conjunto de dados satisfazem a conectividade de recursos lineares em camadas, então eles também podem satisfazer a conectividade de modo linear ao mesmo tempo.
Além disso, a equipe de pesquisa conduziu um estudo aprofundado das razões da conectividade de recursos lineares em camadas.
E foram identificadas duas condições principais: a fraca aditividade da função ReLU e a propriedade comutativa entre as duas redes treinadas.
A partir dessas duas condições, eles provaram obter a conectividade de recurso linear em camadas na rede ReLU e verificaram essas duas condições experimentalmente.
Ao mesmo tempo, eles também provaram que o Método de Permutação permite que duas redes satisfaçam a Conectividade de Modo Linear, tornando-as intercambiáveis.
Em geral, a equipe de pesquisa encontrou uma propriedade linear que é mais refinada do que a conectividade de modo linear e pode satisfazer melhor a rede neural.
No entanto, as conclusões acima são todas baseadas em redes treinadas no mesmo conjunto de dados.
Então, eles levantaram uma nova questão: a conectividade de recursos lineares em camadas pode ser estabelecida em dois modelos treinados em conjuntos de dados diferentes?
A equipe percebeu que o Método Spawning está muito próximo do paradigma de treinamento pré-treinamento-ajuste fino. Ou seja, tanto o Método de Desova quanto o ajuste fino partem de um modelo que foi treinado por um período de tempo para realizar treinamento adicional.
No entanto, o modelo no Método Spawning continua a ser treinado no mesmo conjunto de dados, enquanto o modelo no ajuste fino pode ser treinado em conjuntos de dados diferentes.
Em um trabalho recente, eles descobriram que, sob o paradigma de ajuste fino de pré-treinamento, diferentes modelos de ajuste fino também satisfazem as propriedades da conectividade de recursos lineares em camadas, que a equipe de pesquisa chama de linearidade entre tarefas.
Verificou-se que sob o paradigma de pré-treinamento e ajuste fino, a rede é na verdade mais aproximada de um mapeamento linear do espaço de parâmetros para o espaço de recursos.
Ou seja, a linearidade entre tarefas estende a definição de conectividade de recursos lineares em camadas para modelos treinados em diferentes conjuntos de dados.
Curiosamente, a equipe também usou as descobertas da linearidade entre tarefas para explicar duas técnicas comuns de fusão de modelos:
Primeiro, o Model Averaging obtém a média dos pesos de vários modelos ajustados no mesmo conjunto de dados, mas usando diferentes configurações de hiperparâmetros, melhorando assim a precisão e a robustez.
No estudo, o peso médio do grupo de pesquisa foi interpretado como a média das características em cada camada, estabelecendo assim uma estreita ligação entre a Média do Modelo e a integração do modelo, explicando assim a eficácia da Média do Modelo.
Em segundo lugar, com operações aritméticas simples, Task Arithmetic pode combinar os pesos de modelos ajustados em diferentes tarefas para controlar o comportamento do modelo de acordo.
Durante a pesquisa, a equipe transformou operações aritméticas no espaço de parâmetros em operações no espaço de recursos, explicando assim a Aritmética de Tarefas do ponto de vista do aprendizado de recursos.
Posteriormente, eles exploraram as condições sob as quais ocorre a linearidade entre tarefas e descobriram a importância do pré-treinamento para a linearidade entre tarefas.
Os resultados experimentais mostram que o conhecimento comum obtido na fase de pré-treinamento ajuda a atender aos requisitos da Linearidade entre Tarefas.
Durante o estudo, também fez uma tentativa preliminar de provar a linearidade entre tarefas e descobriu que o surgimento da linearidade entre tarefas está relacionado ao nivelamento da paisagem da rede e à diferença de peso entre os dois modelos ajustados.
Recentemente, um artigo relacionado intitulado "Sobre o surgimento da linearidade entre tarefas no pré-treinamento-ajuste fino" foi publicado na Conferência Internacional sobre Aprendizado de Máquina (ICML) 2024 [1].
Figura | Artigos relacionados (Fonte: ICML 2024)
A equipe de pesquisa expressou a esperança de que esta descoberta possa inspirar melhores algoritmos de fusão de modelos.
No futuro, se for necessário construir um modelo grande e ajustado com múltiplas capacidades, a fusão de modelos grandes se tornará uma das principais tecnologias. Este trabalho fornece suporte experimental e teórico sólido para fusão de modelos grandes e pode inspirar melhores algoritmos de fusão de modelos grandes.
Em seguida, eles esperam compreender a conectividade do modo linear, a conectividade de recursos lineares em camadas e a linearidade entre tarefas da perspectiva da dinâmica de treinamento.
Embora tenham obtido algumas explicações no nível dos recursos, eles ainda não conseguem explicar a conectividade de modo linear da perspectiva dos primeiros princípios.
Por exemplo, por que o Método Spawning só precisa treinar algumas épocas primeiro para finalmente obter dois modelos que atendam à Conectividade do Modo Linear?
E como prever esse tempo de desova? Para responder a essas perguntas, precisamos entender a Conectividade de Modo Linear do ponto de vista do treinamento e da otimização, e esse também é o esforço de acompanhamento da equipe.
Referências:
1.Zhou, Z., Chen, Z., Chen, Y., Zhang, B., & Yan, J. Sobre o surgimento da linearidade entre tarefas no paradigma de pré-treinamento-ajuste fino. Na quadragésima primeira conferência internacional sobre aprendizado de máquina.
Operação/composição: He Chenlong
01/ A equipe da cidade de Hong Kong desenvolve um novo tipo de membrana em nanocamadas, que pode ser usada para tratamento de água doce em cenários especiais e encontra avanços para a aplicação de materiais bidimensionais.
02/ Décadas de problemas químicos receberam respostas confiáveis. Os cientistas propuseram um novo mecanismo microscópico para a dissolução do cloreto de hidrogênio para formar ácido clorídrico, que promoverá o desenvolvimento de múltiplas disciplinas.
03/ Cientistas criam um novo método de controle de detecção quântica que pode detectar com precisão sinais fracos e pode ser usado para detectar e controlar spins nucleares individuais
04/ Os novos vencedores dos "35 principais inovadores tecnológicos com menos de 35 anos" da "MIT Technology Review" na China são anunciados oficialmente!Testemunhe o poder inovador da juventude científica e tecnológica em Xangai
05/ Com uma resistência dinâmica de 14GPa, a equipe da Universidade de Pequim desenvolveu com sucesso fibras de nanotubos de carbono superfortes, que podem ser usadas como materiais estruturais e de proteção leves e de alto desempenho