notícias

Tsinghua rompe o chip de treinamento leve de IA! Resultados publicados na Nature

2024-08-10

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Core West informou em 10 de agosto que o grupo de pesquisa do Professor Fang Lu do Departamento de Engenharia Eletrônica e o grupo de pesquisa do Acadêmico Dai Qionghai do Departamento de Automação da Universidade de TsinghuaprimeiroArquitetura de treinamento de computação óptica inteligente totalmente avançada, desenvolvidoChip de treinamento leve "Tai Chi-II", livrando-se da dependência do treinamento offline e realizando um sistema de computação óptica em grande escalarede neuralTreinamento eficiente e preciso. Resultados relevantes de pesquisas foram publicados na principal revista acadêmica internacional Nature esta semana.

O Departamento de Engenharia Eletrônica da Universidade de Tsinghua emitiu uma introdução dizendo:O surgimento do Tai Chi-II preencheu a lacuna no quebra-cabeça central da computação óptica inteligente no treinamento em larga escala.

A computação óptica tem características de alto poder de computação e baixo consumo de energia, e é uma direção de ponta para acelerar a computação inteligente. O revisor da Nature mencionado na revisão comenta que “as ideias propostas neste artigo são muito novas.O processo de treinamento deste tipo de rede neural óptica (ONN) é inédito. O método proposto não é apenas eficaz, mas também fácil de implementar. Portanto, éEspera-se que se torne uma ferramenta amplamente adotada para treinar redes neurais ópticas e outros sistemas de computação óptica”。

O Departamento de Eletrônica da Universidade de Tsinghua é a primeira unidade do artigo. O professor Fang Lu e o professor Dai Qionghai são os autores correspondentes do artigo. O estudante de doutorado Xue Zhiwei e o pós-doutorado Zhou Tiankui do Departamento de Eletrônica da Universidade de Tsinghua são co-. participaram deste trabalho o estudante de doutorado Xu Zhihao do Departamento de Eletrônica e o Dr. Yu Shaoliang do Laboratório Zhijiang. Este projeto é apoiado pelo Ministério da Ciência e Tecnologia, pela Fundação Nacional de Ciências Naturais da China, pelo Centro Nacional de Pesquisa para Ciência e Tecnologia da Informação de Pequim e pelo Centro Conjunto de Pesquisa do Laboratório da Universidade de Tsinghua-Zhijiang.

1. O uso inteligente da simetria ajuda a computação óptica a se livrar da dependência da GPU

A computação óptica promete melhorar a velocidade e a eficiência energética dos aplicativos de aprendizado de máquina. No entanto, os métodos atuais para treinar eficazmente estes modelos são limitados por simulações computacionais.

O chip de computação óptica inteligente universal "Tai Chi" publicado na principal revista acadêmica internacional SciencePela primeira vez, a computação óptica foi transferida da verificação de princípios para aplicações experimentais em larga escala.160TOPS/WA eficiência energética em nível de sistema trouxe esperança ao raciocínio de tarefas inteligentes complexas, mas não conseguiu liberar o “poder de treinamento” da computação óptica.

Comparado com a inferência, o treinamento de modelo requer muito poder computacional. A arquitetura de treinamento elétrico requer um alto grau de correspondência entre os modelos de propagação direta e reversa, o que impõe requisitos rigorosos para o alinhamento preciso do sistema físico de computação óptica, resultando em difícil cálculo de gradiente, modelagem off-line lenta e grandes erros de mapeamento, que restringe a escala e a eficiência do treinamento óptico.

A equipe de pesquisa de Fang Lu e Dai Qionghai descobriu “Simetria de propagação de fótons"Esta chave, useTreinamento completo de luz frontalRompendo as restrições da arquitetura de treinamento elétrico na computação óptica física.

Segundo Xue Zhiwei, primeiro autor do artigo, sob a arquitetura Tai Chi-II,descida gradienteA retropropagação no sistema óptico é transformada na propagação direta do sistema óptico, e o treinamento da rede neural óptica pode ser alcançado usando a propagação direta de erro de dados duas vezes. As duas propagações diretas possuem características de alinhamento natural, garantindo cálculo preciso dos gradientes físicos. A precisão do treinamento alcançada desta forma é alta e pode suportar treinamento em rede em larga escala.

A modulação-propagação do sistema de luz física e a ativação-conexão da rede neural se mapeiam, ou seja, o treinamento do módulo de modulação pode impulsionar a otimização do peso de qualquer rede, garantindo assim a velocidade e eficiência energética do treinamento.

Como não há necessidade de retropropagação, a arquitetura Taichi-II não depende mais da computação elétrica para modelagem e treinamento off-line, e o treinamento óptico preciso e eficiente de redes neurais em larga escala pode ser alcançado.

2. O treinamento de redes ópticas com milhões de parâmetros aumenta a velocidade em 1 ordem de grandeza

Usando a luz como meio de computação e construindo um modelo de computação baseado na propagação controlável da luz, a computação óptica naturalmente tem as características de alta velocidade e baixo consumo de energia. Usar a propagação total da luz para alcançar o treinamento pode melhorar muito a velocidade e a energia. eficiência do treinamento de redes ópticas.

Os resultados da medição do sistema mostram que o Taichi-II pode treinar uma variedade de sistemas ópticos diferentes e exibe excelente desempenho em diversas tarefas.

1. Áreas de aprendizagem em larga escala:Rompendo a contradição entre precisão de cálculo e eficiência,Milhões de parâmetrosA velocidade de treinamento da rede óptica foi melhorada1 ordem de grandeza, a taxa de precisão das tarefas representativas de classificação inteligente é melhorada.40%

2. Imagem inteligente de cenas complexas:Em um ambiente com pouca luz (a intensidade da luz por pixel é de apenas subfótons), a eficiência energética é alcançada.5,40×10^6 TOPS/WProcessamento totalmente óptico, melhoria da eficiência energética em nível de sistema6 ordens de grandeza. Em aplicações de imagens de cenas complexas, como sem campo de visão, são obtidas imagens inteligentes com taxas de quadros em quilohertz e a eficiência é melhorada.2 ordens de grandeza

3. Campo fotônico topológico:Pontos singulares não-Hermitianos podem ser pesquisados ​​automaticamente sem depender de nenhum modelo anterior, fornecendo uma nova ideia para análise eficiente e precisa de sistemas topológicos complexos.

3. Promover o progresso prático e teórico e fornecer novo poder computacional para grandes modelos de IA.

O Taichi-II também mostrou potencial de aplicação no campo da fotônica topológica. Ele pode procurar automaticamente pontos singulares não-Hermitianos sem depender de nenhum modelo a priori, fornecendo novas ideias para análises eficientes e precisas de sistemas topológicos complexos.

Por exemplo, se os dois instrumentos forem separados, o Taichi I e II realizarão raciocínio e treinamento de IA de alta eficiência energética, respectivamente, e se os dois instrumentos forem harmonizados, o Taichi I e II juntos formam um ciclo de vida completo de computação inteligente em grande escala; .

""O Tao do Tai Chi determina os dois ritos e o método de integração da retidão e do antiuniverso." É assim que descrevemos a estrutura de colaboração dialética da série Tai Chi. Acreditamos que eles trabalharão juntos para injetar um novo ímpeto para o desenvolvimento do poder computacional em futuros grandes modelos de IA e construir uma nova base leve para o poder computacional. “Fang Lu disse.

Com base nas amostras principais, a equipe de pesquisa está avançando ativamente em direção à industrialização de chips ópticos inteligentes e os implantou em uma variedade de sistemas inteligentes finais.

Duas gerações de chips Taichi revelaram sucessivamente o enorme potencial da computação óptica inteligente. Através de esforços incessantes no campo da computação óptica, incluindo a série Taichi, espera-se que a plataforma de computação óptica inteligente forneça computação de alta velocidade e com eficiência energética para grandes modelos de IA, inteligência artificial geral e sistemas inteligentes complexos com menor consumo de recursos e custos marginais menores.

fonte:Universidade de Tsinghua, Natureza