notícias

Vários acadêmicos e especialistas falam sobre inteligência artificial: a China não pode desenvolver IA “empilhando chips”

2024-07-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[Repórter do Global Times Ma Jun] Os Estados Unidos contam com suas vantagens em software e hardware para usar sua escala para "acumular" a inteligência artificial (IA) mais poderosa do mundo. O bilionário americano Musk anunciou recentemente nas redes sociais que sua empresa iniciante de IA xAI começou a usar um "Super Cluster Memphis" composto por 100.000 GPUs H100 para treinamento de IA, alegando ser "o cluster de treinamento de IA mais poderoso do mundo". Deveria a China seguir este caminho tecnológico liderado pelos Estados Unidos? Recentemente, no Seminário de Especialistas em Desenvolvimento de Energia de Computação da China de 2024, co-patrocinado pela Aliança da Indústria de Computação Inteligente da China e pelo Grupo de Trabalho de Padrões de Energia de Computação do Comitê Nacional de Beacons, vários acadêmicos e especialistas deram suas respectivas opiniões.

O futuro da integração da superinteligência será dividido em três etapas

Chen Runsheng, acadêmico da Academia Chinesa de Ciências, disse no seminário: "Grandes modelos de inteligência artificial são representantes de nova produtividade. O desenvolvimento integrado de grandes modelos e supercomputação é muito importante. Nosso país precisa planejar seriamente e considerar isso ." Instituto de Tecnologia de Computação, Pesquisador da Academia Chinesa de Ciências Zhang Yunquan mencionou que o rápido desenvolvimento de grandes modelos demonstra as características de uma nova produtividade, mas também encontra atualmente um gargalo de poder de computação. Tendo em conta a profunda acumulação tecnológica da China no domínio da supercomputação, espera-se que a fusão superinteligente (a fusão da supercomputação e da computação inteligente representada por grandes modelos) possa resolver eficazmente este desafio. Shan Zhiguang, diretor do Departamento de Informação e Desenvolvimento Industrial do Centro Nacional de Informação, explicou: “A fusão superinteligente nasceu com o atual desenvolvimento diversificado de poder de computação básico, poder de computação inteligente, poder de supercomputação, etc., ou seja, se pode usar recursos de computação híbridos ou sistemas de computação integrados para atender às necessidades de aplicação de vários recursos de computação diferentes ao mesmo tempo.”

Ao prever o futuro processo de integração da superinteligência, Qian Depei, acadêmico da Academia Chinesa de Ciências, acredita que ele evoluirá claramente ao longo dos três estágios de para IA, por IA e sendo IA, evoluindo de forma abrangente. do hardware ao software para se adaptar e promover a inteligência artificial. Desenvolvimento de tecnologia. Na primeira fase da IA, centrar-se-á na transformação e modernização dos sistemas informáticos existentes e no desenvolvimento de hardware específico para garantir que as tarefas de IA possam ser apoiadas e executadas de forma eficiente e para fornecer uma infraestrutura sólida para a investigação em inteligência artificial. Na segunda fase da IA, a IA será usada para transformar a computação tradicional. Por um lado, os métodos de IA são usados ​​para resolver problemas de supercomputação tradicionais. Por outro lado, a IA também está afetando a estrutura dos computadores tradicionais. tornar-se aparente. No estágio final de ser IA, o sistema computacional exibirá características inteligentes inerentes. A inteligência artificial não é mais uma habilidade externa, mas se tornou o atributo central e componente básico do computador. a inteligência será muito diferente. Ela excede a supercomputação ou a computação inteligente que temos hoje.

Chen Runsheng percebeu que a comunidade científica e a indústria têm tentado resolver o problema da integração da supercomputação e da computação inteligente. Por exemplo, a mais recente arquitetura GB200 da Nvidia é na verdade duas GPUs mais uma CPU. Em certo sentido, pode-se considerar que ela aproveita as vantagens da computação inteligente e da supercomputação no layout de duas GPUs que executam aprendizado de máquina, adicionando a CPU fornece alta velocidade. transmissão de dados. Mas ele acredita que esta arquitetura não resolve fundamentalmente o problema da eficiência. “A combinação de supercomputação e computação inteligente é inevitável e será integrada organicamente, em vez de simplesmente montada.”

Zheng Weimin, acadêmico da Academia Chinesa de Engenharia, também disse que todos os aspectos do desenvolvimento, treinamento, ajuste fino e inferência de grandes modelos são inseparáveis ​​do poder computacional, e o custo do poder computacional é responsável pela maior parte do total as despesas, especialmente na fase de formação, que chegam a 70%. Na fase de fundamentação, chegam a 95%. Em vista disso, o poder computacional tornou-se um fator chave no apoio ao desenvolvimento de grandes modelos.

A computação inteligente deveria se referir à "inteligência humana"

Acadêmicos e especialistas chineses apresentaram seus próprios pontos de vista sobre a atual mania dos modelos em grande escala da China e o caminho tecnológico para seguir a "escala de reator" dos Estados Unidos. Qian Depei disse que a China agora tem mais modelos em grande escala em número e tipos do que os Estados Unidos, e eles também estão envolvidos na inteligência artificial geral. No entanto, não somos estritamente restringidos pelos Estados Unidos em termos de hardware, mas também. a qualidade dos dados utilizados para o treinamento do modelo em grande escala Tanto o modelo quanto a quantidade são relativamente pequenos "O modelo em grande escala produzido desta forma pode ser melhor do que o dos Estados Unidos? Acho que ainda temos que nos conformar. às condições nacionais da China e não pode seguir completamente os americanos."

Chen Runsheng também acredita que os grandes modelos emergentes atualmente na China são basicamente melhorias nos grandes modelos e algoritmos propostos pelos Estados Unidos, mas há pouca consideração da teoria básica de todo o grande modelo. Ele destacou no seminário que, comparada ao modelo de memória local utilizado pelos supercomputadores tradicionais, a computação inteligente apresenta uma diferença fundamental - armazenamento distribuído de informações.Este método de armazenamento imita o cérebro humanoRedes neurais A estrutura complexa transporta modelos cada vez maiores através de redes de chips densamente interconectadas e em grande escala. No entanto, como incorporar eficazmente o conhecimento humano nestes sistemas complexos e como a informação é distribuída e armazenada no sistema, os algoritmos e as teorias técnicas por trás dele ainda não foram totalmente explorados. “Com a expansão descontrolada da escala do modelo, um problema intransponível é o consumo de energia. Portanto, não é totalmente aconselhável adicionar chips cegamente e confiar no aumento da complexidade do sistema para resolver o problema de armazenamento de modelos grandes.”

Portanto, Chen Runsheng acredita que a futura computação inteligente ainda deve se referir à "inteligência humana", que consiste em simular o mecanismo operacional do cérebro humano. O cérebro humano é muito pequeno e consome apenas dezenas de watts de energia, mas a inteligência que gera excede a atual IA de última geração, que consome tanta energia como uma cidade inteira. "O desenvolvimento de grandes modelos e computação inteligente requer não apenas melhorias nos modelos e algoritmos no nível da aplicação, mas também avanços na perspectiva da teoria básica. Atualmente, os grandes modelos desenvolveram apenas os primeiros 10% e 90% dos o trabalho não foi feito. Eu também acredito que modelos grandes definitivamente não são alcançados empilhando mais e mais chips. Eles devem aprender como o cérebro humano, comprimindo a complexidade do espaço e a complexidade do tempo e reduzindo o consumo de energia. acho que é o mais básico. O problema é estudar a complexidade espacial atual para completar a teoria básica da computação inteligente. Se pudermos fazer algum progresso na teoria básica, podemos alcançar uma inovação fundamental e original.

Yuan Guoxing, pesquisador do Instituto de Física Aplicada e Matemática Computacional de Pequim, acredita que é impossível esperar que um grande modelo geral seja capaz de resolver problemas em todas as esferas da vida. Na situação real, diferentes aplicações possuem tecnologias diferentes, exigem algoritmos diferentes e têm requisitos diferentes de poder de computação. Por exemplo, na computação científica, os requisitos de precisão dos cálculos são cada vez maiores. À medida que a escala dos computadores se expande, há cada vez mais dados e a credibilidade diminui constantemente. NASA (NASA ) também apresentaram um ponto de vista semelhante. Eles apresentaram requisitos muito elevados para a precisão do cálculo. Portanto, diferentes aplicações no futuro terão diferentes modelos grandes e diferentes cálculos para resolver diferentes problemas. Os grandes modelos atuais têm requisitos completamente diferentes de precisão de cálculo e algoritmos.

Academia Chinesa de Tecnologia da Informação e Comunicaçãocomputação em nuvemHe Baohong, diretor do Big Data Research Institute, acrescentou: “A computação e o treinamento têm requisitos diferentes para a infraestrutura subjacente, e também é necessário determinar em quais cenários as diferenças devem ser protegidas e em quais cenários as diferenças devem ser refletidas. "

Necessidade de desenvolver grandes modelos a nível soberano

Zhang Yunquan disse que os Estados Unidos tentaram recentemente "travar" meu país no desenvolvimento da inteligência artificial por meio de uma série de ações, incluindo a proibição da venda de GPUs de última geração, o encerramento do compartilhamento de código-fonte para modelos grandes e a interrupção cooperação ecológica. Ao mesmo tempo, quando a escala de computação de grandes modelos atinge agora 10.000 GPUs, ou mesmo 100.000 GPUs, é necessário desenvolver supercomputadores especiais para grandes modelos para romper gargalos técnicos, como paredes de consumo de energia, paredes de confiabilidade e paredes paralelas. Neste contexto, se a China quiser romper o gargalo do poder de computação dos grandes modelos no curto prazo, a China tem um caminho a percorrer: usar a tecnologia avançada de supercomputação acumulada nas últimas duas décadas para desenvolver supercomputadores especiais para grandes modelos para superar o gargalo de poder de computação de grandes problemas de modelos, para que nosso país possa agarrar firmemente o nível mais avançado de grandes modelos globais e não ficar para trás.

Ao apresentar o plano "Grande Modelo Soberano" no âmbito do sistema de fusão superinteligente, Zhang Yunquan disse que nosso país tem uma profunda acumulação tecnológica no campo da supercomputação. Nos últimos anos, investiu enormes quantias de dinheiro no desenvolvimento da computação inteligente. energia, com foco no estabelecimento de um sistema de energia de computação de fusão superinteligente como centro. A engenharia do sistema responde às necessidades de energia de computação de grandes modelos, na esperança de maximizar o uso das vantagens da tecnologia de supercomputação para resolver os desafios de energia de computação.De acordo com a implantação do plano "Grande Modelo de Nível Soberano", o consórcio de inovação "Modelo Grande de Nível Soberano" contará com o supercomputador nacional, equipes de professores renomados da Academia Chinesa de Ciências e universidades nacionais importantes, empresas de chips inteligentes, grandes empresas de soluções de modelos, etc. para criar em conjuntoIA aberta Uma organização aberta, o "grande modelo de nível soberano" é desenvolvido pela organização do sector sem fins lucrativos, e o "grande modelo de nível soberano" é implementado pela organização do sector com fins lucrativos. Ele sugeriu que o supercomputador é “a arma mais importante do país” e precisa ser utilizado para superar os maiores e mais difíceis desafios. O grande modelo a nível soberano é um modelo de raiz que pode apoiar o desenvolvimento nacional, e não um grande modelo comum. Supermodelos semelhantes de nível nacional também receberam grande atenção de outros países. Por exemplo, a Microsoft nos Estados Unidos e a OpenAI anunciaram planos para investir US$ 100 bilhões em um novo supercomputador de inteligência artificial. O Japão também anunciou recentemente que investirá pesadamente em. o desenvolvimento de modelos a nível nacional.

Chen Runsheng acredita que, com base nas atuais condições básicas da China e na inevitável tendência de desenvolvimento de grandes modelos, não é realista seguirmos completamente a abordagem ocidental e será difícil recuperar o atraso no curto prazo. Portanto, é ainda mais importante encontrar uma forma de desenvolver modelos de grande escala a nível soberano.