shen dou, vice-presidente executivo do grupo baidu: grandes modelos estão intimamente integrados à computação em nuvem e estão se tornando um novo tipo de infraestrutura

shen dou, vice-presidente executivo do grupo baidu: os modelos grandes estão intimamente integrados à computação em nuvem e estão se tornando um novo tipo de infraestrutura.

2024-09-25

em 25 de setembro, na baidu cloud intelligence conference 2024, shen dou, vice-presidente executivo do baidu group e presidente do baidu intelligent cloud business group, disse na cloud intelligence conference que o ano passado foi a chave para a transformação de grandes modelos de mudança tecnológica para mudança industrial. um ano, e os grandes modelos estão intimamente integrados à computação em nuvem e estão se tornando um novo tipo de infraestrutura "os grandes modelos e seus sistemas relacionados estão rapidamente se tornando uma nova geração de infraestrutura em apenas alguns anos. a velocidade. desta mudança não tem precedentes."

shen dou, vice-presidente executivo do baidu group e presidente do baidu intelligent cloud business group fonte da foto: foto fornecida pela empresa.

em relação ao poder de computação de modelos grandes, shen dou disse que, quando se trata de poder de computação, muitas pessoas já ouviram falar do "cluster wanka". simplificando, os clusters de gpu têm três características: escala extrema, densidade extremamente alta e interconexão extrema.

e estes “extremos” trazem vários desafios sérios. shen dou apresentou que o primeiro são os enormes custos de construção e operação. para construir um cluster wanka, o custo de compra apenas da gpu chega a vários bilhões de yuans. em segundo lugar, num cluster de tão grande escala, a complexidade da operação e manutenção aumenta dramaticamente. ele observou que o hardware falhará inevitavelmente e quanto maior a escala, maior a probabilidade de falha. “quando o meta treinou o llama3, um cluster usando 16.000 placas gpu sofreu uma falha média a cada 3 horas.”

shen dou disse ainda que entre essas falhas, a grande maioria é causada pela gpu. na verdade, a gpu é um hardware muito sensível, e mesmo as flutuações na temperatura do meio-dia afetarão a taxa de falhas da gpu. esses dois desafios forçaram o baidu a repensar como construir, gerenciar e manter clusters de gpu grandes e complexos, proteger a complexidade da camada de hardware e fornecer uma plataforma de computação simples e fácil de usar para todo o processo de implementação de grandes modelos, permitindo usuários para é mais fácil gerenciar o poder de computação da gpu e fazer bom uso do poder de computação a baixo custo. "no ano passado, sentimos que as necessidades de treinamento de modelos dos clientes aumentaram e o tamanho do cluster necessário tornou-se cada vez maior. ao mesmo tempo, as expectativas de todos para o declínio contínuo dos custos de inferência de modelos também se tornaram cada vez mais altas. . tudo isso tem um grande impacto nas gpus. a estabilidade e a eficácia do gerenciamento apresentam requisitos mais elevados.

com base nisso, o baidu intelligent cloud anunciou que atualizará totalmente a plataforma de computação heterogênea baige ai para a versão 4.0. com foco nas necessidades de poder de computação de toda a jornada de implementação de grandes modelos, fornecerá às empresas quatro aspectos principais: criação de cluster, experimentos de desenvolvimento, treinamento de modelo e inferência de modelo fornece infraestrutura de ia "múltipla, rápida, estável e econômica".

entre eles, a fim de resolver o problema de escassez de recursos computacionais, o baige 4.0 fez atualizações importantes na capacidade de "treinamento misto multinúcleo", alcançando 95% de eficiência de treinamento misto multinúcleo em clusters em escala wanka, atingindo o máximo nível avançado no negócio. no processo de implantação de cluster, o baige atualizado pode alcançar implantação de segundo nível no nível da ferramenta, reduzindo o tempo de preparação para operações de cluster wanka de semanas para uma hora no máximo, melhorando significativamente a eficiência da implantação e encurtando o ciclo de lançamento de negócios. em resposta ao problema de falhas frequentes durante o treinamento de grandes modelos, o baige 4.0 atualizou de forma abrangente os métodos de detecção de falhas e os mecanismos automáticos de tolerância a falhas, que podem efetivamente reduzir a frequência das falhas e reduzir significativamente o tempo de tratamento de falhas do cluster. % na duração efetiva do treinamento do cluster wanka.

além disso, o baidu intelligent cloud também anunciou o mais recente "boletim" da plataforma de modelo grande qianfan. na plataforma de modelo grande qianfan, o modelo grande wenxin tem um volume médio de chamadas diárias de mais de 700 milhões de vezes e tem ajudado os usuários bem. -ajustar um total de 30.000 modelos grandes, desenvolveu mais de 700.000 aplicativos de nível empresarial. no ano passado, o preço do principal modelo grande da wenxin caiu mais de 90%.

notícias econômicas diárias

relatório/comentários

notícias

shen dou, vice-presidente executivo do grupo baidu: os modelos grandes estão intimamente integrados à computação em nuvem e estão se tornando um novo tipo de infraestrutura.

introdução

minhas informações de contato