화웨이, 장기 메모리의 새로운 패러다임으로 ai 대형 모델 훈련 및 추론을 가능하게 하는 새로운 ai 스토리지 출시

화웨이, 장기 메모리 메모리의 새로운 패러다임으로 ai 대형 모델 훈련 및 추론을 가능하게 하는 새로운 ai 스토리지 출시

2024-09-21

9월 20일, huawei connect conference 2024 기간 동안 개최된 데이터 스토리지 서밋에서 huawei 부사장 겸 데이터 스토리지 제품 라인 사장 zhou yuefeng 박사는 ai 대형 모델 훈련을 종합적으로 향상시키는 새로운 ai 스토리지 oceanstor a800을 출시했습니다. 롱 메모리 메모리와 추론 능력의 새로운 패러다임으로 수천 개의 산업이 디지털 지능 시대로 나아갈 수 있도록 돕습니다.

huawei 부사장 겸 데이터 스토리지 제품 라인 사장 zhou yuefeng이 기조 연설을 했습니다.

인류문명은 고대석기시대를 거쳐 농업시대, 산업시대를 거쳐 이제 디지털 지능시대까지 진화해 왔으며, 새로운 생산력 발전을 위한 핵심 생산요소가 되어왔습니다. 사람들은 데이터를 이용해 ai 대형 모델, 체화된 지능, 과학용 ai 등 ai 핵심 분야에서 큰 발전을 이룬다.

디지털 인텔리전스 시대는 데이터의 황금시대입니다. 데이터의 규모가 폭발적으로 증가하고 데이터의 가치가 높아지는 동시에 xpu 및 스토리지의 대역폭 부족, 컴퓨팅 클러스터의 낮은 가용성, 확장성 등의 과제도 직면하고 있습니다. 추론 시간은 저장에 대한 더 높은 요구 사항을 제시합니다. 디지털 인텔리전스 시대에는 ai용 스토리지가 필요합니다. 최고의 성능, 높은 확장성, 데이터 탄력성, 지속 가능한 개발, 새로운 데이터 패러다임 및 데이터 위빙 기능을 갖춘 데이터 스토리지는 ai 디지털 인텔리전스 시대로 가는 유일한 방법입니다.

위의 과제를 해결하기 위해 화웨이는 대규모 ai 모델의 효율적인 훈련 기능을 기반으로 추론 기능을 크게 강화하고 클러스터 성능과 새로운 데이터 패러다임에서 한 단계 도약하여 애플리케이션을 홍보하는 새로운 ai 스토리지 oceanstor a800을 출시했습니다. 수천 가지 산업 분야에서 ai 사업이 구현됩니다.

1. 단일 ai 저장 장치 세트는 100,000장의 카드 수준의 대형 모델 훈련을 지원합니다. 프런트엔드 네트워크 카드의 완전한 공유와 컨트롤러 및 백엔드 ssd 디스크의 완전한 상호 연결을 갖춘 기술 아키텍처를 구축함으로써 단일 스토리지 장치는 100,000개 카드 수준 클러스터의 완전한 상호 연결을 지원할 수 있습니다. oceanstor a800 스토리지 세트는 최대 192,000개의 카드로 구성된 트레이닝 클러스터와의 정적 완전 연결을 실현하여 성능을 40% 향상시키고 공간 사용량을 80% 줄일 수 있습니다.

2. 스토리지와 컴퓨팅을 사용하면 ai 클러스터의 가용성이 30% 증가합니다. ai 훈련 중단이 자주 발생하는 것으로 나타났다. 통계에 따르면 ai 훈련 센터에서 가장 긴 연속 훈련 시간은 2.6일에 불과해 gpu/npu가 ckpt 데이터를 반복적으로 저장하게 된다. china mobile은 대규모 모델 훈련을 위해 huawei oceanstor ai 스토리지를 사용하여 150pb 단일 스토리지 클러스터, 8tb/s 대역폭 및 2억 3천만 iops 기능을 달성하고 클러스터 가용성이 32% 증가하여 후속 대규모 대규모 모델 교육을 강력하게 지원합니다. .

3. 스토리지 기반 컴퓨팅, 장기 메모리 메모리 스토리지는 추론 경험을 향상시키고 시스템 비용을 절감합니다.

긴 컨텍스트는 대규모 모델 추론의 불가피한 개발 추세가 되었습니다. 스케일링 법칙에 따르면, 충분한 추론 컴퓨팅 성능과 중간 토큰 수를 제공하면 추론의 정확성을 크게 향상시킬 수 있습니다. 전문적인 ai 스토리지를 통해 긴 맥락과 대규모 중간 추론 토큰을 장기간 저장할 수 있어 대형 모델의 논리적 사고 및 추론 능력, 특히 느린 사고 능력을 극대화할 수 있습니다.

긴 메모리 기능을 제공하는 업계 최초의 저장 장치인 oceanstor a800은 kv-cache를 지속적이고 효율적으로 사용하기 위해 다중 레벨 kv 캐시 메커니즘을 혁신적으로 채택하여 대규모 모델 추론이 긴 메모리 기능을 갖고 사전 채우기 단계에서 반복 계산을 줄일 수 있도록 합니다. 고객 추론 지연 시간은 78% 감소하고 단일 xpu 카드의 처리량은 67% 증가하여 추론 경험을 크게 향상시키는 동시에 비용을 절감합니다.

디지털 인텔리전스 시대의 새로운 ai 스토리지는 금융 신용, 투자 연구 분석, 의료 건강, 의약품 연구 개발 등 산업 시나리오에서 가치를 발휘하고 있습니다. zhou yuefeng은 데이터 황금 시대에 화웨이가 혁신적인 ai 스토리지로 고급 데이터 스토리지 기능을 발휘하고 디지털 지능 시대의 기반을 마련했다고 말했습니다.

보고/피드백

소식

화웨이, 장기 메모리 메모리의 새로운 패러다임으로 ai 대형 모델 훈련 및 추론을 가능하게 하는 새로운 ai 스토리지 출시

소개

내 연락처 정보