소식

신제품 | Inspur 정보, X400 Super AI 이더넷 스위치 출시 Spectrum-X 플랫폼 지원

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

7월 23일자 뉴스인스퍼 정보생성 AI용 'X400 Super AI' 출시이더넷스위치는 NVIDIA Spectrum-X 플랫폼 기술을 지원하고 X400 및 BlueField-3 SuperNIC를 기반으로 터미널-네트워크 협업을 생성하는 국내 최초의 X400 슈퍼 AI 이더넷(X400 AI 패브릭) 솔루션으로 Wanka GPU 트레이닝 성능을 1.6배로 크게 향상시켰습니다.

대형 모델 시대의 경쟁이 점점 치열해지면서 대형 모델의 반복 능력이 시장 경쟁력의 핵심이 된 것으로 전해진다. 그러나 컴퓨팅 파워의 규모가 계속 증가함에 따라 단일 칩의 성능은 더 이상 결정적인 열쇠가 아니며 AI 시스템의 효율성이 사용자의 초점이 되었습니다. 현재 대규모 AI 모델 사용자의 훈련 과정에서 네트워크 통신이 훈련 시간의 최대 20~40%를 차지한다. 예를 들어, 이전 메타 통계에 따르면 네트워크 통신은 AI 훈련에서 평균 35%의 시간을 차지하며(최고는 57%), 이는 수백만 또는 수십억 달러에 구입한 GPU에 소요되는 시간의 35%에 해당합니다. 달러는 무료입니다. GPU 자원 활용도를 높이기 위해서는 네트워크 통신 효율성 개선이 시급하다. 그러나 기존 RoCE 네트워크에서 ECMP의 고르지 못한 HASH 문제로 인해 전체 링크 로드 활용도가 낮아졌습니다. 전용 네트워크 솔루션은 성능 요구 사항을 충족할 수 있지만 잘 확립된 이더넷 생태계를 고려할 수는 없습니다.

최근 Inspur Information의 "X400 Super AI 이더넷"은 Spectrum-X 플랫폼을 기반으로 하며 터미널-네트워크 협업 기술을 사용하여 성능, 확장성, 안정성 및 4가지 측면에서 AI 대형 모델 훈련 네트워크 구축의 새로운 길을 열었습니다. 사용자 경험은 고객이 직면한 문제를 해결하고 이더넷을 채택할지 아니면 전용 네트워크를 채택할지에 대한 딜레마에서 고객을 구합니다. 동시에 Super AI 이더넷 스위치 X400은 개방형 아키텍처를 채택하고 S3IP-UNP 사양을 준수하도록 설계되어 소프트웨어와 하드웨어의 계층적 분리를 달성하고 개방형 네트워크 생태계를 구축하여 고객 비즈니스 혁신을 가속화합니다. 16K GPU 카드의 컴퓨팅 규모에서 GPT3 모델 훈련의 실제 테스트에서 Super AI Ethernet은 기존 RoCE보다 1.6배에 달하는 성능 혁신을 달성했습니다.

네트워크 성능 측면에서 X 400 Super AI 이더넷 솔루션은 X400의 협업 스케줄링과 지능형 네트워크 카드를 채택합니다. 적응형 라우팅, 패킷 순서 보존, 프로그래밍 가능 CC 등의 기술을 통해 스위치와 네트워크 카드가 더욱 긴밀하게 협력하여 다음을 제공할 수 있습니다. AI 솔루션은 패킷 손실 없음, 비차단 풀 링크 스위칭 네트워크, 400G의 기계 간 상호 연결 성능을 제공하고 유효 대역폭은 기존 60%에서 95%로 증가하며 성능은 1.6배입니다. 전통적인 RoCE의

컴퓨팅 리소스의 유연한 확장 측면에서 X400 Super AI 이더넷은 매우 높은 수준을 달성했습니다.포트밀도와 탄력적인 확장성을 지원해 초고성능을 구현하며 2차 계층 네트워크인 GPU에서 수십만 장의 카드 컴퓨팅 파워 규모를 충족할 수 있다.섬기는 사람그 수는 1024개에 달할 수 있고, 8K GPU 카드를 지원하며, 컴퓨팅 성능 규모에 따라 3계층 네트워킹으로 유연하게 확장할 수 있습니다. GPU 서버의 규모는 64,000개에 달할 수 있으며, 지원되는 GPU 카드의 최대 개수는 도달할 수 있습니다. 512K는 다양한 규모의 그룹 요구 사항을 충족합니다. 네트워크 요구 사항에 맞춰 유연하고 탄력적인 네트워킹은 비즈니스 혁신을 위한 강력한 원동력이 되었습니다.

운영 효율성 측면에서 Inspur X400 Super AI 이더넷 솔루션은 이더넷 솔루션의 호환성과 비용 효율성을 유지하여 민첩한 운영 및 유지 관리와 초고성능을 보장하는 동시에 네트워크 구축 TCO를 크게 줄이고 고객을 위한 원클릭 자동화 배포를 제공합니다. 모델 특성에 맞는 적응형 네트워크 구성을 실현하고 배포 주기를 몇 주에서 며칠로 단축하며 온라인 비즈니스를 가속화합니다. 포괄적으로 가시적인 지능형 운영 및 유지 관리 플랫폼과 결합되어 잠재적인 위험과 결함을 직관적으로 발견하여 비즈니스 연속성을 보장합니다. (딩시)