소식

세계 최초 킬로칼로리 규모의 이종 칩 혼합 훈련 플랫폼 출시!Wuwen Xinqiong: 세상에 사용하기 어려운 AI 컴퓨팅 능력이 없게 해주세요

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


똑똑한 것들
작성자ZeR0
편집자 모 잉

“수도꼭지를 켜기 전에 물이 어느 강에서 오는지 알 필요가 없습니다. 마찬가지로 미래에 다양한 AI 애플리케이션을 사용할 때 어떤 기본 모델을 호출하고 어떤 가속기 카드를 사용하는지 알 수 없습니다. 컴퓨팅 성능, 이것이 최고의 AI 네이티브 인프라입니다.”

이러한 AI 네이티브 인프라는 모두가 함께 구축해야 합니다. 7월 4일, 2024년 세계 인공 지능 컨퍼런스의 AI 인프라 포럼에서 Wuwen Core Dome의 공동 창업자이자 CEO인 Xia Lixue는 세계 최초의 킬로칼로리 규모 이종 칩 하이브리드 훈련 플랫폼인 킬로칼로리 이종 하이브리드 훈련을 출시했습니다. 클러스터의 컴퓨팅 파워 활용도는 최대 97.6%에 도달합니다.


동시에 Xia Lixue는 Wuwen Core Dome의 Infini-AI 클라우드 플랫폼이 대형 모델 이종 킬로 카드 혼합 훈련 기능을 통합했다고 발표했습니다. 이는 단일 작업 킬로 카드 규모의 이종 칩 혼합 훈련을 수행할 수 있는 세계 최초의 플랫폼입니다. , 10,000ka 확장성을 갖추고 있으며 AMD, Huawei Ascend, Tianshu Zhixin, Muxi, Moore Thread 및 NVIDIA의 6개 이기종 칩을 포함하는 대형 모델의 혼합 교육을 지원합니다.

7월부터 시범 훈련을 신청한 사용자는 클릭 한 번으로 Infini-AI에서 700억개 규모의 매개변수를 갖춘 대규모 모델 훈련을 시작할 수 있다.

불과 4개월 전, Wuwenxinqiong의 Infini-AI 대형 모델 개발 및 서비스 클라우드 플랫폼이 첫 번째 공개 베타를 발표했습니다. Zhipu AI, Dark Side of the Moon, Shengshu Technology 등 대형 모델 회사의 고객들이 Infini-AI를 안정적으로 사용하고 있습니다. 20개 이상의 AI 네이티브 애플리케이션 스타트업이 계속해서 Infini-AI에서 다양한 사전 설정 모델 API를 호출하고 Wuwen Xinqiong이 제공하는 도구 체인을 사용하여 자체 비즈니스 모델을 개발하고 있습니다.

킬로카드 규모로 이기종 칩의 혼합 훈련을 수행할 수 있는 세계 최초의 플랫폼 출시는 이기종 컴퓨팅 최적화 및 클러스터 시스템 설계 분야에서 Wuwen Core Dome의 기술적 강점을 반영할 뿐만 아니라 Wu Wen Core Dome이 "MxN"은 중층 생태학적 개념의 중요한 성과입니다.

Wuwen Xinqiong은 여러 칩에 여러 대형 모델 알고리즘을 효율적이고 통합적으로 배포하기 위해 "MxN" 중간 계층의 생태학적 패턴을 구축하는 데 앞장섰습니다.

Infini-AI 플랫폼은 Qwen2, GLM4, Llama 3, Gemma, Yi, Baichuan2, ChatGLM3 시리즈 및 AMD, Huawei Shengteng, Biren, Cambrian, Suiyuan, Haiguang, Tianshu Zhixin, 10가지 이상의 컴퓨팅 유형을 포함한 30개 이상의 모델을 지원했습니다. Muxi, Moore Thread, NVIDIA 등의 카드는 단일 알고리즘과 칩 간의 일대일 연결을 지원할 뿐만 아니라 여러 모델과 여러 칩의 자유로운 매칭과 조합도 지원합니다.

Xia Lixue에 따르면 올해 말까지 Wuwen Xinqiong은 모델에서 칩으로의 M×N 자동 라우팅을 완전히 구현할 것으로 예상됩니다.


1. 완카 클러스터는 대규모 군사전략가들의 격전지로, 국가는 생태계 개방에 어려움을 겪고 있다.

Wuwen Core Dome의 공동 창립자이자 CEO인 Xia Lixue는 컴퓨팅 성능이 AI 개발의 전초 기지이자 초석이라고 믿습니다. GPT-4 이후 등장한 모델의 규모는 더 이상 기하급수적으로 증가하지 않았으며, 알고리즘을 지원하는 데 필요한 컴퓨팅 성능에는 병목 현상이 발생했습니다. 현재로서는 더 큰 규모와 더 많은 계산량을 갖춘 대규모 시스템을 구현할 수 없습니다. 단일 모델의 경우 모델 개발이 새로운 단계로 진입하게 되며, 둔화 및 정체 상태에 있는 상태, 즉 차세대로 이동할 수 있는 모델 역량을 지원하는 컴퓨팅 파워 시스템은 여전히 ​​개발 및 구축되어야 합니다. .

대형 모델은 스케일링 법칙의 영향을 받아 글로벌 컴퓨팅 성능을 놓고 경쟁합니다. Microsoft와 OpenAI가 1000억 달러가 넘는 대규모 컴퓨팅 파워 프로젝트를 구축하고 있다는 보도가 있습니다. 다른 많은 기술과 비교할 때 이 간단하고 조악한 규모의 확장은 모델 지능에 대한 가장 실용적인 수익을 가져옵니다. Google, OpenAI는 물론 국내 주요 제조사와 3대 통신사 모두 완카 규모의 대규모 클러스터를 구축하고 있습니다.

진정으로 지속 가능한 반복적이고 대규모이며 안정적인 시스템에서 Scaling Law는 풍부한 기술이 많지 않으며 유지 관리 및 확장이 더 쉽습니다. 정말 오랫동안 실행해야 하는 시스템의 경우 확장성은 매우 중요한 속성이며, 확장 가능한 시스템이 좋은 시스템입니다.


IDC 차트는 미래 AI 추론 및 훈련을 위한 컴퓨팅 성능 수요가 전 세계적으로 빠르게 증가하고 있으며 훈련과 추론 모두 강력한 컴퓨팅 리소스의 지원이 필요함을 보여줍니다. 이 거대한 시장 뒤에 있는 국내와 국제의 생태계는 매우 다릅니다. 외국 생태 모델 계층과 칩 계층의 패턴은 상대적으로 집중되어 있는 반면, 중국 생태계는 상대적으로 분산되어 있고 활발합니다. 생태계.


완카 클러스터(Wanka Cluster)는 대규모 군사 전략가들의 전쟁터입니다. Xia Lixue는 현재 중국에서 100개 이상의 킬로카드 클러스터가 건설 중이거나 계획 중이며 대부분이 이기종 컴퓨팅 성능을 갖추고 있으며 많은 클러스터가 다양한 칩 서비스를 사용하고 AI 생산에 참여하고 있다고 공유했습니다. 그 이유에는 단일 하드웨어 플랫폼에 대한 과도한 의존으로 인해 발생하는 공급망 위험 가능성과 클러스터 당사자에게 다양한 옵션을 제공하는 국내 칩의 급격한 성능 개선이 포함됩니다.

그러나 다수의 이기종 칩도 "생태적 사일로"를 형성했습니다. 서로 다른 하드웨어 생태계가 폐쇄되어 서로 호환되지 않습니다. 컴퓨팅 성능을 사용하면 일련의 매우 복잡한 엔지니어링 문제에 직면하게 됩니다. 컴퓨팅 파워 클러스터가 많아도 여전히 효과적인 통합과 활용이 어렵다. 이는 컴퓨팅 파워 자원의 낭비로, AI 네이티브 인프라 구축의 가장 큰 어려움이 될 뿐만 아니라, 현재 대형 모델 업계는 '컴퓨팅 파워 부족'에 직면해 있다.


Wuwen Core Dome은 중국의 다중 모델 및 다중 칩 생태 환경에 적응할 수 있는 AI 네이티브 인프라를 구축하고, 이기종 컴퓨팅 리소스를 효율적으로 통합하는 유용한 컴퓨팅 플랫폼과 소프트웨어 및 하드웨어의 공동 최적화 및 가속화를 지원하는 미들웨어를 제공하고자 합니다. , 기존의 "생태학적 사일로"를 깨고 이기종 칩과 클러스터가 진정한 대규모 컴퓨팅 성능으로 전환될 수 있도록 합니다.


AI 훈련 추론 작업은 기존 컴퓨팅과 매우 다릅니다. 예를 들어 단일 작업은 규모가 크고 폭발적이므로 AI 기본 스케줄링 전략을 채택하지 않으면 전체 시스템의 리소스 활용도가 매우 낮습니다. 결과적으로 고객 작업이 중단되고 다시 시작되는 경우가 많아 AI 개발 프로세스가 지연됩니다.

Wuwenxinqiong의 솔루션은 하단에 예약 기능과 PaaS 및 MaaS 플랫폼을 포함하여 완전한 클라우드 관리 시스템을 갖추고 있습니다. 다음은 클라우드 협업을 위한 컴퓨팅 파워 기반에 해당하며, 대형 모델의 개발자와 연구원들이 가방을 들고 이동하여 다양한 컴퓨팅 파워를 빠르게 사용할 수 있도록 해줍니다.

이를 기반으로 구축된 MaaS 서비스 플랫폼, 즉 모델 세트 서비스 플랫폼은 아직 AI 학습 단계에 있는 일부 기업이 일부 대규모 애플리케이션을 신속하게 개발할 수 있도록 유연한 애플리케이션을 갖춘 많은 대규모 모델 서비스를 제공할 수 있습니다. 대형 모델.


2. 다양한 칩의 교차 훈련을 달성하고 대규모 모델 애플리케이션 구현 비용을 절감합니다.

일련의 생산 및 연구 진행 뒤에 Wuwen Xinqiong의 R&D 팀은 이기종 칩 컴퓨팅 최적화 및 클러스터 시스템 설계 분야에서 많은 실제 경험과 성과를 보유하고 있습니다.

최근 Wuwen Xinqiong, Tsinghua University 및 Shanghai Jiao Tong University의 공동 연구팀은 대규모 모델을 위한 이기종 분산 하이브리드 훈련 시스템인 HETHUB를 출시했습니다. 업계 최초로 6개 브랜드의 칩 간 교차 혼합 트레이닝이 이뤄져 엔지니어링 완성도도 높다. Xia Lixue에 따르면, 이 기술을 엔지니어링하는 원래 의도는 더 많은 이기종 컴퓨팅 성능을 통합하여 대형 모델 기술 능력의 상한선을 계속해서 확장하는 동시에 이기종 칩 생태계를 개방하여 계속해서 대규모 모델 애플리케이션을 구현하는 데 드는 비용.


그는 시스템 구축에서 직면한 두 가지 주요 과제는 의사소통과 분산 교육이라고 말했습니다. 서로 다른 하드웨어 아키텍처에 대한 서로 다른 통신 라이브러리는 두 사람이 완전히 다른 언어를 사용하여 대규모 프로젝트를 완료하는 것과 같습니다. 이종 카드는 서로 다른 설계 개념으로 인해 많은 성능 차이가 있고 서로 다른 작업에 적응하므로 결과적으로 다양한 차이점이 발생합니다. 다양한 유형의 카드가 나타내는 효율성은 대규모 분산 교육을 비효율적으로 만들 수 있습니다.

따라서 팀은 다음을 포함하여 많은 작업을 수행했습니다.


1. 통신 측면에서 다양한 유형의 칩의 효율적인 통신을 달성하고 다양한 유형의 하드웨어와 호환되도록 범용 집단 통신 라이브러리를 구축합니다.

2. 다양한 하드웨어 효율성 문제를 해결하고 상황에 따라 가장 적합한 작업을 할당하기 위해 파이프라인 병렬성에 기반한 비균일 분할 방식을 제안합니다.

3. 자체 개발한 혼합 훈련 예측 도구는 훈련 초기에 각 칩의 가치를 미리 예측할 수 있으므로 전체 훈련 작업을 완료하고 서로 다른 카드에서 최상의 솔루션을 구성하기 위한 최적의 분할 전략을 찾을 수 있습니다.

실제 혼합 훈련 효과로 볼 때, Wuwen Xinqiong은 70% 이상에 도달할 수 있는 많은 조합을 수행했으며, 6가지 칩 조합에 대한 컴퓨팅 성능 활용도는 최대 97.6%에 도달할 수 있습니다. .


이전에 Wuwen Xinqiong은 M×N 추론을 달성했지만 이제는 M×N 훈련을 달성했는데 이는 매우 큰 혁신입니다.

이러한 기능은 기존 Infini-AI 플랫폼에 통합되어 있습니다. 플랫폼은 사용자가 플랫폼에 애플리케이션과 서비스를 효율적으로 배포할 수 있는 기능을 갖추고 있으며, 혼합 교육 기능을 추가한 후 6개 브랜드의 교차 결합을 지원하여 단일 브랜드의 교육 병목 현상을 해소할 수 있습니다. 킬로칼로리 이질성을 지원하는 세계 혼합 훈련을 위한 플랫폼입니다.

Infini-AI의 상위 계층은 텐서 병렬성, 데이터 병렬성, 통신 중첩 등 다양한 훈련 전략을 지원하여 효율적인 훈련이 가능하며, 700억 개 이상의 토큰으로 대규모 모델 훈련을 지원할 수 있으며, 대규모 모델의 원클릭 혼합 훈련도 지원합니다. -스케일 모델. 이 플랫폼을 사용하면 개발자는 기본 컴퓨팅 성능의 차이를 고려하는 데 더 많은 시간을 소비할 필요가 없으며 다양한 칩으로 구성된 하이브리드 클러스터에서 자신의 대규모 모델을 신속하게 맞춤화하고 자체 비즈니스를 신속하게 구현할 수 있습니다.

3. 대규모 컴퓨팅 파워 클러스터에서 작업의 안정적인 완료를 보장하기 위한 효율적인 스케줄링 + 효율적인 내결함성

대규모 컴퓨팅 파워 클러스터를 구축한 후 직면하게 되는 핵심 과제 중 하나는 이를 어떻게 활용하느냐이다. 여기에는 효율적인 일정 관리 문제가 포함됩니다. 효율적인 컴퓨팅 파워 스케줄링 시스템은 모든 사용자가 통합된 이기종 리소스를 더 잘 활용하도록 할 수 있습니다.

Wuwen Core Dome은 컴퓨팅 파워의 효율적인 스케줄링 시스템에서 많은 진전을 이루었습니다. Wuwen Core Dome을 통해 10종 이상의 칩을 지원하고 10,000개 이상의 카드 수준 컴퓨팅 파워 시스템을 구축할 수 있습니다. 하이브리드 시리즈 스케줄링 전략 설계는 평균 작업 스케줄링 지연을 밀리초 수준으로 만들고 전체 시스템 클러스터 리소스 활용도를 90% 이상으로 유지할 수 있습니다. Wuwen Xinqiong은 전체 AI 컨테이너의 기반을 강화함으로써 다중 테넌트 시나리오에서 전체 클러스터의 SLO를 99.95%까지 높일 수 있으며 확장성이 매우 높습니다.

스케줄링 외에도 모델 학습을 수행할 때 학습을 계속해서 다시 시작할 수는 없습니다. Wuwen Core Qiong은 대형 모델을 위한 내결함성 런타임 시스템, 하이브리드 지표 이상 예측 시스템, 체크포인트 비동기 읽기 및 쓰기 시스템을 포함한 효율적인 내결함성 교육 시스템을 개발했습니다.


내결함성 부분에서는 대형 모델의 효과적인 학습 시간이 30% 증가하고, 대형 모델 이상 탐지 성공률이 70%로 향상되었으며, 대부분의 오류를 사전에 발견하고 방지할 수 있습니다. 체크포인트 읽기 및 쓰기 효율성이 향상되었습니다. 20배 증가했으며, 대형 모델의 비정상 종료 시간이 5분 미만으로 단축되어 대규모 컴퓨팅 파워 클러스터에서 안정적인 작업 완료를 보장할 수 있습니다.

개발자가 클러스터를 더 잘 사용할 수 있도록 플랫폼은 Wuwenxinqiong의 대형 모델 서비스 시스템의 최적화 기술 기능을 통합합니다. 동시성이 높고 여러 사용자가 동시에 요청을 보내는 경우 요청 스케줄링을 통해 프롬프트 단어 캐싱과 같은 기술을 사용할 수 있습니다. 도움 작업이 더 잘 전달되고 계산 결과가 반환되므로 처리 속도가 30배 이상 증가하여 애플리케이션이 더 원활하고 원활하게 실행될 수 있습니다.


결론: 세상에 사용하기 어려운 AI 컴퓨팅 파워가 없게 해주세요

"기술적 한도를 높이는 것과 기술 구현 및 확산 사이에는 모순이 없으며, 이는 이 기술을 어떻게 다루느냐에 달려 있습니다." Xia Lixue는 오늘날 대형 모델의 비용을 1/10,000로 줄이는 것은 단지 마치 30년 전에 모든 가정에 전기를 공급하는 것에 대해 이야기하는 것과 같습니다.

우수한 인프라는 그러한 "마법"입니다. 한계 비용이 임계 값으로 떨어지면 더 많은 사람들이 새로운 기술을 받아들일 수 있습니다.


현재 대형 모델 산업의 발전은 대규모 산업 구현 단계에 진입하고 있으며, 응용 시나리오의 확산으로 인해 대형 모델 교육에 대한 필요성이 점점 더 커지고 있습니다. 대형 모델 시대에 AI 네이티브 인프라를 구축하는 것은 AI 개발자에게 보다 다양하고 효율적이며 편리한 R&D 환경을 제공할 수 있을 뿐만 아니라, 컴퓨팅 자원의 효과적인 통합을 달성하고 AI의 지속 가능한 개발을 지원하기 위한 핵심 초석이기도 합니다. 산업.

AI 개발에는 여러 이기종 칩을 균일하게 통합할 수 있는 기본 시스템 기능과 이기종 컴퓨팅 성능과 다중 알고리즘 간의 사용 편의성을 구현하는 중간 계층이 모두 필요하며, 동시에 사용자는 통합 프로그래밍 프레임워크를 통해 다양한 컴퓨팅 성능을 예약할 수 있습니다. 시간이 지나면 기존 사용자 프로그래밍 습관과 호환되는 인터페이스가 설치되어 향후 확장이 용이합니다.

Wuwen Core는 세상에 사용하기 어려운 AI 컴퓨팅 성능이 없도록 멀티 모델과 멀티 칩에 진정으로 적응할 수 있는 AI 네이티브 인프라를 구축하는 데 전념하고 있습니다. "M×N"의 활용 및 통합뿐만 아니라 궁극적인 목표이기도 합니다. 휴면 중인 컴퓨팅 자원을 대규모 컴퓨팅 성능으로 전환하고, 대형 모델 생태계의 무결성을 향상시키며, 대형 모델 구현 비용을 대폭 절감하고, 다양한 산업 분야의 대형 모델 적용 혁신.