중국 컴퓨팅 파워 컨퍼런스 대화 │ 류윤지에 교수: 국내 컴퓨팅 파워는 gpu 클러스터를 통해 단점을 보완해야 한다
2024-09-29
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
ai(인공지능) 시대는 컴퓨팅 파워의 시대이기도 하다. 국내외 기술 기업과 통신 사업자들은 카드 1만장, 심지어 1만장 이상을 '롤업'했지만 생태적 호환성, 이기종 컴퓨팅 등의 문제도 업계가 넘어야 할 산이 됐다.
9월 28일 2024년 중국 컴퓨팅 파워 컨퍼런스 개막식에서 중국 공정원 원사 liu yunjie는 베이징 뉴스 shell finance 및 기타 언론과의 인터뷰에서 국내 엔드포인트 gpu는 여전히 경쟁할 수 없을 것이라고 말했습니다. 단기간에 외국과. 단점을 보완할 수 있는 방법은 "전체 컴퓨팅 성능을 훈련"하고 gpu 클러스터의 효과를 최대한 발휘할 수 있는 컴퓨팅 성능 네트워크를 구축하는 것입니다.
또한, 컴퓨팅 파워 네트워크 구축에 있어서 어떤 기업이 더 유리한지를 단순히 판단하는 것이 아니라 주로 기술적 평가를 통해 판단할 수 있다고 지적했다. “기술이 활용되고 개발될 수 있는지, 혁신과 택하는 경로가 요구 사항을 충족하는지 여부에 달려 있다”며 컴퓨팅 파워 비용 문제에 대해서는 “새로운 기술로 해결해야 한다”고 강조했다.
현재 liu yunjie가 연구한 결정론적 네트워크 기술은 비용을 60~70% 절감할 수 있습니다. 그가 다른 기관과 협력하여 시작한 컴퓨팅 네트워크 스케줄링 프로젝트는 단일 네트워크의 효율성 80%를 달성하기 위해 다중 오프사이트 교육을 달성할 수 있습니다. 포인트 트레이닝.
중국공정원 원사 liu yunjie. 사진 제공: 인터뷰 대상자.
데이터 순환 및 컴퓨팅 성능 활용 문제를 해결하려면 업계 대형 모델 트랙을 수강하는 것이 좋습니다.
liu yunjie는 기조연설에서 "중국은 대규모 산업 모델의 길을 택해야 한다"고 강조했습니다. 그는 국내 범용 대형 모델이 단기적으로 미국에 크게 뒤처져 따라잡기 어려울 것이라고 믿고 있다.
그는 국내 모델업체들이 산업 데이터를 잘 훈련해 일반 대형 모델을 기반으로 산업 대형 모델을 만들 수 있다면 “반드시 중국의 길을 따라갈 수 있다”고 제안했다. 그는 "중국의 산업 데이터가 가장 완전하고 포괄적"이라고 믿기 때문에 이러한 기술 방향에 대해 낙관적입니다.
동시에 대규모 산업 모델 개발에는 정부, 기업, 자본의 공동 노력이 필요하다고 말했다. 그는 shell finance 기자에게 현재 국내 데이터의 공유 및 유통을 강화해야 하며 이는 훈련 산업의 대규모 모델에 영향을 미쳤으며 어떤 트랙 유형이 "아직 모두가 탐색 중"이라고 말했습니다. 더 유망합니다.
2024년 중국 컴퓨팅 파워 컨퍼런스에서 공개된 데이터에 따르면 국가 컴퓨팅 파워의 총 규모는 246eflops에 달합니다. liu yunjie의 관찰에 따르면 국내 컴퓨팅 성능은 일정 규모에 도달했지만 활용률은 그리 이상적이지 않습니다.
"컴퓨팅 파워가 실물 경제에 봉사하려면 여러 당사자가 동의해야 합니다." liu yunjie는 우선 컴퓨팅 파워와 네트워크 제공업체가 "(왜냐하면) 이러한 서비스를 통해 이익을 얻었기 때문에 일을 잘해야 한다고 믿습니다." 게다가 정부는 “(왜냐하면) 정부가 문제를 해결했으니까”라고 좋은 말을 해야 한다. 마지막으로 기업은 "(왜냐하면) 기업이 컴퓨팅 파워와 인터넷을 활용해 자체 효율성을 높였기 때문"이라고 잘 말해야 한다.
그는 '일방 합의' 효과가 지속되지 않는다는 점을 강조했다. 이는 업계가 컴퓨팅 파워 생태계를 구축하지 못했다는 의미다. “생태 문제를 해결하지 않으면 (컴퓨팅 파워) 사용할 수 없게 됩니다.”
결정론적 네트워크는 미래 컴퓨팅 파워 네트워크의 기본 기술 중 하나로, 비용을 60~70% 절감할 수 있습니다.
liu yunjie는 "대규모 모델 훈련에는 무손실 데이터 전송이 필요하며 패킷 손실, 지터, 지연과 같은 네트워크 지표에 대한 요구 사항을 부과합니다."라고 말했습니다. 그는 국제 데이터 표준을 예로 들어 패킷 손실률이 5,000분의 1에 이르면 전송 효율이 50% 떨어진다고 설명했다.
이어 그는 이는 100g 대역폭 전체를 사용해 데이터를 전송하는 것과 같으며 50g 대역폭만 유용하다고 설명했다. "1%로 떨어지면 효율이 거의 0이 되어 훈련과 추론이 불가능해집니다."
네트워크에서 패킷 손실을 방지하려면 rdma(remote direct memory access) 프로토콜이 필요합니다. 이 기술을 사용하면 컴퓨터가 원격 컴퓨터의 메모리에 직접 액세스하고, 빈번한 cpu 개입 없이 메모리 수준에서 데이터를 전송할 수 있으며, 데이터 전송 과정에서 송수신단의 처리 지연 및 리소스 소비를 줄일 수 있습니다.
대규모 모델 훈련 및 추론을 위한 데이터 전송 표준을 충족하는 방법은 무엇입니까? liu yunjie는 결정론적 네트워크 기술이 상대적으로 요구 사항을 충족한다고 믿으며 이 기술이 "미래 컴퓨팅 파워 네트워크를 위한 기본 기술"이라고 판단합니다. liu yunjie는 2022년에 팀을 이끌고 35개 도시에서 결정론적 네트워크를 개방했다고 밝혔습니다. 이제 도시 수는 39개로 늘어났습니다. 이는 50마이크로초 미만의 종단간 지연과 지터를 달성하고 패킷 손실이 전혀 발생하지 않는 것을 달성할 수 있습니다. .
결정론적 네트워크 기술을 개발하는 과정에서 liu yunjie는 가장 중요한 기술 혁신은 대역폭 활용도, 그리드 비용 및 에너지 소비에 획기적인 변화를 가져오는 광전 통합이라고 믿습니다.
비용 측면에서 그는 특정 자율주행 회사를 예로 들어 매일 전국 4곳의 20대의 차량에서 생성된 자율주행 데이터를 먼저 상하이로 보낸 다음 훈련을 위해 구이양으로 전송하는데, 이는 약 2개의 10g와 1g 회선의 비용은 연간 약 천만 위안입니다.
감당할 수 없다면 어떻게 해야 합니까? 데이터 손실, 하드 드라이브 손상 등을 고려하여 데이터를 수집하고 두 도시 간에 전송하기 위해 하드 드라이브를 사용하는 것으로 전환하는 데에는 연간 약 190만 위안의 비용이 소요됩니다. 그리고 결정론적 네트워크를 이용해 슬라이싱을 통해 서비스를 제공하면 "연 12만 위안이면 충분하다"고 한다.
liu yunjie는 이러한 수준의 비용 절감이 네트워크 공유를 통해 달성된다고 강조했습니다. 그가 기조 연설에서 보여준 데이터에 따르면 테스트 네트워크에서 3개월 이상 실행되었으며 매개변수 효율성이 95% 이상에 도달하고 비용이 60~70% 절감되었습니다.
국내 컴퓨팅 파워의 단점을 보완하기 위해 gpu 클러스터 효과를 최대한 발휘
컴퓨팅 파워 네트워크는 향후 국내 컴퓨팅 파워가 외국 컴퓨팅 파워를 능가하는 방향이 될 가능성이 높은가? liu yunjie는 "단점을 보완하는 것"이 더 정확한 이해라고 말했습니다. 그는 단기간에 우리의 엔드포인트 gpu가 여전히 외국과 경쟁할 수 없을 것이라고 믿습니다. “나는 한 가지 측면에서 당신을 따라잡을 수 없을지 모르지만, 그룹의 힘을 활용하면 당신을 이길 수 있습니다.”라고 그는 또한 gpu 클러스터의 효과를 발휘하기 위해서는 “훈련”할 수 있는 네트워크를 구축해야 한다고 강조했습니다. 전체 컴퓨팅 성능을 제공합니다.”
그는 대형 모델이 공동 훈련과 분산 훈련의 길을 택할 수 있다고 믿습니다. "10만 장의 카드를 한 곳에서 훈련하면 그 힘이 너무 커질 것입니다." 그는 자신의 팀이 중국과학원과 공동으로 프로그램을 시작했다고 밝혔습니다. 국립 슈퍼컴퓨팅 우시 센터 및 기타 기관 국가 컴퓨팅 파워 네트워크 스케줄링 프로젝트는 대기열 문제를 분 단위로 해결하는 효과를 달성할 수 있으며 다중 오프사이트 교육은 단일 지점 교육의 80% 효율성을 달성할 수 있습니다. "기본적으로 분산 교육과 협업 교육이 가능합니다."
컴퓨팅 하드웨어와 소프트웨어 간의 개발 관계를 조정하는 방법에 대해 이야기하면서 liu yunjie는 개발을 위해 소프트웨어와 하드웨어를 결합하고 통합해야 한다고 제안했습니다.
하드웨어 생산은 지구물리학적 자원을 소비한다고 그는 말했습니다. "(매번) 조금씩 소모되고, 리소스도 조금씩 줄어듭니다." 소프트웨어는 상대적으로 유연하고, 수정이 가능하며, 물리적 리소스도 덜 소모합니다. "이것은 매우 중요한 사회 발전 개념입니다." 또한 liu yunjie는 소프트웨어 개발에는 일정량의 인적 자원이 소비되지만 ai를 적용한 후에는 개발 효율성이 가속화되었다고 믿습니다. 이어 소프트웨어로 대체할 수 있는 부분은 모두 최대한 개발하자고 제안했다.
하지만 소프트웨어는 만능이 아니며 컴퓨팅 파워가 요구하는 하드웨어 조건을 충족해야 한다. 소프트웨어가 감당할 수 없는 부분은 하드웨어와 함께 개발되어야 한다고 그는 믿는다.
공유 컴퓨팅 파워 네트워크 생태계를 구축하는 방법은 무엇입니까? liu yunjie는 관련 정부 부서가 이를 조정하고 관리해야 하며 기업과 과학 연구 기관이 긴밀히 협력해야 한다고 제안했습니다. "이것은 전체 프로젝트이지만 현재는 모두가 스스로 작업하고 있습니다."
베이징 뉴스 shell finance 기자 wei yingzi
편집자 lin zi
liu jun이 교정함