소식

baidu 그룹 수석 부사장 shen dou: 대형 모델은 클라우드 컴퓨팅과 긴밀하게 통합되어 새로운 유형의 인프라가 되고 있습니다.

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

9월 25일 2024 바이두 클라우드 인텔리전스 컨퍼런스에서 바이두 그룹 수석 부사장이자 바이두 지능형 클라우드 비즈니스 그룹 사장인 shen dou는 클라우드 인텔리전스 컨퍼런스에서 지난 1년이 대형 모델 전환의 핵심이었다고 말했습니다. 기술 변화는 산업 변화로 이어지며, 대형 모델은 클라우드 컴퓨팅과 긴밀하게 통합되어 새로운 유형의 인프라로 자리잡고 있습니다. "대형 모델과 관련 시스템은 불과 몇 년 만에 급속히 새로운 세대의 인프라로 자리잡고 있습니다. 이런 변화는 전례가 없습니다."

baidu 그룹 부사장 겸 baidu 지능형 클라우드 비즈니스 그룹 사장 shen dou 사진 출처: 사진 제공: 회사

대형 모델의 컴퓨팅 성능과 관련하여 shen dou는 컴퓨팅 성능과 관련하여 많은 사람들이 "wanka 클러스터"에 대해 들어본 적이 있을 것이라고 말했습니다. 간단히 말해서 gpu 클러스터에는 극도의 확장성, 극도의 고밀도 및 극도의 상호 연결이라는 세 가지 특성이 있습니다.

그리고 이러한 "극단"은 몇 가지 심각한 문제를 가져옵니다. shen dou는 첫 번째로 wanka 클러스터를 구축하려면 gpu 구입 비용만 수십억 위안에 달한다고 소개했습니다. 둘째, 이러한 대규모 클러스터에서는 운영 및 유지 관리의 복잡성이 급격히 증가합니다. 그는 하드웨어는 필연적으로 실패할 것이며, 규모가 커질수록 실패 확률도 높아진다고 지적했습니다. "meta가 llama3를 교육했을 때 16,000개의 gpu 카드를 사용하는 클러스터는 3시간마다 평균 오류를 경험했습니다."

또한 shen dou는 이러한 오류 중 대부분이 gpu로 인해 발생한다고 말했습니다. 실제로 gpu는 매우 민감한 하드웨어이며 정오의 날씨 온도 변동도 gpu의 오류율에 영향을 미칩니다. 이러한 두 가지 과제로 인해 baidu는 크고 복잡한 gpu 클러스터를 구축, 관리 및 유지하고 하드웨어 계층의 복잡성을 보호하며 대규모 모델 구현의 전체 프로세스에 간단하고 사용하기 쉬운 컴퓨팅 플랫폼을 제공하는 방법을 다시 생각하게 되었습니다. 사용자는 gpu 컴퓨팅 파워를 보다 쉽게 ​​관리하고 저렴한 비용으로 컴퓨팅 파워를 효과적으로 활용할 수 있습니다. "지난해 우리는 고객의 모델 훈련 요구가 급증하고 필요한 클러스터 크기가 점점 더 커지고 있음을 느꼈습니다. 동시에 모델 추론 비용의 지속적인 감소에 대한 모든 사람의 기대도 점점 더 높아졌습니다. 이 모든 것이 gpu에 큰 영향을 미칩니다. 관리의 안정성과 효율성은 더 높은 요구 사항을 제시합니다.”

이를 바탕으로 baidu intelligent cloud는 baige ai 이기종 컴퓨팅 플랫폼을 버전 4.0으로 완전히 업그레이드할 것이라고 발표했습니다. 대규모 모델을 구현하는 전체 여정의 컴퓨팅 성능 요구 사항에 초점을 맞춰 기업에 클러스터 생성, 개발 실험, 모델 훈련, 모델 추론을 통해 "다양하고 빠르며 안정적이고 경제적인" ai 인프라를 제공합니다.

그 중 컴퓨팅 리소스 부족 문제를 해결하기 위해 baige 4.0은 "멀티 코어 혼합 훈련" 기능으로 주요 업그레이드를 수행하여 wanka 규모 클러스터에서 95%의 멀티 코어 혼합 훈련 효율성을 달성하여 최고 수준에 도달했습니다. 비즈니스의 고급 수준. 클러스터 배포 프로세스에서 업그레이드된 baige는 도구 수준에서 2단계 배포를 달성하여 wanka 클러스터 운영 준비 시간을 몇 주에서 최대 1시간으로 단축하여 배포 효율성을 크게 향상시키고 비즈니스 출시 주기를 단축할 수 있습니다. 대규모 모델 학습 중 빈번한 오류 문제에 대응하여 baige 4.0은 오류 감지 방법과 자동 오류 허용 메커니즘을 포괄적으로 업그레이드하여 오류 빈도를 효과적으로 줄이고 클러스터 오류 처리 시간을 99.5 이상 단축했습니다. wanka 클러스터의 유효 훈련 기간에 대한 %입니다.

또한 baidu intelligent cloud는 qianfan 대형 모델 플랫폼의 최신 '성적표'도 발표했습니다. qianfan 대형 모델 플랫폼에서 wenxin 대형 모델의 일일 평균 통화량은 7억 회 이상이며 사용자에게 도움이 되었습니다. -총 30,000개의 대형 모델을 조정하고 700,000개 이상의 엔터프라이즈급 애플리케이션을 개발했습니다. 지난해 wenxin의 주력 대형 모델 가격은 90% 이상 하락했습니다.

매일 경제 뉴스

보고/피드백