소식

누가 nvidia를 대체할 수 있나요?

2024-09-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

저자丨barry

편집자丨관주

사진 출처丨midjourney

엔비디아를 대체할 수 있는 사람은 누구일까요?

데이터센터 gpu 분야에서 엔비디아의 출하량은 2023년 376만개에 달해 글로벌 시장 점유율의 거의 98%를 차지해 독보적이라고 할 수 있다.

ai 가속기 또는 컴퓨팅 카드라고도 알려진 ai 칩은 인공 지능 애플리케이션에서 수많은 컴퓨팅 작업을 처리하는 데 특별히 사용되는 모듈입니다. 여기에는 주로 그래픽 프로세서(gpu), 현장 프로그래밍 가능 게이트 어레이(fpga) 및 특정 애플리케이션이 포함됩니다. 집적회로(asic) 등

가트너에 따르면 ai 칩 시장은 2023년 534억 달러로 2022년 대비 20.9% 성장하고, 2024년에는 25.6% 증가한 671억 달러에 이를 것으로 전망된다. 2027년까지 ai 칩 매출은 2023년 시장 규모의 두 배 이상 증가해 1,194억 달러에 이를 것으로 예상됩니다.

거대 대기업들이 펼치는 컴퓨팅 파워 군비 경쟁은 의심할 여지 없이 ai 칩 시장의 강력한 원동력이 됐다.

2024년부터 거의 모든 주류 대형 모델에는 1000억 개 이상의 매개변수가 있고, llama3에는 4000억 개, gpt4에는 1조 8천억 개 이상의 매개변수가 있습니다. 수조 개의 매개변수를 가진 대형 모델은 10,000kb가 넘는 규모의 초대형 컴퓨팅 파워 클러스터에 해당합니다.

openai는 최소 50,000개의 nvidia 고급 gpu를 보유하고 있으며 meta는 24,576개의 h100으로 구성된 자체 슈퍼 10,000 카드 클러스터를 구축했으며 google은 26,000개의 h100으로 구성된 a3 슈퍼컴퓨터를 보유하고 있습니다. 40,000개 이상의 회사가 nvidia gpu를 구입했습니다. meta, microsoft, amazon, google과 같이 총 수익의 40%를 기여했습니다.

재무 보고서에 따르면 엔비디아의 매출총이익률은 71%에 이르렀고, 그 중 a100과 h100 시리즈의 매출총이익률은 90%에 달했다. 하드웨어 회사로서 nvidia는 인터넷 회사보다 매출총이익률이 더 높습니다.

엔비디아의 데이터센터용 ai 칩 가격은 개당 2만5000~4만달러로 기존 제품 가격의 7~8배 수준인 것으로 알려졌다. 리서치 회사인 omdia의 컨설팅 이사인 kazuhiro sugiyama는 nvidia 제품의 높은 가격이 ai에 투자하려는 기업에 부담이 된다고 말했습니다.

높은 판매 가격으로 인해 많은 대형 고객이 대안을 찾기 시작했습니다. 7월 30일, apple은 8,000개의 google tpu를 사용하여 ai 모델을 훈련했다고 발표했습니다. openai의 첫 번째 칩도 오늘 공개되었습니다. 이 칩은 tsmc의 가장 진보된 a16 옹스트롬 수준 프로세스를 사용하며 sora 비디오 애플리케이션용으로 특별히 제작되었습니다.

전 세계적으로 엔비디아의 식량을 훔치려는 ai 칩 스타 스타트업과 유니콘이 잇달아 등장했다. 이 중에는 중국이 지원하는 유니콘 기업인 삼바노바(sambanova)와 새롭게 떠오르는 에치드(etched), 지난해 arm 상장에 성공한 뒤 손정의 소프트뱅크그룹 회장이 기업공개(ipo)에 박차를 가하고 있는 오픈ai ceo 알트만이 투자한 유니콘인 세레브라스 시스템즈(cerebras systems)도 있다. 올해 7월에는 차세대 엔비디아를 구축하기 위해 영국의 ai 칩 회사인 그래프코어를 인수했습니다.

스탠포드 중국인들이 만든 인공지능 칩 유니콘 '삼바노바(sambanova)'

미국 ai 칩 스타트업 삼바노바(sambanova)가 8월 27일, 재구성 가능한 데이터 흐름 단위(rdu) ai 칩 sn40l을 기반으로 새로 출시한 세계 최초의 1조 매개변수 규모 인공지능(ai) 모델용 ai 칩 시스템을 처음으로 자세히 소개했다. .

보고에 따르면 sambanova의 sn40l을 기반으로 하는 8칩 시스템은 5조 개의 매개변수 모델을 지원할 수 있으며 단일 시스템 노드의 시퀀스 길이는 256k+에 도달할 수 있습니다. yingwei의 h100 칩과 비교하여 sn40l은 h100보다 추론 성능이 3.1배 향상되었을 뿐만 아니라 훈련 성능도 두 배 향상되었으며 총 소유 비용은 1/10에 불과합니다.

sambanova ceo rodrigo liang

회사의 세 명의 공동 창업자는 모두 스탠포드 출신입니다. 그 중 ceo인 rodrigo liang은 전 sun/oracle 엔지니어링 부사장입니다. 또한, 팀에는 중국인 엔지니어도 많이 있습니다.

sambanova의 가치는 현재 50억 달러(약 365억 위안)에 달하며 intel, softbank, samsung, google venture 등이 6차례에 걸쳐 총 11억 달러의 자금 조달을 완료했습니다.

그들은 칩에서 nvidia에 도전할 뿐만 아니라 비즈니스 모델 측면에서도 nvidia보다 더 발전합니다. 기업이 개인 대형 모델을 교육하는 데 직접 참여하는 것입니다. 그리고 칩은 단독으로 판매되는 것이 아니라 칩부터 서버 시스템, 심지어 대형 모델 배포에 이르기까지 맞춤형 기술 스택을 판매합니다.

목표 고객에 대한 야망은 더욱 커져서 세계 2,000대 기업을 목표로 하고 있습니다. 현재 sambanova의 칩과 시스템은 세계 최고의 슈퍼컴퓨팅 연구소, 일본의 fugaku, 미국의 argonne national laboratory, lawrence national laboratory 및 컨설팅 회사 accenture를 포함하여 많은 대규모 고객을 확보했습니다.

rodrigo liang은 대형 모델과 생성 ai 상용화의 다음 전장은 기업, 특히 대기업의 개인 데이터라고 믿습니다. 궁극적으로 회사는 gpt-4 또는 google gemini와 같은 하나의 매우 큰 모델을 실행하는 대신 1조 개가 넘는 집계된 매개변수를 사용하여 다양한 데이터 하위 집합을 기반으로 150개의 고유한 모델을 만들 것입니다.

이 전략은 대부분의 거대 기업이 수백만 개의 작업을 일반화할 수 있는 거대 모델을 만들기를 희망하는 gpt-4 및 google gemini와 같은 접근 방식과 뚜렷한 대조를 이룹니다.

2000년대 태어난 하버드 중퇴자 두 명이 창업한 ai 칩 회사 에치드(etched)

etched의 창립자는 2000년에 태어난 하버드 중퇴자 두 명입니다. gavin uberti는 octoml 및 xnor.ai에서 고위 직책을 맡았으며 chris zhu는 중국인이며 harvard university에서 컴퓨터 과학 교육 연구원으로 근무하는 것 외에도 amazon과 같은 회사에서 인턴십 경험도 있습니다.

chatgpt가 출시되기 전에는 대형 모델의 방향에 대해 낙관적이었기 때문에 2022년에 하버드 대학을 중퇴하고 robert wachen 및 전 cypress semiconductor 최고 기술 책임자인 mark ross와 공동으로 etched를 설립하여 ai 전용 대형 모델을 만들었습니다.

gavin uberti(왼쪽)와 chris zhu(오른쪽)

그들은 독특한 경로를 택했습니다. transformer의 ai 칩만 실행할 수 있었고 asic 디자인을 채택했습니다. 현재 시중에 나와 있는 거의 모든 솔루션은 ai 모델을 광범위하게 지원하며, 2022년 말부터 transformer 모델이 전체 시장을 장악할 것이라고 판단했습니다. 그들은 gpu 성능 업그레이드가 너무 느리고 유일한 방법은 gpu를 사용하는 것입니다. 이러한 방식으로만 성능의 도약을 이룰 수 있습니다.

2년 후인 올해 6월 27일 etched는 최초의 ai 칩 sohu를 출시하여 세계 최초의 transformer 컴퓨팅 전용 칩이 되었습니다.

엔비디아 h100보다 20배 이상, 올해 3월 출시된 최고급 칩 b200보다 10배 이상 빠른 대형 모델 실행이 가능하다. 8개의 sohu 칩이 장착된 서버는 160개의 nvidia h100 gpu를 대체할 수 있습니다. 비용을 크게 절감하면서도 성능 손실은 없습니다.

sohu는 하나의 알고리즘만 지원하므로 대부분의 제어 흐름 모듈을 제거할 수 있습니다. 칩은 더 많은 수학적 계산 장치를 통합할 수 있으며 컴퓨팅 성능 활용도는 90% 이상에 도달할 수 있지만 gpu는 30%만 수행할 수 있습니다. 소규모 설계 팀의 경우 단일 아키텍처 소프트웨어 스택을 유지하는 것이 확실히 덜 스트레스입니다.

sohu 칩이 출시됨과 동시에 etched는 primary venture partners와 positive sum ventures가 공동으로 주도하는 1억 2천만 달러 규모의 시리즈 a 자금 조달을 완료했다고 발표했습니다.

이번 자금 조달의 주요 투자자로는 잘 알려진 실리콘 밸리 투자자 peter thiel, 암호화폐 거래 플랫폼 coinbase의 전 cto이자 전 a16z 일반 파트너 balaji srinivasan, github ceo thomas dohmke, cruise 공동 창립자 kyle vogt 및 quora 공동 창립자 charlie cheever 및 더.

울트라맨이 투자한 ai 칩 유니콘 '세레브라스 시스템즈', 기업공개(ipo) 돌진할 계획

2015년에 설립된 cerebras systems의 가장 독특한 점은 칩이 주류 nvidia gpu와 매우 다르다는 것입니다. 과거에는 무어의 법칙에 따라 칩이 점점 작아졌습니다. nvidia h100을 예로 들면, 814제곱밀리미터의 코어 면적에 800억 개의 트랜지스터가 있습니다.

cerebras의 ai 칩은 "세계에서 가장 큰 면적의 칩을 만들었다"고 주장하면서 전체 칩을 점점 더 크게 만드는 것을 선택합니다. 보도에 따르면 세레브라스가 개발한 wse 3 칩은 웨이퍼 전체에서 잘라낸 것으로, 판보다 크고 사람이 양손으로 잡아야 한다. wse 3 칩은 46,000제곱밀리미터가 넘는 코어 면적에 4,000억 개의 트랜지스터(h100의 50배)를 탑재하고 있습니다.

플레이트보다 큰 칩은 양손으로 잡아야 합니다. 출처: 아르스 테크니카

cerebras는 자사 칩이 훈련할 수 있는 ai 대형 모델의 크기가 현재 업계 최고의 대형 모델(예: openai의 gpt-4 또는 google의 gemini)보다 10배 더 크다고 주장합니다.

세레브라시스템즈는 올해 8월 27일 “세계에서 가장 빠르다”고 평가받는 ai 추론 서비스 세레브라스 추론(cerebras inference) 출시를 발표했다. 공식 웹사이트에 따르면 이 추론 서비스는 nvidia 서비스보다 20배 빠르며 정확성을 보장합니다. 프로세서 메모리 대역폭은 nvidia보다 7,000배에 달하고 가격은 gpu의 1/5에 불과하며 가격 대비 성능 비율은 100배 증가했습니다. cerebras inference는 또한 소규모 개발에서 대규모 엔터프라이즈 배포에 이르기까지 다양한 요구 사항을 충족하기 위해 무료, 개발자 및 엔터프라이즈 수준을 포함한 다양한 서비스 수준을 제공합니다.

공동 창립자이자 ceo인 andrew feldman은 스탠포드 대학에서 mba를 취득했으며, cto인 gary lauterbach는 업계 최고의 컴퓨터 설계자 중 한 명으로 인정받고 있습니다. 2007년 두 사람은 마이크로 서버 회사인 seamicro를 공동 창립했으며, 이 회사는 2012년 amd에 3억 3,400만 달러에 인수되었으며 이후 amd에 합류했습니다.

외신 보도에 따르면 세레브라스시스템즈는 미국에 비밀리에 ipo를 신청했으며 이르면 2024년 10월 상장 예정이다. 현재 이 회사는 7억 2천만 달러를 모금했으며 가치는 약 42억~50억 달러에 달합니다. 가장 큰 개인 투자자 중 한 명은 openai ceo인 sam altman입니다. altman은 cerebras의 8,100만 달러 규모의 시리즈 d 자금 조달에 참여한 것으로 알려졌습니다.

전설적인 칩 마스터가 합류한 tenstorrent는 nvidia의 "대체"가 될 것입니다

2021년 이전에는 tenstorrent는 아직 알려지지 않은 회사였습니다. 그러나 '불멸의 실리콘'으로 불리는 반도체 업계의 거물 짐 켈러(jim keller)가 최고기술책임자(cto) 겸 사장으로 합류하겠다고 발표하면서 회사는 한동안 유명해졌다.

짐 켈러의 경력은 컴퓨터 산업의 역사라고 할 수 있습니다. 1998년부터 1999년까지 jim keller는 2008년부터 2012년까지 amd에서 athlon을 지원하는 k7/k8 아키텍처에 참여했으며, 2012년부터 2015년까지 apple에서 a4 및 a5 프로세서 개발을 주도했으며 k12 arm을 주도했습니다. amd에서 프로젝트, zen 아키텍처 프로젝트, 2016년부터 2018년까지 tesla에서 fsd 자동 조종 장치 칩을 개발했으며, 2018년부터 2020년까지 intel에서 신비한 프로젝트에 참여했습니다.

jim keller는 nvidia의 값비싼 gpu를 "대체"하기 위해 tenstorrent에 합류했습니다. 그는 nvidia가 특정 시장에 제대로 서비스를 제공하지 못하고 있으며 이러한 시장이 바로 tenstorrent가 포착하려고 하는 시장이라고 믿습니다.

tenstorrent는 자사의 galaxy 시스템이 세계에서 가장 인기 있는 ai 서버인 nvidia dgx보다 3배 더 효율적이고 33% 저렴하다고 말합니다.

보도에 따르면 텐스토렌트는 올해 말 이전에 2세대 다목적 ai 프로세서를 출시할 예정이다. 지난 가을 tenstorrent의 최신 로드맵에 따르면 이 회사는 멀티 칩 ai 솔루션을 위한 black hole 독립형 ai 프로세서와 quasar 저전력, 저비용 칩렛을 출시할 계획입니다.

회사는 곧 출시될 프로세서가 nvidia의 ai gpu에 필적하는 성능 효율성을 제공한다고 주장합니다. 동시에 tenstorrent는 자사의 아키텍처가 경쟁사보다 적은 메모리 대역폭을 소비하며 이것이 더 높은 효율성과 더 낮은 비용의 주요 이유라고 말합니다.

tentorrent 칩의 주요 특징은 100개가 넘는 코어 각각에 작은 cpu, 즉 "뇌 속의 두뇌"가 있다는 것입니다. 바람직하지 않은 것으로 간주되는 특정 데이터를 폐기하여 전반적인 효율성을 높일지 여부.

현재 tentorrent는 최소 6차례의 자금 조달을 완료했습니다. 이전까지 tentorrent의 투자자는 주로 벤처 캐피털이었습니다. 즉, jim keller가 합류한 후 회사는 2023년 8월에 1억 달러의 새로운 자금 조달을 완료했고, 투자자들 사이에서 산업 자본이 나타나기 시작했습니다 - 현대 자동차 그룹 및 삼성 촉매 펀드 , 삼성의 벤처 캐피털 계열사.

softbank는 nvidia의 경쟁자를 만들기 위해 graphcore를 할인된 가격으로 인수합니다.

그래프코어는 2016년 cto 사이먼 노울스(simon knowles)와 ceo 나이젤 툰(nigel toon)이 설립했습니다. 이 회사는 대규모 병렬 mimd 아키텍처, 높은 메모리 대역폭 및 긴밀하게 결합된 로컬 분산 sram 등과 같은 고유한 아키텍처와 장점을 갖춘 인공 지능 및 기계 학습을 위해 특별히 설계된 프로세서인 지능 처리 장치(ipu)를 개발하는 데 전념하고 있습니다.

그래프코어는 gc200 ipu 프로세서, bow ipu 등 다수의 ipu 기반 제품을 잇달아 출시했으며 지속적으로 기술 업그레이드와 개선을 진행하고 있습니다.

그러나 올해 7월, 이 영국의 ai 칩 회사는 소프트뱅크에 인수되었습니다.

이번 계약에 따라 그래프코어는 소프트뱅크의 전액 출자 자회사가 되어 현재의 이름으로 계속 운영될 예정이다. 보도에 따르면 총 거래 가치는 약 4억 파운드(약 5억 달러, 35억6천만 위안)에 달할 수 있는데, 이는 그래프코어의 지난 자금 조달 평가액인 28억 달러보다 약 82% 낮은 수준이다. 소프트뱅크에서 그래프코어 20% 할인된 가격으로 구매했습니다.

그래프코어는 한때 “영국 버전의 nvidia”로 여겨졌습니다. 그러나 2020년부터 회사는 신규 투자를 받지 못했고 마이크로소프트로부터 중요한 주문도 잃어 재정적으로 어려움을 겪고 있으며, ai 칩 분야의 전반적인 추세를 따라잡지 못하고 있다. 동시에 미국은 중국 ai 반도체에 대한 수출 통제를 계속 강화하고 있으며 이는 그래프코어의 중국 발전에도 영향을 미치고 결국 중국 시장에서 철수하는 선택을 해야 했고 전체 매출의 4분의 1이 손실됐다.

이번 그래프코어 인수는 ai 칩 분야에서 소프트뱅크의 입지를 공고히 했을 뿐만 아니라 손 회장의 ai 전략에서 중요한 단계다.

전직 google 엔지니어들은 새로운 종류의 lpu를 만들기 위해 groq를 설립했습니다.

올해 8월 groq는 6억 4천만 달러 규모의 시리즈 d 파이낸싱을 완료했다고 발표했습니다. 투자자로는 blackrock, cisco investments, samsung catalyst fund 등이 있으며 가치는 28억 달러입니다.

전 구글 엔지니어인 조나단 로스(jonathan ross)가 2016년에 설립한 이 회사는 자사의 언어 처리 장치 하드웨어 lpu가 에너지의 1/10만 소비하면서 gpt-4와 같은 기존 genai 모델을 10배 더 빠르게 실행할 수 있다고 주장합니다. 회사는 meta의 llama 2를 사용하여 사용자당 초당 300개의 토큰으로 새로운 llm(대형 언어 모델) 성능 기록을 세웠습니다.

gpu의 다양성에 비해 lpu는 언어 처리 성능은 뛰어나지만 적용 범위는 좁습니다. 이로 인해 일반화 가능성이 더 넓은 범위의 ai 작업으로 제한됩니다. 또한, 새로운 기술인 lpu는 아직 커뮤니티로부터 광범위한 지원을 받지 못했고, 유용성 또한 문제에 직면해 있습니다.

groq는 2025년 1분기 말까지 108,000개 이상의 lpu를 배포할 계획이며, 이는 주요 기술 대기업을 제외하고 가장 큰 규모의 인공 지능 추론 배포입니다.