소식

구글은 tpu 비밀병기 알파칩을 네이처에 공개하고, ai 디자인 칩 개발 과정을 심도 있게 설명했다.

2024-09-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

최근 google deepmind는 nature에서 최신 칩 설계 알고리즘인 alphachip을 공식 발표했습니다. 이 방법은 컴퓨터 칩 개발을 가속화하고 최적화하는 데 사용되며 여러 tpu 제품에 의해 테스트되었으며 단 몇 번의만으로 인간 전문가가 요구하는 작업을 완료할 수 있습니다. 몇 주 또는 몇 달에 걸쳐 칩 레이아웃을 설계합니다.

2020년 google은 획기적인 사전 인쇄 논문인 "심층 강화 학습을 통한 칩 배치"를 출판하여 새로운 강화 학습 방법을 사용하여 설계된 칩 레이아웃을 세계 최초로 선보였습니다.이러한 혁신을 통해 google은 tpu 칩 설계에 ai를 도입하여 인간 설계자를 능가하는 칩 레이아웃을 달성할 수 있습니다.

2022년까지 google은 논문에 설명된 알고리즘 코드를 추가로 오픈 소스화하여 전 세계 연구자들이 이 리소스를 사용하여 칩 블록을 사전 훈련할 수 있도록 했습니다.

오늘날 이 ai 기반 학습 방법은 tpu v5e, tpu v5p 및 trillium과 같은 여러 세대의 제품에 대한 테스트를 거쳤으며 google 내에서 놀라운 결과를 얻었습니다. 더욱 놀라운 점은 google deepmind 팀이 최근 nature에 이 방법의 부록을 게시하여 칩 설계 분야에 미치는 광범위한 영향을 더 자세히 설명했다는 것입니다. 동시에,google은 또한 20개의 tpu 모듈 사전 학습, 모델 가중치 공유를 기반으로 체크포인트를 열고 이름을 alphachip으로 지정했습니다.

alphachip의 출현은 ai가 칩 설계 분야에서 더욱 광범위하게 사용될 것임을 예고할 뿐만 아니라 우리가 "칩 기반 설계"의 새로운 시대로 진입하고 있음을 의미합니다.

alphachip: google deepmind가 ai를 사용하여 칩 설계를 혁신하는 방법

google deepmind의 정점인 alphachip은 칩 설계의 혁신적인 발전으로 글로벌 기술 커뮤니티의 주목을 받고 있습니다.

칩 설계는 현대 기술의 정점에 있는 분야로, 매우 미세한 와이어를 통해 수많은 정밀 부품을 독창적으로 연결하는 데 있습니다. 실제 엔지니어링 문제를 해결하기 위해 적용된 최초의 강화 학습 기술 중 하나인 alphachip은 몇 주 또는 몇 달의 수작업이 아닌 단 몇 시간 만에 인간과 비슷하거나 더 나은 칩 레이아웃 설계를 완성할 수 있습니다. 이러한 획기적인 발전은 전통적인 한계를 뛰어넘는 우리의 상상력의 문을 열어주었습니다.

그렇다면 alphachip은 정확히 어떻게 이 위업을 달성합니까?

alphachip의 비결은 칩 레이아웃 설계를 게임처럼 다루는 강화 학습에 대한 접근 방식입니다. 빈 그리드에서 시작하여 alphachip은 모든 것이 제자리에 놓일 때까지 각 회로 구성 요소를 점진적으로 배치합니다. 그 후, 레이아웃의 품질에 따라 시스템은 그에 상응하는 보상을 제공합니다.

더 중요한 것은 google이 '에지 기반' 그래프 신경망을 혁신적으로 제안했다는 것입니다.이를 통해 alphachip은 칩 구성 요소 간의 상호 관계를 학습하고 이를 전체 칩 설계에 적용함으로써 모든 설계에서 자기 초월을 달성할 수 있습니다. alphago와 마찬가지로 alphachip은 "게임"을 통해 학습하고 우수한 칩 레이아웃을 설계하는 기술을 마스터할 수 있습니다.

tpu 레이아웃을 설계하는 특정 프로세스에서 alphachip은 먼저 온칩 및 칩 간 네트워크 모듈, 메모리 컨트롤러 및 데이터 전송 버퍼를 포함하여 이전 세대 칩의 다양한 모듈에 대한 사전 교육을 수행합니다. 이 사전 훈련 단계는 alphachip에 풍부한 경험을 제공합니다. 그런 다음 google은 alphachip을 사용하여 현재 tpu 모듈에 대한 고품질 레이아웃을 생성했습니다.

전통적인 방법과 달리 alphachip은 인간 전문가가 연습을 통해 기술을 지속적으로 향상시키는 것처럼 더 많은 칩 레이아웃 작업을 해결하여 지속적으로 자체 최적화합니다. deepmind 공동 창립자이자 ceo인 demis hassabis는 다음과 같이 말했습니다.google은 alphachip을 중심으로 강력한 피드백 루프를 구축했습니다.

* 먼저, 고급 칩 설계 모델(alphachip)을 학습시킵니다.

* 둘째, alphachip을 사용하여 더 나은 ai 칩을 설계하십시오.

* 그런 다음 이 ai 칩을 사용하여 더 나은 모델을 훈련하세요.

* 마지막으로 이 모델을 사용하여 더 나은 칩을 설계하십시오.

반복적으로 모델과 ai 칩이 동시에 업그레이드됩니다. demis hassabis는 "이것이 google tpu 스택의 성능이 뛰어난 이유 중 하나입니다."라고 말했습니다.

alphachip은 인간 전문가보다 더 많은 모듈을 배치할 뿐만 아니라 배선 길이도 훨씬 짧습니다.각각의 차세대 tpu가 도입됨에 따라 alphachip은 더 나은 칩 레이아웃을 설계하고 보다 완벽한 전체 평면도를 제공함으로써 설계 주기를 단축하고 칩 성능을 향상시킵니다.

google의 3세대 tpu(v5e, tpu v5p)의 alphachip 설계 칩 블록 수와 평균 라인 길이 감소

google tpu의 10년 여정: asic의 지속성에서 ai 설계의 혁신까지

tpu 분야의 탐험가이자 선구자로서 이 기술 분야에서 google의 개발 역사를 살펴보면 예리한 통찰력에 의존할 뿐만 아니라 놀라운 용기도 보여줍니다.

우리 모두가 알고 있듯이 1980년대에는asic(주문형 집적 회로)은 높은 비용 효율성, 강력한 처리 능력 및 빠른 속도가 특징입니다.시장으로부터 큰 호응을 얻었습니다. 그러나 asic 기능은 맞춤형 마스크 도구에 의해 결정됩니다. 즉, 고객은 값비싼 nre(비반복적 엔지니어링) 비용을 선불로 지불해야 합니다.

이때,fpga(field programmable gate array)는 초기 비용을 줄이고 맞춤형 디지털 로직의 위험을 줄이는 장점이 있습니다.대중의 눈에 들어오면 성능이 완전히 뛰어나지는 않지만 시장에서는 독보적이다.

당시 업계에서는 일반적으로 무어의 법칙이 asic의 요구 사항 이상으로 fpga 성능을 향상시킬 것이라고 예측했습니다. 그러나 프로그래밍 가능한 "유니버설 칩"인 fpga는 탐색적 및 소량 제품에서 우수한 성능을 발휘하고 gpu보다 더 나은 속도, 전력 소비 또는 비용 지표를 달성할 수 있지만 여전히 "보편성"을 제거할 수는 없습니다. 동시에 최적성을 달성할 수는 없습니다." fpga가 전문화된 아키텍처를 위한 길을 닦은 후에는 더욱 전문화된 asic에 자리를 내주었습니다.

21세기에 들어서면서 ai 기술에 대한 열풍은 점점 더 커지고 있으며, 머신러닝과 딥러닝 알고리즘이 계속 반복되고 있으며, 고성능, 저전력 전용 ai 컴퓨팅 칩에 대한 수요가 늘어나고 있습니다. . 많은 복잡한 작업에서 점점 더 비효율적이 되었습니다. 이러한 배경 속에서 구글은 2013년 과감한 결정을 내렸습니다.tpu 인프라를 구축하고 tensorflow 및 jax를 중심으로 개발하려면 asic을 선택하세요.

asic의 독립적인 연구 및 개발은 긴 주기, 대규모 투자, 높은 임계값 및 큰 위험을 수반하는 프로세스라는 점은 주목할 가치가 있습니다. 잘못된 방향을 선택하면 막대한 경제적 손실을 입을 수 있습니다. 그러나 보다 비용 효율적이고 에너지 절약적인 기계 학습 솔루션을 모색하기 위해 google은 2012년 딥 러닝을 통해 이미지 인식 분야에서 획기적인 발전을 이룬 후 즉시 2013년 tpuv1 개발에 착수했으며 2015년 1세대 tpu를 발표했습니다. 칩(tpu v1)이 내부적으로 온라인 상태입니다.이는 ai를 위해 특별히 설계된 세계 최초의 가속기의 탄생을 의미합니다.

다행스럽게도 tpu는 곧 세간의 이목을 끄는 시연 기회를 가져왔습니다. 2016년 3월 alphago lee는 세계 바둑 챔피언 이세돌을 성공적으로 물리쳤습니다. alphago 시리즈의 2세대 버전으로 google cloud에서 계산을 위해 50개의 tpu를 사용합니다. .

그러나 tpu는 업계에서 즉시 대규모의 성공적인 적용을 달성하지 못했습니다. tpu가 진정으로 새로운 개발 단계에 진입한 것은 alphachip 칩 레이아웃 방법이 제안된 이후였습니다.

google tpu 개발 내역

2020년 google은 사전 인쇄 논문 "심층 강화 학습을 통한 칩 배치"에서 alphachip의 기능을 시연했습니다.과거 경험을 통해 학습하고 지속적으로 개선할 수 있으며, 다양한 넷리스트와 레이아웃을 정확하게 예측할 수 있는 보상 신경 아키텍처를 설계하여 입력 넷리스트에 대한 풍부한 기능 임베딩을 생성할 수 있습니다.

alphachip은 성능 최적화 조건을 게임의 승리 조건으로 간주하고 강화 학습 방법을 채택하며, 누적 보상 극대화를 목표로 에이전트를 훈련시켜 칩 레이아웃 능력을 지속적으로 최적화합니다. 그들은 10,000개의 게임을 시작하여 ai가 10,000개의 칩에서 레이아웃과 라우팅을 연습하고 데이터를 수집하는 동시에 지속적으로 학습하고 최적화할 수 있도록 했습니다.

궁극적으로 그들은 ai가 인간 엔지니어에 비해 면적, 전력, 전선 길이 측면에서 수동 레이아웃보다 성능이 뛰어나거나 일치하는 동시에 설계 표준을 충족하는 데 훨씬 더 적은 시간이 걸린다는 사실을 발견했습니다. 결과는alphachip은 6시간 이내에 최신 가속기 넷리스트에 대한 수동 작업에 필적하거나 그 이상의 레이아웃을 생성할 수 있습니다.동일한 조건에서 기존 인간 전문가가 동일한 작업을 완료하는 데 몇 주가 걸릴 수 있습니다.

alphachip의 도움으로 google은 tpu에 점점 더 의존하고 있습니다.2023년 12월google은 다중 모드 일반 대형 모델인 gemini의 3가지 버전을 출시했습니다. 이 모델의 학습에는 cloud tpu v5p 칩이 광범위하게 사용됩니다.2024년 5월google은 단일 고대역폭, 저지연 포드에서 최대 256개의 tpu 클러스터로 확장할 수 있는 6세대 tpu 칩 trillium을 출시했습니다. 이전 세대 제품에 비해 trillium은 모델 학습 적응 능력이 더 강력합니다. .

동시에 tpu 칩은 점차 google을 넘어 더 넓은 시장 인지도를 얻었습니다.2024년 7월 30일애플은 발표한 연구 논문에서 애플 인텔리전스 생태계에서 인공지능 모델 afm을 훈련할 때 구글의 tpu(텐서 처리 장치) 클라우드 클러스터 2개를 선택했다고 주장했다. 다른 데이터에 따르면 생성 ai 스타트업의 60% 이상과 생성 ai 유니콘의 거의 90%가 google cloud의 ai 인프라와 cloud tpu 서비스를 사용하고 있는 것으로 나타났습니다.

구글이 10년 동안 칼을 갈고 있다가 tpu가 육성기를 벗어나 뛰어난 하드웨어 성능으로 구글을 ai 시대에 피드백하기 시작한 조짐은 다양하다.alphachip에 담긴 'ai 디자인 ai 칩'의 길은 칩 디자인 분야에도 새로운 지평을 열어줍니다.

ai는 칩 설계에 혁신을 가져옵니다. google alphachip부터 전체 프로세스 자동화 탐색까지

alphachip은 ai 설계 칩 분야에서 독보적이지만 혼자가 아닙니다.ai 기술의 범위는 칩 검증 및 테스트와 같은 많은 핵심 링크로 광범위하게 확장되었습니다.

칩 설계의 핵심 임무는 칩의 전력 소비(power), 성능(performance), 면적(area)을 최적화하는 것입니다. 이 세 가지 핵심 지표를 합쳐서 ppa라고 합니다. 전통적으로 이 작업은 eda 도구로 완료되지만 최적의 성능을 달성하려면 칩 엔지니어는 지속적으로 수동 조정을 수행한 다음 다시 최적화를 위해 이를 eda 도구에 넘겨야 합니다. 이 과정은 집에서 가구를 배치하는 것과 같으며 공간 활용도를 극대화하고 순환을 최적화하기 위해 끊임없이 노력하지만 각 조정은 가구를 옮기고 재배치하는 것과 같기 때문에 시간이 많이 걸리고 노동 집약적입니다.

이 문제를 해결하기 위해,synopsys는 2020년에 dso.ai를 출시했습니다.ai와 eda를 통합한 업계 최초의 칩 설계 솔루션입니다. dso.ai는 강화 학습 기술을 사용하여 ai를 통해 설계 공간을 자동으로 검색하여 수동 개입 없이 최적의 균형점을 찾습니다. 이 도구는 많은 칩 대기업에서 사용되었습니다.

예를 들어, dso.ai를 사용한 후 microsoft는 동일한 성능을 유지하면서 칩 모듈의 전력 소비를 10%-15% 줄였습니다. stmicroelectronics는 메모리 칩 거대 기업 sk hynix의 ppa 탐색 효율성을 3배 이상 늘렸습니다. 5%씩. synopsys 데이터에 따르면 dso.ai는 300개 이상의 상업용 테이프아웃을 성공적으로 지원하여 실제 칩 설계 및 생산에서 ai가 수행하는 중요한 역할을 나타냅니다.

ai 지원 칩 검증과 관련하여 synopsys가 발표한 기술 보고서에서도 검증 프로세스가 전체 칩 개발 주기의 최대 70%를 차지한다고 지적했습니다. 칩 테이프아웃 비용은 수억 달러에 달하며 최신 칩의 복잡성은 계속 증가하여 검증이 어려워지고 있습니다. 이를 위해,synopsys는 vso.ai 도구를 출시합니다.ai를 사용하여 검증 공간을 최적화하고 적용 범위의 융합을 가속화합니다.

vso.ai는 다양한 적용 범위 유형을 추론하여 기존 코드 적용 범위를 보완할 수 있습니다. 또한 ai는 검증 경험을 통해 학습하여 적용 범위 목표를 지속적으로 최적화할 수 있습니다. 또한 synopsys는 칩 개발자가 파운드리에서 제조한 결함이 있는 칩을 걸러내는 데 도움이 될 수 있는 tso.ai 도구도 출시했습니다.

칩 설계 분야에 ai가 깊이 관여하면서 대담한 아이디어가 촉발되었습니다. ai를 사용하여 완전한 칩을 설계할 수 있을까요? 실제로 nvidia는 이미 이 분야에 노력을 기울였습니다. 심층 강화 학습 에이전트를 통해 회로를 설계하고,nvidia h100의 회로 약 13,000개는 ai로 설계되었습니다. 중국과학원 컴퓨팅기술연구소도 ai를 활용해 'qiu meng no.1'이라는 risc-v 프로세서 칩을 5시간 만에 생성했다.400만개의 로직 게이트를 탑재해 인텔 80486과 맞먹는 성능을 발휘한다.

전반적으로 완전한 칩을 설계하는 ai의 능력은 여전히 ​​제한적이지만 이는 의심할 여지 없이 미래 칩 개발을 위한 중요한 기회입니다. 기술이 지속적으로 발전함에 따라 칩 설계 분야에서 ai의 잠재력은 더욱 더 탐구되고 활용될 것이며 궁극적으로 전체 칩 설계 프로세스를 변화시킬 것입니다.

저자: 티안 샤오야오