소식

긴급히 필요합니다!대학의 GPU에 비상이 걸렸습니다. Li Feifei Hinton이 도움을 요청합니다.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


똑똑한 것들
Chen Junda가 편집함
편집판켄

외신 보도에 따르면, AI 컴퓨팅 파워 클러스터의 높은 가격과 대기업의 주문 급증으로 인해 많은 미국 대학이 심각한 컴퓨팅 파워 부족에 직면하고 있으며, 이로 인해 대학 내 AI 연구와 AI 연구 인력이 부족하다.

대학의 컴퓨팅 파워 부족은 오랫동안 존재해 왔으며, 심지어 최고의 대학과 학계 지도자들도 이 문제로 인해 어려움을 겪고 있습니다. 올해 5월 스탠포드 대학교 리 페이페이(Li Feifei) 교수는 학계가 심각한 AI 컴퓨팅 리소스 부족에 직면해 있다고 말했습니다.스탠포드 대학의 NLP 연구소에는 GPU가 64개만 있습니다. (엔비디아 A100). Turing Award 수상자 Geoffery Hinton은 학생들이 도움을 요청했을 때 다음과 같이 퉁명스럽게 말했습니다.이 문제에 대해 정부에 문의하는 것 외에는 어떻게 해야 할지 모르겠습니다.

이와는 대조적으로 페이스북 모회사인 메타(Meta)는이는 Stanford NLP Laboratory 클러스터의 거의 10,000배에 달하는 600,000개의 NVIDIA H100에 해당하는 거대한 컴퓨팅 성능 클러스터를 보유하고 있습니다.

그러나 스탠포드 대학 NLP 연구소의 64개 GPU는 이미 다른 대학의 많은 학생들에게 환상입니다. 실제로 독일 프린스턴대학교, RWTH 아헨대학교 등 몇몇 명문 대학을 제외하면,많은 대학에는 Nvidia A100 GPU도 없습니다.

Reddit 포럼의 관련 토론에서 북미 대학의 일부 박사 과정 학생들은 소규모 대학에서는 수년 전에 Nvidia가 출시한 V100 GPU만 얻을 수 있다고 보고했습니다.유럽과 아시아 대학의 상황은 훨씬 더 심각합니다.AI 연구를 위해 Nvidia의 소비자급 그래픽 카드 사용 . 그럼에도 불구하고 컴퓨팅 파워는 극히 부족하여 일부 학생들은 자비로 그래픽 카드를 구입하거나 NVIDIA, Amazon Cloud Service(AWS) 등에 컴퓨팅 파워 보조금을 신청해야 합니다.

많은 대학들도 학교 간 협력을 통해 공유 컴퓨팅 클러스터를 구축하거나, 낮은 컴퓨팅 성능이 필요한 다른 AI 연구 방향으로 전환하는 등 현상을 바꾸기 위해 열심히 노력하고 있습니다.

1. 컴퓨팅 파워 부족과 두뇌 유출. 대학의 GPU 부족 현상은 얼마나 심각합니까?

실제로 과거 오랜 기간 동안 대학은 AI 연구의 최전선에 있었다.대학의 연구자들은 많은 획기적인 발전을 이루었습니다.예를 들어, 2015년 스탠포드 대학의 박사후 연구원인 Jascha Sohl-Dickstein은 세계 최초의 확산 모델을 발명했으며, 이는 이후의 많은 이미지 및 비디오 생성 모델의 기초가 되었습니다.

대학의 기초 연구가 기술 혁신의 물결에 매우 중요한 반면, 최근 생성 AI 연구는 민간 기업이 주도해 왔습니다. 이는 주로 ChatGPT 및 Gemini와 같은 대규모 모델을 구축하고 교육하는 데 필요한 컴퓨팅 성능과 데이터에 액세스할 수 있기 때문입니다.

생성적 AI 연구는 비용이 많이 듭니다. OpenAI CEO인 Sam Altman은 GPT-4 교육에 약 1억 달러의 비용이 소요될 것으로 추정했습니다. Meta CEO인 Mark Zuckerberg는 2024년 초에 350,000개의 NVIDIA H100 GPU를 구매하여 Meta의 컴퓨팅 성능을 600,000개의 NVIDIA H100 GPU에 해당하는 수준으로 확장할 계획이라고 발표했습니다. 약 40,000달러에 달하는 H100의 판매 가격을 기준으로 계산하면,이는 수백억 달러에 달하는 대규모 주문이 될 것이다.

현재 전 세계 어떤 대학도 이 정도 수준의 AI 컴퓨팅 성능 인프라를 감당할 수 없습니다. 강력한 CS 학교인 프린스턴 대학교는 미국 대학 중 가장 큰 단일 AI 컴퓨팅 파워 클러스터 중 하나를 보유하고 있습니다.하지만 이 클러스터에는 NVIDIA H100 GPU가 300개만 있습니다., 올해 3월에야 공식 도입됐다.

프린스턴 대학의 언어 및 지능 센터 소장인 산지브 아로라(Sanjeev Arora)는 이 문제에 대해 다음과 같이 말했습니다.컴퓨팅 파워가 없으면 대규모 연구도 할 수 없고, 대화에 참여할 자격도 없습니다.”。

Reddit 포럼의 관련 토론에서 미국 5대 머신러닝 연구소 중 한 곳의 박사 과정 학생은 아직까지 NVIDIA H100이 단 하나도 없다고 말했습니다.


▲미국 5대 머신러닝 연구실 박사과정생들의 질문 (출처: Reddit)

아시아 출신의 한 박사과정 학생도 같은 딜레마에 직면했습니다. 그가 사용하는 GPU의 대부분은 소비자급이며 클러스터 대신 한두 개만 있습니다. 그의 학교는 최근까지 8개의 H100을 갖춘 서버를 보유하고 있었으며 액세스가 제한되어 있었습니다. 박사과정 학생이 말했습니다.2주 동안 그는 훈련을 위해 H100 GPU를 사용할 만큼 운이 좋았고, 지난 6개월 동안 수집한 것보다 더 많은 데이터를 얻었습니다.


▲아시아에서 이력서 연구에 종사하는 한 학생이 자신이 사용했던 GPU 시리즈를 회상했다. (출처: Reddit)

또 다른 학생은 자신의 학교에서 컴퓨팅 성능 지원을 제공할 수 없다고 말했습니다. 그는 인턴십 회사를 통해 AWS 클라우드 컴퓨팅 성능으로 미화 1,000달러만 얻을 수 있습니다.이러한 할당량을 사용하여 8블록 H100 클러스터를 실행하는 경우 1일 동안만 사용할 수 있습니다. , 이 수준의 컴퓨팅 성능으로는 고품질 연구를 생성할 수 없습니다. 그는 또한 이것이 제3세계 국가의 AI 연구의 표준이라고 말했습니다.


▲한 석사과정 학생이 인턴회사를 통해 계산학점을 취득한 경험을 공유했다. (출처: Reddit)

유럽 ​​대학의 컴퓨팅 파워 자원 역시 낙관적이지 않습니다. 독일에서 공부하는 한 학생은 자신의 학교에서 16개의 A100 GPU와 수십 개의 다른 GPU 모델을 제공할 수 있어 매우 행운이라고 말했습니다.유럽에서는 많은 대학과 연구소가 기본적으로 컴퓨팅 성능 지원을 제공하지 않습니다.


▲자신이 가지고 있는 컴퓨팅 자원에 감사하는 유럽 학생 (출처: Reddit)

독일 RWTH Aachen University의 또 다른 학생은 자신의 학교에 200개 이상의 NVIDIA H100 GPU가 있다고 공유하여 많은 네티즌들의 부러움을 샀습니다. 그러나 이러한 자원은 모든 대학 및 외부 기관과 공유됩니다. 더 긴 계산 시간이 필요한 경우 특별한 신청이 필요합니다.


▲독일 RWTH 아헨대학교 학생들이 학교의 컴퓨팅 파워를 공유하고 있다. (출처: Reddit)

업계 관계자들은 대학의 GPU 부족 현상에 놀랐습니다. 업계 관계자는 자신이 주요 클라우드 컴퓨팅 제공업체에서 근무하고 있다고 말했습니다.H100 GPU와 매일 접촉 , 이를 위한 소프트웨어를 개발하고 수정합니다. 또 다른 업계 소식통은 H100과 같은 수요가 높은 최첨단 GPU는 데이터 센터에 추가되기 전에 대기업 고객이 대량으로 사전 주문하는 경우가 많기 때문에 대부분의 연구자들에게 H100은 "희귀하다"고 말했습니다.


▲업계 관계자들은 대학 내 GPU 부족 현상에 놀라고 있다. (출처: Reddit)

컴퓨팅 자원이 부족한 경우 장기 훈련은 매우 사치스럽습니다. 대학의 AI 컴퓨팅 파워 클러스터는 며칠, 심지어 몇 주 전에 미리 적용해야 하는 경우가 많다. 많은 대규모 교육 작업은 단일 사용 주기 내에서 완료하기 어렵고, 연구원은 체크포인트 및 복구 코드를 구축하는 데 추가 노력을 기울여야 합니다.

컴퓨팅 자원의 부족으로 인해 대학의 두뇌 유출 문제도 발생했습니다. , 생성 AI 연구에 관심이 있는 학생들은 대기업으로 눈을 돌렸습니다. 대규모 기술 기업은 일반적으로 대학보다 수백, 수천 배 더 많은 컴퓨팅 능력을 보유하고 있기 때문에 이는 AI 인재에게 매우 매력적입니다.

2. 컴퓨팅 파워 동맹을 구축하고 연구 방향을 바꾸십시오. 대학은 뒤쳐질 의지도 없고, 뒤처질 수도 없습니다.

AI 연구에서 뒤처지고 AI 인재를 잃을 위기에 직면한 많은 대학에서는 추가적인 컴퓨팅 파워를 확보하기 위해 노력하고 있으며, 컴퓨팅 파워가 많이 필요하지 않은 AI 연구 분야로 연구 초점을 옮기고 있습니다.

컬럼비아대학교 기계공학과 학과장인 호드 립슨(Hod Lipson)은 “학술 기관들이 컴퓨팅 성능을 확보하기 위해 안간힘을 쓰고 있다”며 AI 연구에 업계와 정부의 참여도 중요하다고 강조했다.그러나 이 두 가지 힘의 균형을 맞추려면 학계, 오픈 소스 개발자 및 기타 사람들도 이 기술 개발에 발언권을 가져야 합니다.

대학의 컴퓨팅 파워 부족을 완화하기 위해 많은 대학이 컴퓨팅 파워 클러스터 구축 과정에 정부를 참여시켰습니다. 2024년 초 컬럼비아 대학교, 코넬 대학교, 뉴욕 대학교, 렌셀러 폴리테크닉 연구소(Rensselaer Polytechnic Institute) 등 7개 대학 및 연구 기관이 뉴욕 주 정부 및 자선 단체와 힘을 합쳐 Empire AI라는 컴퓨팅 파워 동맹을 만들었습니다.


▲Empire AI 연합 회원들 (출처: Empire AI 공식 홈페이지)

이 컴퓨팅 파워 동맹은 거의 4억 달러에 달하는 자금을 조달했습니다. 이 중 2억7500만달러는 정부에서 나오고 나머지 자금은 동맹에 참여하는 7개 대학과 연구기관에서 나온다. 그들은 자금을 사용하여 첨단 AI 컴퓨팅 센터를 구축할 것이며, 얼라이언스 구성원은 이러한 컴퓨팅 리소스를 공유하는 동시에 보유 비용도 효과적으로 공유할 수 있습니다.

뉴욕주 주지사실은 이 동맹을 설립한 이유에 대해 다음과 같이 말했습니다:현재 AI 컴퓨팅 리소스는 AI 개발 생태계에 대한 막대한 통제권을 갖고 있는 대형 기술 기업의 손에 점점 더 집중되고 있습니다.그 결과 연구자, 비영리단체, 중소기업 등이 뒤처지고,이는 AI 안전과 사회 전체에 큰 영향을 미칩니다.

학계와 산업계도 적극적으로 협력하고 있는데, 이는 실리콘밸리, 시애틀, 오스틴 등 미국 기술 허브에서는 이미 흔한 일이다. 워싱턴 대학교 컴퓨터공학부 부학장인 댄 그로스만(Dan Grossman)은 학계 연구자들이 산업계에서도 일할 수 있도록 해주는 프로그램이 있다고 말했습니다. 교직원은 더 나은 자원에 접근할 수 있으며 대학은 이러한 인재를 유지할 수 있습니다.

실제로 높은 컴퓨팅 성능이 필요하지 않은 중요한 AI 연구 프로젝트가 많이 있습니다. AI 설명 가능성 연구, AI 기획 및 추론 능력 연구 등 컴퓨팅 성능의 제약으로 인해 대학 연구자들은 학계가 업계를 완전히 압도하지 않도록 보다 표적화된 연구를 수행하기 시작했습니다.

코넬 대학교 컴퓨팅 및 정보 과학부 학장인 Kavita Bala는 대학이 대규모 언어 모델을 구축하고 교육하는 데 투자하는 비용을 줄이고 대규모 언어 모델을 기반으로 한 애플리케이션 개발에 더 집중할 수 있다고 말했습니다. 이러한 애플리케이션은 여전히 ​​최첨단일 수 있으며 고유한 애플리케이션 영역에서 큰 역할을 할 수 있습니다.

코드 개발을 위해 AI를 활용하는 데 중점을 두고 있는 MIT 교수 Armando Solar-Lezama는 대규모 모델을 처음부터 구축하는 것이 학계에서는 불가능하다고 믿습니다. 학생과 연구자는 애플리케이션 개발이나 대규모 언어 모델을 훈련하는 데 사용할 수 있는 합성 데이터 생성에 집중할 수 있습니다.

Solar Lesama는 자신이 다니는 대학의 교수들도 서버와 칩 구매 자금을 조달하기 위해 주도권을 잡았지만 자금 조달만이 유일한 문제는 아니라고 말했습니다.돈이 있어도 최고 수준의 GPU를 구입하는 것은 어렵습니다.

결론: 대학 내 AI 컴퓨팅 능력 부족은 계속되고 있으며, 여러 당사자 간의 협력을 통해 상황을 타파할 수 있다는 희망이 있을 수 있습니다.

AI 연구는 대기업이 장악하고 있는 현 상황에서 대학의 AI 연구는 이러한 연구를 효과적으로 보완하는 역할을 한다. 대학 연구원은 기업 내 연구원처럼 재무 보고서, 시장 수요 등 단기적인 요인에 영향을 받지 않습니다. 더 많은 컴퓨팅 자원을 확보할 수 있다면 기업이 관심을 두지 않거나 관심을 기울이고 싶지 않은 영역에서 상당한 영향력을 미치는 결과를 만들어낼 수 있을 것입니다.

실제로 지난 수십 년 동안 AI는 항상 저평가된 연구 분야였으며, 딥러닝과 머신러닝이라는 조끼를 입어야 했습니다. 그러나 현재의 AI 붐 재단이 실현된 것은 바로 힌튼, 얀 르쿤, 요슈아 벤지오 등 대학에서 수십 년 동안 관련 연구를 끈기 있게 이어온 연구자들이 있기 때문이다.

뉴욕주의 Empire AI와 같은 컴퓨팅 파워 동맹 외에도 북미의 많은 대학과 연구 기관에서도 컴퓨팅 자원을 공유하기 위해 다양한 규모의 기관 간 협력을 진행해 왔습니다. 2023년 말에는 중국 내 10개 이상의 대학이 중국 대학 컴퓨팅 파워 얼라이언스(China University Computing Power Alliance)를 설립했습니다. 어쩌면 이런 협력이 대학의 컴퓨팅 파워 부족 문제를 해결할 수 있다는 희망을 불러일으킬 수도 있을 것입니다.

출처: 월스트리트저널, Reddit