소식

리무(Li Mu): 사업을 시작하는 데 1년, 사는 데 3년

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Heart of the Machine의 허가를 받아 게시됨

저자: 리무

  • 기업가 정신을 시작한 첫해에 LLM의 진행 상황, 노력 및 반성에 대해 친구들에게 보고하겠습니다.

아마존에 입사한 지 5년째 되던 해에 창업을 생각했지만 전염병으로 인해 늦어졌습니다. 7년 반쯤 되니 너무 가려워서 그만뒀어요. 지금 생각해보면 살면서 꼭 해보고 싶은 일이 있으면 일찍 하려던 것 같아요. 일단 정말로 시작하면, 배워야 할 것이 너무 많다는 것을 알게 될 것이고, 왜 더 일찍 시작하지 않았는지 늘 궁금해하기 때문입니다.

이름: BosonAI의 유래

저는 사업을 시작하기 전에 Gluon이라는 이름을 딴 일련의 프로젝트를 진행했습니다. 양자물리학에서 글루온(Gluon)은 쿼크를 서로 묶는 보존(boson)으로, 이 프로젝트가 아마존과 마이크로소프트의 공동 프로젝트로 시작되었음을 상징한다. 그때 프로젝트 매니저가 머리를 쓰다듬으며 이름이 나왔지만, 프로그래머들에게는 이름짓기가 참 어려웠습니다. 우리는 매일매일 다양한 파일명과 변수명으로 고생했습니다. 결국 새 회사는 단순히 Boson의 이름을 따서 회사 이름을 지정했습니다. "보손과 페르미온이 세상을 형성한다"라는 밈을 접하면 모두가 의미심장한 미소를 지을 수 있기를 바랍니다. 하지만 많은 사람들이 보스턴으로 생각할 줄은 몰랐습니다.

"저는 보스턴에 있어요. 언제 만나요?" "응? 그런데 저는 베이 지역에 있어요."

자금 조달: 주요 투자자는 서명 전날 도망갔습니다.

2022년 말, 저는 LLM(대형 언어 모델)을 생산성 도구로 사용하는 두 가지 아이디어를 생각해 냈습니다. 우연히 장이밍을 만나 조언을 구했습니다. 토론이 끝난 후 그는 LLM 자체를 왜 하지 않느냐고 물었습니다. 저는 무의식적으로 움찔했습니다. Amazon의 우리 팀은 수만 장의 카드와 blabla와 같은 많은 어려움을 가지고 수년 동안 이 작업을 수행해 왔습니다. Yiminghehe는 다음과 같이 말했습니다. 이는 단기적인 어려움이므로 장기적인 관점을 취해야 합니다.

저의 장점은 조언을 듣고 실제로 LLM이 되기로 결정했다는 것입니다. 창립팀은 데이터, 사전 훈련, 사후 훈련, 아키텍처 담당자들을 모아 자금 조달에 나섰습니다. 운이 좋게도 시드 투자를 빨리 받았습니다. 그런데 카드를 살 돈이 부족해서 2차를 받아야 해요. 이번 라운드의 리더는 매우 큰 조직이었으며 조건을 문서화하고 협상하는 데 몇 달이 걸렸습니다. 그러나 서명 전날 대표가 투자하지 않겠다고 말했고 이로 인해 여러 투자자가 철수했습니다. 이번 라운드를 완료하고 LLM 티켓을 받아주신 나머지 투자자들에게 매우 감사드립니다.

지금 생각해보면 당시 자본시장의 열기가 여전했기 때문에 나도 다른 친구들처럼 계속해서 자금을 조달할 수 있었을 것입니다. 당시에는 돈을 너무 많이 모으면 나가기 힘들거나 하늘로 던져질까 봐 걱정이 됐어요. 지금 생각해보면 창업은 역경에 맞서 인생을 바꾸는 일이다.

기계: 게를 최초로 먹은 사람들

돈이 있으면 GPU를 구입하세요. 여러 공급업체에 문의했는데 만장일치로 H100은 1년 후에 인도될 것이라는 답변이 돌아왔습니다. 나는 아이디어가 있어서 Lao Huang에게 직접 이메일을 썼습니다. Lao Huang은 즉시 대답하고 살펴보겠다고 말했습니다. 한 시간 후 Supermicro의 CEO가 전화를 했습니다. 조금 더 지불하고 줄을 서서 20일 후에 기계를 받았습니다. 게를 일찍 먹게 되어 영광이었습니다.

게를 먹은 후, 나는 내 삶을 의심했고 온갖 놀라운 벌레들을 만났습니다. 예를 들어, GPU 전원 공급 장치가 부족하여 불안정해졌습니다. 나중에 Supermicro 엔지니어가 BIOS 코드를 수정하여 패치했습니다. 예를 들어 광섬유의 절단 각도가 잘못되어 Nvidia가 권장하는 네트워크 레이아웃이 불안정해졌습니다. 최적이 아니어서 새로운 계획을 세웠고, 나중에 엔비디아도 이 계획을 직접 채택했습니다. 아직도 이해가 안 돼요. 우리는 천 장도 안 되는 카드를 샀으니 소규모 구매자라고 볼 수 있죠. 하지만 대형 구매자들이 우리가 직면한 이러한 문제를 겪지 않았습니까? 디버그가 필요한 이유는 무엇입니까?

동시에 우리도 같은 수의 H100을 빌렸는데, GPU에 매일 문제가 있었고, 이 클라우드에 우리만 있는 건 아닐까 하는 생각까지 들 정도였습니다. 나중에 H100으로 전환한 후 훈련 중에 모델이 수백 번 중단되었다는 Llama 3의 기술 보고서를 보니 라인 사이의 고통에 공감할 수 있습니다.

자가건축과 임대를 비교해 보면 3년 임대비용은 자가건축 비용과 거의 비슷하다. 카드렌탈의 장점은 마음의 평화입니다. 자체 구축에는 두 가지 이점이 있습니다. 첫째, 엔비디아의 기술이 3년 후에도 여전히 훨씬 앞서 있다면 GPU가 여전히 그 가치를 유지할 수 있도록 가격을 통제할 수 있다. 또 하나는 자체 구축된 데이터 스토리지의 저렴한 비용입니다. 스토리지는 GPU에 가까워야 합니다. 대규모 클라우드이든 소규모 GPU 클라우드이든 스토리지 가격은 높습니다. 그러나 하나의 모델 훈련은 체크포인트를 저장하기 위해 수TB의 공간을 사용할 수 있으며, 훈련 데이터 저장은 10PB부터 시작됩니다. AWS S3를 사용하면 10PB는 연간 200만 달러의 비용이 듭니다. 이 돈을 셀프 구축에 사용하면 100PB에 이를 수 있다.

사업 : 고객 여러분 덕분에 첫 해에 손익분기점을 넘겼습니다.

우리의 수입과 지출이 첫 해에도 균일했다는 것은 매우 행운이었습니다. 우리의 지출은 주로 인력과 컴퓨팅 능력에 있습니다. Openai의 재정 자원과 Nvidia의 선두 덕분에 두 지출 모두 상당히 큽니다. 우리의 수입원은 대규모 고객을 위한 맞춤형 모델을 만드는 것입니다. 아주 일찍 LLM에 입사한 대부분의 회사는 CEO가 높은 컴퓨팅 능력과 인건비에도 위축되지 않고 과감하게 내부 팀이 새로운 기술을 시도하도록 협력하도록 추진했기 때문에 의사 결정 능력이 뛰어났습니다. 숨쉴 시간을 주신 의뢰인님께 정말 감사드립니다. 그렇지 않았다면 지난 몇 달간 여러 투자자들에게 달려들었을 것입니다.

다음으로, 자체 제품을 업그레이드하거나 비용을 절감하고 효율성을 높이기 위해 LLM을 사용하려는 기업이 많아져야 합니다. 그 이유는 한편으로는 기술 비용이 감소하고 다른 한편으로는 업계 리더(고객 등)가 LLM을 기반으로 한 제품을 순차적으로 출시하여 업계를 롤업할 것이기 때문입니다.

toC에서의 LLM 구현에도 주목하고 있습니다. c.ai 및 Perplexity와 같은 이전 물결의 상위 플레이어는 여전히 비즈니스 모델을 찾고 있지만 수익이 좋은 소규모 LLM 기본 애플리케이션도 12개 정도 있습니다. 우리는 롤플레잉 스타트업 회사의 모델을 제공했습니다. 그들은 딥 플레이어에 중점을 두고 수입과 지출의 균형을 유지하는 것도 훌륭합니다. 모델 기능은 계속 발전하고 있으며 앞으로는 더 많은 형식(음성, 음악, 사진, 비디오)이 통합될 것이라고 믿습니다.

전반적으로 업계와 자본은 여전히 ​​초조하다. 올해에는 설립된 지 1년이 넘었지만 수십억 달러를 모금한 여러 회사가 퇴출을 선택했습니다. 기술부터 제품까지 오랜 과정이 소요되며, 보통 2~3년이 소요됩니다. 사용자 요구 사항의 출현을 계산하면 시간이 더 오래 걸릴 수 있습니다. 우리는 현재에 집중하고, 안개 속에서 길을 탐색하며, 미래에 대해 낙관적인 태도를 유지합니다.

기술: LLM 인지의 4단계

LLM에 대한 이해는 4단계를 거쳤습니다. 첫 번째 단계는 Bert에서 GPT3까지 새로운 아키텍처와 빅데이터가 가능하다는 느낌입니다. 우리도 Amazon에 있을 때 곧바로 들어가서 대규모 교육과 제품 구현을 했습니다.

두 번째 단계는 제가 처음 사업을 시작했을 때 GPT4가 출시됐을 때였는데, 큰 충격을 받았습니다. 그 이유의 대부분은 기술이 공개되지 않는다는 사실에서 비롯됩니다. 소문에 따르면 하나의 모델 훈련 시간은 1억 개, 표준 데이터 비용은 수천만 달러에 달하는 것으로 추정됩니다. 많은 투자자들이 나에게 GPT4를 재생산하는 데 비용이 얼마나 드는지 물었고 나는 3억~4억이라고 답했다. 나중에 그들 중 한 사람은 실제로 수억 달러를 투자했습니다.

세 번째 단계는 사업을 시작하는 전반기입니다. GPT4를 만들 수 없으니 구체적인 문제부터 시작해 보겠습니다. 그래서 게임, 교육, 판매, 금융, 보험 분야의 고객을 찾기 시작했습니다. 특정 요구 사항에 따라 모델을 학습합니다. 처음에는 시장에 좋은 오픈소스 모델이 없었기 때문에 처음부터 훈련을 했는데 나중에 좋은 모델이 많이 나와서 비용이 절감되었습니다. 그런 다음 비즈니스 시나리오를 기반으로 평가 방법을 설계하고 데이터를 표시한 후 모델이 작동하지 않는 부분을 확인하고 그에 따라 개선합니다.

2023년 말에 우리는 Photon(Boson의 일종) 시리즈 모델이 고객 애플리케이션에서 GPT4보다 성능이 뛰어나다는 사실에 놀랐습니다. 모델을 사용자 정의하면 추론 비용이 API 호출 비용의 1/10이라는 이점이 있습니다. 오늘날 API는 훨씬 저렴해졌지만 자체 기술도 향상되어 여전히 비용이 1/10에 불과합니다. 또한 QPS, 지연 등이 모두 더 잘 제어됩니다. 이 단계에서는 특정 애플리케이션의 경우 시장에서 최고의 모델을 이길 수 있다는 것을 이해하고 있습니다.

네 번째 단계는 창업 후반기이다. 고객이 계약서에서 요청한 모델을 받았지만 GPT4가 충분하지 않아 기대했던 모델이 아니었습니다. 연초에 우리는 모델이 단일 애플리케이션에 대해 훈련된 경우에는 또 다른 도약이 어렵다는 것을 발견했습니다. 돌이켜보면 AGI가 일반인 수준에 도달했다면 고객이 원하는 것은 전문가 수준이다. 게임에는 전문 기획자와 전문 배우가 필요하고, 교육에는 금메달 교사가 필요하고, 판매에는 금메달 판매가 필요하고, 금융과 보험에는 수석 분석가가 필요합니다. 이것은 모두 AGI에 업계 전문 역량을 더한 것입니다. 당시 우리는 AGI에 대해 경외감을 느꼈지만 피할 수 없는 일이라고 느꼈습니다.

연초에 우리는 일련의 Higgs(Boson의 일종인 God Particle) 모델을 설계했습니다. 주요 일반 능력은 최고의 모델을 따르는 것이지만 특정 능력이 눈에 띕니다. 우리가 선택한 역량은 롤플레잉이었습니다. 가상 캐릭터 플레이, 교사 플레이, 판매 플레이, 분석가 플레이 등이었습니다. 2024년 중반에 2세대까지 반복되어 일반적인 성능을 테스트하는 경우 V2는 최고의 모델과 비슷하며 Far의 지식을 테스트하는 MMLU-Pro에서도 크게 뒤지지 않습니다.



Higgs-V2는 Llama3 기반을 기반으로 한 후 완전한 사후 훈련을 수행합니다. Meta처럼 데이터에 라벨을 붙이는 데 많은 돈을 쓸 수 없기 때문에 V2가 Llama3 Instruct보다 나은 이유는 주로 알고리즘의 혁신에서 비롯됩니다.

그런 다음 캐릭터에 따른 플레이, 시나리오에 따른 플레이를 포함하여 롤플레잉을 평가하기 위한 리뷰 세트를 만들었습니다. 내 모델이 내 목록에서 1위를 차지하게 되어 죄송합니다. 그러나 모델 학습 중에는 평가에 사용되는 데이터가 없습니다. 이 평가 세트는 처음부터 개인적인 용도로 작성되었으며 모델의 기능을 실제로 반영하기를 희망하므로 모델의 과적합 데이터 세트를 피해야 합니다. 그런데 평가를 하는 학생들이 기술보고서를 작성하고 싶어해서 공개하게 됐어요. 흥미롭게도 롤플레잉 테스트 샘플은 c.ai에서 제공되지만 모델 기능은 맨 아래에 있습니다.



이해의 네 번째 단계는 좋은 수직적 모델은 일반적인 역량이 약해져서는 안 된다는 것입니다. 예를 들어 수직적으로 추론하고 지시하는 것도 필요합니다. 장기적으로 일반 모델과 수직 모델 모두 AGI로 전환해야 합니다. 단지 수직적 모델이 좀 더 주제 지향적일 수 있고, 전문 과정에서 높은 점수를 받고 일반 과정에서 괜찮은 결과를 얻을 수 있으므로 연구 개발 비용이 약간 낮아지고 연구 개발 방법이 달라질 것입니다.

이해의 다섯 번째 단계는 어떻습니까? 아직 진행 중인 작업이므로 곧 공유하고 싶습니다.

비전: 인간의 동반자

고객을 위한 기술과 커스터마이징에만 전념하고, 우리가 추구하는 비전이 무엇인지 천천히 생각해본다는 것이 부끄럽습니다. 우리는 고객이 원하는 것이 무엇인지, 우리가 원하는 것이 무엇인지, 미래에 필요할 수 있는 것이 무엇인지 살펴봅니다. 내 생각으로는 수년 전부터 아이들을 돌보고 동행해 줄 로봇 보모가 있었으면 좋겠다는 생각이 들었다. 왜냐하면 그게 어렵다는 걸 알았고, 현재 아이들의 인식과 생각도 잘 이해하지 못했기 때문이다. 나와 함께 새로운 것을 발명할 수 있는 정말 멋진 가상 비서가 직장에 있었으면 좋겠습니다. 나도 나이가 들면 재미있는 로봇을 데리고 다니고 싶다. 미래에 대한 나의 예측은 생산 도구가 점점 더 발전하고, 이전에는 팀으로만 완료할 수 있었던 일을 한 사람이 완료할 수 있게 되어 인간이 더욱 개별적으로 독립적이게 될 것이라는 것입니다. 더 외로워요.

이를 종합하여 우리는 "인간과 동행하는 지능형 에이전트"라는 비전을 설정했습니다. 높은 감성 지능과 온라인 IQ를 갖춘 지능형 에이전트입니다. 실제 인물이라면 프로팀이겠죠. 예를 들어 같이 놀고 싶으면 전문기획자+배우죠. 운동에 동행하고 교사 + 전문 스포츠 코치를 격려하십시오. 내가 당신과 함께 공부하면 당신이 이해하지 못하는 것을 설명할 수 있어요. 모델의 장점은 오랫동안 당신과 동행할 수 있고 당신을 정말로 이해할 수 있다는 것입니다. 그리고 나는 "진심으로 당신을 위해" 할 수 있습니다.

그러나 현재의 기술로는 아직 비전과는 거리가 멀다. 오늘날의 기술은 채팅에 동행할 수 있습니다. 많은 상황에서 대화가 그다지 좋지 않고, 내용도 부족하며, IQ와 EQ가 온라인 상태가 아닐 때도 있습니다. 이것들은 모두 지금 해결해야 할 문제입니다. 해외에 지원하고 싶은 친구가 있으시면 언제든지 연락주시기 바랍니다.

팀: 어려운 일은 팀에 의존해야 합니다.

저는 사업을 시작하고 나서야 팀의 중요성을 깨달았습니다. 큰 공장에 있으면 나도 나사, 팀원도 나사, 팀도 나사인 것 같았다. 그러나 기업가 팀은 자동차입니다. 자동차는 더 작지만 달릴 수 있고, 짐을 싣고, 유연하게 회전할 수 있으며, 모든 코너로 이동할 수 있습니다. 회사를 설립한 지 얼마 되지 않아 MiHoYo Lao Cai는 모두가 한 방에 모인 모습을 보고 작은 팀이 좋다고 감동적으로 말했습니다.

물론 불편한 부분도 있습니다. 항상 기름이 있는지 확인해야 하고, 험한 길에서는 차가 흔들리지 않도록 조심해야 합니다. 모든 구성원이 중요하며 중복이 없습니다. 한 사람이 효과적이지 않으면 타이어 펑크가 날 수 있습니다. 사람도 소중합니다. 한 사람이 타이어 하나를 잃을 수도 있습니다.

예전에는 프로젝트를 선택할 때 내가 주도적으로 발전할 수 있는 프로젝트를 선택하곤 했어요. 하지만 이는 질문이 그다지 어렵지 않다는 의미이기도 합니다. 사업을 시작하는 것은 큰 문제이며 그것은 모두 팀에 달려 있습니다. 이 글에서는 "나"라는 표현이 많이 사용되었지만, 사실 작업은 팀에서 수행합니다. 팀이 없으면 강좌를 판매하기 위해 경력을 바꿔야 할 수도 있습니다.

개인적인 추구: 명성인가, 재산인가?

지금까지 저는 내면의 목소리에 따라 결정을 내렸습니다. 일을 마친 후에는 박사 과정을 공부하고, 영상을 만들고, 사업을 시작할 것입니다. 기업가 정신에는 끝없는 어려움을 극복하기 위한 강한 동기의 지원이 필요합니다. 이를 위해서는 자신의 동기에 대한 더 깊은 분석이 필요합니다.

동기 부여는 욕망이나 두려움에서 비롯됩니다. 10년 전이었다면 명예와 부에 더 열정을 쏟았을지 모르지만, 지금의 나이에서는 돈의 한계효용이 더 이상 높지 않고, 명성이 가져다주는 감정적 가치도 매우 작다고 느낍니다. 나의 가장 깊은 동기는 삶이 의미가 없을 수도 있다는 두려움에서 비롯됩니다. 우주의 광대함을 떠나 인류의 오랜 역사 속에서도 사람은 모래알에 불과합니다. 예기치 않게 도착하고 빨리 사라집니다. 지구상에는 1000억 명의 인류가 살고 있는데, 그들 대부분은 역사에 흔적을 남기지 못할 것이다. 나는 내 가계도에 있는 수천 개의 이름을 거의 알아보지 못합니다.

그렇다면 사람의 존재 의미는 무엇인가? 어렸을 때 나는 이 문제에 대해 명확하게 생각할 수 없어서 우울했습니다. 그래서 무의식적으로 가치를 창조하고, 존재의 의미를 얻고 싶어 합니다. 나는 가치 창출 능력을 향상시키기 위해 "앞으로 나아가기"를 선택했습니다. 나는 교육적 가치를 창출하기 위해 긴 비디오를 녹화하고 교육 자료를 작성하기로 선택했습니다. 얽히고 설킨 어려움, 그리고 사례의 가치를 창조합니다. ; 창업을 선택하고 더 큰 가치를 창출하기 위해 많은 사람들의 노력을 합칩니다.

추신

Su Hua와 저는 작년에 스탠포드를 걷고 있었습니다. 그는 제 어깨를 두드리며 말했습니다. "솔직히 말해 보세요. 왜 사업을 시작하려고 합니까?" 당시 저는 그렇게 생각하지 않았습니다. 직업을 바꾸고 싶어요." 그러자 수화는 웃었다.

이제 나는 그가 기업가 정신의 기복을 경험했기 때문에 이해합니다. 만약 제가 오늘 이 질문에 대답한다면 저는 이렇게 말할 것입니다. "그냥 정신이 나갔을 뿐이에요." 하지만 당시에는 그렇게 쉬울 거라고는 생각하지 않아서 다행이어서 먼저 머리에 뛰어 들었습니다. 그렇지 않으면 누구나 볼 수 있는 것은 '10년의 작업에 대한 반성'일 것이다. 오늘 쓴 이야기가 더 재미있는 것 같아요.

모든 기업가에게 경의를 표합니다.

(마지막으로 광고 속 당사 채용 정보(Bay Area 및 Vancouver)는 https://jobs.lever.co/bosonai 입니다. 해외 지원이 있는 경우 [email protected]로 문의해 주시기 바랍니다.)