2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
이것은 현재까지 대형 모델 창업에 대한 거의 가장 성실하고 유익한 리뷰입니다.
2024년 8월 14일 저녁, Li Mu는 자신의 Bilibili 및 Zhihu 칼럼에 "창업하는 데 1년, 세계에서 3년"이라는 창업 1년에 대한 리뷰 기사를 게재하여 자신의 대규모 사업을 공유했습니다. 창업 모델 첫해의 발전과 어려움, 반성.
기사에서 그는 자신의 기업가적 여정을 다음과 같이 평가했습니다.
대형 모델의 생산성 도구로 사업을 시작하겠다는 초기 아이디어부터 장이밍을 만나 그로부터 '깨어나기'까지 그는 모델 자체를 직접 구축하기로 결정했다.
나는 자금조달 과정에서 "놔두었고" 처음으로 사업을 시작했기 때문에 약간 "비용이 많이 들고" 동료들처럼 "현금 10억"을 모으는 데 실패했습니다.
나는 상대방이 직접 "배열"한 H100을 얻기 위해 Jen-Hsun Huang에게 직접 연락했지만 훈련 중에 이 카드에 많은 버그가 있다는 것을 발견했습니다.
그러다가 마침내 상용화에서 손익분기 점을 찾을 수 있는 방법을 찾아 '인간과 동행하는 지능형 에이전트'라는 목표를 향해 계속 전진하고 있습니다.
리무는 자신이 직접 밟은 함정에 대해 이야기하는 동시에 "내가 왜 사업을 시작해야 하는가?"라는 올해 한 해 동안 스스로에게 계속 질문했습니다. 그는 Su Hua의 "질문"을 받았고 Cai Haoyu가 자신의 회사에 대해 한 말에서 영감을 얻었습니다. 결국 이 질문에 대해 그가 내린 대답은 바로 Li Mu였습니다.
만약 제가 오늘 이 질문에 대답한다면 저는 이렇게 말할 것입니다. "그냥 정신이 나갔을 뿐이에요."
그러나 그는 또한 "나의 가장 깊은 동기는 삶이 의미가 없을 수도 있다는 두려움에서 비롯됩니다"라고 말했습니다.
"그렇다면 사람의 존재 의미는 무엇인가요? 어렸을 때 이 질문을 이해할 수 없어서 우울했습니다. 그래서 가치를 만들고 존재의 의미를 얻고 싶습니다. 저는 '앞으로 나아가는 것'을 선택합니다. 가치 창출 능력을 향상시키기 위해 긴 비디오를 녹화하고 교육 자료를 작성하여 박사 과정, 업무 및 기업가 정신에 대한 요약을 작성하고 실제 사례의 가치를 창출하도록 선택합니다. 사업을 시작하고 많은 사람들의 힘이 모여 더 큰 가치를 창출하는 것입니다."
다음은 Li Mu의 리뷰 전문입니다., 기사는 Li Mu에서 복제되었습니다.괄호 안의 편집자 주에는 몇 가지 추가 정보가 포함되어 있습니다.
친구에게 신고하세요법학 석사기업가 정신 첫 해의 진전, 투쟁 및 반성
아마존에 입사한 지 5년째 되던 해에 창업을 생각했지만 전염병으로 인해 늦어졌습니다. 7년 반쯤 되니 너무 가려워서 그만뒀어요. 지금 생각해보면 살면서 꼭 해보고 싶은 일이 있으면 일찍 하려던 것 같아요. 일단 정말로 시작하면, 배워야 할 것이 너무 많다는 것을 알게 될 것이고, 왜 더 일찍 시작하지 않았는지 늘 궁금해하기 때문입니다.
저는 사업을 시작하기 전에 Gluon이라는 이름을 딴 일련의 프로젝트를 진행했습니다. 양자물리학에서 Gluon은 쿼크를 서로 묶는 보존(boson)으로, 이 프로젝트가 원래 Amazon과 Microsoft의 공동 프로젝트였음을 상징합니다. 그때 프로젝트 매니저가 머리를 쓰다듬으며 이름이 나왔지만, 프로그래머들에게는 이름짓기가 참 어려웠습니다. 우리는 매일매일 다양한 파일명과 변수명으로 고생했습니다. 결국 새 회사는 단순히 Boson의 이름을 따서 회사 이름을 지정했습니다. "보손과 페르미온이 세상을 만든다"라는 밈을 접하면 모두가 의미심장한 미소를 지을 수 있기를 바랍니다. 하지만 많은 사람들이 보스턴으로 생각할 줄은 몰랐습니다.
"저는 보스턴에 있어요. 언제 만나요?" "응? 그런데 저는 베이 지역에 있어요."
자금 조달: 주요 투자자는 서명 전날 도망갔습니다.
2022년 말, 저는 LLM(대형 언어 모델)을 생산성 도구로 사용하는 두 가지 아이디어를 생각해 냈습니다. 우연히 장이밍을 만나 조언을 구했습니다. 토론이 끝난 후 그는 LLM 자체를 왜 하지 않느냐고 물었습니다. 저는 무의식적으로 움찔했습니다. Amazon의 우리 팀은 수만 장의 카드와 blabla와 같은 많은 어려움을 가지고 수년 동안 이 작업을 수행해 왔습니다.
Yiminghehe는 다음과 같이 말했습니다. 이는 단기적인 어려움이므로 장기적인 관점을 취해야 합니다.
저의 장점은 조언을 듣고 실제로 LLM에 진학했다는 것입니다.창립팀은 데이터, 사전 훈련, 사후 훈련, 아키텍처 담당자들을 모아 자금 조달에 나섰습니다. 운이 좋게도 시드 투자를 빨리 받았습니다. 그런데 카드를 살 돈이 부족해서 2차를 받아야 해요. 이번 라운드의 리더는 매우 큰 조직이었으며 조건을 문서화하고 협상하는 데 몇 달이 걸렸습니다. 그러나 서명 전날 대표가 투자하지 않겠다고 말했고 이로 인해 여러 투자자가 철수했습니다.이번 라운드를 완료하고 LLM 티켓을 받아주신 나머지 투자자들에게 매우 감사드립니다.
오늘 생각해보면 자본시장의 열기가 남아있는 동안에도 계속해서 자금을 조달할 수 있었을 것입니다.어쩌면 다른 사업가들처럼 그도 이제 현금이 10억 달러에 달합니다.당시에는 돈을 너무 많이 모으면 나가기 힘들거나 하늘로 던져질까 봐 걱정이 됐어요. 지금 생각해보면 창업은 역경에 맞서 인생을 바꾸는 일이다.
기계: 게를 최초로 먹은 사람들
돈이 있으면 GPU를 구입하세요. 여러 공급업체에 물었고 만장일치로 H100이 1년 안에 배송될 것이라는 대답이 돌아왔습니다.나는 아이디어가 있어서 Lao Huang에게 직접 이메일을 썼습니다. Lao Huang은 즉시 대답하고 살펴보겠다고 말했습니다. 한 시간 후 Supermicro의 CEO가 전화를 했습니다. 조금 더 지불하고 줄을 서서 20일 후에 기계를 받았습니다. 게를 일찍 먹게 되어 영광이었습니다.
게를 먹은 후, 나는 내 삶을 의심했고 온갖 놀라운 벌레들을 만났습니다. 예를 들어, GPU에 대한 전원 공급 부족으로 인해 불안정이 발생했으며 나중에 Super Micro 엔지니어가 이를 패치하기 위해 BIOS 코드를 수정했습니다. 예를 들어 광섬유의 절단 각도가 잘못되어 Nvidia가 권장하는 네트워크 레이아웃이 불안정해졌습니다. 최적이 아니어서 새로운 계획을 세웠고, 나중에 엔비디아도 이 계획을 직접 채택했습니다. 아직도 이해가 안 돼요. 우리는 천 장도 안 되는 카드를 샀으니 소규모 구매자라고 볼 수 있죠. 하지만 대형 구매자들이 우리가 직면한 이러한 문제를 겪지 않았습니까? 디버그가 필요한 이유는 무엇입니까?
동시에 우리도 같은 수의 H100을 빌렸는데, GPU에 매일 문제가 있었고, 우리가 이 클라우드를 사용하는 유일한 사람인지 궁금했습니다. 나중에 H100으로 전환한 후 훈련 중에 모델이 수백 번 중단된다는 Llama 3의 기술 보고서를 보니 라인 사이의 고통에 매우 공감했습니다.
자가건축과 임대를 비교해 보면 3년 임대비용은 자가건축 비용과 거의 비슷하다. 카드렌탈의 장점은 마음의 평화입니다. 자체 구축에는 두 가지 이점이 있습니다. 첫째, Nvidia의 기술이 3년 후에도 여전히 훨씬 앞서 있다면 GPU가 여전히 가치를 유지하도록 가격을 통제할 수 있습니다. 또 하나는 자체 구축된 데이터 스토리지의 저렴한 비용입니다. 스토리지는 GPU에 가까워야 합니다. 대규모 클라우드이든 소규모 GPU 클라우드이든 스토리지 가격은 높습니다. 그러나 하나의 모델 훈련은 체크포인트를 저장하기 위해 수TB의 공간을 사용할 수 있으며, 훈련 데이터 저장은 10PB부터 시작됩니다. AWS S3를 사용하면 10PB에 연간 200만 달러의 비용이 듭니다. 이 돈을 셀프 구축에 사용하면 100PB에 이를 수 있다.
사업 : 고객 여러분 덕분에 첫 해에 손익분기점을 넘겼습니다.
우리의 수입과 지출이 첫 해에도 균일했다는 것은 매우 행운이었습니다.
우리의 지출은 주로 인력과 컴퓨팅 능력에 있습니다. Openai의 재정 자원과 Nvidia의 선두 덕분에 두 지출 모두 상당히 큽니다. 우리의 수입원은 대규모 고객을 위한 맞춤형 모델을 만드는 것입니다. 아주 일찍 LLM에 입사한 대부분의 회사는 CEO가 높은 컴퓨팅 능력과 인건비에도 위축되지 않고 과감하게 내부 팀이 새로운 기술을 시도하도록 협력하도록 추진했기 때문에 의사 결정 능력이 뛰어났습니다. 숨쉴 시간을 주신 의뢰인님께 정말 감사드립니다. 그렇지 않았다면 지난 몇 달간 여러 투자자들에게 달려들었을 것입니다.
다음으로, 자사 제품을 업그레이드하든, 비용을 절감하고 효율성을 높이든, 더 많은 기업이 LLM을 활용하려고 노력해야 합니다. 그 이유는 한편으로는 기술 비용이 감소하고 다른 한편으로는 업계 리더(고객 등)가 LLM을 기반으로 한 제품을 순차적으로 출시하여 업계를 롤업할 것이기 때문입니다.
toC에서의 LLM 구현에도 주목하고 있습니다. c.ai 및 Perplexity와 같은 이전 물결의 상위 플레이어는 여전히 비즈니스 모델을 찾고 있지만 수익이 좋은 소규모 LLM 기본 애플리케이션도 12개 정도 있습니다. 우리는 롤플레잉 스타트업 회사의 모델을 제공했습니다. 그들은 딥 플레이어에 중점을 두고 수입과 지출의 균형을 유지하는 것도 훌륭합니다. 모델 기능은 계속 발전하고 있으며 앞으로는 더 많은 형식(음성, 음악, 사진, 비디오)이 통합될 것이라고 믿습니다.
전반적으로 업계와 자본은 여전히 초조하다. 올해에는 설립된 지 1년이 넘었지만 수십억 달러를 모금한 여러 회사가 퇴출을 선택했습니다. 기술부터 제품까지 긴 과정이기 때문에 보통 2~3년이 걸립니다. 사용자 요구 사항의 출현을 계산하면 시간이 더 오래 걸릴 수 있습니다. 우리는 현재에 집중하고, 안개 속에서 길을 탐색하며, 미래에 대해 낙관적인 태도를 유지합니다.
기술: LLM 인지의 4단계
LLM에 대한 이해는 4단계를 거쳤습니다. 첫 번째 단계는 Bert에서 GPT3까지 새로운 아키텍처와 빅데이터가 가능하다는 느낌입니다. 아마존에 있을 때도 즉시 대규모 교육과 제품 구현을 진행했습니다.
두 번째 단계는 제가 처음 사업을 시작했을 때 GPT4가 출시됐을 때였는데, 그게 큰 충격이었어요.그 이유의 대부분은 기술이 공개되지 않는다는 사실에서 비롯됩니다. 소문에 따르면 하나의 모델 훈련이 1억 개, 표준 데이터 비용이 수천만 달러에 달하는 것으로 추정됩니다.. 많은 투자자들이 나에게 GPT4를 재생산하는 데 비용이 얼마나 드는지 물었고 나는 3억~4억이라고 답했다. 나중에 그들 중 한 사람은 실제로 수억 달러를 투자했습니다.
세 번째 단계는 사업을 시작하는 전반기입니다.GPT4를 만들 수 없으니 구체적인 문제부터 시작해 보겠습니다.. 그래서 게임, 교육, 판매, 금융, 보험 분야의 고객을 찾기 시작했습니다. 특정 요구 사항에 따라 모델을 학습합니다.처음에는 시장에 좋은 오픈소스 모델이 없었기 때문에 처음부터 훈련시켰습니다. 나중에 좋은 모델이 많이 나와서 비용이 절감되었습니다.그런 다음 비즈니스 시나리오를 기반으로 평가 방법을 설계하고 데이터를 표시한 후 모델이 작동하지 않는 부분을 확인하고 그에 따라 개선합니다.
2023년 말에 우리는 Photon(Boson의 일종) 시리즈 모델이 고객 애플리케이션에서 GPT4보다 성능이 뛰어나다는 사실에 놀랐습니다. 모델을 사용자 정의하면 추론 비용이 API 호출 비용의 1/10이라는 이점이 있습니다. 오늘날 API는 훨씬 저렴해졌지만 자체 기술도 향상되어 여전히 비용이 1/10에 불과합니다. 또한 지연 등을 더 잘 제어할 수 있습니다. 이 단계에서는 특정 애플리케이션의 경우 시장에서 최고의 모델을 이길 수 있다는 것을 이해하고 있습니다.
네 번째 단계는 창업 후반기이다.고객이 계약서에서 요청한 모델을 받았지만 GPT4가 충분하지 않아 기대했던 모델이 아니었습니다. 연초에 우리는 모델이 단일 애플리케이션에 대해 훈련된 경우에는 또 다른 도약이 어렵다는 것을 발견했습니다.돌이켜보면 AGI가 일반인 수준에 이르렀다면 고객이 원하는 것은 전문가 수준이다. 게임에는 전문 기획자와 전문 배우가 필요하고, 교육에는 금메달 교사가 필요하고, 판매에는 금메달 판매가 필요하고, 금융과 보험에는 수석 분석가가 필요합니다. 이것은 모두 AGI에 업계 전문 역량을 더한 것입니다. 당시 우리는 AGI에 대해 경외감을 느꼈지만 피할 수 없는 일이라고 느꼈습니다.
연초에 우리는 Higgs(Boson의 일종인 God Particle) 모델 시리즈를 디자인했습니다. 주요 일반 능력은 최고의 모델을 따르는 것이지만 특정 능력이 눈에 띕니다. 우리가 선택한 역량은 롤플레잉이었습니다. 가상 캐릭터 플레이, 교사 플레이, 판매 플레이, 분석가 플레이 등이었습니다. 2024년 중반에 업데이트되었습니다.2세대, 일반적인 성능을 테스트하는 Arena-Hard 및 AlpacaEval 2.0에서는 V2가 최고의 모델과 비슷하며 지식을 테스트하는 MMLU-Pro에서도 크게 뒤지지 않습니다.
Higgs-V2는 Llama3 기반을 기반으로 한 후 완전한 사후 훈련을 수행합니다. Meta처럼 데이터에 라벨을 붙이는 데 많은 돈을 쓸 자원이 없기 때문에 V2가 Llama3 Instruct보다 나은 이유는 주로 알고리즘의 혁신에서 비롯됩니다.
그런 다음 우리는역할극 평가 세트, 캐릭터를 기반으로 한 퍼포먼스와 장면을 기반으로 한 퍼포먼스를 포함합니다. 내 모델이 내 목록에서 1위를 차지하게 되어 죄송합니다. 그러나 모델 학습 중에는 평가에 사용되는 데이터가 없습니다. 이 평가 세트는 개인적인 용도로 사용되며 모델의 기능을 실제로 반영하기를 희망하므로 모델의 과적합 데이터 세트를 피해야 합니다. 그런데 평가세트를 만든 학생들이 기술보고서를 작성하고 싶어해서 그냥 공개해버렸습니다. 흥미롭게도 롤플레잉 테스트 샘플은 c.ai에서 제공되지만 모델 기능은 맨 아래에 있습니다.
이해의 네 번째 단계는 좋은 수직적 모델은 일반적인 역량이 약해져서는 안 된다는 것입니다. 예를 들어, 추론과 지시를 따르는 능력도 수직적으로 필요합니다. 장기적으로 일반 모델과 수직 모델 모두 AGI로 전환해야 합니다. 단지 수직적 모델이 좀 더 주제 지향적일 수 있고, 전문 과정에서 높은 점수를 받고 일반 과정에서 괜찮은 결과를 얻을 수 있으므로 연구 개발 비용이 약간 낮아지고 연구 개발 방법이 달라질 것입니다.
이해의 다섯 번째 단계는 어떻습니까? 아직 진행 중인 작업이므로 곧 공유하고 싶습니다.
비전: 인간의 동반자
고객을 위한 기술과 커스터마이징에만 전념하고, 우리가 추구하는 비전이 무엇인지 천천히 생각해본다는 것이 부끄럽습니다. 우리는 고객이 원하는 것이 무엇인지, 우리가 원하는 것이 무엇인지, 미래에 필요할 수 있는 것이 무엇인지 살펴봅니다. 내 생각으로는 수년 전부터 아이들을 돌보고 동행해 줄 로봇 보모가 있었으면 좋겠다는 생각이 들었다. 왜냐하면 그게 어렵다는 걸 알았고, 현재 아이들의 인식과 생각도 잘 이해하지 못했기 때문이다.
나와 함께 새로운 것을 발명할 수 있는 정말 멋진 가상 비서가 직장에 있었으면 좋겠습니다. 나도 나이가 들면 재미있는 로봇을 데리고 다니고 싶다. 미래에 대한 나의 예측은 생산 도구가 점점 더 발전하고, 이전에는 팀으로만 완료할 수 있었던 일을 한 사람이 완료할 수 있게 되어 인간이 더욱 개별적으로 독립적이게 될 것이라는 것입니다. 더 외로워요.
이를 종합하여 우리는 "인간과 동행하는 지능형 에이전트"라는 비전을 설정했습니다. 높은 감성 지능과 온라인 IQ를 갖춘 지능형 에이전트입니다. 실제 인물이라면 프로팀이겠죠. 예를 들어 같이 놀고 싶으면 전문기획자+배우죠. 운동에 동행하고 교사 + 전문 스포츠 코치를 격려하십시오. 내가 당신과 함께 공부하면 당신이 이해하지 못하는 것을 설명할 수 있어요. 모델의 장점은 오랫동안 당신과 동행할 수 있고 당신을 정말로 이해할 수 있다는 것입니다. 그리고 나는 "진심으로 당신을 위해" 할 수 있습니다.
그러나 현재의 기술로는 아직 비전과는 거리가 멀다. 오늘날의 기술은 채팅에 동행할 수 있습니다. 많은 상황에서 대화가 그다지 좋지 않고, 내용도 부족하며, IQ와 EQ가 온라인 상태가 아닐 때도 있습니다. 이것들은 모두 지금 해결해야 할 문제입니다. 해외에 지원하고 싶은 친구가 있으시면 언제든지 연락주시기 바랍니다.
팀: 어려운 일은 팀에 의존해야 합니다.
저는 사업을 시작하고 나서야 팀의 중요성을 깨달았습니다. 큰 공장에 있으면 나도 나사, 팀원도 나사, 팀도 나사인 것 같았다. 그러나 기업가 팀은 자동차입니다. 자동차는 더 작지만 달릴 수 있고, 짐을 싣고, 유연하게 회전할 수 있으며, 모든 코너로 이동할 수 있습니다.회사를 설립한 지 얼마 되지 않아 MiHoYo Lao Cai는 모두가 한 방에 모인 모습을 보고 작은 팀이 좋다고 감동적으로 말했습니다.
물론 불편한 부분도 있습니다. 항상 기름이 있는지 확인해야 하고, 험한 길에서는 차가 흔들리지 않도록 조심해야 합니다. 모든 구성원이 중요하며 중복이 없습니다. 한 사람이 효과적이지 않으면 타이어 펑크가 날 수 있습니다. 사람도 소중합니다. 한 사람이 타이어 하나를 잃을 수도 있습니다.
예전에는 프로젝트를 선택할 때 내가 주도적으로 발전할 수 있는 프로젝트를 선택하곤 했어요. 하지만 이는 문제가 내 능력을 크게 벗어나지 않을 것이라는 의미이기도 합니다. 사업을 시작하는 것은 큰 문제이며 그것은 모두 팀에 달려 있습니다. 이 글에서는 "나"라는 표현이 많이 사용되었지만, 사실 작업은 팀에서 수행합니다. 팀이 없으면 직업을 판매 과정으로 전환해야 할 수도 있습니다(여기서는 박수를 보낼 필요가 없습니다).
개인적인 추구: 명성인가, 재산인가?
지금까지 저는 내면의 목소리에 따라 결정을 내렸습니다. 일을 마친 후에는 박사 과정을 공부하고, 영상을 만들고, 사업을 시작할 것입니다. 기업가 정신에는 끝없는 어려움을 극복하기 위한 강한 동기의 지원이 필요합니다. 이를 위해서는 자신의 동기에 대한 더 깊은 분석이 필요합니다.
동기 부여는 욕망이나 두려움에서 비롯됩니다. 10년 전이었다면 명예와 부에 더 열정을 쏟았을지 모르지만, 지금의 나이에서는 돈의 한계효용이 더 이상 높지 않고, 명성이 가져다주는 감정적 가치도 매우 작다고 느낍니다. 나의 가장 깊은 동기는 삶이 의미가 없을 수도 있다는 두려움에서 비롯됩니다. 우주의 광대함을 떠나 인류의 오랜 역사 속에서도 사람은 모래알에 불과합니다. 예기치 않게 도착하고 빨리 사라집니다. 지구상에는 1000억 명의 인류가 살고 있는데, 그들 대부분은 역사에 흔적을 남기지 못할 것이다. 나는 내 가계도에 있는 수천 개의 이름 중 거의 알아보지 못합니다.
그렇다면 사람의 존재 의미는 무엇인가? 어렸을 때 나는 이 문제에 대해 명확하게 생각할 수 없어서 우울했습니다. 그래서 가치를 창조하고, 존재의 의미를 얻고 싶습니다. 나는 가치 창출 능력을 향상시키기 위해 "앞으로 나아가기"를 선택했고, 교육적 가치를 창출하기 위해 긴 비디오를 녹화하고 교육 자료를 작성하기로 결정했습니다. 관련된 얽힘과 어려움, 그리고 실제 사례 창출. 더 큰 가치를 창출하기 위해 사업을 시작하고 많은 사람들의 노력을 하나로 묶습니다.
추신
Su Hua와 저는 작년에 스탠포드를 걷고 있었습니다. 그는 제 어깨를 두드리며 말했습니다. "솔직히 말해 보세요. 왜 사업을 시작하려고 합니까?" 당시 저는 그렇게 생각하지 않았습니다. 직업을 바꾸고 싶어요." 그러자 수화는 웃었다.
이제 나는 그가 기업가 정신의 기복을 경험했기 때문에 이해합니다. 만약 제가 오늘 이 질문에 대답한다면 저는 이렇게 말할 것입니다. "그냥 정신이 나갔을 뿐이에요." 하지만 당시에는 그렇게 쉬울 거라고는 생각하지 않아서 다행이어서 먼저 머리에 뛰어 들었습니다. 그렇지 않으면 모든 사람이 볼 수 있는 것은 "10년의 작업에 대한 반성". 오늘 쓴 이야기가 더 재미있는 것 같아요.
모든 기업가에게 경의를 표합니다.
마지막으로 Li Mu도 광고했습니다. BosonAI는 현재 산타클라라에 본사가 있으며 모집에는 샌프란시스코 베이 지역과 밴쿠버가 포함됩니다.