Li Mu: Yksi vuosi yrityksen perustamiseen, kolme vuotta elossa

2024-08-15

Julkaistu Heart of the Machinen luvalla

Kirjailija: Li Mu

Haluan raportoida ystävilleni LLM:n edistymisestä, kamppailuista ja heijastuksista yrittäjyyden ensimmäisenä vuonna.

Kun olin Amazonilla viidettä vuotta, ajattelin yrityksen perustamista, mutta epidemia viivästytti minua. Seitsemäntenä ja puolena vuotena tunsin olevani liian kutiava, joten erosin. Nyt kun ajattelen sitä, jos on jotain, mitä minun täytyy kokeilla elämässäni, tekisin sen aikaisin. Koska kun todella aloitat, huomaat, että on niin paljon uutta opittavaa, ja ihmettelet aina, miksi et aloittanut aikaisemmin.

Nimi: BosonAI:n alkuperä

Ennen yrityksen perustamista tein sarjan Gluonin mukaan nimettyjä projekteja. Kvanttifysiikassa Gluon on bosoni, joka sitoo kvarkeja yhteen ja symboloi, että tämä projekti alkoi Amazonin ja Microsoftin yhteisprojektina. Tuolloin projektipäällikkö taputti päätään ja nimi tuli esiin, mutta nimeäminen oli erittäin vaikeaa ohjelmoijille. Lopulta uusi yritys nimesi sen yksinkertaisesti Bosonin mukaan. Toivon, että kaikki hymyilevät tietoisesti, kun he saavat meemin "Bosonit ja fermionit muodostavat maailman". Mutta en odottanut, että monet ihmiset pitävät sitä Bostonina.

"Olen Bostonissa. Tapaamme joskus?" "Häh?

Rahoitus: Pääsijoittaja juoksi karkuun päivää ennen allekirjoittamista

Vuoden 2022 lopussa sain kaksi ideaa suurten kielimallien (LLM) käyttämisestä tuottavuuden työkaluina. Satuin tapaamaan Zhang Yimingin ja kysyin häneltä neuvoa. Keskustelun jälkeen hän kysyi: Mikset tekisi itse LLM:ää? Väsyin alitajuisesti: Amazon-tiimimme oli tehnyt tätä useiden vuosien ajan kymmenientuhansien korttien ja monien vaikeuksien, kuten blabla, kanssa. Yiminghehe sanoi: Nämä ovat lyhytaikaisia vaikeuksia, ja meidän on otettava pitkän aikavälin näkemys.

Minun etuni on, että kuuntelin neuvoja ja päätin todella ryhtyä LLM:ksi. Perustajatiimi kokosi yhteen datasta, esikoulutuksesta, jälkikoulutuksesta ja arkkitehtuurista vastaavat henkilöt ja lähti keräämään varoja. Onneksi sain nopeasti siemensijoituksen. Mutta rahat eivät riitä kortin ostamiseen, joten minun on hankittava toinen kierros. Tämän kierroksen johtaja oli erittäin suuri organisaatio, jonka dokumentointi ja ehtojen neuvotteleminen kesti useita kuukausia. Mutta päivää ennen allekirjoittamista johtaja sanoi, ettei hän sijoittaisi, mikä johti suoraan useiden sijoittajien vetäytymiseen. Olen erittäin kiitollinen jäljellä oleville sijoittajille tämän kierroksen suorittamisesta ja lipun saamisesta LLM:ään.

Jos ajattelen sitä tänään, pääomamarkkinoiden innostuksen ollessa vielä olemassa, voisin itse asiassa jatkaa varojen keräämistä. Ehkä kuten muillakin ystävillä, minulla on nyt miljardi käteistä. Tuolloin olin huolissani siitä, että jos kerään liikaa rahaa, on vaikea lähteä ulos tai joutuisin taivaalle. Nyt kun ajattelen sitä, yrityksen perustaminen tarkoittaa elämäsi muuttamista vastaan. Mikä on ulospääsy?

Koneet: ensimmäiset ihmiset, jotka syövät rapuja

Kun sinulla on rahaa, osta GPU. Kysyin eri toimittajilta ja yksimielinen vastaus oli, että H100 toimitetaan vuoden kuluttua. Minulla oli idea ja kirjoitin sähköpostin suoraan Lao Huangille. Lao Huang vastasi välittömästi ja sanoi, että hän katsoisi. Tuntia myöhemmin Supermicron toimitusjohtaja soitti. Maksoin hieman enemmän, hyppäsin jonoon ja sain koneen 20 päivää myöhemmin. Minulla oli kunnia syödä rapuja aikaisin.

Rapujen syömisen jälkeen epäilin elämääni ja kohtasin kaikenlaisia uskomattomia vikoja. Esimerkiksi GPU-virtalähde oli riittämätön, mikä aiheutti epävakautta. Myöhemmin Supermicro-suunnittelijat muuttivat esimerkiksi optisen kuidun leikkauskulmaa, mikä johti esimerkiksi Nvidian suosittelemaan verkkoasetteluun ei ollut optimaalinen, joten teimme uuden suunnitelman, ja myöhemmin Nvidia hyväksyin tämän suunnitelman myös itse. En vieläkään ymmärrä sitä. Ostimme alle tuhat korttia, joten meitä voidaan pitää pieninä ostajina. Mutta eivätkö suuret ostajat ole kohdanneet näitä meidän kohtaamiamme ongelmia. Miksi tarvitsemme virheenkorjausta?

Samaan aikaan vuokrasimme myös saman määrän H100:ita, ja siellä oli kaikenlaisia bugeja GPU:ssa oli ongelmia joka päivä, ja mietimme jopa, olemmeko ainoita tässä pilvessä. Myöhemmin näin Llama 3:n teknisen raportin, jossa kerrottiin, että sen jälkeen, kun he vaihtoivat H100:aan, malli keskeytettiin satoja kertoja treenin aikana.

Jos verrataan omarakentamista ja leasingia, kolmen vuoden vuokrauskustannukset ovat lähes samat kuin itserakentamisen kustannukset. Kortin vuokraamisen etuna on mielenrauha. Itserakentamisella on kaksi etua. Ensinnäkin, jos Nvidian tekniikka on vielä kaukana edellä kolmen vuoden kuluttua, se voi hallita hintoja niin, että GPU:t voivat silti säilyttää arvonsa. Toinen on itse rakennetun tiedontallentamisen alhaiset kustannukset. Tallennustilan on oltava lähellä GPU:ta, olipa kyseessä suuri tai pieni GPU-pilvi, tallennustilan hinta on korkea. Yksi malliharjoittelu voi kuitenkin käyttää useita TB tilaa tarkistuspisteiden tallentamiseen, ja harjoitustietojen tallennus alkaa 10 PB:stä. Jos käytät AWS S3:a, 10PB maksaa kaksi miljoonaa vuodessa. Jos nämä rahat käytetään omaan rakentamiseen, se voi olla 100 PB.

Liiketoiminta: Asiakkaiden ansiosta teimme rikki jo ensimmäisenä vuonna

Olimme erittäin onnekkaita, että tulomme ja menomme olivat tasan ensimmäisenä vuonna. Kustannukset ovat pääosin työvoimaa ja laskentatehoa Openain taloudellisten resurssien ja Nvidian johtoaseman ansiosta molemmat menot ovat melko suuria. Tulolähteemme on räätälöityjen mallien tekeminen suurille asiakkaille. Suurin osa yrityksistä, jotka aloittivat LLM:n hyvin varhain, johtuivat siitä, että niiden toimitusjohtajat olivat erittäin päätöksentekokykyisiä. He eivät pelänneet korkeita laskentatehoja ja työvoimakustannuksia, ja ne painoivat päättäväisesti sisäisiä tiimejä yhteistyöhön uusien teknologioiden kokeilussa. Olen erittäin kiitollinen asiakkaalle, että hän antoi meille aikaa hengähtää, muuten olisin ryntänyt eri sijoittajien luo viime kuukausina.

Seuraavaksi useamman yrityksen tulisi yrittää käyttää LLM:ää, oli kyse sitten omien tuotteidensa päivittämisestä tai kustannusten alentamisesta ja tehokkuuden lisäämisestä. Syynä on se, että toisaalta teknologiakustannukset laskevat, ja toisaalta alan johtajat (kuten asiakkaamme) julkaisevat peräkkäin LLM-pohjaisia tuotteita ja rullaavat alaa.

Kiinnitämme huomiota myös LLM on toC:n toteuttamiseen. Edellisen aallon huippupelaajat, kuten c.ai ja perplexity, etsivät edelleen liiketoimintamalleja, mutta siellä on myös kymmenkunta pientä LLM-natiivisovellusta, joilla on hyvät tulot. Esitimme mallin roolipeliin aloittavalle yritykselle. He keskittyvät syviin pelaajiin ja tasapainottavat tulot ja kulut, mikä on myös hienoa. Mallin ominaisuudet kehittyvät edelleen, ja lisää modaliteettia (ääni, musiikki, kuvat, videot) integroidaan. Uskon, että tulevaisuudessa on enemmän mielikuvituksellisia sovelluksia.

Kaiken kaikkiaan teollisuus ja pääoma ovat edelleen kärsimättömiä. Tänä vuonna useat yli vuoden toimineet, mutta miljardeja keränneet yritykset ovat valinneet irtautumisen. Teknologiasta tuotteeksi on pitkä prosessi, ja se kestää normaalisti 2 tai 3 vuotta. Kun otetaan huomioon käyttäjien tarpeet, se voi kestää kauemmin. Keskitymme nykyhetkeen, tutkimme polkua sumussa ja pysymme optimistisina tulevaisuuden suhteen.

Tekniikka: LLM-kognition neljä vaihetta

LLM:n ymmärtäminen on käynyt läpi neljä vaihetta. Ensimmäinen vaihe on Bertistä GPT3:een. Tuntuu, että uusi arkkitehtuuri ja big data voidaan tehdä. Kun olimme Amazonilla, menimme heti mukaan myös tekemään laajamittaista koulutusta ja tuotetoteutusta.

Toinen vaihe oli, kun GPT4 julkaistiin, kun aloitin yritykseni, ja olin suuresti järkyttynyt. Suurin osa syynä on se, ettei tekniikkaa ole julkistettu. Huhujen mukaan yhden mallin koulutusajan on arvioitu olevan 100 miljoonaa ja vakiodatakustannus kymmeniä miljoonia. Monet sijoittajat kysyivät minulta, kuinka paljon GPT4:n kopioiminen maksaisi, ja sanoin 300-400 miljoonaa. Myöhemmin yksi heistä sijoitti satoja miljoonia.

Kolmas vaihe on yrityksen perustamisen ensimmäinen puolivuosi. Emme voi tehdä GPT4:ää, joten aloitetaan erityisistä ongelmista. Niinpä aloin etsiä asiakkaita, mukaan lukien pelaamisen, koulutuksen, myynnin, rahoituksen ja vakuutusalan ammattilaiset. Junamallit erityistarpeiden mukaan. Alussa markkinoilla ei ollut hyviä avoimen lähdekoodin malleja, joten harjoittelimme tyhjästä. Myöhemmin ilmestyi monia hyviä malleja, mikä pienensi kustannuksiamme. Suunnittele sitten liiketoimintaskenaarioon perustuva arviointimenetelmä, merkitse tiedot, katso missä malli ei toimi ja paranna sitä vastaavasti.

Vuoden 2023 lopussa olimme iloisesti yllättyneitä huomatessamme, että Photon-sarjan mallimme (eräänlainen Boson-sarja) suoriutuivat GPT4:stä paremmin asiakassovelluksissa. Mallin mukauttamisen etuna on, että päättelykustannukset ovat 1/10 API:n kutsumisesta. Vaikka APIt ovat nykyään paljon halvempia, myös oma teknologiamme paranee ja on edelleen 1/10 kustannuksista. Lisäksi QPS, viive jne. ovat kaikki paremmin hallittavissa. Tässä vaiheessa ymmärrämme, että tietyissä sovelluksissa voimme voittaa markkinoiden parhaat mallit.

Neljäs vaihe on yrityksen perustamisen toinen puolivuosi. Vaikka asiakas sai sopimuksessa pyytämänsä mallin, se ei ollut sitä mitä hän odotti, koska GPT4 ei riittänyt. Vuoden alussa havaitsimme, että mallin oli vaikea tehdä uutta harppausta, jos se oli koulutettu yhteen sovellukseen. Jälkeenpäin katsottuna, jos AGI:n on määrä saavuttaa tavallisen ihmisen taso, asiakkaat haluavat ammattilaisten tason. Pelit vaativat ammattitaitoisia suunnittelijoita ja ammattitaitoisia näyttelijöitä, koulutus vaatii kultamitalin opettajia, myynti vaatii kultamitalimyyntiä ja rahoitus ja vakuutus vaativat vanhempia analyytikkoja. Tämä kaikki on AGI:n ja alan ammattilaisten osaamista. Vaikka kunnioitimme AGI:ta tuolloin, tunsimme, että se oli väistämätöntä.

Vuoden alussa suunnittelimme sarjan Higgs-malleja (God Particle, Bosonin tyyppi). Tärkein yleinen kyky on seurata parasta mallia, mutta erottua tietyssä kyvyssä. Valitsimme roolileikkejä: näytä virtuaalihahmoa, näyttele opettajaa, näytä myyntiä, näytä analyytikkoa ja niin edelleen. Se toistettiin toiselle sukupolvelle vuoden 2024 puolivälissä. Arena-Hardissa ja AlpacaEval 2.0:ssa, jotka testaavat yleisiä ominaisuuksia, V2 on verrattavissa parhaisiin malleihin, eikä se ole kaukana tietoa testaavasta MMLU-Prosta.

Higgs-V2 perustuu Llama3-pohjaan ja suorittaa sitten täyden harjoituksen jälkeen. Emme voi käyttää paljon rahaa Metan kaltaisten tietojen merkitsemiseen, joten V2 on parempi kuin Llama3 Instruct Syyn pitäisi tulla pääasiassa algoritmin innovaatiosta.

Sitten teimme arvostelusarjan arvioidaksemme roolileikkejä, mukaan lukien hahmon mukaan pelaaminen ja skenaarion mukaan pelaaminen. Olen pahoillani, että mallini sijoittui listallani ensimmäiseksi. Mallikoulutuksen aikana ei kuitenkaan käytetä arviointiin dataa. Koska tämä arviointisarja on alusta alkaen tarkoitettu henkilökohtaiseen käyttöön ja se toivoo aidosti heijastavan mallin ominaisuuksia, on välttämätöntä välttää mallien ylisovittamista. Mutta arvioinnin suorittaneet opiskelijat halusivat kirjoittaa teknisen raportin, joten he julkaisivat sen. Mielenkiintoista on, että roolipelin testinäyte on peräisin c.ai:sta, mutta niiden malliominaisuudet ovat alhaalla.

Ymmärtämisen neljäs vaihe on, että hyvä pystymalli ei saa olla heikko yleisissä ominaisuuksissa. Esimerkiksi päättelyä ja ohjeiden seuraamista tarvitaan myös vertikaalisesti. Pitkällä aikavälillä sekä yleisten että vertikaalisten mallien on siirryttävä kohti AGI:ta. Pystymalli voi vain olla hieman aihekeskeisempi, korkeat pisteet ammattikursseilla ja okei yleiskursseilla, joten tutkimus- ja kehityskustannukset ovat hieman pienemmät ja tutkimus- ja kehitysmenetelmät ovat erilaisia.

Entä ymmärtämisen viides vaihe? Se on vielä kesken, ja toivon voivani jakaa sen pian.

Visio: Ihmisen kumppanuus

On noloa sanoa, että peitämme päämme teknologian ja asiakkaiden räätälöinnin suhteen ja mietitään sitten hitaasti, mitä visiota tavoittelemme. Katsomme, mitä asiakkaat haluavat, mitä haluamme ja mitä voimme tarvita tulevaisuudessa. Omasta puolestani puhun, monta vuotta sitten kaipasin robottivahtia auttamaan minua hoitamaan lapsiani ja olemaan heidän seurassaan, koska tämä oli minulle vaikeaa, enkä ymmärtänyt lasteni tämänhetkistä kognitiota ja ajatuksia. Toivon, että minulla olisi töissä todella mahtava virtuaaliassistentti, joka voisi keksiä kanssani uusia asioita. Kun vanhenen, haluan myös mielenkiintoisia robotteja mukanani. Tulevaisuuden ennusteeni on, että tuotantotyökalut kehittyvät yhä enemmän ja yksi ihminen saa valmiiksi asioita, jotka on saatu valmiiksi vain tiimin toimesta, mikä tekee ihmisistä yksilöllisesti itsenäisempiä yksinäisempi.

Yhdistämällä nämä olemme asettaneet visiomme "älykkäiksi agenteiksi, jotka seuraavat ihmisiä". Älykäs agentti, jolla on korkea tunneäly ja online-IQ. Jos se olisi todellinen henkilö, se olisi ammattijoukkue. Jos esimerkiksi haluat sen leikkivän kanssasi, se on ammattisuunnittelija + näyttelijä. Seuraa sinua harjoittelemassa, sitten rohkaise opettajaa + ammatillista urheiluvalmentajaa. Jos opiskelen kanssasi, voin selittää, mitä et ymmärrä. Mallin etuna on, että se voi seurata sinua pitkään ja todella ymmärtää sinua. Ja voin "vilpittömästi olla puolestasi".

Nykyinen tekniikka on kuitenkin vielä kaukana visiosta. Tämän päivän tekniikka voi olla mukanasi chatissa. Monissa tilanteissa keskustelu ei ole niin hyvä, sisältö puuttuu ja IQ ja EQ eivät joskus ole verkossa. Nämä ovat kaikki ongelmia, jotka on ratkaistava nyt. Jos sinulla on ystäviä, jotka haluavat tehdä tämän ulkomaisen sovelluksen, ota rohkeasti yhteyttä.

Joukkue: Haasteiden asioiden täytyy luottaa tiimiin

Vasta yrityksen perustamisen jälkeen ymmärsin todella joukkueen merkityksen. Kun olin suuressa tehtaassa, tunsin olevani ruuvi, tiimini jäsenet olivat ruuveja ja jopa tiimi oli ruuvi. Mutta yrittäjätiimi on auto. Auto on pienempi, mutta se voi ajaa, kuljettaa kuormia, kääntyä joustavasti ja kulkea joka nurkkaan. Pian yrityksen perustamisen jälkeen MiHoYo Lao Cai katsoi ja näki kaikki samassa huoneessa. Hän sanoi tunteella, että pieni tiimi on mahtava.

Tietysti on joitain haittoja Sinun on aina tarkistettava, onko öljyä, ja sinun on oltava varovainen, ettet ravista autoa erilleen vaikeilla teillä. Jokainen jäsen on tärkeä, eikä redundanssia ole. Jos yksi henkilö ei ole tehokas, se voi olla rengasrikko. Ihmiset ovat myös arvokkaita. Yksi ihminen voi menettää yhden renkaan.

Aiemmin valittaessani projekteja valitsin projekteja, joiden kehitystä voisin johtaa. Mutta tämä tarkoittaa myös sitä, että kysymykset eivät ole kovin haastavia. Yrityksen perustaminen on iso ongelma, ja kaikki riippuu tiimistä. Vaikka tässä artikkelissa käytetään paljon "minää", itse asiassa työn tekee tiimi. Ilman joukkuetta joudun ehkä vaihtamaan uraani myydäkseni kursseja.

Henkilökohtainen tavoittelu: kuuluisuus vai omaisuus?

Toistaiseksi olen tukenut sisäistä ääntäni tehdessäni päätöksiä. Työn jälkeen opiskelen tohtoriksi, teen videoita ja perustan yrityksen. Yrittäjyys vaatii vahvan motivaation tukea loputtomien vaikeuksien voittamiseksi. Tämä edellyttää syvempää omien motivaatioiden analysointia.

Motivaatio tulee joko halusta tai pelosta. Kymmenen vuotta sitten olisin ehkä ollut intohimoisempi maineesta ja omaisuudesta, mutta nykyisessä iässäni koen, ettei rahan rajahyöty ole enää korkea, ja kuuluisuuden tuoma tunnearvo on myös hyvin pieni. Syvin motivaationi tulee pelosta, että elämällä ei ehkä ole merkitystä. Kun universumin laajuus jätetään syrjään, ihminen on jopa ihmiskunnan pitkän historian aikana vain hiekanjyvä. Saavu yllättäen ja katoa nopeasti. Maapallolla on asunut 100 miljardia ihmistä, ja suurin osa heistä ei jätä jälkeäkään historiaan. Tuskin tunnistan sukupuussani olevia tuhansia nimiä.

Mikä sitten on ihmisen olemassaolon tarkoitus? Kun olin lapsi, olin masentunut, koska en voinut ajatella selkeästi tätä ongelmaa. Joten alitajuisesti haluan luoda arvoa ja saada olemassaolon merkitystä. Päätän "edellä" parantaakseni kykyäni luoda arvoa. Päätän tallentaa pitkiä videoita ja luoda opetusmateriaaleja, jotka kuvaavat tohtorintutkintoa sotkeutumiset ja vaikeudet sekä esimerkkien arvon luominen ;Valitse yrityksen perustaminen ja yhdistä monien ihmisten ponnistelut suuremman arvon luomiseksi.

jälkikirjoitus

Su Hua ja minä kävelimme Stanfordissa viime vuonna. Hän taputti minua olkapäälle ja sanoi: "Kerro minulle totuus, miksi haluat perustaa yrityksen." Tuolloin en ajatellut niin haluan muuttaa uraani." Sitten Su Hua hymyili.

Nyt ymmärrän, koska hän on kokenut yrittäjyyden ylä- ja alamäkiä. Jos vastaisin tähän kysymykseen tänään, sanoisin: "Olen vain menettänyt järkeni." Mutta olen iloinen, etten odottanut sen olevan niin helppoa tuolloin, joten hyppäsin pään edellä. Muuten kaikki voivat nähdä "pohdintaa kymmenen vuoden työstä". Mielestäni tänään kirjoittamani tarina on mielenkiintoisempi.

Terveisiä kaikille yrittäjille.

(Lopuksi yrityksemme rekrytointitiedot (Bay Area ja Vancouver) ilmoituksen alla ovat https://jobs.lever.co/bosonai. Jos sinulla on ulkomaisia hakemuksia, ota yhteyttä osoitteeseen [email protected])

uutiset

Li Mu: Yksi vuosi yrityksen perustamiseen, kolme vuotta elossa

Johdanto

Yhteystietoni