notizia

Li Mu: Un anno per avviare un'impresa, tre anni per vivere

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Pubblicato con il permesso di Heart of the Machine

Autore: Li Mu

  • Consentitemi di riferire ai miei amici sui progressi, le lotte e le riflessioni di LLM nel primo anno di imprenditorialità.

Quando ero in Amazon per il quinto anno, pensavo di avviare un’impresa, ma ho subito un ritardo a causa dell’epidemia. Al settimo anno e mezzo, ho sentito che era troppo pruriginoso, quindi ho rassegnato le dimissioni. Ora che ci penso, se c'è qualcosa che devo provare nella mia vita, lo farei presto. Perché una volta che inizi davvero, scoprirai che ci sono così tante cose nuove da imparare e ti chiederai sempre perché non hai iniziato prima.

Nome: Origine del BosoneAI

Prima di avviare un'attività, ho realizzato una serie di progetti intitolati a Gluon. Nella fisica quantistica, il gluone è un bosone che lega insieme i quark, a simboleggiare che questo progetto è iniziato come un progetto congiunto tra Amazon e Microsoft. A quel tempo, il project manager gli diede una pacca sulla testa e il nome venne fuori, ma nominare era molto difficile per i programmatori. Ogni giorno lottavamo con diversi nomi di file e nomi di variabili. Alla fine, la nuova società la chiamò semplicemente Boson. Spero che tutti sorrideranno consapevolmente quando riceveranno il meme "Bosoni e fermioni formano il mondo". Ma non mi aspettavo che molte persone la considerassero Boston.

"Sono a Boston. Ci incontriamo qualche volta?" "Eh? Ma sono nella Bay Area."

Finanziamento: l'investitore principale è scappato il giorno prima della firma

Alla fine del 2022, mi sono venute due idee sull'utilizzo di modelli linguistici di grandi dimensioni (LLM) come strumenti di produttività. Mi è capitato di incontrare Zhang Yiming e gli ho chiesto consiglio. Dopo la discussione, ha chiesto: perché non fare il LLM stesso? Inconsciamente ho sussultato: il nostro team di Amazon lo faceva da diversi anni, con decine di migliaia di carte e molte difficoltà come blabla. Yiminghehe ha detto: Queste sono difficoltà a breve termine e dobbiamo avere una visione a lungo termine.

Il mio vantaggio è che ho ascoltato il consiglio e ho davvero deciso di diventare un LLM. Il team fondatore ha riunito le persone responsabili dei dati, della pre-formazione, della post-formazione e dell'architettura ed è andato a raccogliere fondi. Con un po’ di fortuna, ho ricevuto rapidamente un investimento iniziale. Ma i soldi non bastano per comprare la carta, quindi devo fare il secondo giro. Il leader di questo round è stata un’organizzazione molto grande, che ha impiegato diversi mesi per documentare e negoziare i termini. Ma il giorno prima della firma, il leader ha dichiarato che non avrebbe investito, il che ha portato direttamente al ritiro di numerosi investitori. Sono molto grato ai restanti investitori per aver completato questo round e aver ottenuto il biglietto per fare LLM.

Se ci rifletto oggi, con l'entusiasmo del mercato dei capitali ancora presente allora, potrei effettivamente continuare a raccogliere fondi. Forse, come altri amici, ora ho un miliardo in contanti. A quel tempo temevo che se avessi raccolto troppi soldi sarebbe stato difficile uscire o sarei stato gettato in cielo. Ora che ci penso, avviare un'impresa significa cambiare la propria vita contro ogni previsione. Qual è la via d'uscita?

Macchine: i primi a mangiare i granchi

Quando hai soldi, acquista una GPU. Ho chiesto a diversi fornitori e la risposta unanime è stata che l'H100 verrà consegnato un anno dopo. Ho avuto un'idea e ho scritto un'e-mail direttamente a Lao Huang. Lao Huang rispose immediatamente e disse che avrebbe dato un'occhiata. Un'ora dopo mi ha chiamato il CEO di Supermicro. Ho pagato un po' di più, mi sono messo in fila e ho ricevuto la macchina 20 giorni dopo. Ho avuto l'onore di mangiare presto i granchi.

Dopo aver mangiato i granchi, ho dubitato della mia vita e ho incontrato tutti i tipi di insetti incredibili. Ad esempio, l'alimentazione della GPU era insufficiente, causando instabilità. Successivamente, gli ingegneri di Supermicro hanno modificato il codice del bios e lo hanno patchato, ad esempio, l'angolo di taglio della fibra ottica era errato, risultando in una comunicazione instabile, ad esempio nel layout di rete consigliato da Nvidia; non era ottimale, quindi abbiamo creato un nuovo piano e in seguito Nvidia ho adottato anch'io questo piano. Ancora non lo capisco. Abbiamo comprato meno di mille carte, quindi possiamo considerarci piccoli acquirenti. Ma i grandi acquirenti non hanno riscontrato questi problemi che abbiamo riscontrato noi? Perché abbiamo bisogno del nostro debug?

Allo stesso tempo, abbiamo noleggiato anche lo stesso numero di H100 e c'erano tutti i tipi di bug. La GPU aveva problemi ogni giorno e ci chiedevamo persino se fossimo gli unici su questo cloud. Più tardi, ho visto il rapporto tecnico di Llama 3 che diceva che dopo il passaggio all'H100, il modello è stato interrotto centinaia di volte durante l'allenamento, posso simpatizzare con il dolore tra le righe.

Se si confronta l'autocostruzione e il leasing, il costo dell'affitto per tre anni è quasi uguale al costo dell'autocostruzione. Il vantaggio di noleggiare una carta è la tranquillità. I vantaggi dell’autocostruzione sono due. In primo luogo, se la tecnologia di Nvidia sarà ancora molto avanti tra tre anni, potrà controllare i prezzi in modo che le GPU possano ancora mantenere il loro valore. Un altro è il basso costo dell’archiviazione dei dati autocostruita. Lo spazio di archiviazione deve essere vicino alla GPU Che si tratti di un cloud di grandi dimensioni o di un piccolo cloud di GPU, il prezzo di archiviazione è elevato. Tuttavia, l'addestramento di un modello può utilizzare diversi TB di spazio per archiviare i checkpoint e l'archiviazione dei dati di addestramento inizia a 10 PB. Se usi AWS S3, 10PB costa due milioni all'anno. Se questo denaro viene utilizzato per l’autocostruzione, può raggiungere i 100 PB.

Affari: Grazie ai clienti, siamo arrivati ​​al pareggio già nel primo anno

Siamo stati molto fortunati che le nostre entrate e le nostre uscite fossero pari nel primo anno. Le nostre spese riguardano principalmente manodopera e potenza di calcolo. Grazie alle risorse finanziarie di Openai e al vantaggio di Nvidia, entrambe le spese sono piuttosto elevate. La nostra fonte di reddito è la realizzazione di modelli personalizzati per grandi clienti. La maggior parte delle aziende che sono entrate nel LLM molto presto lo hanno fatto perché i loro amministratori delegati erano molto decisionali: non erano intimiditi dall'elevata potenza di calcolo e dai costi del lavoro e hanno spinto in modo decisivo i loro team interni a collaborare nella sperimentazione di nuove tecnologie. Sono molto grato al cliente per averci dato il tempo di respirare, altrimenti negli ultimi mesi mi sarei precipitato da diversi investitori.

Successivamente, sempre più aziende dovrebbero provare a utilizzare il LLM, sia che si tratti di aggiornare i propri prodotti o di ridurre i costi e aumentare l’efficienza. Il motivo è che da un lato i costi tecnologici stanno diminuendo e dall’altro i leader del settore (come i nostri clienti) rilasceranno successivamente prodotti basati su LLM, dando impulso al settore.

Stiamo inoltre prestando attenzione all'implementazione di LLM su toC. I top player dell'ondata precedente, come c.ai e perplexity, sono ancora alla ricerca di modelli di business, ma ci sono anche una dozzina circa di piccole applicazioni LLM native con buoni ricavi. Abbiamo fornito un modello per una start-up di giochi di ruolo. Si concentrano su giocatori profondi e bilanciano entrate e spese, il che è anch'esso ottimo. Le capacità del modello sono ancora in evoluzione e vengono integrate più modalità (voce, musica, immagini, video). Credo che in futuro ci saranno applicazioni più fantasiose.

Nel complesso, l’industria e il capitale sono ancora impazienti. Quest’anno, diverse società costituite da più di un anno ma che hanno raccolto miliardi hanno scelto di uscire. Dalla tecnologia al prodotto il processo è lungo ed è normale che siano necessari 2 o 3 anni. Considerando l’emergere delle esigenze degli utenti, potrebbe essere necessario più tempo. Ci concentriamo sul presente, esploriamo il percorso nella nebbia e rimaniamo ottimisti riguardo al futuro.

Tecnologia: quattro fasi della cognizione LLM

La comprensione del LLM ha attraversato quattro fasi. La prima fase è da Bert a GPT3. Sembra che la nuova architettura e i big data possano essere realizzati. Quando eravamo in Amazon, ci siamo subito dedicati anche alla formazione su larga scala e all'implementazione dei prodotti.

La seconda fase è stata quando è stato rilasciato GPT4 quando ho avviato la mia attività e sono rimasto molto scioccato. La maggior parte del motivo deriva dal fatto che la tecnologia non è resa pubblica. Secondo alcune indiscrezioni, si stima che il tempo di addestramento di un modello sia di 100 milioni e che il costo dei dati standard sia di decine di milioni. Molti investitori mi hanno chiesto quanto costerebbe riprodurre GPT4 e io ho risposto 300-400 milioni. Successivamente, uno di loro ha effettivamente investito centinaia di milioni.

La terza fase è il primo semestre dell'avvio di un'impresa. Non possiamo realizzare GPT4, quindi partiamo da problemi specifici. Così ho iniziato a cercare clienti, compresi quelli nei settori dei giochi, dell'istruzione, delle vendite, della finanza e delle assicurazioni. Addestrare modelli in base a esigenze specifiche. All'inizio non c'erano buoni modelli open source sul mercato, quindi ci siamo formati da zero. Successivamente sono usciti molti buoni modelli, che hanno ridotto i nostri costi. Quindi progetta un metodo di valutazione basato sullo scenario aziendale, contrassegna i dati, vedi dove il modello non funziona e miglioralo di conseguenza.

Alla fine del 2023, siamo rimasti piacevolmente sorpresi di scoprire che i nostri modelli della serie Photon (un tipo di Boson) hanno sovraperformato GPT4 nelle applicazioni dei clienti. Il vantaggio di personalizzare il modello è che il costo di inferenza è 1/10 della chiamata all'API. Sebbene oggi le API siano molto più economiche, anche la nostra tecnologia sta migliorando e costa ancora 1/10 del costo. Inoltre, QPS, ritardo, ecc. sono tutti meglio controllati. La consapevolezza in questa fase è che per applicazioni specifiche possiamo battere i migliori modelli sul mercato.

La quarta fase è la seconda metà dell'anno di avvio di un'impresa. Sebbene il cliente abbia ricevuto il modello richiesto nel contratto, non era quello che si aspettava perché GPT4 non era sufficiente. All’inizio dell’anno abbiamo scoperto che difficilmente il modello avrebbe potuto fare un ulteriore salto se fosse stato addestrato per una singola applicazione. Guardando indietro, se AGI vuole raggiungere il livello degli esseri umani comuni, ciò che i clienti vogliono è il livello dei professionisti. I giochi richiedono pianificatori professionisti e attori professionisti, l’istruzione richiede insegnanti con medaglia d’oro, le vendite richiedono vendite di medaglie d’oro e la finanza e le assicurazioni richiedono analisti senior. Tutto questo è AGI oltre alle capacità professionali del settore. Sebbene all’epoca fossimo in soggezione nei confronti dell’AGI, ritenevamo che fosse inevitabile.

All'inizio dell'anno abbiamo progettato una serie di modelli di Higgs (la particella di Dio, un tipo di bosone). La principale abilità generale è seguire il modello migliore, ma distinguersi in una certa abilità. Le competenze che abbiamo scelto erano quelle del gioco di ruolo: interpretare un personaggio virtuale, interpretare l'insegnante, interpretare le vendite, interpretare l'analista e così via. È stato iterato alla seconda generazione a metà del 2024. Su Arena-Hard e AlpacaEval 2.0, che testano le capacità generali, V2 è paragonabile ai migliori modelli, e non è molto indietro su MMLU-Pro, che mette alla prova la conoscenza.



Higgs-V2 è basato sulla base Llama3 e quindi completa il post-allenamento. Non possiamo spendere molti soldi per etichettare i dati come Meta, quindi V2 è migliore di Llama3 Instruct. Il motivo dovrebbe derivare principalmente dall'innovazione dell'algoritmo.

Poi abbiamo fatto una revisione per valutare il gioco di ruolo, incluso giocare in base al personaggio e giocare in base allo scenario. Mi dispiace che il mio modello sia al primo posto nella mia lista. Tuttavia, non sono disponibili dati utilizzati per la valutazione durante l'addestramento del modello. Poiché questo set di valutazione è destinato fin dall'inizio all'uso personale e spera di riflettere realmente le capacità del modello, è necessario evitare set di dati che si adattano eccessivamente al modello. Ma gli studenti che hanno effettuato la valutazione volevano scrivere una relazione tecnica, quindi l'hanno pubblicata. È interessante notare che il campione del test di gioco di ruolo proviene da c.ai, ma le capacità del loro modello sono in fondo.



La quarta fase di comprensione è che un buon modello verticale non dovrebbe essere debole nelle capacità generali. Ad esempio, anche il ragionamento e il rispetto delle istruzioni sono necessari verticalmente. Nel lungo periodo, sia i modelli generali che quelli verticali dovranno spostarsi verso l’AGI. È solo che il modello verticale può essere un po’ più orientato alle materie, con punteggi alti nei corsi professionali e discreti nei corsi generali, quindi i costi di ricerca e sviluppo sono leggermente inferiori e i metodi di ricerca e sviluppo saranno diversi.

Che dire del quinto stadio della comprensione? È ancora un lavoro in corso e spero di condividerlo presto.

Visione: compagnia umana

È imbarazzante dire che ci copriamo di tecnologia e personalizzazione per i clienti, per poi pensare lentamente a quale visione perseguiamo. Osserviamo cosa vogliono i clienti, cosa vogliamo noi e di cosa potremmo aver bisogno in futuro. Per quanto mi riguarda, molti anni fa desideravo che una tata robot mi aiutasse a prendermi cura dei miei figli e li accompagnasse, perché trovavo difficile farlo e non capivo del tutto la cognizione e i pensieri attuali dei miei figli. Vorrei avere al lavoro un assistente virtuale davvero fantastico che possa inventare cose nuove insieme a me. Quando invecchierò, anch'io vorrei avere dei robot interessanti che mi accompagnassero. La mia previsione per il futuro è che gli strumenti di produzione diventeranno sempre più sviluppati e una persona potrà completare cose che prima potevano essere completate solo da una squadra, rendendo gli esseri umani più indipendenti individualmente. Ognuno è impegnato a perseguire le proprie cose, a renderle pari più solitario.

Mettendo insieme questi elementi, abbiamo definito la nostra visione di "agenti intelligenti che accompagnano gli esseri umani". Un agente intelligente con elevata intelligenza emotiva e QI online. Se fosse una persona reale, sarebbe un team di professionisti. Ad esempio, se vuoi che giochi con te, allora è un pianificatore + attore professionista. Accompagnarti nell'esercizio, quindi incoraggiare l'insegnante + allenatore sportivo professionista. Se studio con te, posso spiegarti quello che non capisci. Il vantaggio di una modella è che può accompagnarti a lungo e capirti davvero. E posso "essere sinceramente per te".

Tuttavia, la tecnologia attuale è ancora lontana dalla visione. La tecnologia di oggi può accompagnarti per una chiacchierata. In molte situazioni, la conversazione non è così buona, il contenuto è carente e il QI e l’EQ a volte non sono online. Questi sono tutti problemi che devono essere risolti ora. Se hai amici che desiderano presentare questa domanda all'estero, non esitare a contattarci.

Squadra: le sfide devono fare affidamento sulla squadra

Solo dopo aver avviato un'attività ho capito davvero l'importanza di una squadra. Quando ero in una grande fabbrica, mi sentivo come se fossi uno svitato, i membri del mio team erano uno svitato e anche il team era uno svitato. Ma la squadra imprenditoriale è una macchina. L'auto è più piccola, ma può correre, trasportare carichi, girare in modo flessibile e può affrontare ogni curva. Non molto tempo dopo la fondazione della società, MiHoYo Lao Cai ha dato un'occhiata e ha visto tutti in una stanza. Ha detto con emozione che una piccola squadra è fantastica.

Naturalmente ci sono alcuni inconvenienti. Bisogna controllare sempre se c'è olio e bisogna stare attenti a non scuotere l'auto su strade difficili. Ogni membro è importante e non c'è ridondanza. Se una persona non è efficace, potrebbe essere una gomma a terra. Anche le persone sono preziose. Una persona può perdere un pneumatico.

In passato, quando sceglievo i progetti, sceglievo progetti di cui potevo guidare lo sviluppo. Ma ciò significa anche che le domande non sono molto impegnative. Avviare un'impresa è un grosso problema e tutto dipende dalla squadra. Anche se in questo articolo si usa molto "io", in realtà il lavoro viene svolto dal team. Senza il team, potrei dover cambiare carriera per vendere corsi.

Ricerca personale: fama o fortuna?

Finora ho fatto affidamento sul seguire la mia voce interiore per prendere decisioni. Dopo aver lavorato, studierò per un dottorato, realizzerò video e avvierò un'impresa. L’imprenditorialità richiede il sostegno di una forte motivazione per superare infinite difficoltà. Ciò richiede un’analisi più approfondita delle tue motivazioni.

La motivazione viene dal desiderio o dalla paura. Dieci anni fa, avrei potuto essere più appassionato di fama e fortuna, ma alla mia età attuale sento che l’utilità marginale del denaro non è più elevata e anche il valore emotivo apportato dalla fama è molto piccolo. La mia motivazione più profonda deriva dalla paura che la vita possa non avere significato. Mettendo da parte la vastità dell'universo, anche nella lunga storia dell'umanità, una persona è solo un granello di sabbia. Arrivare inaspettatamente e scomparire rapidamente. Sulla terra vivono 100 miliardi di persone e la maggior parte di esse non lascerà alcuna traccia nella storia. Riconosco a malapena le migliaia di nomi sul mio albero genealogico.

Allora qual è il significato dell'esistenza di una persona? Quando ero bambino ero depresso perché non riuscivo a pensare chiaramente a questo problema. Quindi, inconsciamente, voglio creare valore e ottenere il significato dell'esistenza. Scelgo di "andare avanti" per migliorare la mia capacità di creare valore; scelgo di registrare lunghi video e scrivere materiali didattici per creare valore formativo, descrivendo i miei studi di dottorato, il mio lavoro e la mia imprenditorialità intrecci e difficoltà coinvolte, e creare valore attraverso gli esempi; Scegliere di avviare un'impresa e unire gli sforzi di molte persone per creare maggior valore.

poscritto

Su Hua e io stavamo passeggiando a Stanford l'anno scorso. Mi ha dato una pacca sulla spalla e ha detto: "Dimmi la verità, perché vuoi avviare un'impresa?" voglio cambiare la mia carriera." Poi Su Hua sorrise.

Ora capisco, perché ha vissuto gli alti e bassi dell'imprenditorialità. Se dovessi rispondere oggi a questa domanda, direi: "Ho semplicemente perso la testa". Ma sono felice di non aspettarmi che fosse così facile in quel momento, quindi mi sono buttato a capofitto per primo. Altrimenti quello che tutti potrebbero vedere è "una riflessione su dieci anni di lavoro". Penso che la storia che ho scritto oggi sia più interessante.

Un saluto a tutti gli imprenditori.

(Infine, le informazioni di reclutamento della nostra azienda (Bay Area e Vancouver) sotto l'annuncio sono https://jobs.lever.co/bosonai. Se hai candidature all'estero, contattaci all'indirizzo [email protected])