Li Mu: Um ano para começar um negócio, três anos para estar vivo

2024-08-15

Publicado com permissão de Heart of the Machine

Autor: Li Mu

Deixe-me relatar aos meus amigos o progresso, as lutas e as reflexões do LLM no primeiro ano de empreendedorismo.

Quando estive na Amazon pelo quinto ano, pensei em abrir um negócio, mas fui adiado pela epidemia. No sétimo ano e meio, senti muita coceira, então pedi demissão. Agora que penso nisso, se há algo que eu tenho que tentar na minha vida, eu faria isso cedo. Porque quando você realmente começar, descobrirá que há muitas coisas novas para aprender e sempre se perguntará por que não começou antes.

Nome: Origem do BosonAI

Antes de iniciar um negócio, fiz uma série de projetos com o nome de Gluon. Na física quântica, Gluon é um bóson que une os quarks, simbolizando que este projeto começou como um projeto conjunto entre a Amazon e a Microsoft. Naquela época, o gerente de projeto deu um tapinha na cabeça e o nome apareceu, mas nomear era muito difícil para os programadores. Lutamos com vários nomes de arquivos e variáveis todos os dias. No final, a nova empresa simplesmente deu-lhe o nome de Boson. Espero que todos sorriam conscientemente quando ouvirem o meme “Bóson e férmions compõem o mundo”. Mas não esperava que muitas pessoas pensassem nela como Boston.

"Estou em Boston. Vamos nos encontrar algum dia?" "Huh? Mas estou na Bay Area."

Financiamento: O investidor principal fugiu um dia antes da assinatura

No final de 2022, tive duas ideias de usar grandes modelos de linguagem (LLM) como ferramentas de produtividade. Por acaso conheci Zhang Yiming e pedi conselhos a ele. Após a discussão, ele perguntou: Por que não fazer o próprio LLM? Eu me encolhi inconscientemente: nossa equipe na Amazon já fazia isso há vários anos, com dezenas de milhares de cartões e muitas dificuldades como blabla. Yiminghehe disse: Estas são dificuldades de curto prazo e precisamos ter uma visão de longo prazo.

Minha vantagem é que ouvi os conselhos e realmente optei pelo LLM. A equipe fundadora reuniu os responsáveis pelos dados, pré-treinamento, pós-treinamento e arquitetura e foi arrecadar fundos. Com sorte, recebi rapidamente o investimento inicial. Mas o dinheiro não dá para comprar o cartão, então tenho que fazer o segundo turno. O líder desta rodada foi uma organização muito grande, que levou vários meses para documentar e negociar os termos. Mas um dia antes da assinatura, o dirigente disse que não investiria, o que levou diretamente à desistência de vários investidores. Estou muito grato aos demais investidores por concluírem esta rodada e conseguirem o ingresso para fazer o LLM.

Se eu refletir sobre isso hoje, com o entusiasmo do mercado de capitais ainda presente naquela época, eu poderia realmente continuar a arrecadar fundos. Talvez como outros amigos, eu agora tenha um bilhão em dinheiro em mãos. Naquela época, eu estava preocupado que, se arrecadasse muito dinheiro, seria difícil sair ou seria jogado para o céu. Agora que penso nisso, começar um negócio significa mudar sua vida contra todas as probabilidades. Qual é a saída?

Máquinas: as primeiras pessoas a comer caranguejos

Quando você tiver dinheiro, compre uma GPU. Perguntei a vários fornecedores e a resposta unânime foi que o H100 será entregue um ano depois. Tive uma ideia e escrevi um e-mail diretamente para Lao Huang. Lao Huang respondeu instantaneamente e disse que daria uma olhada. Uma hora depois, o CEO da Supermicro ligou. Paguei um pouco mais, entrei na fila e comprei a máquina 20 dias depois. Tive a honra de comer caranguejos cedo.

Depois de comer caranguejos, duvidei da minha vida e encontrei todos os tipos de insetos incríveis. Por exemplo, a fonte de alimentação da GPU era insuficiente, causando instabilidade. Mais tarde, os engenheiros da Supermicro modificaram o código do BIOS e o corrigiram, por exemplo, o ângulo de corte da fibra óptica estava errado, resultando em comunicação instável, por exemplo, o layout de rede recomendado pela Nvidia; não era o ideal, então fizemos um novo plano e, mais tarde, a Nvidia também adotei esse plano. Ainda não entendo. Compramos menos de mil cartões, então podemos ser considerados pequenos compradores. Mas os grandes compradores não encontraram esses problemas que encontramos? Por que precisamos de nossa depuração?

Ao mesmo tempo, também alugamos o mesmo número de H100s, e havia todos os tipos de bugs. A GPU tinha problemas todos os dias, e até nos perguntamos se éramos os únicos nesta nuvem. Mais tarde, vi o relatório técnico do Llama 3 dizendo que depois que mudaram para o H100, o modelo foi interrompido centenas de vezes durante o treinamento. Posso simpatizar com a dor nas entrelinhas.

Se compararmos a autoconstrução com o arrendamento, o custo do aluguel por três anos é quase igual ao custo da autoconstrução. A vantagem de alugar um cartão é a tranquilidade. Existem dois benefícios na autoconstrução. Primeiro, se a tecnologia da Nvidia ainda estiver muito à frente em três anos, ela poderá controlar os preços para que as GPUs ainda possam manter seu valor. Outra é o baixo custo do armazenamento de dados autoconstruído. O armazenamento precisa estar próximo da GPU. Quer seja uma nuvem grande ou uma pequena nuvem de GPU, o preço do armazenamento é alto. No entanto, o treinamento de um modelo pode usar vários TB de espaço para armazenar pontos de verificação, e o armazenamento de dados de treinamento começa em 10 PB. Se você usar AWS S3, 10PB custa dois milhões por ano. Se esse dinheiro for usado para autoconstrução, pode chegar a 100PB.

Negócios: Graças aos clientes, alcançamos o ponto de equilíbrio no primeiro ano

Tivemos muita sorte de nossas receitas e despesas estarem equilibradas no primeiro ano. Nossos gastos são principalmente em mão de obra e poder computacional. Graças aos recursos financeiros da Openai e à liderança da Nvidia, ambos os gastos são bastante grandes. Nossa fonte de renda é confeccionar modelos customizados para grandes clientes. A maioria das empresas que ingressaram no LLM muito cedo foi porque seus CEOs eram muito tomadores de decisão. Eles não se intimidavam com o alto poder de computação e os custos de mão de obra e pressionavam decisivamente suas equipes internas para experimentar novas tecnologias juntas. Estou muito grato ao cliente por nos dar tempo para respirar, caso contrário eu teria procurado vários investidores nos últimos meses.

Em seguida, mais empresas deveriam tentar usar o LLM, seja para atualizar seus próprios produtos ou para reduzir custos e aumentar a eficiência. A razão é que, por um lado, os custos de tecnologia estão diminuindo e, por outro lado, os líderes da indústria (como nossos clientes) lançarão sucessivamente produtos baseados em LLM, enrolando a indústria.

Também estamos prestando atenção à implementação do LLM no toC. Os principais players da onda anterior, como c.ai e perplexity, ainda estão em busca de modelos de negócios, mas também há cerca de uma dúzia de pequenos aplicativos nativos LLM com boas receitas. Fornecemos um modelo para uma empresa start-up de role-playing. Eles se concentram em players profundos e equilibram receitas e despesas, o que também é ótimo. As capacidades do modelo ainda estão a evoluir e mais modalidades (voz, música, imagens, vídeos) estão a ser integradas. Acredito que haverá aplicações mais imaginativas no futuro.

No geral, a indústria e o capital ainda estão impacientes. Este ano, várias empresas que estão estabelecidas há mais de um ano, mas que arrecadaram milhares de milhões, optaram por sair. Da tecnologia ao produto é um processo longo, é normal demorar 2 ou 3 anos. Contando o surgimento das necessidades dos usuários, pode demorar mais. Nós nos concentramos no presente, exploramos o caminho na neblina e permanecemos otimistas em relação ao futuro.

Tecnologia: Quatro estágios de cognição LLM

A compreensão do LLM passou por quatro etapas. A primeira etapa é do Bert ao GPT3. Parece que a nova arquitetura e o big data podem ser feitos. Quando estávamos na Amazon, também entramos imediatamente para fazer treinamento em larga escala e implementação de produtos.

A segunda etapa foi quando o GPT4 foi lançado quando comecei meu negócio e fiquei muito chocado. A maior parte do motivo vem do fato de que a tecnologia não é divulgada publicamente. Segundo rumores, estima-se que o tempo de treinamento de um modelo seja de 100 milhões e o custo padrão dos dados seja de dezenas de milhões. Muitos investidores me perguntaram quanto custaria reproduzir o GPT4, e eu disse 300-400 milhões. Mais tarde, um deles investiu centenas de milhões.

A terceira etapa é o primeiro semestre de abertura de um negócio. Não podemos fazer GPT4, então vamos começar com problemas específicos. Então comecei a procurar clientes, inclusive de jogos, educação, vendas, finanças e seguros. Treine modelos com base em necessidades específicas. No início não havia bons modelos de código aberto no mercado, então treinamos do zero. Depois, surgiram muitos modelos bons, o que reduziu nossos custos. Em seguida, projete um método de avaliação baseado no cenário de negócios, marque os dados, veja onde o modelo não está funcionando e melhore-o de acordo.

No final de 2023, ficamos agradavelmente surpresos ao descobrir que nossos modelos da série Photon (um tipo de Boson) superaram o GPT4 em aplicações de clientes. A vantagem de customizar o modelo é que o custo de inferência é 1/10 da chamada da API. Embora as APIs sejam muito mais baratas hoje, nossa própria tecnologia também está melhorando e ainda custa 1/10 do custo. Além disso, QPS, atraso, etc. são todos melhor controlados. O entendimento nesta fase é que para aplicações específicas podemos vencer os melhores modelos do mercado.

A quarta etapa é o segundo semestre de abertura de um negócio. Embora o cliente tenha obtido o modelo solicitado no contrato, não foi o que esperava porque o GPT4 não era suficiente. No início do ano, descobrimos que seria difícil para o modelo dar outro salto se fosse treinado para uma única aplicação. Olhando para trás, se a AGI quiser atingir o nível dos humanos comuns, o que os clientes desejam é o nível dos profissionais. Os jogos exigem planejadores e atores profissionais, a educação exige professores com medalhas de ouro, as vendas exigem vendas com medalhas de ouro e as finanças e os seguros exigem analistas seniores. Tudo isso é AGI mais recursos profissionais do setor. Embora estivéssemos maravilhados com a AGI na época, sentimos que era inevitável.

No início do ano projetamos uma série de modelos de Higgs (Partícula de Deus, uma espécie de Bóson). O foco nas habilidades gerais segue os melhores modelos, mas se destaca em determinada habilidade. As competências que escolhemos foram role-playing: interpretar um personagem virtual, brincar de professor, brincar de vendedor, brincar de analista e assim por diante. Foi iterado para a segunda geração em meados de 2024. No Arena-Hard e no AlpacaEval 2.0, que testa capacidades gerais, o V2 é comparável aos melhores modelos, e não fica muito atrás no MMLU-Pro, que testa o conhecimento Far.

O Higgs-V2 é baseado na base do Llama3 e depois completa o pós-treinamento. Não podemos gastar muito dinheiro para rotular dados como Meta, então V2 é melhor que Llama3 Instruct. O motivo deve vir principalmente da inovação do algoritmo.

Depois fizemos um conjunto de revisão para avaliar o role-playing, incluindo jogar de acordo com o personagem e jogar de acordo com o cenário. Lamento que meu modelo tenha ficado em primeiro lugar na minha lista. No entanto, não há dados utilizados para avaliação durante o treinamento do modelo. Como este conjunto de avaliação se destina ao uso pessoal desde o início e espera refletir verdadeiramente as capacidades do modelo, é necessário evitar conjuntos de dados sobreajustados do modelo. Mas os alunos que faziam a avaliação queriam fazer um relatório técnico, então divulgaram. Curiosamente, a amostra de teste de role-playing vem de c.ai, mas as capacidades do modelo estão na parte inferior.

O quarto estágio de compreensão é que um bom modelo vertical não deve ser fraco em termos de capacidades gerais. Por exemplo, o raciocínio e o seguimento de instruções também são necessários verticalmente. No longo prazo, tanto os modelos gerais como os verticais terão de avançar para a AGI. Só que o modelo vertical pode ser um pouco mais orientado a assuntos, com notas altas em cursos profissionalizantes e bons cursos gerais, então os custos de pesquisa e desenvolvimento serão um pouco mais baixos e os métodos de pesquisa e desenvolvimento serão diferentes.

E quanto ao quinto estágio de compreensão? Ainda é um trabalho em andamento e espero compartilhá-lo em breve.

Visão: Companheirismo humano

É constrangedor dizer que cobrimos nossas cabeças com tecnologia e customização para os clientes e, então, lentamente pensamos sobre qual visão buscamos. Observamos o que os clientes desejam, o que queremos e o que poderemos precisar no futuro. Falando por mim, há muitos anos ansiava por uma babá robô para me ajudar a cuidar dos meus filhos e acompanhá-los, porque tinha dificuldade em fazer isso e não entendia muito bem a cognição e os pensamentos atuais dos meus filhos. Eu gostaria de ter um assistente virtual realmente incrível no trabalho, que pudesse inventar coisas novas comigo. Quando eu envelhecer, também quero ter robôs interessantes para me acompanhar. Minha previsão para o futuro é que as ferramentas de produção se tornarão cada vez mais desenvolvidas e uma pessoa poderá concluir coisas que antes só poderiam ser concluídas por uma equipe, resultando em seres humanos se tornando mais individuais e independentes. tornando-os ainda mais solitários.

Juntando tudo isso, definimos a nossa visão como “agentes inteligentes que acompanham os humanos”. Um agente inteligente com alta inteligência emocional e QI online. Se fosse uma pessoa real, seria uma equipe profissional. Por exemplo, se você quiser que ele brinque com você, então é um planejador + ator profissional. Acompanhe você nos exercícios e depois incentive o professor + treinador esportivo profissional. Se eu estudar com você, posso explicar o que você não entende. A vantagem de um modelo é que ele pode te acompanhar por muito tempo e te entender de verdade. E posso "ser sinceramente por você".

Contudo, a tecnologia atual ainda está longe da visão. A tecnologia de hoje pode acompanhá-lo em um bate-papo. Em muitas situações, a conversa não é tão boa, falta conteúdo e o QI e o EQ às vezes não estão online. Todos esses são problemas que precisam ser resolvidos agora. Se você tiver algum amigo que queira fazer esta inscrição no exterior, não hesite em nos contatar.

Equipe: Coisas desafiadoras devem contar com a equipe

Só depois de começar um negócio é que realmente percebi a importância de uma equipe. Quando eu estava em uma grande fábrica, eu me sentia um parafuso, os membros da minha equipe eram um parafuso e até a equipe era um parafuso. Mas a equipe empreendedora é um carro. O carro é menor, mas pode andar, carregar cargas, fazer curvas com flexibilidade e ir a qualquer esquina. Pouco depois de a empresa ser criada, MiHoYo Lao Cai deu uma olhada e viu todos na mesma sala. Ele disse emocionado que uma equipe pequena é ótima.

É claro que existem alguns inconvenientes. Você deve verificar sempre se há óleo e ter cuidado para não sacudir o carro em estradas difíceis. Cada membro é importante e não há redundância. Se uma pessoa não for eficaz, pode ser um pneu furado. As pessoas também são preciosas.

No passado, quando eu escolhia projetos, eu escolhia projetos que eu pudesse liderar o desenvolvimento. Mas isso também significa que as questões não são muito desafiadoras. Começar um negócio é um grande problema e tudo depende da equipe. Embora haja muito “I” utilizado neste artigo, na verdade o trabalho é feito pela equipe. Sem a equipe, talvez eu tivesse que mudar de carreira para vender cursos.

Busca pessoal: fama ou fortuna?

Até agora, confiei em seguir minha voz interior para tomar decisões. Depois de trabalhar, estudarei para fazer doutorado, gravarei vídeos e abrirei um negócio. O empreendedorismo requer o apoio de uma forte motivação para superar dificuldades infinitas. Isso requer uma análise mais profunda de suas próprias motivações.

A motivação vem do desejo ou do medo. Há dez anos, poderia ter sido mais apaixonado pela fama e fortuna, mas na minha idade actual, sinto que a utilidade marginal do dinheiro já não é elevada e o valor emocional trazido pela fama também é muito pequeno. Minha motivação mais profunda vem do medo de que a vida possa não ter sentido. Deixando de lado a vastidão do universo, mesmo na longa história da humanidade, uma pessoa é apenas um grão de areia. Chegue inesperadamente e desapareça rapidamente. Já existiram 100 mil milhões de pessoas a viver na Terra e a grande maioria delas não deixará qualquer vestígio na história. Mal reconheço os milhares de nomes da minha árvore genealógica.

Então, qual é o significado da existência de uma pessoa? Quando eu era criança, ficava deprimido porque não conseguia pensar com clareza sobre esse problema. Então, inconscientemente, quero criar valor e ganhar sentido para a existência. Escolho “avançar” para melhorar minha capacidade de criar valor; escolho gravar vídeos longos e escrever materiais didáticos para criar valor educacional; emaranhados e dificuldades envolvidas, e criação de valor de exemplos; Escolha iniciar um negócio e unir os esforços de muitas pessoas para criar maior valor.

pós-escrito

Su Hua e eu estávamos caminhando em Stanford no ano passado. Ele me deu um tapinha no ombro e disse: “Diga-me a verdade, por que você quer abrir um negócio na época, pensei que não:” Eu simplesmente não pensei nisso. quero mudar minha carreira." Então Su Hua sorriu.

Agora entendo, porque ele viveu os altos e baixos do empreendedorismo. Se eu respondesse a essa pergunta novamente hoje, diria: “Acabei de perder a cabeça”. Mas estou feliz por não esperar que fosse tão fácil na época, então pulei de cabeça. Caso contrário, o que todos poderão ver é “reflexão sobre dez anos de trabalho”. Acho que a história que escrevi hoje é mais interessante.

Saudações a todos os empreendedores.

(Finalmente, as informações de recrutamento de nossa empresa (Bay Area e Vancouver) no anúncio são https://jobs.lever.co/bosonai. Se você tiver inscrições no exterior, entre em contato conosco em [email protected])

notícias

Li Mu: Um ano para começar um negócio, três anos para estar vivo

Introdução

Minhas informações de contato