notícias

O ano de início de um negócio de Li Mu: Zhang Yiming e Su Hua deram conselhos, Huang Renxun ajudou com o problema

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Esta é quase a análise mais sincera e informativa sobre o empreendedorismo de grandes modelos até hoje.

Na noite de 14 de agosto de 2024, Li Mu publicou um artigo de revisão sobre um ano de abertura de empresa em suas próprias colunas Bilibili e Zhihu: "Um ano para iniciar um negócio, três anos no mundo", compartilhando sua grande escala modelo de abertura de empresa Os progressos, lutas e reflexões do primeiro ano.

No artigo, ele revisou sua jornada empreendedora:

Desde a ideia inicial de começar um negócio como ferramenta de produtividade para grandes modelos, até conhecer Zhang Yiming e ser “acordado” por ele, ele decidiu construir diretamente o próprio modelo;

Fui “dispensado” durante o processo de financiamento e, como estava começando um negócio pela primeira vez, fui um pouco “caro” e não consegui “conseguir 1 bilhão em dinheiro” como alguns de meus colegas;

Entrei em contato diretamente com Jen-Hsun Huang para obter o H100 diretamente “arranjado” pela outra parte, mas descobri que esses cartões apresentavam muitos bugs durante o treinamento;

Então finalmente encontramos uma maneira de equilibrar a comercialização e continuamos avançando em direção ao objetivo de “agentes inteligentes acompanhados por humanos”.

Embora Li Mu compartilhasse as armadilhas que havia pisado diretamente, ele também se perguntou durante este ano: “Por que devo começar um negócio?” Ele foi “questionado” por Su Hua e se inspirou nos comentários casuais de Cai Haoyu sobre sua empresa. No final, a resposta que deu a esta pergunta foi muito Li Mu:

Se eu respondesse a essa pergunta hoje, diria: “Acabei de perder a cabeça”.

Mas ele também disse: “Minha motivação mais profunda vem do medo de que a vida possa não ter sentido”.

“Então, qual é o significado da existência de uma pessoa? Quando eu era criança, ficava deprimido porque não conseguia resolver essa questão. melhorar minha capacidade de criar valor; optar por gravar vídeos longos e escrever materiais didáticos para criar valor educacional; optar por escrever resumos de estudos de doutorado, trabalhos e empreendedorismo, descrever as complicações e dificuldades e criar valor de casos reais; para iniciar um negócio e unir o poder de muitas pessoas para criar maior valor."

A seguir está o texto completo da revisão de Li Mu, o artigo foi reproduzido de Li Mu.A nota do editor entre parênteses contém algumas informações adicionais:

Informe aos seus amigosMestrado em DireitoAvanços, lutas e reflexões no primeiro ano de empreendedorismo

Quando estive na Amazon pelo quinto ano, pensei em abrir um negócio, mas fui adiado pela epidemia. No sétimo ano e meio, senti muita coceira, então pedi demissão. Agora que penso nisso, se há algo que eu tenho que tentar na minha vida, eu faria isso cedo. Porque quando você realmente começar, descobrirá que há muitas coisas novas para aprender e sempre se perguntará por que não começou antes.


Li Mu é um estudioso conhecido na área de IA. Ele deixou a Amazon em 2023 e fundou a Boson.ai. Anteriormente, ele atuou como cientista-chefe da Amazon e foi um dos autores da estrutura de inteligência artificial Apache MXNet. Ele estudou na Shanghai Jiao Tong University e na Carnegie Mellon University para seus estudos de graduação.Ele se formou com doutorado e ocupou cargos de ensino em Berkeley e na Universidade de Stanford. Ele continua atualizando a série de vídeos "Aprendendo IA com Li Mu" no Bilibili. Atualmente, ele tem 800.000 fãs, o que o torna conhecido como seu "mentor cibernético" por muitos jovens na área de IA.
1
Nome: Origem do BosonAI

Antes de iniciar um negócio, fiz uma série de projetos com o nome de Gluon. Na física quântica, Gluon é um bóson que une os quarks, simbolizando que este projeto foi originalmente um projeto conjunto entre a Amazon e a Microsoft. Naquela época, o gerente de projeto deu um tapinha na cabeça e o nome apareceu, mas nomear era muito difícil para os programadores. Lutamos com vários nomes de arquivos e variáveis ​​​​todos os dias. No final, a nova empresa simplesmente deu-lhe o nome de Boson. Espero que todos sorriam conscientemente quando ouvirem o meme “Bóson e Férmions compõem o mundo”. Mas não esperava que muitas pessoas pensassem nela como Boston.

"Estou em Boston. Vamos nos encontrar algum dia?" "Huh? Mas estou na Bay Area."

1

Financiamento: O investidor principal fugiu um dia antes da assinatura

No final de 2022, tive duas ideias de usar grandes modelos de linguagem (LLM) como ferramentas de produtividade. Por acaso conheci Zhang Yiming e pedi conselhos a ele. Após a discussão, ele perguntou: Por que não fazer o próprio LLM? Eu me encolhi inconscientemente: nossa equipe na Amazon já fazia isso há vários anos, com dezenas de milhares de cartões e muitas dificuldades como blabla.

Yiminghehe disse: Estas são dificuldades de curto prazo e precisamos ter uma visão de longo prazo.

Minha vantagem é que ouvi os conselhos e realmente optei pelo LLM.A equipe fundadora reuniu os responsáveis ​​​​pelos dados, pré-treinamento, pós-treinamento e arquitetura e foi arrecadar fundos. Com sorte, recebi rapidamente o investimento inicial. Mas o dinheiro não dá para comprar o cartão, então tenho que fazer o segundo turno. O líder desta rodada foi uma organização muito grande, que levou vários meses para documentar e negociar os termos. Mas um dia antes da assinatura, o dirigente disse que não investiria, o que levou diretamente à desistência de vários investidores.Estou muito grato aos demais investidores por concluírem esta rodada e conseguirem o ingresso para fazer o LLM.

Se hoje refletir sobre isso, poderia ter continuado a angariar fundos enquanto o entusiasmo no mercado de capitais ainda existia.Talvez, como outros empresários, ele agora tenha um bilhão em dinheiro.Naquela época, eu estava preocupado que, se arrecadasse muito dinheiro, seria difícil sair ou seria jogado para o céu. Agora que penso nisso, começar um negócio significa mudar sua vida contra todas as probabilidades. Qual é a saída?

1

Máquinas: as primeiras pessoas a comer caranguejos

Quando você tiver dinheiro, compre uma GPU. Perguntei a vários fornecedores e a resposta unânime foi que o H100 será entregue dentro de um ano.Tive uma ideia e escrevi um e-mail diretamente para Lao Huang. Lao Huang respondeu instantaneamente e disse que daria uma olhada. Uma hora depois, o CEO da Supermicro ligou. Paguei um pouco mais, entrei na fila e comprei a máquina 20 dias depois. Tive a honra de comer caranguejos cedo.


Esta não é a primeira vez que Li Mu envia um e-mail para Lao Huang. Ele já havia enviado um e-mail para Lao Huang em um evento a portas fechadas no NIPS e trouxe seus amigos pesquisadores para “abrir a porta dos fundos” para participar do fórum. . Houve um boato entre seus “fãs” de que ele é alguém que pode fazer uma refeição casual com Lao Huang a qualquer hora.

Depois de comer caranguejos, duvidei da minha vida e encontrei todos os tipos de insetos incríveis. Por exemplo, o fornecimento de energia insuficiente para a GPU causou instabilidade e, posteriormente, os engenheiros da Super Micro modificaram o código do BIOS para corrigi-lo. Por exemplo, o ângulo de corte da fibra óptica estava errado, resultando em comunicação instável, por exemplo, o layout de rede recomendado pela Nvidia; não era o ideal, então fizemos um novo plano e, mais tarde, a Nvidia também adotei esse plano. Ainda não entendo. Compramos menos de mil cartões, então podemos ser considerados pequenos compradores. Mas os grandes compradores não encontraram esses problemas que encontramos? Por que precisamos de nossa depuração?


Ao discutir com algumas pessoas do setor, descobri que algumas pessoas já "responderam" a Li Mu: Muitos grandes fabricantes já enfrentaram esses problemas antes. Eles não deram feedback sobre esses problemas e soluções, mas os trataram como um limite técnico. Deixe os bugs para seus concorrentes.

Ao mesmo tempo, também alugamos o mesmo número de H100s, e havia todos os tipos de bugs. A GPU tinha problemas todos os dias, e até nos perguntamos se éramos os únicos a usar esta nuvem. Mais tarde, vi o relatório técnico do Llama 3 dizendo que depois que mudaram para o H100, o modelo foi interrompido centenas de vezes durante o treinamento, senti muita dor nas entrelinhas.

Se compararmos a autoconstrução com o arrendamento, o custo do aluguel por três anos é quase igual ao custo da autoconstrução. A vantagem de alugar um cartão é a tranquilidade. Existem dois benefícios na autoconstrução. Primeiro, se a tecnologia da Nvidia ainda estiver muito à frente em três anos, ela poderá controlar os preços para que as GPUs ainda mantenham seu valor. Outra é o baixo custo do armazenamento de dados autoconstruído. O armazenamento precisa estar próximo da GPU. Quer seja uma nuvem grande ou uma pequena nuvem de GPU, o preço do armazenamento é alto. No entanto, o treinamento de um modelo pode usar vários TB de espaço para armazenar pontos de verificação, e o armazenamento de dados de treinamento começa em 10 PB. Se você usar AWS S3, 10PB custará dois milhões por ano. Se esse dinheiro for usado para autoconstrução, pode chegar a 100PB.

1

Negócios: Graças aos clientes, alcançamos o ponto de equilíbrio no primeiro ano

Tivemos muita sorte de nossas receitas e despesas estarem equilibradas no primeiro ano.

Nossos gastos são principalmente em mão de obra e poder computacional. Graças aos recursos financeiros da Openai e à liderança da Nvidia, ambos os gastos são bastante grandes. Nossa fonte de renda é confeccionar modelos customizados para grandes clientes. A maioria das empresas que ingressaram no LLM muito cedo foi porque seus CEOs eram muito tomadores de decisão. Eles não se intimidavam com o alto poder de computação e os custos de mão de obra e pressionavam decisivamente suas equipes internas a cooperar na tentativa de novas tecnologias. Estou muito grato ao cliente por nos dar tempo para respirar, caso contrário eu teria procurado vários investidores nos últimos meses.

Em seguida, mais empresas deveriam tentar usar o LLM, seja atualizando os seus próprios produtos ou reduzindo custos e aumentando a eficiência. A razão é que, por um lado, os custos de tecnologia estão diminuindo e, por outro lado, os líderes da indústria (como nossos clientes) lançarão sucessivamente produtos baseados em LLM, enrolando a indústria.

Também estamos prestando atenção à implementação do LLM no toC. Os principais players da onda anterior, como c.ai e perplexity, ainda estão em busca de modelos de negócios, mas também há cerca de uma dúzia de pequenos aplicativos nativos LLM que apresentam boas receitas. Fornecemos um modelo para uma empresa start-up de role-playing. Eles se concentram em players profundos e equilibram receitas e despesas, o que também é ótimo. As capacidades do modelo ainda estão a evoluir e mais modalidades (voz, música, imagens, vídeos) estão a ser integradas. Acredito que haverá aplicações mais imaginativas no futuro.

No geral, a indústria e o capital ainda estão impacientes. Este ano, várias empresas que estão estabelecidas há mais de um ano, mas que arrecadaram milhares de milhões, optaram por sair. Da tecnologia ao produto é um processo longo, é normal demorar 2 ou 3 anos. Contando o surgimento das necessidades dos usuários, pode demorar mais. Nós nos concentramos no presente, exploramos o caminho na neblina e permanecemos otimistas em relação ao futuro.


A comercialização é uma faca afiada que paira sobre a cabeça de quase todas as empresas LLM, revelando em um eufemismo que a empresa já atingiu o ponto de equilíbrio. Em seu primeiro ano, a BosonAI escolheu dois tipos de negócios: customização de modelos para grandes clientes e fornecimento de modelos básicos para startups. Na verdade, essa ideia é muito pragmática, basta ir aonde tiver dinheiro. A experiência do investidor ao abandonar os pombos parece ter tido um impacto nas escolhas de comercialização de Li Mu. Ele espera poder "sustentar-se" e ganhar tempo e espaço para o avanço tecnológico.

1

Tecnologia: Quatro estágios de cognição LLM

A compreensão do LLM passou por quatro etapas. A primeira etapa é do Bert ao GPT3. Parece que a nova arquitetura e o big data podem ser feitos. Quando estávamos na Amazon, também realizamos imediatamente treinamento em larga escala e implementação de produtos.

A segunda etapa foi quando o GPT4 foi lançado quando comecei meu negócio, o que foi um grande choque.A maior parte do motivo vem do fato de que a tecnologia não é divulgada publicamente. Segundo rumores, estima-se que o treinamento de um modelo custe 100 milhões e o custo padrão dos dados seja de dezenas de milhões.. Muitos investidores me perguntaram quanto custaria reproduzir o GPT4, e eu disse 300-400 milhões. Mais tarde, um deles investiu centenas de milhões.

A terceira etapa é o primeiro semestre de abertura de um negócio.Não podemos fazer GPT4, então vamos começar com problemas específicos.. Então comecei a procurar clientes, inclusive de jogos, educação, vendas, finanças e seguros. Treine modelos com base em necessidades específicas.No início, não havia bons modelos de código aberto no mercado, então os treinamos do zero. Mais tarde, surgiram muitos modelos bons, o que reduziu nossos custos.Em seguida, projete um método de avaliação baseado no cenário de negócios, marque os dados, veja onde o modelo não está funcionando e melhore-o de acordo.


Em meio ano, a Boson migrou rapidamente do código fechado para o código aberto, tudo baseado em resultados e clientes. Pelo contrário, quanto mais profissionais como Li Mu têm uma compreensão mais profunda do desenvolvimento da IA, menos se preocupam com o chamado debate sobre código aberto e código fechado nesta fase.

No final de 2023, ficamos agradavelmente surpresos ao descobrir que nossos modelos da série Photon (um tipo de Boson) superaram o GPT4 em aplicações de clientes. A vantagem de customizar o modelo é que o custo de inferência é 1/10 da chamada da API. Embora as APIs sejam muito mais baratas hoje, nossa própria tecnologia também está melhorando e ainda representa 1/10 do custo. Além disso, atrasos, etc. podem ser melhor controlados. O entendimento nesta fase é que para aplicações específicas podemos vencer os melhores modelos do mercado.

A quarta etapa é o segundo semestre de abertura de um negócio.Embora o cliente tenha obtido o modelo solicitado no contrato, não foi o que esperava porque o GPT4 não era suficiente. No início do ano, descobrimos que seria difícil para o modelo dar outro salto se fosse treinado para uma única aplicação.Olhando para trás, se a AGI atingir o nível dos humanos comuns, o que os clientes desejam é o nível dos profissionais. Os jogos exigem planejadores e atores profissionais, a educação exige professores com medalhas de ouro, as vendas exigem vendas com medalhas de ouro e as finanças e os seguros exigem analistas seniores. Tudo isso é AGI mais recursos profissionais do setor. Embora estivéssemos maravilhados com a AGI na época, sentimos que era inevitável.

No início do ano, projetamos uma série de modelos de Higgs (God Particle, um tipo de bóson). A principal habilidade geral é seguir o melhor modelo, mas se destacar em determinada habilidade. As competências que escolhemos foram role-playing: interpretar um personagem virtual, brincar de professor, brincar de vendedor, brincar de analista e assim por diante. Foi atualizado em meados de 2024segunda geração, no Arena-Hard e no AlpacaEval 2.0, que testam capacidades gerais, o V2 ​​é comparável ao melhor modelo, e não fica muito atrás no MMLU-Pro, que testa conhecimento.

Higgs-V2 é baseado na base Llama3 e depois completa o pós-treinamento. Não temos recursos para gastar muito dinheiro para rotular dados como Meta, então V2 é melhor que Llama3 Instruct. O motivo deve vir principalmente da inovação do algoritmo.

Então fizemos umConjunto de avaliação de dramatizações, incluindo performances baseadas em personagens e performances baseadas em cenas. Lamento que meu modelo tenha ficado em primeiro lugar na minha lista. No entanto, não há dados utilizados para avaliação durante o treinamento do modelo. Como este conjunto de avaliação é para uso pessoal e espera refletir verdadeiramente as capacidades do modelo, é necessário evitar conjuntos de dados sobreajustados do modelo. Mas os alunos que fizeram o conjunto de avaliação queriam fazer um relatório técnico, então simplesmente o divulgaram. Curiosamente, a amostra de teste de role-playing vem de c.ai, mas as capacidades do modelo estão na parte inferior.

O quarto estágio de compreensão é que um bom modelo vertical não deve ser fraco em capacidades gerais. Por exemplo, as capacidades de raciocínio e seguimento de instruções também são necessárias verticalmente. No longo prazo, tanto os modelos gerais como os verticais terão de avançar para a AGI. Só que o modelo vertical pode ser um pouco mais orientado a assuntos, com notas altas em cursos profissionalizantes e bons cursos gerais, então os custos de pesquisa e desenvolvimento serão um pouco menores e os métodos de pesquisa e desenvolvimento serão diferentes.

E quanto ao quinto estágio de compreensão? Ainda é um trabalho em andamento e espero compartilhá-lo em breve.

1

Visão: Companheirismo humano

É constrangedor dizer que cobrimos nossas cabeças com tecnologia e customização para os clientes e, então, lentamente pensamos sobre qual visão buscamos. Observamos o que os clientes desejam, o que queremos e o que poderemos precisar no futuro. Falando por mim, há muitos anos ansiava por uma babá robô para me ajudar a cuidar dos meus filhos e acompanhá-los, porque tinha dificuldade em fazer isso e não entendia muito bem a cognição e os pensamentos atuais dos meus filhos.

Eu gostaria de ter um assistente virtual realmente incrível no trabalho, que pudesse inventar coisas novas comigo. Quando eu envelhecer, também quero ter robôs interessantes para me acompanhar. Minha previsão para o futuro é que as ferramentas de produção se tornarão cada vez mais desenvolvidas, e uma pessoa poderá concluir coisas que antes só poderiam ser concluídas por uma equipe, tornando os seres humanos mais independentes individualmente. mais solitário.

Juntando tudo isso, definimos a nossa visão como “agentes inteligentes que acompanham os humanos”. Um agente inteligente com alta inteligência emocional e QI online. Se fosse uma pessoa real, seria uma equipe profissional. Por exemplo, se você quiser que ele brinque com você, então é um planejador + ator profissional. Acompanhe você nos exercícios e depois incentive professores + treinadores esportivos profissionais. Se eu estudar com você, posso explicar o que você não entende. A vantagem de um modelo é que ele pode te acompanhar por muito tempo e te entender de verdade. E posso "ser sinceramente por você".

Contudo, a tecnologia atual ainda está longe da visão. A tecnologia de hoje pode acompanhá-lo em um bate-papo. Em muitas situações, a conversa não é tão boa, falta conteúdo e o QI e o EQ às vezes não estão online. Todos esses são problemas que precisam ser resolvidos agora. Se você tiver algum amigo que queira fazer esta inscrição no exterior, não hesite em nos contatar.

1

Equipe: Coisas desafiadoras devem contar com a equipe

Só depois de começar um negócio é que realmente percebi a importância de uma equipe. Quando eu estava em uma grande fábrica, me sentia um parafuso, os membros da minha equipe eram um parafuso e até a equipe era um parafuso. Mas a equipe empreendedora é um carro. O carro é menor, mas pode andar, carregar cargas, fazer curvas com flexibilidade e ir a qualquer esquina.Pouco depois de a empresa ser criada, MiHoYo Lao Cai deu uma olhada e viu todos em uma sala. Ele disse emocionado que uma equipe pequena é ótima.


Os dois são ex-alunos da Universidade Jiao Tong de Xangai, Li Mu se formou no programa de graduação de 2004 e Cai Haoyu se formou no programa de graduação de 2005, e ambos permaneceram na escola para fazer pós-graduação.

É claro que existem alguns inconvenientes. Você deve verificar sempre se há óleo e ter cuidado para não sacudir o carro em estradas difíceis. Cada membro é importante e não há redundância. Se uma pessoa não for eficaz, pode ser um pneu furado. As pessoas também são preciosas.

No passado, quando eu escolhia projetos, eu escolhia projetos que eu pudesse liderar o desenvolvimento. Mas também significa que o problema não estará muito além das minhas capacidades. Começar um negócio é um grande problema e tudo depende da equipe. Embora haja muito “I” utilizado neste artigo, na verdade o trabalho é feito pela equipe. Sem a equipe, talvez eu tenha que mudar de carreira para vender cursos (não são necessários aplausos aqui).


O curso de IA que Li Mu fez na Estação B é o curso mais popular na Internet chinesa. Muitas pessoas o chamam de “o mentor que nunca conheceram”. Os cursos são acessíveis, pacientes e muitas vezes compartilham fofocas do setor.

1

Busca pessoal: fama ou fortuna?

Até agora, confiei em seguir minha voz interior para tomar decisões. Depois de trabalhar, estudarei para fazer doutorado, gravarei vídeos e abrirei um negócio. O empreendedorismo requer o apoio de uma forte motivação para superar dificuldades infinitas. Isso requer uma análise mais profunda de suas próprias motivações.

A motivação vem do desejo ou do medo. Há dez anos, poderia ter sido mais apaixonado pela fama e fortuna, mas na minha idade actual, sinto que a utilidade marginal do dinheiro já não é elevada e o valor emocional trazido pela fama também é muito pequeno. Minha motivação mais profunda vem do medo de que a vida possa não ter sentido. Deixando de lado a vastidão do universo, mesmo na longa história da humanidade, uma pessoa é apenas um grão de areia. Chegue inesperadamente e desapareça rapidamente. Já existiram 100 bilhões de pessoas vivendo na Terra, e a maioria delas não deixará nenhum vestígio na história. Quase não reconheço nenhum dos milhares de nomes da minha árvore genealógica.

Então, qual é o significado da existência de uma pessoa? Quando eu era criança, ficava deprimido porque não conseguia pensar com clareza sobre esse problema. Então quero criar valor e ganhar sentido de existência. Optei por “avançar” para melhorar minha capacidade de criar valor; optei por gravar vídeos longos e escrever materiais didáticos para criar valor educacional; complicações e dificuldades envolvidas e criação de casos reais; optar por iniciar um negócio e unir os esforços de muitas pessoas para criar maior valor.

1

pós-escrito

Su Hua e eu estávamos caminhando em Stanford no ano passado. Ele me deu um tapinha no ombro e disse: “Diga-me a verdade, por que você quer começar um negócio na época, pensei que não:” Eu simplesmente não pensava assim? quero mudar minha carreira." Então Su Hua sorriu.

Agora entendo, porque ele viveu os altos e baixos do empreendedorismo. Se eu respondesse a essa pergunta hoje, diria: “Acabei de perder a cabeça”. Mas estou feliz por não esperar que fosse tão fácil na época, então pulei de cabeça. Caso contrário, o que todos poderão ver é "Reflexão sobre dez anos de trabalho”. Acho que a história que escrevi hoje é mais interessante.

Saudações a todos os empreendedores.

Finalmente, Li Mu também anunciou que a BosonAI está atualmente sediada em Santa Clara e o recrutamento inclui a área da baía de São Francisco e Vancouver.