quem pode se tornar o substituto da nvidia?

2024-09-23

autor丨barry

editor丨guan ju

fonte da imagem丨meio da jornada

quem pode substituir a nvidia?

na área de gpus para data centers, as remessas da nvidia chegarão a 3,76 milhões de unidades em 2023, representando quase 98% da participação no mercado global, que pode ser considerada incomparável.

os chips de ia, também conhecidos como aceleradores de ia ou placas de computação, são módulos usados especificamente para lidar com um grande número de tarefas de computação em aplicações de inteligência artificial. eles incluem principalmente processadores gráficos (gpus), matrizes de portas programáveis em campo (fpgas) e aplicações específicas. circuitos integrados (asic) etc.

de acordo com o gartner, o mercado de chips de ia atingirá us$ 53,4 bilhões em 2023, um aumento de 20,9% em relação a 2022, e aumentará 25,6%, para us$ 67,1 bilhões em 2024. até 2027, espera-se que a receita de chips de ia mais que duplique o tamanho do mercado em 2023, atingindo us$ 119,4 bilhões.

a corrida armamentista pelo poder da computação encenada por grandes empresas gigantes tornou-se, sem dúvida, uma forte força motriz para o mercado de chips de ia.

a partir de 2024, quase todos os grandes modelos convencionais terão mais de 100 bilhões de parâmetros, o llama3 terá 400 bilhões de parâmetros e o gpt4 terá 1,8 trilhão de parâmetros. um grande modelo com trilhões de parâmetros corresponde a um cluster supergrande de poder de computação com uma escala de mais de 10.000 kilobytes.

openai tem pelo menos 50.000 gpus nvidia de última geração, meta construiu seu próprio cluster de super 10.000 placas composto por 24.576 h100s e o google tem um supercomputador a3 composto por 26.000 h100s... mais de 40.000 empresas compraram gpus nvidia, empresas como meta, microsoft, amazon e google contribuíram com um total de 40% de sua receita.

o relatório financeiro mostra que a margem de lucro bruto da nvidia atingiu 71%, dos quais a margem de lucro bruto das séries a100 e h100 chegou a 90%. como empresa de hardware, a nvidia tem uma margem de lucro bruto maior do que as empresas de internet.

é relatado que os chips de ia da nvidia para data centers custam entre us$ 25.000 e 40.000 por peça, o que é 7 a 8 vezes maior que os produtos tradicionais. kazuhiro sugiyama, diretor de consultoria da empresa de pesquisa omdia, disse que os altos preços dos produtos da nvidia são um fardo para as empresas que desejam investir em ia.

o alto preço de venda também fez com que muitos grandes clientes começassem a procurar alternativas. em 30 de julho, a apple anunciou que seu modelo de ia foi treinado usando 8.000 google tpus. o primeiro chip da openai também foi exposto hoje. ele usará o processo de nível angstrom a16 mais avançado da tsmc e foi desenvolvido especialmente para aplicações de vídeo sora.

em todo o mundo, startups e unicórnios de chips de ia surgiram um após o outro, tentando roubar comida da nvidia. entre eles, estão os unicórnios apoiados pela china, sambanova e o recém-emergente etched, bem como cerebras systems, um unicórnio investido pelo ceo da openai, altman, que está correndo para um ipo, presidente do grupo softbank, masayoshi son, após listar com sucesso a arm no ano passado, em. em julho deste ano, adquiriu a empresa britânica de chips de ia graphcore na tentativa de construir a próxima nvidia.

sambanova, um unicórnio com chip de ia construído por chineses em stanford

em 27 de agosto, a startup de chips de ia dos eua, sambanova, apresentou em detalhes pela primeira vez seu recém-lançado primeiro sistema de chip de ia do mundo para modelos de inteligência artificial (ia) em escala de trilhões de parâmetros - com base no chip de ia da unidade de fluxo de dados reconfigurável (rdu) sn40l .

segundo relatos, o sistema de 8 chips baseado no sn40l do sambanova pode fornecer suporte para modelos de 5 trilhões de parâmetros, e o comprimento da sequência em um único nó do sistema pode chegar a 256k+. comparado com o chip h100 da yingwei, o sn40l não apenas atinge 3,1 vezes o desempenho de inferência do h100, mas também dobra o desempenho de treinamento e o custo total de propriedade é de apenas 1/10.

rodrigo liang, ceo da sambanova

todos os três cofundadores da empresa têm formação em stanford. entre eles, o ceo rodrigo liang é o ex-vice-presidente de engenharia da sun/oracle. os outros dois cofundadores são professores de stanford.

sambanova está atualmente avaliada em us$ 5 bilhões (aproximadamente 36,5 bilhões de yuans) e completou 6 rodadas de financiamento totalizando us$ 1,1 bilhão. os investidores incluem intel, softbank, samsung, google venture, etc.

eles não apenas desafiam a nvidia em chips, mas também vão além da nvidia em termos de modelo de negócios: participando diretamente ajudando empresas a treinar grandes modelos privados. e os chips não são vendidos sozinhos, mas suas pilhas de tecnologia customizadas, desde chips até sistemas de servidores, e até implantação de modelos grandes.

as suas ambições para clientes-alvo são ainda maiores – visando as 2.000 maiores empresas do mundo. atualmente, os chips e sistemas da sambanova conquistaram muitos grandes clientes, incluindo os principais laboratórios de supercomputação do mundo, o fugaku do japão, o laboratório nacional argonne dos estados unidos, o laboratório nacional lawrence e a empresa de consultoria accenture.

rodrigo liang acredita que o próximo campo de batalha para a comercialização de grandes modelos e ia generativa são os dados privados das empresas, especialmente as grandes empresas. em última análise, em vez de executar um modelo muito grande como o gpt-4 ou o google gemini, a empresa criará 150 modelos únicos baseados em diferentes subconjuntos de dados, com mais de um bilião de parâmetros agregados.

esta estratégia contrasta fortemente com abordagens como gpt-4 e google gemini, onde a maioria dos gigantes espera criar um modelo gigante que possa ser generalizado para milhões de tarefas.

etched, uma empresa de chips de ia fundada por dois que abandonaram harvard e nasceram na década de 2000

os fundadores da etched são dois que abandonaram harvard e nasceram em 2000. gavin uberti ocupou cargos seniores na octoml e xnor.ai, enquanto chris zhu é chinês. além de atuar como pesquisador docente em ciência da computação na universidade de harvard, ele também tem experiência de estágio em empresas como a amazon.

eles estavam otimistas sobre a direção dos grandes modelos antes do lançamento do chatgpt, então abandonaram a universidade de harvard em 2022 e fundaram em conjunto a etched com robert wachen e o ex-diretor de tecnologia da cypress semiconductor, mark ross, para criar grandes modelos dedicados à ia de chips.

gavin uberti (esquerda) e chris zhu (direita)

eles seguiram um caminho único: só podiam executar o chip ai do transformer e adotaram um design asic. atualmente, quase todas as soluções no mercado suportam amplamente modelos de ia e determinaram que o modelo transformer dominará todo o mercado a partir do final de 2022. eles acreditam que as atualizações de desempenho da gpu são muito lentas e a única maneira é usar chips asic especializados só assim poderemos alcançar um salto no desempenho.

depois de dois anos, em 27 de junho deste ano, a etched lançou seu primeiro chip de ia sohu, tornando-se o primeiro chip do mundo dedicado à computação transformer.

ele roda modelos grandes 20 vezes mais rápido que o nvidia h100 e mais de 10 vezes mais rápido que o chip top de linha b200, lançado em março deste ano. um servidor equipado com oito chips sohu pode substituir 160 gpus nvidia h100 completas. embora reduza bastante os custos, não haverá perda de desempenho.

como o sohu suporta apenas um algoritmo, a maioria dos módulos de fluxo de controle pode ser eliminada. o chip pode integrar mais unidades de cálculo matemático e a utilização do poder de computação pode chegar a mais de 90%, enquanto a gpu pode fazer apenas 30%. para uma pequena equipe de design, manter uma pilha de software de arquitetura única é obviamente menos estressante.

ao mesmo tempo que o chip sohu foi lançado, a etched também anunciou que havia concluído um financiamento série a de us$ 120 milhões, co-liderado pela primary venture partners e positive sum ventures.

os principais investidores nesta rodada de financiamento incluem o conhecido investidor do vale do silício peter thiel o ex-cto da plataforma de negociação de criptomoedas coinbase e o ex-sócio geral da a16z balaji srinivasan o ceo do github thomas dohmke o cofundador da cruise kyle vogt e o fundador conjunto do quora charlie cheever e mais.

cerebras systems, unicórnio de chip de ia investido pela ultraman, planeja correr para ipo

a coisa mais original sobre a cerebras systems, fundada em 2015, é que seus chips são muito diferentes das gpus nvidia convencionais. no passado, os chips tornaram-se cada vez menores sob a orientação da lei de moore. tomando como exemplo a nvidia h100, ela possui 80 bilhões de transistores em uma área central de 814 milímetros quadrados.

o chip de ia da cerebras opta por tornar o chip inteiro cada vez maior, alegando ter “criado o chip de maior área do mundo”. segundo relatos, o chip wse 3 desenvolvido pela cerebras é cortado de um wafer inteiro, que é maior que um prato e exige que uma pessoa o segure com as duas mãos. um chip wse 3 possui 4.000 bilhões de transistores (50 vezes o h100) em uma área central de mais de 46.000 milímetros quadrados.

lascas maiores que o prato exigem as duas mãos para serem seguradas. fonte: ars technica

a cerebras afirma que o tamanho do grande modelo de ia que seu chip pode treinar é 10 vezes maior do que os principais modelos atuais da indústria (como o gpt-4 da openai ou o gemini do google).

no dia 27 de agosto deste ano, a cerebras systems anunciou o lançamento do serviço de inferência de ia cerebras inference, que é considerado “o mais rápido do mundo”. de acordo com o site oficial, este serviço de inferência é 20 vezes mais rápido que o serviço da nvidia, ao mesmo tempo que garante precisão, a largura de banda da memória do processador é 7.000 vezes maior que a da nvidia, enquanto o preço é apenas 1/5 da gpu, e a relação preço/desempenho tem; aumentou 100 vezes. o cerebras inference também oferece vários níveis de serviço, incluindo níveis gratuitos, de desenvolvedor e empresariais, para atender a diferentes necessidades, desde desenvolvimento em pequena escala até implantação empresarial em grande escala.

o cofundador e ceo andrew feldman possui mba pela universidade de stanford, e o diretor de tecnologia gary lauterbach é reconhecido como um dos principais arquitetos de computação do setor. em 2007, os dois cofundaram a empresa de microservidores seamicro, que foi adquirida pela amd por us$ 334 milhões em 2012, e os dois posteriormente ingressaram na amd.

de acordo com relatos da mídia estrangeira, a cerebras systems solicitou secretamente um ipo nos estados unidos e será listada em outubro de 2024. atualmente, a empresa arrecadou us$ 720 milhões e está avaliada em aproximadamente us$ 4,2 bilhões a us$ 5 bilhões. um dos maiores investidores individuais é o ceo da openai, sam altman. altman supostamente participou do financiamento da série d de us$ 81 milhões da cerebras.

tenstorrent, acompanhado pelo lendário chip master, se tornará o “substituto” da nvidia

antes de 2021, a tenstorrent ainda era uma empresa desconhecida. no entanto, a empresa ficou famosa por um tempo quando jim keller, uma grande figura na indústria de semicondutores conhecido como "silicon immortal", anunciou que ingressaria na empresa como diretor de tecnologia e presidente.

a carreira de jim keller pode ser chamada de história da indústria de informática. de 1998 a 1999, jim keller trabalhou na arquitetura k7/k8 que suportava athlon na amd; de 2008 a 2012, assumiu a liderança no desenvolvimento dos processadores a4 e a5 na apple de 2012 a 2015, presidiu o k12 arm; projeto na amd, projeto de arquitetura zen; de 2016 a 2018, desenvolveu chips de piloto automático fsd na tesla, e de 2018 a 2020, participou de projetos misteriosos na intel.

jim keller junta-se à tenstorrent, na esperança de fornecer um “substituto” para as caras gpus da nvidia. ele acredita que a nvidia não atende bem a determinados mercados, e esses mercados são exatamente o que a tenstorrent está tentando capturar.

a tenstorrent afirma que seu sistema galaxy é três vezes mais eficiente e 33% mais barato que o nvidia dgx, o servidor de ia mais popular do mundo.

segundo relatos, espera-se que a tenstorrent lance seu processador ai multifuncional de segunda geração antes do final deste ano. de acordo com o último roteiro da tenstorrent no outono passado, a empresa pretende lançar seu processador de ia independente black hole e chips quasar de baixo consumo e baixo consumo de energia para soluções de ia multi-chip.

a empresa afirma que seus próximos processadores oferecem eficiência de desempenho comparável às gpus ai da nvidia. ao mesmo tempo, a tenstorrent afirma que sua arquitetura consome menos largura de banda de memória do que seus concorrentes, o que é um dos principais motivos para sua maior eficiência e custos mais baixos.

a principal característica do chip tentorrent é que cada um de seus mais de 100 núcleos possui uma pequena cpu, um “cérebro dentro de um cérebro”. os núcleos serão capazes de “pensar” por conta própria, decidindo quais dados processar primeiro, ou. se deve descartar certos dados que são considerados tarefas necessárias indesejáveis, aumentando assim a eficiência geral.

até agora, a tentorrent concluiu pelo menos 6 rodadas de financiamento. anteriormente, os investidores da tentorrent eram principalmente capital de risco, ou seja, após a adesão de jim keller, a empresa concluiu uma nova rodada de financiamento de us$ 100 milhões em agosto de 2023, e o capital industrial começou a aparecer entre os investidores - hyundai automotive group e samsung catalyst fund , um braço de capital de risco da samsung.

softbank adquire graphcore com desconto para criar concorrente da nvidia

a graphcore foi fundada em 2016 pelo cto simon knowles e pelo ceo nigel toon. a empresa está comprometida em desenvolver a unidade de processamento de inteligência (ipu), um processador projetado especificamente para inteligência artificial e aprendizado de máquina, com arquitetura e vantagens exclusivas, como arquitetura mimd massivamente paralela, alta largura de banda de memória e sram distribuída local fortemente acoplada, etc.

a graphcore lançou sucessivamente uma série de produtos baseados em ipu, como o processador gc200 ipu, bow ipu, etc., e continua a realizar atualizações e melhorias técnicas.

no entanto, em julho deste ano, esta empresa britânica de chips de ia em dificuldades foi adquirida pela softbank.

pelo acordo, a graphcore se tornará uma subsidiária integral da softbank e continuará a operar com o nome atual. segundo relatos, o valor total da transação pode chegar a cerca de 400 milhões de libras (cerca de 500 milhões de dólares americanos, 3,56 bilhões de yuans), o que é cerca de 82% inferior à avaliação da última rodada de financiamento da graphcore de 2,8 bilhões de dólares americanos. o softbank comprou apenas com 20% de desconto no graphcore.

graphcore já foi considerada a “versão britânica da nvidia”. no entanto, desde 2020, a empresa não recebeu novos investimentos e também perdeu encomendas importantes da microsoft. isto tornou-a financeiramente difícil e operacionalmente difícil, e não conseguiu acompanhar a tendência geral no campo dos chips de ia. ao mesmo tempo, os estados unidos continuam a apertar os controlos de exportação de semicondutores de ia da china, o que também afecta o desenvolvimento da graphcore na china. no final, teve de optar por se retirar do mercado chinês e perder um quarto da sua receita total.

esta aquisição da graphcore não só consolida a posição da softbank no campo dos chips de ia, mas também é um passo importante na estratégia de ia da son.

ex-engenheiros do google fundaram a groq para criar uma nova espécie de lpu

em agosto deste ano, groq anunciou a conclusão de um financiamento série d de us$ 640 milhões. os investidores incluem blackrock, cisco investments, samsung catalyst fund, etc., com uma avaliação de us$ 2,8 bilhões.

a empresa, fundada em 2016 pelo ex-engenheiro do google jonathan ross, afirma que seu hardware de unidade de processamento de linguagem lpu pode executar modelos genai existentes, como gpt-4, dez vezes mais rápido, consumindo apenas um décimo da energia. a empresa estabeleceu um novo recorde de desempenho de modelo de linguagem grande (llm) usando o llama 2 da meta, com 300 tokens por segundo por usuário.

em comparação com a versatilidade da gpu, embora a lpu tenha um bom desempenho no processamento de linguagem, sua gama de aplicações é estreita. isto limita a sua generalização a uma gama mais ampla de tarefas de ia. além disso, sendo uma tecnologia emergente, a lpu ainda não recebeu amplo apoio da comunidade e a usabilidade também enfrenta desafios.

a groq planeja implantar mais de 108.000 lpus até o final do primeiro trimestre de 2025, a maior implantação de inferência de inteligência artificial fora dos grandes gigantes da tecnologia.

notícias

quem pode se tornar o substituto da nvidia?

introdução

minhas informações de contato