Veterano do chip de IA do Google inicia negócios, com renda anual de quase 500 milhões, e chega ao Qianka Intelligent Computing Center

2024-08-07

“Espero que nossos produtos da próxima geração possam ser iteradosComparado com o atual NVIDIA B200Produtos mais avançados…”

Este é o mais recente “pequeno objetivo” compartilhado por Yang Gongyifan, fundador e CEO da Zhonghao Xinying, uma startup de chips de treinamento de IA, recentemente para Xinying.Yang Gongyifan é um veterano sênior em P&D de chips. Ele está envolvido em P&D de chips de alta tecnologia há mais de dez anos em empresas como Oracle e Google e participou da equipe principal de P&D de chips como membro da.GoogleTPU 2/3/4Design e P&D retornaram à China no final de 2018 para formar uma equipe completa de design de chips e uma equipe de verificação de protótipos, e estabeleceram Zhonghao Xinying em 2020.

Segundo ele, em 2023 Zhonghao XinyingAlcançando lucros positivos pela primeira vez, o lucro líquido atribuível à controladora atingiu 81,33 milhões de yuans e a receita anual atingiu 485 milhões de yuans.5rodadas de financiamento;QueO chip de treinamento TPU autodesenvolvido "Snap" foi colocado em produção em massa, em que o poder computacional do modelo de treinamento “Snap” chega ao da NVIDIA A100Quase 1,5 vezes .Zhonghao Xinying usa o chip de treinamento de IA "Snap" como base e constrói um cluster de computação inteligente de IA em grande escala "Taize" por meio das capacidades de interconexão entre chips de alta velocidade de 1.024 chips.A escala de poder computacional do cluster kilocard atinge 200PFLOPS。

▲ Chip de treinamento de IA Zhonghao Xinying "Snap"

Diferente da GPU que atualmente domina o mercado de chips de IA, a trilha escolhida por Yang Gongyifan é a arquitetura TPU projetada especificamente para aprendizado profundo: “A arquitetura TPU é uma arquitetura naturalmente vantajosa para grandes modelos de IA. o mesmo processo de produção e o mesmo processo, alcançará de 3 a 5 vezes o desempenho da arquitetura GPU tradicional.”

Yang Gong Yifan disse que Zhonghao Xinying está atualmenteO único no país que possuiTPUTreinamento e promoção integrada de arquiteturaIAEmpresa de tecnologia de núcleo de chip . Ele prevê que nos próximos 5 a 10 anos,TPUe classeTPUA participação de mercado da arquitetura atingirá80%,o restante10%-20%É tradiçãoGPU。

Além de promover a pesquisa, o desenvolvimento e a implementação de chips de IA, Zhonghao Xinying também desenvolveu por conta própria um grande modelo pré-treinado que pode fornecer capacidades de produção "rígidas", que eventualmente será aberto a parceiros em finanças, cuidados médicos, educação , etc. para implementar grandes modelos profissionais em uso em campos verticais.

Os chips de IA são uma corrida de longa distância bem conhecida para queimar dinheiro. Como Zhonghao Xinying pode obter lucratividade em cinco anos? Como uma startup de chips, por que ela desenvolve seus próprios grandes modelos e constrói seu próprio centro de computação inteligente, e como planeja se destacar da competição cada vez mais acirrada por chips domésticos de IA? Recentemente, Yang Gongyifan, fundador e CEO da Zhonghao Xinying, teve uma conversa aprofundada com Xinying Xinying, compartilhando todos os pensamentos e escolhas no processo empreendedor, bem como a análise e julgamento do desenvolvimento tecnológico e tendências de implementação de negócios.

▲ Yang Gongyifan, fundador e CEO da Zhonghao Xinying

1. Mais de 10 anos de experiência em pesquisa e desenvolvimento de chips, profundamente envolvido na pesquisa e desenvolvimento do Google TPU, retornou à China para iniciar um negócio em 2018

Os mais de 10 anos de experiência de Yang Gongyifan na área de chips de última geração lançaram as bases para que ele encontrasse a direção empresarial certa.

Depois de obter um mestrado em ciência da computação pela Universidade de Stanford, Yang Gongyifan participou e liderou o projeto e a produção de 12 CPUs de alto desempenho e alto nível, incluindo SPARCT8/M8, na Oracle Corporation. Além disso, ele tem experiência em fitas com sucesso. saiu mais de dez vezes.

▲ Artigos relevantes publicados por Yang Gongyifan durante seu tempo na Oracle (Fonte: IEEE Xplore)

Ingressar no Google em 2017 plantou as sementes para que ele retornasse à China para iniciar um negócio no futuro.

Enquanto estava no Google, Yang Gongyifan participou do design e pesquisa e desenvolvimento do TPU 2/3/4 como membro da equipe principal de pesquisa e desenvolvimento de chips. Ele mencionou que foram os dez anos de experiência anteriores que lhes permitiram conduzir pesquisas baseadas na computação. necessidades de aplicativos e modelos de computação Após a melhor otimização, o TPU 2/3/4 foi desenvolvido com sucesso.

Em junho de 2017, oito coautores do Google lançaram uma obra-prima chamada "Atenção é tudo que você precisa", que será um sistema revolucionário treinado em TPU.Transformador A arquitetura é levada ao extremo, o que é o início da popularidade da arquitetura Transformer na pesquisa de grandes modelos. Ao mesmo tempo, Yang Gongyifan sente que os grandes modelos estão gradualmente equipados com inteligência humana e que a TPU terá um grande impacto no desenvolvimento industrial. Ele acredita firmemente que os grandes modelos substituirão os humanos e se tornarão o núcleo da produtividade social em 2025 e 2026.

▲Arquitetura Google TPU (Fonte: YouTube)

Yang Gongyifan acredita que desta vez a transformação do campo da computação por grandes modelos é a maior mudança na história da humanidade. Como todos os cálculos anteriores foram realizados em um chip para completar um único ou vários aplicativos, agora é a primeira vez que milhares de chips são usados para completar um único aplicativo, o que representa enormes problemas para a implementação de toda a arquitetura computacional. é oportunidade.

O que ele pensa é que é raro ter um desafio tão grande, uma mudança tão grande e um escopo de cenários de aplicação tão grande, então ele deve fazer isso. Com base nesse entendimento, ele retornou a Shenzhen no final de 2018, formou uma equipe para construir um chip de treinamento TPU AI controlável de produção nacional e estabeleceu oficialmente Zhonghao Xinying em 2020.

Isso também marcou o início de seu primeiro momento de conquista empreendedora.2019Em 2016, vimos que o simulador foi concluído, executado e teve um bom desempenho, o que provou que o design do chip era viável.

Nos primeiros dias de abertura de um negócio, a ideia de Yang Gong Yifan era primeiro formar uma equipe que pudesse fabricar produtos. Portanto, a equipe inicial desembarcou em Shenzhen, estabeleceu uma equipe de design de chip e uma equipe de verificação de protótipo e concluiu o design modular do chip. Depois disso, Zhonghao Xinying desembarcou em Hangzhou em 2020. Com promoção de produtos, entrada de financiamento e produção em massa de chips, eles estabeleceram uma equipe completa de cadeia de suprimentos e equipe de marketing. Atualmente, o tamanho da equipe atingiu mais de 170 pessoas, das quais pessoal de P&D. representam 10% do total. A proporção é superior a 80%.

Mas a fase inicial de abertura de um negócio não foi tranquila. Naquela época, a maioria dos players nacionais, instituições de investimento e clientes não reconheciam as perspectivas futuras de desenvolvimento e aplicação de grandes modelos na indústria. De acordo com o recall de Yang Gongyifan, nos primeiros dias de sua criação, Zhonghao Xinying não tinha nenhuma renda. há dois anos, e só em 2021 é que conseguiu a sua primeira operação ser oficialmente rentável em 2023. Em 2023, a receita da empresa atingirá 485 milhões de yuans, com lucro líquido atribuível à controladora de 81,33 milhões de yuans.

Atualmente, Zhonghao Xinying concluiu 5 rodadas de financiamento, e o valor do financiamento divulgado inclui2022Ano9concluído em mesesAA rodada de financiamento é de cerca de 100 milhões de yuans, liderada pela Saizhi Bole Investment, com a participação da Hangzhou High-tech Investment e outros;2023Concluído em anos consecutivosPré-BePré-B+rodadas de financiamento, no valor de centenas de milhões e dezenas de milhões de yuans, respectivamente.

Na opinião de Yang Gongyifan, o reconhecimento dos investidores está dividido em várias fases. Na fase inicial, eles olham para a equipa, no médio prazo, concentram-se em saber se os seus produtos satisfazem a procura do mercado e, na fase posterior, concentram-se. sobre se os produtos têm competitividade central e a nova direção de expansão da indústria. Não importa a perspectiva do layout do produto, da seleção técnica da rota ou da integridade da equipe, Zhonghao Xinying não ficou para trás em cada etapa.Actualmente, Zhonghao Xinying tornou-se a única empresa no país que dominaTPUTreinamento e promoção integrada de arquiteturaIAUma empresa com tecnologia de chip core.

dois,TPU é naturalmente adaptado a modelos grandes,O desempenho do chip de treinamento de IA é 1,5 vezes maior que o do A100

“Deixe o poder da computação se tornar a força motriz do desenvolvimento humano”, O layout de negócios de Zhonghao Xinying está se desdobrando de acordo com essa visão.

Yang Gongyifan explicou que a primeira coisa a fazer para atingir esse objetivo é fabricar o chip primeiro, porque é a infraestrutura mais baixa. Depois que a infraestrutura subjacente for concluída, o chip pode ser integrado em uma cadeia de suprimentos completa para garantir que a infraestrutura possa. Fornecimento contínuo de produção.

Por outro lado, existem parceiros ecológicos que implementam modelos industriais ao nível do algoritmo. O papel de Zhonghao Xinying nisso é autopesquisar e pré-treinar grandes modelos e, em seguida, abri-los para parceiros da indústria, como finanças, educação e assistência médica.

Na era dos grandes modelos,TPUeTransformadorA arquitetura é naturalmente adaptável.

Comparado comCPUA unidade de cálculo escalar em eGPUA unidade de cálculo vetorial emTPUAs tarefas computacionais podem ser concluídas usando unidades de computação bidimensionais ou até mesmo de dimensões superiores.TPUO design facilita a implementação de clusters de quilo-cartões, conexão1024Um chip se torna32×32Uma matriz bidimensional permite que cada chip atinja 100% de simetria com qualquer chip em toda a rede.

Ele adicionou,TPU A arquitetura é otimizada para soluções de aprendizagem profunda e também pode ser usada para cálculos de aprendizagem profunda em larga escala, como Rede de Computação Inteligente e Wanka Internet.Yang Gong Yifan disse, emboraTPUO desempenho é relativamente pobre em termos de versatilidade, mas em termos deIANo cenário de aplicação, sob o mesmo processo de produção e tecnologia,TPUO desempenho da arquitetura é tradicionalGPUde3-5vezes.

estabelecido5 Em 2018, Zhonghao Xinying alcançou a produção em massa e industrialização de chips num piscar de olhos.Este foi o seu segundo momento de conquista, quando a equipe de P&D ficou acordada a noite toda“acender”, o processo de conclusão da verificação do produto ainda está fresco em sua memória.

Comparado com NVIDIAA100, desenvolvido por Zhonghao XinyingGPTPU IAchip de treinamento“momento”O desempenho da computação é o seu1.5vezes, o consumo de energia é reduzido ao completar a mesma quantidade de tarefas de treinamento.30%, o custo unitário do poder de computação é42%。

"Taizé"IAO servidor está equipado com8 Um chip de treinamento "momento" pode suportar o treinamento e a inferência de grandes modelos com mais de 100 bilhões de parâmetros.Yang Gong Yifan revelou que entre os produtos entregues durante o atual período de treinamento, os clientes de Zhonghao Xinying concluíramLhama 2Treinamento e inferência de outros modelos no cluster Kcal.

“momento”Com um Gundam único1024A capacidade de interconexão chip a chip de alta velocidade para construir clusters de computação inteligentes em grande escala“Tainori”, o desempenho do cluster do sistema é o tradicionalGPUDezenas de vezesIArequisitos de computação.

Zhonghao Xinying pode fazerTPU Outro ponto-chave do chip é que Yang Gongyifan disse que não usa empirismo ao recrutar engenheiros.Ele disse que, ao trabalhar com engenheiros experientes no início do processo de projeto, eles descobriram que esses engenheiros eram incapazes de compreender o processo de projeto.TPUA inovação de conceito e design tem maior probabilidade de ficar limitada por experiências repetidas e incapaz de pensar de forma mais direta para resolver problemas rapidamente e otimizar o desempenho.

Enfrentando a demanda por maior poder de computação na era dos grandes modelos, ele acrescentou que o cluster Wanka deve estar disponível, eTPUA vantagem natural da arquitetura nas capacidades de rede determina que ela tenha mais vantagens na construção de clusters Wanka e tenha melhor desempenho relativo.

3. Entrando na trilha do grande modelo de pré-treinamento, o tamanho do mercado da arquitetura semelhante à TPU pode chegar a 80%

No ano passado, Zhonghao Xinying também apresentou os melhores talentos para formar uma grande equipe de algoritmos de modelo.

O desempenho exclusivo da arquitetura TPU pode aumentar a liberdade do software usado em aplicativos empresariais e facilitar a conclusão do design paralelo, alcançando assim a otimização do desempenho e a construção do sistema.

Para encontrar soluções que melhor atendam às necessidades das empresas, os players de chips podem treinar seus próprios modelos para entender melhor as características do modelo e os cenários de aplicação, e aumentar a satisfação e a fidelidade dos clientes aos chips. Os atuais produtos de grande porte de uso geral geralmente possuem fortes recursos "flexíveis", como compreensão de texto, recuperação de informações da Internet e diálogo multi-round. No entanto, quando enfrentamos cenários de aplicação industrial altamente profissionais, muitas vezes é difícil compreender o conhecimento de negócios em subdivididos. campos. Lógica e terminologia profissional ao mesmo tempo, a precisão dos cálculos quantitativos de grandes modelos gerais é fraca e as capacidades de computação existentes são completamente incapazes de atender aos cenários de aplicação da indústria que exigem alta precisão numérica, como aviação civil e finanças.

Com base nisso, Zhonghao Xinying está construindo um grande modelo básico com capacidades de produção "rígidas" e abrindo o código-fonte do grande modelo básico para parceiros financeiros, educacionais, médicos e outros da indústria para cooperação, permitindo que os parceiros da indústria realizem a segundacização do modelo com base no pilha de software e dados correspondentes Treinamento, anotação de dados, etc. permitem que o modelo possua reservas de conhecimento do setor e seja gradualmente implementado em cenários subdivididos para substituir ambientes de produção específicos.

Desde o ano passado, eles estudam como implementar o Demo. Depois de ver a viabilidade, começaram gradativamente este ano o pré-treinamento dos modelos do setor.

Com um layout de negócios tão completo e julgamento sobre as tendências do setor, Yang Gongyifan acredita que na era dos grandes modelos, nos próximos 5 a 10 anos, a participação de mercado de TPU e chips semelhantes a TPU na área de hardware de computação de IA alcançará 80% e os 20% restantes são GPUs tradicionais.

Ele também esclareceu os objetivos de Zhonghao Xinying na iteração e comercialização de produtos. Espera-se que os produtos de chips de próxima geração desenvolvidos por Zhonghao Xinying sejam iterados para avaliar o desempenho do NVIDIA B200. Em termos de comercialização, espera aprofundar a cooperação com uma gama mais ampla de clientes, como integradores, operadoras e grandes fabricantes de Internet.

Conclusão: Chegou a oportunidade para o mercado de arquitetura TPU explodir

Desde a sua criação em 2018, Zhonghao Xinying testemunhou o desenvolvimento de chips de IA desde os estágios iniciais de desenvolvimento do mercado até o período de oportunidade, quando grandes modelos estimularam a demanda do mercado. Mas olhando para trás, no início do mercado de chips de IA, uma startup tinha que enfrentar vários desafios se quisesse ocupar gradativamente participação de mercado com a arquitetura TPU.

Hoje em dia, os grandes modelos trouxeram uma atualização na demanda por poder de computação, os chips de IA entraram em uma nova era e as vantagens da arquitetura TPU surgiram, o que também fez com que as expectativas de Zhonghao Xinying para a oportunidade de explosão do mercado fossem antecipadas. Yang Gongyifan disse acreditar que os cenários de aplicação de IA excederão em muito qualquer cenário de uso de computação anterior, e os recursos de computação necessários para os modelos de IA também excederão a imaginação dos recursos de computação na história humana. A procura do mercado aumentará rapidamente no curto prazo.

Para o futuro, ele espera que Zhonghao Xinying possa se tornar o líder na indústria de chips de IA da China, e a TPU tenha a melhor chance de se tornar algo semelhante a "x86" nesta faixa. Um novo capítulo na história dos chips de IA da China começou…

Durante o 2024 Global AI Chip Summit, realizado de 6 a 7 de setembro deste ano, Yang Gongyifan irá...

notícias