Revelando DeepSeek: Uma história mais extrema do idealismo tecnológico chinês 36Kr Exclusive

Revelando DeepSeek: Uma história mais extrema do idealismo tecnológico chinês 36Kr Exclusive |

2024-07-22

Texto | Yu Lili
Editor | Liu Jing

Entre as sete grandes startups modelo na China, DeepSeek é a menos famosa, mas sempre pode ser lembrada de maneiras inesperadas.

Há um ano, essa surpresa veio do fato de que a gigante quantitativa de private equity Huan Fang, por trás dela, era a única empresa fora dos grandes fabricantes a reservar 10.000 chips A100. Um ano depois, veio do fato de ser a fonte do. guerra de preços para os grandes modelos da China.

Em maio, continuamente bombardeado pela IA, o DeepSeek tornou-se famoso. A razão é que eles lançaram um modelo de código aberto chamado DeepSeek V2, que oferece uma relação custo-benefício sem precedentes: o custo de inferência é reduzido para apenas 1 yuan por milhão de tokens, o que é aproximadamente um sétimo do Llama3 70B, GPT-4 One- septuagésimo do Turbo.

Embora DeepSeek tenha sido rapidamente apelidado de "Pinduoduo da indústria de IA", grandes fabricantes como ByteDance, Tencent, Baidu e Alibaba também não aguentaram e reduziram os preços um após o outro. A grande guerra de preços modelo da China está prestes a estourar.

A fumaça dos tiros esconde, na verdade, o fato de que, ao contrário de muitas grandes empresas que gastam dinheiro em troca de subsídios, o DeepSeek é lucrativo.

Por trás disso está a inovação completa da DeepSeek em arquitetura de modelos. Ele propõe um novo MLA (Um novo mecanismo potencial de atenção para touros), reduzindo o uso de memória para 5% -13% da arquitetura MHA mais comumente usada no passado. Ao mesmo tempo, sua estrutura DeepSeekMoESparse original também reduz a quantidade de cálculo ao extremo, o que acaba contribuindo para o. redução de custos.

No Vale do Silício, DeepSeek é chamado de “o poder misterioso do Oriente”. O analista-chefe da SemiAnalysis acredita que o artigo DeepSeek V2 “pode ser o melhor deste ano”. O ex-funcionário da OpenAI, Andrew Carr, chamou o artigo de “cheio de sabedoria incrível” e aplicou suas configurações de treinamento ao seu próprio modelo. Jack Clark, ex-diretor de políticas da OpenAI e cofundador da Anthropic, acredita que DeepSeek “emprega um grupo de magos imprevisíveis” e acredita que grandes modelos fabricados na China “se tornarão tão importantes quanto drones e carros elétricos que não podem ser ignorados”. força."

Esta é uma situação rara na onda de IA em que o Vale do Silício basicamente conduz a história.Muitos membros da indústria nos disseram,Esta forte resposta decorre da inovação no nível arquitetônico, que é uma tentativa rara de grandes empresas nacionais de modelos e até mesmo de grandes modelos globais de código aberto. Um pesquisador de IA disse que a arquitetura de Atenção foi proposta há muitos anos, mas quase nunca foi modificada com sucesso, muito menos verificada em larga escala. “É até uma ideia que fica excluída da tomada de decisões porque a maioria das pessoas não tem confiança.”

Por outro lado, os grandes modelos nacionais raramente estiveram envolvidos em inovação a nível arquitectónico antes, também porque poucas pessoas tomam a iniciativa de quebrar tal estereótipo:Os Estados Unidos são melhores em inovação tecnológica de 0 a 1, enquanto a China é melhor em inovação de aplicações de 1 a 10. Além do mais, esse tipo de comportamento é muito antieconômico - uma nova geração de modelos será naturalmente produzida por alguém em alguns meses, e as empresas chinesas só precisam segui-lo e aplicá-lo bem. Inovar a estrutura do modelo significa que não há caminho a seguir, muitas falhas devem ser experimentadas e os custos de tempo e económicos são enormes.

DeepSeek é claramente um rebelde. Em meio ao clamor de que as tecnologias de grandes modelos convergirão inevitavelmente e seguirão um atalho mais inteligente, a DeepSeek valoriza o valor acumulado nos “desvios” e acredita que, além da inovação de aplicações, os grandes empreendedores de modelos da China também podem aderir à inovação tecnológica global. a torrente.

Muitas das escolhas do DeepSeek são únicas. A partir de agora, entre as 7 startups modelo de grande escala na China, é a única que desistiu da rota “necessidade e desejo” e se concentrou em pesquisa e tecnologia sem fazer aplicações toC. que não considerou totalmente a comercialização e escolheu com firmeza. Existem empresas que nem sequer levantaram capital na rota do código aberto. Estes fazem com que seja muitas vezes esquecido fora da mesa de poker, mas por outro lado, é frequentemente difundido pelos utilizadores da comunidade como “água da torneira”.

Como é feito o DeepSeek? Para tanto, entrevistamos Liang Wenfeng, o fundador do DeepSeek que raramente aparece.

Este fundador pós-anos 80, que estuda tecnologia nos bastidores desde a era Magic Square, ainda continua seu estilo discreto na era DeepSeek, como todos os pesquisadores, ele “lê artigos, escreve códigos e participa de discussões em grupo”. diariamente.

Ao contrário de muitos fundadores de fundos quantitativos que têm experiência em fundos de hedge no exterior e se especializam principalmente em física, matemática, etc., Liang Wenfeng sempre teve origem local e estudou inteligência artificial no Departamento de Engenharia Eletrônica da Universidade de Zhejiang em seus primeiros anos. .

Muitos membros da indústria e pesquisadores da DeepSeek nos disseram que Liang Wenfeng é uma pessoa muito rara na atual indústria chinesa de IA que "tem fortes capacidades de infra-engenharia e de pesquisa de modelos, e pode mobilizar recursos", "pode fazer julgamentos precisos de um alto lugar , e pode Alguém que é "melhor que os pesquisadores de linha de frente em detalhes", ele tem uma "capacidade de aprendizado terrível" e, ao mesmo tempo, "não é nada como um chefe, mas mais como um geek".

Esta é uma entrevista particularmente rara. Na entrevista, este idealista técnico forneceu uma voz que é particularmente escassa nos círculos científicos e tecnológicos da China:Ele é uma das poucas pessoas que coloca a “visão do certo e do errado” antes da “visão dos interesses”, lembra-nos a inércia dos tempos e coloca a “inovação original” na agenda.

Há um ano, quando o DeepSeek chegou ao fim, entrevistamos Liang Wenfeng pela primeira vez: "Quadrado Mágico Louco: O Caminho para Grandes Modelos de um Gigante de IA Invisível".Se você disser essa frase naquele momento"Você tem que ser loucamente ambicioso, mas também loucamente sincero."Ainda é um belo slogan, mas um ano depois tornou-se uma ação.

O seguinte faz parte da conversa:

Como começou o primeiro tiro da guerra de preços?

"Subcorrente": Após o lançamento do modelo DeepSeek V2, ele rapidamente desencadeou uma sangrenta guerra de preços de modelos em grande escala. Algumas pessoas disseram que você é um peixe-gato na indústria.

Liang Wen Feng: Não queríamos ser um bagre, apenas acidentalmente nos tornamos um.

"Subcorrente": Este resultado surpreende você?

Liang Wen Feng : Muito inesperado. Não esperava que o preço deixasse todos tão sensíveis. Apenas fazemos as coisas em nosso próprio ritmo e calculamos o preço de custo. Nosso princípio não é dar dinheiro nem obter lucros enormes. Este preço também é um ligeiro lucro acima do custo.

"Subcorrente": Zhipu AI seguiu 5 dias depois, seguida por Byte, Alibaba, Baidu, Tencent e outras grandes empresas.

Liang Wen Feng : Zhipu AI é um produto básico e modelos do mesmo nível que os nossos ainda são muito caros. Byte foi realmente o primeiro a seguir. O modelo principal caiu para o mesmo preço do nosso, o que levou outros grandes fabricantes a reduzirem seus preços. Como o custo dos modelos dos principais fabricantes é muito superior ao nosso, não esperávamos que alguém perdesse dinheiro fazendo isso e, no final, tornou-se a lógica dos subsídios para queimar dinheiro na era da Internet.

“Subcorrente”: Do lado de fora, as reduções de preços parecem tentar atrair os usuários, o que geralmente é o caso das guerras de preços na era da Internet.

Liang Wen Feng : Capturar usuários não é nosso objetivo principal. Por um lado, baixamos o preço porque estamos explorando a estrutura do modelo da próxima geração e o custo caiu primeiro. Por outro lado, também sentimos que tanto a API como a IA devem ser universais e acessíveis para todos.

"Subcorrente": Antes disso, a maioria das empresas chinesas copiava diretamente esta geração da estrutura Llama para aplicação. Por que você começou a partir da estrutura do modelo?

Liang Wen Feng : Se o objetivo é fazer aplicações, então utilizar a estrutura Llama e produtos curtos, planos e rápidos também é uma escolha razoável. Mas o nosso destino é a AGI, o que significa que precisamos de estudar novas estruturas de modelos para alcançar capacidades de modelo mais fortes com recursos limitados. Este é um dos estudos básicos necessários para escalar para um modelo maior. Além da estrutura do modelo, também fizemos muitas outras pesquisas, incluindo como estruturar dados, como tornar o modelo mais parecido com os humanos, etc., todas refletidas nos modelos que lançamos. Além disso, estima-se que a estrutura do Llama esteja duas gerações atrás dos níveis avançados estrangeiros em termos de eficiência de treinamento e custo de inferência.

"Subcorrente": De onde vem principalmente esse conflito de gerações?

Liang Wen Feng : Primeiro, há uma lacuna na eficiência do treinamento. Estimamos que a estrutura do modelo e a dinâmica de treinamento podem ser duas vezes mais diferentes entre os melhores modelos nacionais e os melhores modelos estrangeiros. Só por isso, temos que consumir o dobro do poder de computação para obter o mesmo efeito. Além disso, pode haver uma lacuna duplicada na eficiência dos dados, o que significa que temos de consumir o dobro de dados de formação e de capacidade computacional para obter o mesmo efeito. Ao todo, consome 4 vezes mais poder de computação. O que temos de fazer é continuar a diminuir essas lacunas.

"Subcorrente": A maioria das empresas chinesas opta por ter modelos e aplicações. Por que a DeepSeek atualmente opta apenas por fazer pesquisa e exploração?

Liang Wen Feng : Porque sentimos que o mais importante agora é participar na onda de inovação global. Nos últimos anos, as empresas chinesas habituaram-se a que outros fizessem inovações tecnológicas e que nós as usássemos para rentabilizar aplicações, mas isto não é uma coisa natural. Nesta onda, o nosso ponto de partida não é aproveitar a oportunidade de fazer fortuna, mas ir para a vanguarda da tecnologia para promover o desenvolvimento de todo o ecossistema.

"Subcorrente": A percepção inercial deixada à maioria das pessoas na era da Internet e da Internet móvel é que os Estados Unidos são bons em inovação tecnológica, enquanto a China é melhor em aplicações.

Liang Wen Feng: Acreditamos que com o desenvolvimento económico,A China também deve tornar-se gradualmente um contribuinte, em vez de ser sempre um parasita.Durante a onda de TI dos últimos trinta anos, basicamente não participamos de verdadeira inovação tecnológica. Nós nos acostumamos com a Lei de Moore caindo do céu, e hardware e software melhores serão lançados depois de apenas 18 meses em casa. A Lei de Escala também é tratada desta forma.

Mas, na verdade, isto é algo que a comunidade tecnológica dominada pelo Ocidente tem trabalhado incansavelmente para criar durante gerações, só porque não participamos neste processo antes, por isso ignorámos a sua existência.

A verdadeira lacuna não é de um ou dois anos, mas a diferença entre originalidade e imitação

"Subcorrente": Por que o DeepSeek V2 surpreenderia muitas pessoas no Vale do Silício?

Liang Wen Feng : Entre o grande número de inovações que ocorrem todos os dias nos Estados Unidos, esta é muito comum.A razão pela qual ficaram surpresos foi que se tratava de uma empresa chinesa comJunte-se ao jogo deles como um contribuidor inovador.Afinal, a maioria das empresas chinesas está acostumada a seguir em vez de inovar.

"Subcorrente": Mas no contexto chinês, esta escolha é demasiado extravagante. O grande modelo é um jogo de investimentos pesados, e nem todas as empresas têm capital para apenas pesquisar inovação sem primeiro considerar a comercialização.

Liang Wen Feng : O custo da inovação não é definitivamente baixo, e a inércia passada do apropriacionismo também está relacionada com as condições nacionais passadas. Mas agora, quer olhemos para a dimensão económica da China ou para os lucros de grandes empresas como a Byte e a Tencent, eles não são baixos no mundo. O que nos falta em inovação definitivamente não é capital, mas sim falta de confiança e não sabermos como organizar talentos de alta densidade para alcançar uma inovação eficaz.

"Subcorrente": Por que as empresas chinesas, incluindo as grandes empresas que não têm falta de dinheiro, consideram tão facilmente a rápida comercialização como a primeira prioridade?

Liang Wen Feng : Nos últimos trinta anos, apenas enfatizamos o ganho de dinheiro e ignoramos a inovação. A inovação não é inteiramente impulsionada pelos negócios, mas também requer curiosidade e criatividade. Estamos apenas presos à inércia do passado, mas também é uma fase.

"Subcorrente": Mas afinal, você é uma organização comercial, não uma instituição de pesquisa científica de bem-estar público. Você escolhe inovar e compartilhar por meio de código aberto. Inovações como a arquitetura MLA de maio serão em breve copiadas por outras empresas, certo?

Liang Wen Feng:existir Diante das tecnologias disruptivas, o fosso formado pela fonte fechada tem vida curta. Mesmo que o OpenAI seja de código fechado, ele não pode evitar que seja ultrapassado por outros.Por isso, depositamos valor na equipe. Nossos colegas crescem no processo, acumulam muito know-how e formam uma organização e cultura que pode inovar, que é o nosso fosso.

Na verdade, nada se perde com o código aberto e a publicação de artigos. Para a equipe técnica, ser seguido é uma grande sensação de dever cumprido. Na verdade, o código aberto é mais um comportamento cultural do que comercial. Dar é na verdade uma honra extra. Uma empresa que faça isso também terá apelo cultural.

"Subcorrente": O que você acha dos crentes do mercado como Zhu Xiaohu?

Liang Wen Feng: Zhu Xiaohu é autoconsistente, mas seu estilo de jogo é mais adequado para empresas que ganham dinheiro rapidamente. E se você olhar para as empresas mais lucrativas dos Estados Unidos, todas são empresas de alta tecnologia com profunda acumulação.

“Undercurrent”: Mas quando se trata de modelos de grande escala, é difícil obter uma vantagem absoluta simplesmente por ser líder em tecnologia.

Liang Wen Feng：O que vemos é que a IA chinesa nem sempre pode estar na posição de seguir. Costumamos dizer que existe uma lacuna de um ou dois anos entre a IA da China e a dos Estados Unidos, mas a verdadeira lacuna é a diferença entre originalidade e imitação. Se isto não mudar, a China será sempre uma seguidora, pelo que algumas explorações são inevitáveis.

A liderança da NVIDIA não é apenas o esforço de uma empresa, mas o resultado dos esforços conjuntos de toda a comunidade tecnológica e indústria ocidental. Eles podem ver a próxima geração de tendências tecnológicas e ter um roteiro em mãos. O desenvolvimento da IA na China também requer esse ecossistema. Muitos chips nacionais não podem ser desenvolvidos devido à falta de comunidades técnicas de apoio e apenas de informações de segunda mão. Portanto, a China deve ter alguém na vanguarda da tecnologia.

Mais investimento não leva necessariamente a mais inovação

"Subcorrente": O DeepSeek atual tem um temperamento idealista desde os primeiros dias do OpenAI e também é de código aberto. Você escolherá o código fechado no futuro? Tanto o OpenAI quanto o Mistral passaram pelo processo de passar de código aberto para código fechado.

Liang Wen Feng : Não fecharemos a fonte. Acreditamos que é mais importante ter primeiro um ecossistema técnico forte.

"Undercurrent": Você tem um plano de financiamento? De acordo com relatos da mídia, Huanfang tem planos de desmembrar e listar a DeepSeek de forma independente. As startups de IA no Vale do Silício estarão inevitavelmente vinculadas a grandes fabricantes no final.

Liang Wen Feng: Não existe um plano de financiamento no curto prazo. O problema que enfrentamos nunca foi o dinheiro, mas o embargo aos chips de alta qualidade.

"Subcorrente": Muitas pessoas acreditam que fazer AGI e quantificar são duas coisas completamente diferentes. A quantificação pode ser feita silenciosamente, mas a AGI pode exigir mais esforços e alianças de alto nível, o que pode aumentar o seu investimento.

Liang Wen Feng : Mais investimento não produz necessariamente mais inovação. Caso contrário, os grandes fabricantes poderão assumir todas as inovações.

"Subcorrente": Você não faz aplicações agora, é porque não tem genes para operar?

Liang Wen Feng : Acreditamos que o estágio atual é um período de explosão de inovação tecnológica, não um período de explosão de aplicações. No longo prazo, esperamos formar um ecossistema no qual a indústria use diretamente nossa tecnologia e produção. Somos responsáveis apenas por modelos básicos e inovações de ponta, e então outras empresas constroem negócios toB e toC baseados no DeepSeek. Se pudermos formar uma indústria upstream e downstream completa, não precisaremos fazer nós mesmos as aplicações. É claro que, se necessário, não há obstáculo para a aplicarmos, mas a investigação e a inovação tecnológica serão sempre a nossa primeira prioridade.

"Undercurrent": Mas quando se trata de escolher API, por que escolher DeepSeek em vez de grandes fabricantes?

Liang Wen Feng: O mundo futuro será provavelmente um mundo de divisão especializada do trabalho. Os modelos básicos de grande escala exigem inovação contínua. Os grandes fabricantes têm os seus próprios limites de capacidade e podem não ser necessariamente adequados.

"Subcorrente": Mas a tecnologia pode realmente ampliar a lacuna? Você também disse que não existem segredos técnicos absolutos.

Liang Wen Feng : Não há segredo na tecnologia, mas a redefinição leva tempo e custo. Em teoria, as placas gráficas da NVIDIA não possuem segredos técnicos e são fáceis de copiar, mas leva tempo para reorganizar a equipe e acompanhar a tecnologia da próxima geração, então o fosso real ainda é muito amplo.

“Undercurrent”: Depois que você baixou o preço, a Byte seguiu primeiro, o que mostra que eles ainda sentem algum tipo de ameaça. O que você acha da nova solução para startups competirem com grandes empresas?

Liang Wen Feng : Para ser sincero, não nos importamos muito com esse assunto, apenas fizemos isso por sinal. Fornecer serviços em nuvem não é nosso objetivo principal. Nosso objetivo ainda é alcançar AGI.

Não vi nenhuma solução nova até agora, mas os grandes fabricantes também não têm uma vantagem clara. Os grandes fabricantes têm utilizadores prontos, mas o seu negócio de fluxo de caixa também é um fardo, tornando-os vulneráveis à subversão a qualquer momento.

"Undercurrent": O que você acha do resultado das seis startups de grande porte além do DeepSeek?

Liang Wen Feng : Talvez 2 ou 3 famílias sobrevivam. Ainda estamos na fase de queima de dinheiro, pelo que aqueles que têm um auto-posicionamento claro e operações mais refinadas têm mais hipóteses de sobreviver. Outras empresas podem ser reinventadas. As coisas de valor não desaparecerão, mas mudarão.

“Subcorrente”: Na era do quadrado mágico, a atitude diante da concorrência era avaliada como “seguir o próprio caminho” e raramente prestar atenção às comparações horizontais. Em relação à concorrência, qual é o ponto de partida do seu pensamento?

Liang Wen Feng : O que penso frequentemente é se algo pode tornar a sociedade mais eficiente e se é possível encontrar uma posição onde seja bom nisso na divisão industrial da cadeia de trabalho. Desde que o resultado final seja tornar a sociedade mais eficiente, é válido. Existem muitos estágios intermediários, e a atenção excessiva inevitavelmente deixará você tonto.

Um grupo de jovens que fazem coisas “incompreensíveis”

"Undercurrent": Jack Clark, ex-diretor de políticas da OpenAI e cofundador da Anthropic, acredita que o DeepSeek contratou "um grupo de magos imprevisíveis". Que tipo de pessoa fez o DeepSeek v2?

Liang Wen Feng: Não existem gênios misteriosos, são todos recém-formados em universidades de ponta, estagiários com doutorado 4 e 5 que não se formaram e alguns jovens que se formaram há apenas alguns anos.

"Subcorrente": Muitas grandes empresas modelo são persistentes em caçar pessoas no exterior. Muitas pessoas pensam que os 50 maiores talentos nesta área podem não estar nas empresas chinesas.

Liang Wen Feng : Não tem gente que voltou do exterior no modelo V2, são todos locais. Os 50 maiores talentos podem não estar na China, mas talvez possamos nós mesmos formar essas pessoas.

"Undercurrent": Como aconteceu essa inovação do MLA? Ouvi dizer que a ideia surgiu do interesse pessoal de um jovem pesquisador?

Liang Wen Feng : Depois de resumir algumas mudanças importantes na arquitetura do Attention, de repente ele quis projetar uma alternativa. No entanto, é um longo processo desde a ideia até a implementação. Formamos uma equipe para isso e levamos vários meses para superar isso.

“Subcorrente”: O nascimento desta inspiração divergente está intimamente relacionado com a estrutura da sua organização completamente inovadora. Na era do Quadrado Mágico, raramente você atribui metas ou tarefas de cima para baixo. Mas será que a AGI, uma exploração de fronteira cheia de incertezas, exige mais ações de gestão?

Liang Wen Feng : DeepSeek também é totalmente de baixo para cima. Além disso, geralmente não pré-posicionamos a divisão do trabalho, mas sim a divisão natural do trabalho. Cada um tem sua própria experiência de crescimento e vem com suas próprias ideias, portanto, não há necessidade de pressioná-los. Durante o processo de exploração, quando encontrar problemas, ele convidará outras pessoas para discuti-los. Mas quando uma ideia mostra potencial, alocaremos recursos de cima para baixo.

"Undercurrent": Ouvi dizer que o DeepSeek é muito flexível na mobilização de cartões e pessoas.

Liang Wen Feng : Cada um de nós não tem limite máximo de transferência de cartões e pessoas. Se você tiver uma ideia, todos podem ligar para o cartão do cluster de treinamento a qualquer momento sem aprovação. Ao mesmo tempo, como não existem hierarquias e interdepartamentos, todos podem ser chamados com flexibilidade, desde que a outra parte também esteja interessada.

"Subcorrente": Um método de gerenciamento flexível também depende de você selecionar um grupo de pessoas movidas por um amor forte. Ouvi dizer que você é muito bom em recrutar pessoas com base em detalhes e pode selecionar algumas pessoas excelentes com base em indicadores de avaliação não tradicionais.

Liang Wen Feng : Nossos critérios de seleção de pessoas sempre foram amor e curiosidade, então muitas pessoas terão experiências únicas, o que é muito interessante. Muitas pessoas desejam fazer pesquisas muito mais do que se preocupam com dinheiro.

"Undercurrent": O Transformer nasceu no AI Lab do Google e o ChatGPT nasceu no OpenAI. Qual você acha que é a diferença no valor da inovação entre o AILab de uma grande empresa e uma empresa iniciante?

Liang Wen Feng : Quer se trate do Google Labs, OpenAI ou mesmo dos AI Labs das principais empresas chinesas, todos eles são valiosos. No final, a OpenAI conseguiu, e também foi um acidente histórico.

"Subcorrente": A inovação é em grande parte um acidente? Vejo que a fileira de salas de conferência no meio da área do seu escritório tem portas à esquerda e à direita que podem ser abertas à vontade. Os seus colegas disseram que isto é para deixar espaço ao acaso. No nascimento do transformador, houve uma história em que pessoas que passavam por acaso ouviram falar dele e aderiram, acabando por transformá-lo em uma estrutura universal.

Liang Wen Feng : Acho que a inovação é antes de tudo uma questão de crença. Por que o Vale do Silício é tão inovador? A primeira é ousar. Quando o Chatgpt foi lançado, todo o país não tinha confiança na inovação de ponta. Desde investidores a grandes fabricantes, todos sentiram que a lacuna era muito grande, por isso deveriam apenas fazer aplicações. Mas a inovação requer primeiro confiança. Esta confiança é geralmente mais pronunciada nos jovens.

"Subcorrente": Mas você não participa do financiamento, raramente fala com o mundo exterior e sua voz social definitivamente não é tão boa quanto a das empresas que atuam no financiamento. Como você pode garantir que o DeepSeek seja a primeira escolha? pessoas que desejam construir modelos grandes?

Liang Wen Feng: Porque estamos fazendo a coisa mais difícil.O que mais atrai os melhores talentos é definitivamente resolver os problemas mais difíceis do mundo. Na verdade, os principais talentos são subestimados na China. Como existem muito poucas inovações radicais em todo o nível social, elas não têm chance de serem identificadas. Estamos fazendo a coisa mais difícil, que é atraente para eles.

"Subcorrente": O lançamento do OpenAI há algum tempo não esperou pelo GPT5. Muitas pessoas pensam que a curva tecnológica está obviamente desacelerando e muitas pessoas estão começando a questionar a Lei de Escala.

Liang Wen Feng : Estamos otimistas e toda a indústria parece estar em linha com as expectativas. OpenAI não é um deus e nem sempre pode estar na vanguarda.

"Subcorrente": Quanto tempo você acha que levará para o AGI ser realizado? Antes de lançar o DeepSeek V2, você lançou a geração de código e modelos matemáticos, e também mudou de modelos densos para MOE. Então, quais são as coordenadas do seu roteiro AGI?

Liang Wen Feng : Pode demorar 2 anos, 5 anos ou 10 anos. Em suma, será realizado durante a nossa vida. Quanto ao roadmap, mesmo dentro da nossa empresa não há consenso. Mas apostamos em três direções. Um é matemática e código, o segundo é multimodalidade e o terceiro é a própria linguagem natural. Matemática e código são o campo de testes natural para AGI. É um pouco como Go. É um sistema fechado e verificável, e é possível alcançar alta inteligência por meio do autoaprendizado. Por outro lado, a aprendizagem multimodal que envolve humanos no mundo real também pode ser necessária para a AGI. Estamos abertos a todas as possibilidades.

"Undercurrent": Como você acha que será o final da grande modelo?

Liang Wen Feng : Haverá empresas especializadas que fornecerão modelos básicos e serviços básicos, e haverá uma longa cadeia de divisão profissional do trabalho. Mais pessoas podem atender às diversas necessidades da sociedade como um todo.

Todas as rotinas são produtos da geração anterior

"Subcorrente": No ano passado, houve muitas mudanças no grande modelo de empreendedorismo da China. Por exemplo, Wang Huiwen, que estava ativo no início do ano passado, retirou-se da empresa no meio do mandato, e das empresas às quais ingressou mais tarde. começou a mostrar diferenciação.

Liang Wen Feng : Wang Huiwen sofreu sozinho todas as perdas e deixou outros escaparem ilesos. Ele fez uma escolha que foi muito prejudicial para si mesmo, mas melhor para todos, então ele é uma pessoa muito gentil, que admiro muito.

"Undercurrent": Onde você concentra a maior parte de sua energia agora?

Liang Wen Feng : O foco principal está na pesquisa da próxima geração de modelos grandes. Ainda há muitas perguntas sem resposta.

"Subcorrente": Várias outras grandes startups de modelos insistem em ter ambos. Afinal, a tecnologia não trará liderança permanente. Também é importante aproveitar a janela de tempo para colocar as vantagens técnicas em produtos. isso porque a capacidade do modelo não é suficiente?

Liang Wen Feng : Todas as rotinas são produtos da geração anterior e podem não ser válidas no futuro. Use a lógica de negócios da Internet para discutir o modelo de lucro futuro da IA, assim como quando Ma Huateng iniciou seu negócio, você discutiu a General Electric e a Coca-Cola. Provavelmente é uma espécie de esculpir um barco em busca de uma espada.

"Subcorrente": No passado, Huanfang tinha fortes genes de tecnologia e inovação, e seu crescimento foi relativamente suave. É por isso que você está otimista?

Liang Wen Feng : Magic Square aumentou até certo ponto a nossa confiança na inovação impulsionada pela tecnologia, mas nem sempre é um caminho tranquilo. Passamos por um longo processo de acumulação. O que vemos de fora é a parte do Magic Square depois de 2015, mas na verdade já fazemos isso há 16 anos.

"Subcorrente": De volta ao tema da inovação original. Agora que a economia entrou numa recessão e o capital entrou num ciclo de frio, isso trará mais restrições à inovação original?

Liang Wen Feng : Eu não acho. O ajustamento da estrutura industrial da China dependerá mais da inovação em tecnologias fundamentais. Quando muitas pessoas descobrirem que ganhar dinheiro rápido no passado provavelmente se deveu à sorte da época, elas estarão mais dispostas a se apoiar e fazer inovações reais.

"Undercurrent": Então você também está otimista em relação a esse assunto?

Liang Wen Feng : Cresci numa cidade de quinto nível em Guangdong na década de 1980. Meu pai é professor primário. Na década de 1990, havia muitas oportunidades de ganhar dinheiro em Guangdong. Naquela época, muitos pais vinham à minha casa. Mas olhando para trás agora, minhas ideias mudaram. Como é difícil ganhar dinheiro, posso até não ter chance de dirigir um táxi. Isso muda em uma geração.

Haverá cada vez mais inovações radicais no futuro. Pode não ser fácil compreender agora porque todo o grupo social precisa de ser educado sobre os factos. Quando esta sociedade permitir que pessoas inovadoras tenham sucesso, o pensamento de grupo mudará.Precisamos apenas de um monte de fatos e de um processo.

notícias

Revelando DeepSeek: Uma história mais extrema do idealismo tecnológico chinês 36Kr Exclusive |

Introdução

minhas informações de contato