notícias

Llama3.1 não pode ser vendido de forma alguma! Membros da indústria: O custo dos modelos de código aberto é mais alto

2024-08-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Yunzhong veio do Templo Aofei
Qubits | Conta pública QbitAI

O grande modelo de código aberto da Meta, Llama 3, tem estado lento no mercado, intensificando ainda mais o foco no debate entre código aberto e código fechado para modelos grandes.

De acordo com a mídia estrangeira The Information, o grande modelo de código aberto da Meta, Llama 3, tem sido difícil de atrair a atenção da AWS da Amazon, o maior fornecedor de nuvem do mundo, clientes corporativos da AWS.Prefira usar o grande modelo de código fechado da Anthropic, Claude

De acordo com especialistas da Microsoft,Llama também não é a principal escolha de vendas da Microsoft, é mais provável que recomendem o Llama para empresas com experiência em dados, como empresas com engenheiros e cientistas de dados internos.

A Meta agora enfrenta desafios, o que pode inspirar a Meta a construir sua própria equipe de vendas de produtos de IA para atender às necessidades das empresas. Esta série de problemas também destaca as dificuldades no processo de comercialização de grandes modelos de código aberto. Do ponto de vista da selecção do mercado, os efeitos reais e os retornos comerciais do modelo de código aberto podem não satisfazer as expectativas dos clientes empresariais.

face"Código aberto ou código fechado"Sobre o assunto, os principais fabricantes nacionais de modelos formaram posições completamente diferentes com base em seus próprios rumos técnicos e estratégias de negócios. Então, como as empresas devem escolher modelos grandes e como encontrar o melhor equilíbrio entre os dois?

Nesse contexto,Xin Zhou, gerente geral da Baidu Intelligent Cloud AI e plataforma de modelo grandeEle foi entrevistado pela mídia e analisou detalhadamente a lógica subjacente, as estratégias de negócios e as previsões do mercado futuro no debate entre código aberto e código fechado.

Xinzhou acredita que,Há uma diferença essencial entre código aberto de grandes modelos e código aberto de software——Como o modelo de código aberto não abre o código-fonte de treinamento, dados de pré-treinamento e ajuste fino e outras informações importantes que afetam o efeito do modelo, ele não pode contar com a participação de desenvolvedores da comunidade para melhorar o efeito e o desempenho como software de código aberto No entanto, o treinamento do modelo básico só pode ficar nas mãos dos próprios fabricantes.

Ao falar sobre "quem é mais caro, o modelo de código aberto ou o modelo de código fechado?", Xin Zhou disse que o modelo de código aberto é gratuito e dá às pessoas a impressão de baixo custo, masA aplicação de grandes modelos não é apenas uma tecnologia única, mas uma solução completa que abrange “tecnologia + serviços”, e as empresas devem calcular o “razão geral”. Quando o negócio for realmente implementado, se o modelo de código aberto quiser obter o mesmo efeito que o modelo de código fechado, será necessário um grande investimento subsequente em mão de obra, dinheiro e tempo, e o custo geral será maior.

Para quais cenários os modelos de código aberto e de código fechado são adequados? Xinzhou acredita que,O modelo de código aberto é mais adequado para pesquisas acadêmicas, mas não é adequado para projetos comerciais de grande escala que prestam serviços ao mundo exterior. Em alguns projetos sérios com milhões ou mesmo dezenas de milhões de investimentos, o modelo de código fechado ainda é. o protagonista.

“O modelo de código aberto não é barato”

A seguir está o texto completo editado da entrevista:

1. No mercado de modelos de grande porte, qual o papel de cada fabricante de modelos? Qual é o modelo de negócios?

Xinzhou: Nesta festa de grandes modelos, o posicionamento e o modelo de negócio de cada fabricante são diferentes, podendo ser divididos grosso modo em três categorias:

Para o primeiro tipo de função, para fornecedores de nuvem, o modelo de negócios é, na verdade, vender recursos de computação. Reduza custos e melhore a elasticidade dos recursos através da escala para obter lucratividade. Este é o modelo duradouro dos fornecedores de nuvem. Independentemente de ser um modelo de código aberto ou um modelo de código fechado, desde que seja hospedado pelo fornecedor de nuvem, o fornecedor de nuvem pode ganhar dinheiro.

O segundo tipo de função é tanto um fornecedor de nuvem quanto um fornecedor de modelo. Eles esperam levar os negócios para a nuvem por meio do uso de modelos. Atualmente, o lucro de depender apenas de chamadas de API de modelo ainda é muito baixo. Atualmente, eles esperam ocupar uma fatia favorável do mercado e continuar em busca de novas oportunidades de expansão na grande mesa de modelos.

O terceiro tipo de função, para fabricantes de modelos empreendedores, depois que os principais fornecedores de nuvem anunciaram cortes nos preços dos modelos, o volume de chamadas caiu drasticamente. O campo dos grandes modelos em breve se transformará em uma batalha entre vários grandes fornecedores de nuvem. As startups de grandes modelos se concentrarão em setores específicos, privatizarão projetos toB ou se transformarão em produtos toC.

2. Por que se diz que “o modelo de código aberto não é barato e a tecnologia ficará cada vez mais atrasada”?

Xinzhou: Vamos falar primeiro sobre o problema da tecnologia atrasada.

Primeiro, o código aberto de grandes modelos não pode melhorar o desempenho do modelo.

contrastesoftware de código aberto, como o sistema operacional móvel Android e o software de banco de dados MySQL. Todos os códigos-fonte desses softwares de código aberto são abertos e desenvolvedores de toda a sociedade podem participar do desenvolvimento do código. Isso pode não apenas reduzir os custos de desenvolvimento de software, mas também acelerar a iteração do software e melhorar a segurança do software. Este é o valor do código aberto para o software.

O modelo de código aberto é muito mais complexo, que pode ser de código aberto, incluindo código-fonte de treinamento de modelo, pesos de parâmetros, dados de treinamento, etc.No entanto, atualmente os fabricantes de modelos geralmente apenas têm pesos de parâmetros de código aberto, mas o código-fonte de treinamento, os dados de treinamento etc. não são de código aberto. Isso torna os desenvolvedores incapazes de melhorá-los e contribuir para a eficácia do modelo de código aberto.

Por exemplo, para Llama, cada melhoria no desempenho do modelo é, na verdade, resultado do treinamento do próprio Meta, e não da participação do desenvolvedor. Não há muita diferença entre Llama2 e Llama3 em termos de estrutura de rede. Por um lado, o processo da fase de treinamento é otimizado, como o treinamento em vários estágios, por outro lado, muitos dados são adicionados. Os dados do Llama2 e do Llama3 são uma ordem de grandeza diferente. tempo trazem melhores resultados ao modelo.

Mas esses bons efeitos são todos criados pelo próprio Meta, e não há como usar o poder dos desenvolvedores, muito menos o processo de feedback da comunidade como o software de código aberto.

Em segundo lugar, o modelo de código aberto ficará cada vez mais para trás porque não existe um bom modelo de negócios que garanta a iteração contínua do modelo.

O treinamento de modelos e a anotação de dados são muito caros, a menos que haja fortes recursos empresariais como o Meta para apoiar o desenvolvimento sustentável de modelos de código aberto, se for uma empresa start-up com modelos de código aberto, não será capaz de formar um negócio fechado. laço. Ao mesmo tempo, os desenvolvedores não podem contribuir para a eficácia do seu modelo, então as startups devem ficar cada vez mais para trás ao fazer isso. A julgar pelos resultados, o melhor modelo é, na verdade, IA aberta, e os modelos no topo da lista de avaliação atual são todos modelos de código fechado.

Vamos falar sobre por que o modelo de código aberto não é barato.A aplicação de grandes modelos é uma solução completa que abrange “tecnologia + serviços”. As empresas que aplicam grandes modelos precisam “calcular o razão geral”. Como calcular o razão geral?

O primeiro nível é calcular o custo dos recursos de hardware.. Como os modelos de negócios de código fechado serão equipados com cadeias de ferramentas correspondentes, incluindo cadeias de ferramentas de treinamento e cadeias de ferramentas de inferência, o desempenho dessas cadeias de ferramentas é melhor do que o de código aberto. Para os clientes, o treinamento pode economizar cerca de 10 a 20% dos custos de hardware. , você economiza mais na hora de raciocinar, e quanto maior a escala do negócio, mais você economiza.

O segundo nível é observar os benefícios comerciais trazidos pelo modelo. Para modelos com a mesma escala de parâmetros, os resultados de código fechado são melhores. Alguns clientes não são tão sensíveis à precisão de 90% ou 95%. Mas existem alguns negócios, como a publicidade comercial, onde o CPM e o CTR estão separados por apenas um ponto. Para a plataforma de publicidade, pode haver dezenas de milhões de discrepâncias por dia, empresas com requisitos mais elevados para efeitos de modelo. estão mais dispostos a comprar um modelo de código fechado que funcione melhor.

O terceiro nível inclui custo de oportunidade e custo de mão de obra.. Se você usar um modelo de negócios de código fechado para convergir mais rapidamente, poderá lançar novos produtos mais rapidamente do que seus concorrentes. Em um modelo de negócios de código fechado, o fabricante adaptou o modelo e o hardware ao estado ideal e os clientes podem simplesmente copiar a experiência madura. Mas se você usar código aberto, terá que adaptá-lo sozinho, e o custo do poder de computação e dos engenheiros será maior.

Portanto, dizemos que os modelos de aplicativos corporativos precisam “calcular o razão geral”, e o cálculo desse razão geral será muito diferente.

3. Por que o código aberto é muito mais caro do que o código fechado em termos de custo de hardware?
Xinzhou: A maioria dos clientes empresariais comprará dois ou mais tipos de hardware porque terão que considerar a segurança e a flexibilidade da cadeia de fornecimento. Se o modelo de código aberto precisar ser adaptado em cada peça de hardware, o custo será muito alto.

Isto reflecte as vantagens do modelo de negócio de código fechado, porque pode partilhar o custo da adaptação de software e hardware através de vendas em grande escala. Além disso, a adaptação multi-core é uma questão muito técnica do Baidu.Plataforma de computação heterogênea BaigeMuitas otimizações foram feitas especificamente para a heterogeneidade de vários núcleos e são adequadas para vários hardwares. O próprio Baige pode proteger várias diferenças na camada de hardware. Existem muitas bibliotecas de aceleração, bibliotecas de inferência e bibliotecas de treinamento. Baige também fornece otimização ponta a ponta para o grande modelo Wenxin.

A vantagem disso para os clientes é que eles podem executar rapidamente, independentemente do hardware que usam, e o tempo e os custos de mão de obra economizados são muito altos.

4. Em quais cenários o modelo de código aberto e o modelo de código fechado são adequados, respectivamente?

Xinzhou: A ideia geral é: se você quiser testar e verificar em cenários de negócios individuais, você pode primeiro executá-lo com um modelo de código fechado, executá-lo imediatamente e verificá-lo rapidamente em alguns negócios sérios que custam milhões ou; dezenas de milhões de dólares. Em projetos que exigem alta escala e precisão, os modelos de negócios de código fechado ainda são a melhor escolha para as empresas. Somente em alguns cenários de negócios que não possuem requisitos elevados em termos de efeitos e desempenho, mas exigem implantação privada e são particularmente sensíveis ao preço, considere usar o modelo de código aberto.

O código aberto é valioso para a promoção acadêmica e de pesquisa, como a otimização do desempenho da engenharia de inferência, o impacto do pré-treinamento e do ajuste fino dos dados nos resultados, etc. Se puder abrir o código-fonte de mais coisas, como código de treinamento, dados de treinamento, e ajuste fino de instrução Os dados e assim por diante também são abertos e seu valor para a pesquisa acadêmica e o desenvolvimento tecnológico será maior. Mesmo que apenas os pesos do modelo sejam abertos, isso fornece aos pesquisadores um bom modelo base.

5. Alguns fabricantes esperam que tanto o código aberto quanto o código fechado possam ser perseguidos ao mesmo tempo. Ou seja, o modelo de código aberto atrai usuários para expandir o ecossistema, enquanto o modelo de código fechado é responsável pela comercialização.

Xinzhou: Se você ainda não praticou, parece viável. Mas a realidade é:

Na nuvem pública, entre as chamadas anunciadas por diversos fabricantes, o volume de chamadas do modelo de código fechado é muito superior ao do modelo de código aberto, o que mostra que o modelo de código aberto não desempenha realmente um papel na atração usuários para expandir o ecossistema na nuvem pública.. Além disso, quando o ajuste fino é feito na nuvem pública, tanto os modelos de código aberto quanto os de código fechado podem ser implementados, para que os clientes escolham diretamente o melhor modelo na nuvem pública.

Em termos de implantação privatizada, esta lógica faz sentido até certo ponto.. Muitas empresas começam primeiro com modelos de código aberto para testes. Mais tarde, descobrem que os resultados são bons e desejam comprá-los. Eles escolherão o modelo de código aberto para corresponder ao modelo de código fechado do fabricante, porque o mesmo modelo de código-fonte é mais adaptável. prompts. Nesse caso, essa lógica é verdadeira.Mas esse valor está diminuindo gradativamente. Como as capacidades gerais dos modelos de cada fabricante estão melhorando rapidamente, os custos de mudança estão cada vez mais baixos, eliminando gradualmente a herança deste modelo.

Existem também alguns fabricantes que lançam modelos de código aberto para promover hardware. Por exemplo, a Nvidia lança um modelo de código aberto. Sua lógica de negócios é muito simples e você precisa comprar uma placa para usar o modelo.

6. Por que o Baidu não lançou um modelo de código aberto?

Xin Zhou: A partir do volume de implantação de vários fabricantes, ficou claro que os modelos comerciais de código fechado com o maior volume de implantações na nuvem pública não têm muito impacto na nuvem pública.

No mercado privatizado, à medida que a consciência dos clientes sobre os grandes modelos continua a melhorar, o código aberto e o código fechado gradualmente deixaram de se tornar um fator-chave.. Depois de me comunicar com muitos clientes de grandes empresas, descobri que há muitos fatores que determinam se os líderes empresariais devem usar um modelo. A ordem de prioridade geralmente é: efeito, desempenho, segurança e preço. Se um modelo é de código aberto ou fechado não é um fator decisivo.

7. Você mencionou que as coisas mais importantes para as empresas na escolha dos modelos são efeito, desempenho, segurança e preço. A "Máquina multifuncional de modelo grande Qianfan" lançada pela Baidu Cloud está testando um novo modelo de negócios que integra software e. hardware?

Xinzhou: Atualmente, o uso de grandes modelos pelas empresas ainda está em fase exploratória e há uma forte necessidade de produtos prontos para uso e de baixo custo para verificar rapidamente os cenários de uso e os efeitos de grandes modelos. "Máquina multifuncional modelo grande Qianfan" é muito adequada para o estágio atual, porque há muitas demandas para implantação privatizada na China. Nossa máquina multifuncional é aberta e pode ser adaptada a uma variedade de hardware, integrando-se. todos os principais produtos do mercado. A máquina multifuncional Qianfan de modelo grande da Baidu Smart Cloud oferece dois recursos:

Primeiro, forneça uma plataforma integrada para adaptação de software e hardware, esta plataforma possui grandes modelos Wenxin integrados e os principais modelos de código aberto da indústria e salas de amostra de aplicativos de cenário. Modelos populares de código aberto também foram adaptados e otimizados. Os usuários podem executá-los diretamente na máquina multifuncional sem precisar ajustar os próprios modelos. Ao mesmo tempo, a máquina multifuncional de grande modelo da Qianfan pode fornecer soluções integradas de software e hardware para grandes modelos, desde gerenciamento e controle básicos, estrutura de IA, treinamento de modelo, raciocínio preditivo e aplicação de cenário, fornecendo aos clientes software de processo completo e serviços de hardware.

segundoA máquina multifuncional de modelo grande Qianfan é muito econômica devido à otimização de desempenho de ponta a ponta e à capacidade de extrair todo o desempenho do hardware. Os clientes podem usá-lo rapidamente e com menor custo.

Em termos de preço geral, o preço da máquina multifuncional Qianfan é muito menor do que comprar o servidor, modelo grande e plataforma separadamente. Para os clientes, ela pode ser usada imediatamente.

8. Hoje em dia, muitas pessoas sentem que não basta usar apenas grandes modelos básicos. Ainda precisamos construir modelos industriais para realmente realizar a implementação industrial de grandes modelos. Então, quanto custa atualmente para uma empresa treinar sozinha um modelo de indústria?

Xinzhou: O custo é muito alto. Primeiro, esse custo aumenta linearmente dependendo do tamanho do parâmetro do modelo a ser treinado. Em segundo lugar, depende do tamanho do volume de dados. Finalmente, existe o custo de rotulagem de dados.

Se você quiser treinar um modelo 70b do zero, poderá precisar de 30 milhões em recursos de nuvem elástica. Se você quiser treinar um modelo com um número maior de parâmetros, o custo pode chegar a centenas de milhões. Isso deve ser treinado por pessoas experientes. Se você for inexperiente e fizer alguns desvios no processo, o custo será maior.

9. Com um custo tão elevado, como uma empresa pode determinar se precisa construir um modelo de indústria?

Xinzhou: Não recomendamos que os clientes construam apenas um modelo básico da indústria desde o início, independentemente do lucro. O custo deve ser muito alto, independentemente dos benefícios. Ajudaremos os clientes a analisar suas necessidades primeiro.

Por exemplo, se você desenhar um sistema de coordenadas, a abcissa será a sensibilidade da tarefa e a ordenada será a demanda por dados do setor. A chamada sensibilidade da tarefa refere-se a se o cenário está fortemente relacionado à indústria e aos negócios. Por exemplo, na área médica, essas são questões bastante profissionais. O eixo vertical é a procura de dados da indústria. Quanto mais fechada for a indústria e quanto menos dados houver na rede pública, mais pré-formação será necessária. Por exemplo, na área médica, algumas informações dessensibilizadas de registros médicos precisam ser pré-treinadas no modelo.

Através da análise, neste eixo de coordenadas, o canto inferior esquerdo não possui características do setor nem dados do setor, portanto o modelo geral pode ser usado diretamente, mas o canto superior direito é sensível aos atributos de negócios deste setor e requer muitos dados do setor .É hora de construir um modelo de indústria.

Geralmente recomendamos que as empresas sigam três etapas.

O primeiro passo é a verificação do valor. Construção inicial de modelos de infraestrutura de software e hardware em grande escala e construção de modelos industriais preliminares em grande escala. Combinado com a aplicação de IA generativa relativamente madura, os resultados podem ser vistos rapidamente. Por exemplo, por meio da versão leve da plataforma de modelo grande Qianfan, são adicionadas aplicações maduras, como atendimento inteligente ao cliente, gerenciamento de conhecimento empresarial e humanos digitais.

A segunda etapa é conectar profundamente vários aplicativos da empresa. A infraestrutura do modelo grande foi melhorada e atualizada para o Qianfan Large Model Ultimate Edition. Além do treinamento e ajuste relacionado aos modelos grandes, também inclui uma plataforma para construção de aplicativos. A Baidu e seus parceiros ecológicos estão profundamente envolvidos no treinamento e operação de modelos de grande escala dentro da empresa, construindo uma atmosfera técnica, treinando talentos relevantes e trabalhando com a empresa para resolver problemas de negócios difíceis e agregar mais valor à empresa.

A terceira etapa é a inovação abrangente e a controlabilidade independente. A empresa domina as tecnologias relevantes de desenvolvimento de grandes modelos e aplicações, e também possui o escalão de talentos correspondente, o que lhe permite desenvolver-se melhor de forma independente e controlada e iniciar uma inovação abrangente. O Baidu servirá como suporte técnico e consultor de longo prazo para auxiliar no desenvolvimento e continuar a trazer novas tecnologias e soluções para a empresa.

10. Como você avalia o mercado de modelos de grande porte no próximo ano?

Xinzhou: Tenho três julgamentos sobre a tendência de desenvolvimento no próximo ano:

Primeiro, a multimodalidade se tornará um novo foco no mercado.

Em segundo lugar, haverá uma grande explosão de aplicações baseadas em modelos grandes, e uma direção muito importante é o Agente.. Se um modelo grande executar apenas as ações prescritas de “entrada e saída”, isso limitará enormemente seu valor. Deveria ser mais parecido com um ser humano, capaz de usar ferramentas, colaborar uns com os outros, planejar e pensar, e refletir e iterar. . Ele precisa ser combinado com vários componentes e plug-ins para atender às necessidades de cenários de negócios específicos, de modo que o Agent se tornará a chave para os próximos fabricantes de modelos.

Terceiro, haverá mais oportunidades para aplicações empresariais, como base de conhecimento, atendimento ao cliente, pessoal digital, escrita de código auxiliar e outros cenários.Por exemplo, usando grandes modelos para escrever código, o Baidu tem um produto chamado "Wenxin Quick Code", que tem sido amplamente utilizado no Baidu. A taxa de adoção pode chegar a 46%, e a proporção de novo código gerado atingiu 30%, o que é muito importante. pode ajudar as empresas a melhorar muito a eficiência do desenvolvimento. Ao mesmo tempo, surgirá um grande número de empresas envolvidas no desenvolvimento de aplicações de IA. Essas empresas podem reduzir os custos de implantação e cópia de aplicações a um nível suficientemente baixo, desde que a eficiência operacional seja suficientemente alta, elas podem se destacar.