notícias

A direção dos modelos em grande escala mudou e a OpenAI Apple deu meia-volta

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


coisas inteligentes
AutorZeR0
Editor Mo Ying

A IA generativa parece ter um padrão invisível: de vez em quando, ocorre um evento chocante de “acidente de carro” em grande escala.

Somente este ano, o modelo Google Gemini 1.5 Pro foi lançado, o modelo de geração de vídeo OpenAI Sora foi lançado e o OpenAI GPT-4o foi lançado na Google I/O Developer Conference, permitindo que espectadores de todo o mundo sentissem o cheiro da forte concorrência por hegemonia entre grandes modelos. O cheiro de pólvora.

Se todas as coincidências anteriores sugerem que a OpenAI interceptou deliberadamente o Google, então, dentro de quatro dias na semana passada, Hugging Face, OpenAI, Mistral e Apple lançaram sucessivamente seus modelos leves mais poderosos, que é definitivamente a última tendência na indústria de IA.

Agora, os grandes modelos de IA não se tratam mais apenas de corridas"Maior e mais forte", e enrolou-se violentamente"Faça coisas pequenas e faça coisas boas"

Superar o GPT-4o não é mais o único KPI Os modelos grandes entraram em um período crítico de jogo para competir pelo mercado, não devemos apenas contar com a exibição de força técnica, mas também provar que nossos próprios modelos são mais caros. -eficaz--O modelo é menor com o mesmo desempenho, e o desempenho é maior com os mesmos parâmetros e economiza dinheiro.


▲ Os modelos leves recém-lançados GPT-4o mini e Mistral NeMo na semana passada são líderes em termos de desempenho de custo (Fonte: Análise Artificial)

Na verdade, esta tendência tecnológica de “grandes modelos retrocedendo para a miniaturização” começou a fermentar no segundo semestre do ano passado.

Os divisores de águas são duas empresas. Uma é a startup francesa de IA Mistral AI. Em setembro do ano passado, ela usou um grande modelo com 7 bilhões de parâmetros para derrotar o Llama 2 com 13 bilhões de parâmetros. Face the Wall Intelligence. Em fevereiro deste ano lançou um modelo final mais concentrado MiniCPM, alcançando desempenho superior ao Llama 2 13B com apenas 2,4 bilhões de parâmetros.

Ambas as startups são bem conhecidas na comunidade de desenvolvedores e muitos modelos estão no topo da lista de aplicativos de código aberto. Em particular, a Wall-Facing Intelligence, que nasceu do Laboratório de Processamento de Linguagem Natural da Universidade de Tsinghua, causou alvoroço este ano quando seu modelo multimodal foi “descascado” por uma equipe das melhores universidades dos Estados Unidos. o trabalho original foi reconhecido nos círculos acadêmicos no país e no exterior, fazendo com que os modelos nacionais de IA de código aberto se orgulhem de si mesmos.

A Apple também começou a pesquisar modelos terminais que possam se adaptar melhor aos telefones celulares desde o ano passado. A OpenAI, que tem seguido o caminho de uma expansão extensa e violenta, é um novo participante relativamente surpreendente. O lançamento do modelo leve GPT-4o mini na semana passada significa que o irmão modelo mais velho tomou a iniciativa de sair do “altar” e passou a seguir a tendência da indústria, tentando usar modelos mais baratos e fáceis de obter para alavancar um mercado mais amplo.

2024 será um ano crítico para a “miniaturização” de grandes modelos!


▲ Estatísticas incompletas de modelos de linguagem geral leves lançados recentemente em 2024 são incluídas apenas no modelo de linguagem geral com uma quantidade de parâmetro ≤8B que pode ser implantada no lado do dispositivo, e modelos multimodais não estão incluídos (Fonte: Zhidongxi)

1. “Lei de Moore” na era dos grandes modelos: só a eficiência pode levar à sustentabilidade

Atualmente, a pesquisa e o desenvolvimento de grandes modelos estão caindo na inércia:Vigorosamente milagre

Em 2020, um artigo da OpenAI verificou que existe uma forte correlação entre o desempenho do modelo e a escala. Contanto que você engula mais dados de alta qualidade e treine um modelo maior, poderá obter melhor desempenho.


Seguindo este caminho simples mas eficaz, nos últimos dois anos, tem havido uma rápida corrida global para perseguir modelos maiores. Isto estabelece o perigo oculto da hegemonia algorítmica. Somente equipes com fundos e poder computacional suficientes têm capital para participar da competição por um longo tempo.

No ano passado, o CEO da OpenAI, Sam Altman, revelou que o custo do treinamento do GPT-4 é de pelo menosUS$ 100 milhões . Na ausência de um modelo de negócios de alto lucro, mesmo as grandes empresas de tecnologia com recursos financeiros profundos terão dificuldade em arcar com investimentos de longo prazo, independentemente do custo. O ambiente ecológico não pode tolerar permitir este jogo sem fundo de queimar dinheiro.

A diferença de desempenho entre os principais modelos de linguagem de grande porte está diminuindo visivelmente. Embora o GPT-4o esteja firmemente em primeiro lugar, a diferença nas pontuações de benchmark com Claude 3 Opus e Gemini 1.5 Pro permanece inalterada. Em algumas capacidades, dezenas de bilhões de modelos grandes podem até alcançar melhor desempenho. O tamanho do modelo não é mais o único fator decisivo que afeta o desempenho.

Não é que os modelos grandes de topo não sejam atraentes, é que os modelos leves são mais económicos.

A imagem abaixo é um gráfico de tendências de custos de inferência de IA compartilhado pela engenheira de IA Karina Ngugen em plataformas sociais no final de março deste ano. Ele traça claramente a relação entre o desempenho de grandes modelos de linguagem no benchmark MMLU e seu custo desde 2022: Mais. ao longo do tempo, o modelo de linguagem obtém pontuações de precisão MMLU mais altas e os custos associados caem significativamente. A precisão do novo modelo chega a cerca de 80%, enquanto o desempenho em termos de custos é muito menor do que era há apenas alguns anos.


O mundo está mudando muito rapidamente e, nos últimos meses, houve uma onda de novos modelos leves e econômicos.


▲ Modelos de tamanho menor podem alcançar excelente desempenho com menor custo (Fonte: Embedded AI)

“A competição por modelos de linguagem grandes está se intensificando – ao contrário!” O guru da tecnologia de IA Andrej Karpathy aposta: “Veremos alguns modelos muito, muito pequenos ‘pensando’ muito bem e de forma confiável”.

Capacidade do modelo ÷ parâmetros do modelo envolvidos no cálculo = densidade de conhecimento , esta dimensão de medição pode ser usada para representar que modelos com a mesma escala de parâmetros podem ter inteligência forte. O grande modelo GPT-3 lançado em junho de 2020 possui 175 bilhões de parâmetros.Em fevereiro deste ano, o tamanho do parâmetro do modelo inteligente MiniCPM-2.4B voltado para a parede que alcançou o mesmo desempenho foi reduzido para 2,4 bilhões, o que equivale a um aumento na densidade de conhecimento em aproximadamente86 vezes


Com base nessas tendências, Liu Zhiyuan, professor associado permanente do Departamento de Ciência da Computação da Universidade Tsinghua e cientista-chefe de inteligência voltada para a parede, apresentou recentemente um ponto de vista interessante:A era dos grandes modelos tem sua própria "Lei de Moore"

em particular,Com o desenvolvimento coordenado de dados, poder computacional e algoritmos, a densidade de conhecimento de grandes modelos continua a aumentar, duplicando em média a cada oito meses.


▲ Pelas mudanças na lista OpenCompass, podemos ver que pequenos parâmetros e modelos de alto desempenho se tornaram uma tendência

Ao aumentar a densidade do circuito no chip, os dispositivos de computação com o mesmo poder de computação evoluirão de supercomputadores que cabem em várias salas para telefones celulares que podem ser carregados no bolso. O desenvolvimento subsequente de modelos grandes seguirá um padrão semelhante. Liu Zhiyuan chamou a lei orientadora que propôs de "Lei da Parede".

Se esta tendência continuar,Para treinar um modelo com 100 bilhões de parâmetros, será possível atingir as capacidades de um modelo com 50 bilhões de parâmetros em 8 meses. Em mais 8 meses, será possível atingir apenas 25 bilhões de parâmetros.

2. As forças estão divididas em múltiplas direções: a guerra de preços de fonte fechada está em pleno andamento e a China, os Estados Unidos e a Europa de código aberto estão competindo entre si.

Os jogadores que atualmente participam da competição de modelos leves e grandes são divididos em vários grupos.

OpenAI, Google e Anthropic seguiram o caminho do código fechado. Seus principais modelos, como GPT-4o, Claude 3.5 Sonnet e Gemini 1.5 Pro, controlam os níveis de desempenho mais fortes, e a escala de parâmetros desses modelos chega a centenas de bilhões ou até trilhões.

O modelo leve é ​​uma versão simplificada de seu modelo principal. Após o lançamento do OpenAI na semana passada, o GPT-4o mini se tornou a opção com melhor custo-benefício abaixo de 10B no mercado em virtude de seu desempenho superar o Gemini Flash e Claude Haiku substituiu o GPT-3.5 para uso gratuito pelos usuários, e. ToB reduziu drasticamente o preço da API, diminuindo o limite para a adoção de tecnologia de modelos grandes.


Andriy Burkov, autor de "Machine Learning Engineering", infere que as especificações dos parâmetros do GPT-4o mini são em torno de 7B com base no preço. O CEO da Wall-facing Intelligence, Li Dahai, especula que o GPT-4o mini é um modelo de "amplo MoE" com um grande número de especialistas, em vez de um modelo do lado do dispositivo. Ele está posicionado como um modelo de nuvem econômico para reduzir significativamente a indústria. custo de implementação de grandes modelos.

O campo de modelos leves de código aberto é ainda maior, com participantes representativos da China, dos Estados Unidos e da Europa.

Alibaba doméstica, Wall-Facing Intelligence, SenseTime e Laboratório de Inteligência Artificial de Xangai abriram o código-fonte de alguns modelos leves.Entre eles, os modelos da série Qwen do Alibaba são frequentemente usados ​​​​em testes de benchmark de modelos leves, e os modelos de inteligência voltada para a parede da série MiniCPM também são exemplos de uso de pequenos parâmetros para ultrapassar modelos grandes em segundos e são altamente elogiados na comunidade de código aberto.

Face Wall Intelligence é uma equipe empreendedora voltada para o futuro. Em 2020, assumiu a liderança na adoção do grande modelo na China. Começou muito cedo a explorar como usar tecnologia de ajuste fino para reduzir os custos de treinamento. do Agente de IA no início do ano passado e lançou mais de 100 bilhões de agentes de IA em agosto modelo grande modal, aplica modelo grande e tecnologia de agente para finanças, educação, assuntos governamentais, terminais inteligentes e outros cenários, formula a direção do dispositivo-. colaboração na nuvem no final do ano e, em seguida, lançar intensivamente uma variedade de modelos de dispositivos de alta eficiência e baixo consumo de energia este ano.

Nos últimos seis meses, Wallface Intelligence lançou os modelos básicos MiniCPM 2.4B e MiniCPM 1.2B, o modelo de texto longo MiniCPM-2B-128k, o modelo multimodal MiniCPM-V 2.0 e o nível de desempenho GPT-4V MiniCPM- Llama3-V 2.5. Modelo especialista híbrido MiniCPM-MoE-8x2B, etc. Até agora, o volume geral de downloads da série MiniCPM atingiu quase 950.000, com 12.000 estrelas.

Esta startup também implementou um modelo MiniCPM-S 1.2B com maior eficiência energética por meio de uma arquitetura esparsa eficiente: a densidade de conhecimento atingiu 2,57 vezes a do modelo denso MiniCPM 1.2B da mesma escala e 12,1 vezes a do Mistral-7B, deduzindo ainda mais a "lei da parede". Promover uma redução significativa no custo da inferência de grandes modelos.


▲ O modelo inteligente da série MiniCPM voltado para a parede itera rapidamente e melhora a densidade do conhecimento

No campo do modelo leve de código aberto nos Estados Unidos, as principais empresas de tecnologia têm um alto grau de participação, incluindo Meta, Microsoft, Google, Apple, Stability AI, etc., e a história de "a onda atrás bate na onda à frente a praia" é frequentemente encenada.

Hugging Face também lançou modelos SmolLM com especificações de três parâmetros na semana passada: 135M, 360M e 1.7B Em comparação com modelos do mesmo tamanho, a versão 1.7B excedeu o Microsoft Phi-1.5 em vários testes de benchmark. , Google MobileLLM-1.5B e Alibaba Qwen2-1.5B.

A Apple, que é famosa por ser "fechada", é uma conhecida escola de código aberto na área de IA: lançou o modelo multimodal Ferret em outubro do ano passado, em abril deste ano, lançou quatro pré-treinamento OpenELM; modelos com parâmetros variando de 2,7 bilhões a 30 bilhões; e Entre os modelos DCLM mais recentes, o desempenho da versão 6.9B excede o Mistral 7B e a pontuação MMLU da versão 1.4B excede o SmolLM-1.7B.


▲ A Apple usa DCLM-Baseline para treinar o modelo (laranja), que mostra bom desempenho em comparação com modelos de código fechado (cruzamentos) e outros conjuntos de dados e modelos de código aberto (círculos)

O jogador representativo na Europa não é outro senão o grande modelo unicórnio francês Mistral AI.Acabou de lançar o modelo de copo pequeno Mistral Nemo 12B na semana passada, que suporta processamento de contexto de 128k. Seu desempenho excede o Google Gemma 2 9B e Llama 2 8B. Seu raciocínio, conhecimento mundial e capacidades de codificação são os mais fortes entre os modelos de código aberto da mesma magnitude. .

Esses avanços mostram o potencial de aplicação da miniaturização de grandes modelos.

Clem Delangue, cofundador e CEO da Hugging Face, previu: “Modelos menores, mais baratos, mais rápidos e mais personalizados cobrirão 99% dos casos de uso . Você não precisa de um carro de Fórmula 1 de US$ 1 milhão para dirigir para o trabalho todos os dias e não precisa de um chatbot de cliente de banco para lhe dizer o significado da vida! "

3. Como você se tornou um especialista em economia de dinheiro na indústria de modelos de grande porte?

O retrocesso e a miniaturização de grandes modelos é uma tendência inevitável para a IA beneficiar a todos.

Nem todas as aplicações requerem o modelo grande mais poderoso. A concorrência empresarial considera a relação custo-eficácia e enfatiza a alta qualidade e o baixo preço. Diferentes cenários e empresas têm exigências muito diferentes em termos de qualidade de produção e relação custo-eficácia.

Modelos em grande escala trarão altos custos de aprendizado para os desenvolvedores e causarão muitos problemas desde o treinamento até a implantação. Um modelo mais simplificado pode reduzir o rácio insumo-produto e utilizar menos fundos, dados, recursos de hardware e ciclos de formação para construir modelos competitivos, reduzindo assim os custos de infraestrutura, ajudando a melhorar a acessibilidade e a acelerar a implantação e a implementação de aplicações.


▲ De acordo com o artigo Apple DataComp-LM, quanto menos parâmetros do modelo, menos poder de computação e tempo necessários para treinamento.

Para aplicações específicas, os modelos leves requerem menos dados, para que possam ser ajustados com mais facilidade para tarefas específicas, a fim de alcançar o desempenho e a eficiência que atendem às suas necessidades. Devido a uma arquitetura simplificada, esse tipo de modelo requer menos capacidade de armazenamento e poder computacional. Depois de otimizar o design para hardware final, ele pode ser executado localmente em laptops, smartphones ou outros dispositivos pequenos, com baixa latência, fácil acesso e proteção. . As vantagens de privacidade e segurança garantem que os dados pessoais não serão transmitidos externamente.

Embora o modelo leve e de alto desempenho seja pequeno, deve ser "Use poder de computação e consumo de energia limitados para condensar o conhecimento em um modelo com parâmetros menores“O limite técnico não é baixo.

O processo de treinamento éPrimeiro fique maior, depois fique menor , destilando a essência do conhecimento a partir de grandes modelos complexos. Por exemplo, o modelo multimodal Gemma-2 de copo pequeno do Google é refinado usando o conhecimento do modelo 27B.

Mas em termos de rotas técnicas específicas, diferentes intervenientes têm abordagens diferentes.

Por exemplo emdados de treinamento Por outro lado, Meta orgulhosamente alimentou dados de treinamento de tokens Llama 3 15T. Microsoft, Apple, etc. concentram-se na otimização de conjuntos de dados de treinamento e na inovação de métodos de dados. O Microsoft Phi-3 usa apenas tokens de 3,3T e o Apple DCLM 7B usa apenas tokens de 2,6T. De acordo com o artigo Apple DataComp-LM,Melhorar os conjuntos de dados de treinamento pode encontrar um equilíbrio entre computação e desempenho, reduzindo custos de treinamento . Recém-lançado na semana passada, o Mistral NeMo compacta texto e código com mais eficiência do que os modelos anteriores, usando o avançado tagger Tekken.

“Ficar menor” ainda requerInovação arquitetônica . Por exemplo, o modelo OpenELM da Apple executa um design hierárquico de ajuste fino para gargalos de hardware para melhorar a eficiência operacional no lado final; o modelo esparso eficiente MiniCPM-S 1.2B inteligente voltado para a parede atinge quase 88% de dispersão, permitindo a camada de link completa para o The. o consumo é reduzido para 84% e a velocidade de decodificação é 2,8 vezes maior que o modelo denso correspondente, sem comprometer o desempenho.


▲ Classificação técnica para a realização de modelos de linguagem grande com eficiência de recursos (Fonte: artigo "Além da eficiência: uma pesquisa sistemática de modelos de linguagem grande com eficiência de recursos")

O grande modelo é um projeto sistemático que precisa ser explorado”ciência da inteligência artificial"Direção, isto éAtravés da iteração contínua de soluções técnicas, como algoritmos, arquitetura, governança de dados e fusão multimodal, podemos treinar modelos de forma mais confiável, previsível e com maior qualidade., para melhorar continuamente a densidade de conhecimento de grandes modelos.

Para treinar e otimizar modelos rapidamente, é necessário estabelecer uma linha de produção eficiente.É necessário construir uma plataforma de conjunto de ferramentas de processo completo e formar uma estratégia de treinamento de modelo eficiente e escalonável. . Por exemplo, o mecanismo sandbox do modelo voltado para a parede atinge a rápida formação de capacidades do modelo usando modelos pequenos para prever o desempenho de modelos grandes e compartilhando esquemas de hiperparâmetros entre modelos grandes e pequenos.


▲ Comparação real da velocidade de decodificação de inferência MiniCPM 1.2B e MiniCPM-S 1.2B

A fim de acelerar o uso de grandes modelos em terminais inteligentes, a Facewall Intelligence abriu recentemente o código-fonte do primeiro conjunto de ferramentas de grande modelo do lado do cliente pronto para uso do setor, "MobileCPM", e forneceu tutoriais no estilo babá para ajudar os desenvolvedores a integrar modelos grandes em aplicativos com um clique.


▲ Conjunto de ferramentas de modelo grande do lado do terminal inteligente voltado para a parede "MobileCPM"

Este ano coincide com a explosão da IA ​​no lado do dispositivo, desde gigantes de chips como Intel, Nvidia, AMD e Qualcomm até os principais fabricantes de PC e smartphones com IA, todos eles estão promovendo uma variedade de aplicações de IA no lado do dispositivo. Os fabricantes de terminais começaram a unir forças com os fabricantes de modelos gerais para promover a implementação de modelos leves em uma ampla gama de dispositivos finais.

À medida que o desempenho dos chips finais se torna mais forte e a densidade do conhecimento do modelo aumenta, os modelos que podem ser executados localmente em dispositivos finais tornam-se maiores e melhores.Agora o GPT-4V pode funcionar no lado do terminal, prevê Liu ZhiyuanNo próximo ano, os modelos de nível GPT-3.5 poderão ser colocados em operação no lado do dispositivo e, nos próximos dois anos, os modelos de nível GPT-4o poderão ser colocados em operação no lado final.

Conclusão: comece uma grande competição de modelos que não gaste muito dinheiro

No mundo da tecnologia, a tendência histórica de se tornarem menores, mais baratos e mais fáceis de usar é sempre recorrente. Na era do mainframe, os computadores eram bens de luxo de alta qualidade, acessíveis apenas aos ricos e à elite. Ao entrar na era dos minicomputadores, os avanços tecnológicos tornaram os dispositivos de computação mais portáteis e fáceis de usar, e os PCs e os telemóveis entraram no trabalho diário e na vida do público em geral.

Assim como precisamos de supercomputadores com enorme poder computacional e telefones celulares que as pessoas comuns possam colocar no bolso, a era da IA ​​generativa exige grandes modelos extremamente inteligentes, mais próximos dos usuários, mais econômicos e capazes de atender a aplicações econômicas específicas. modelo de demanda.

OpenAI GPT-4o ainda está no auge dos modelos grandes de IA mais poderosos, mas não é mais tão invencível como antes. Vários modelos grandes de nível GPT-4 alcançaram desempenho semelhante. Ao mesmo tempo, grandes modelos mais compactos e eficientes estão a desafiar o conceito de "quanto maior, melhor". Espera-se que a nova tendência de "usar o pequeno para fazer grande" mude a forma de desenvolvimento da IA ​​e abra novas possibilidades para a implementação. da IA ​​em ambientes empresariais e de consumo.

A mudança para a miniaturização marca uma grande mudança na indústria de IA. As grandes competições de modelos começaram a mudar do foco na melhoria do desempenho para o foco nas necessidades mais detalhadas do mundo real. Em meio a essa mania, o poder de código aberto da China, representado pela inteligência voltada para a parede, está crescendo vigorosamente. Através de uma série de inovações tecnológicas, verifica a lei da densidade de conhecimento de grandes modelos de uma forma economicamente mais viável e, em última análise, promove o uso de. grandes modelos em cenários de aplicação prática.