notícias

A era dos grandes modelos acabou?O grande chefe Qi prevê: os modelos de IA podem precisar ser reduzidos antes que possam ser ampliados novamente

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: ouvidos

[Introdução à Nova Sabedoria]Com o advento dos modelos pequenos, a “era dos modelos grandes” chegará ao fim?

A "Semana dos Modelos Pequenos" já passou e o mais recente campo de batalha para modelos pequenos acaba de ser inaugurado.

Na semana passada, o GPT-4o mini e o Mistral NeMo foram lançados sucessivamente. Os pequenos modelos que "são pequenos, mas têm todos os órgãos internos" tornaram-se uma nova direção à qual os líderes da indústria estão prestando muita atenção.


Então, os grandes modelos estão prestes a cair em desuso? A Lei de Dimensionamento está prestes a se tornar ineficaz?

O ex-pesquisador de IA da OpenAI e Tesla, Andrej Karpathy, acaba de entrar na educação em IA, "Professor K" publicou recentemente um tweet para orientar a indústria, revelando a nova tendência por trás da mudança dos gigantes da tecnologia para pesquisa e desenvolvimento de pequenos modelos: a competição de grandes modelos de IA. está prestes a reverter.

Ele prevê que os modelos futuros serão menores, mas ainda mais inteligentes.


Gigantes da IA ​​e alguns novos unicórnios lançaram recentemente modelos de IA que são mais compactos, poderosos e acessíveis do que seus pares. O exemplo mais recente é o mini GPT-4o da OpenAI.

Karpathy prevê que esta tendência continuará. “Aposto que veremos muitos modelos que pensam de forma eficiente e confiável, e em tamanhos muito pequenos”, escreveu ele.

Modelos pequenos: apoiados nos ombros de gigantes

Nos estágios iniciais do desenvolvimento do LLM, é uma tendência inevitável processar mais dados e tornar o modelo maior. Isto se baseia principalmente nos seguintes motivos:

Primeiro, necessidades baseadas em dados.

Vivendo em uma era de explosão de dados, uma grande quantidade de dados ricos e diversificados requer modelos mais poderosos para serem processados ​​e compreendidos.

Grandes modelos têm a capacidade de acomodar e processar grandes quantidades de dados. Por meio do treinamento de dados em grande escala, eles podem descobrir padrões e leis profundas.

Em segundo lugar, a melhoria do poder de computação.

O avanço contínuo da tecnologia de hardware e o desenvolvimento de equipamentos de computação de alto desempenho, como GPUs, fornecem suporte poderoso ao poder de computação para o treinamento de modelos grandes. Torna possível treinar modelos grandes e complexos.

Além disso, busque maior desempenho e precisão.

Modelos grandes geralmente podem apresentar excelente desempenho em vários campos, como compreensão de linguagem, geração e reconhecimento de imagem. Quanto mais eles entendem, mais precisos são os resultados que geram.

Finalmente, a capacidade de generalização é mais forte.

Grandes modelos podem lidar melhor com novos problemas e tarefas que nunca foram vistos antes, podem fazer suposições e respostas razoáveis ​​com base em conhecimentos previamente aprendidos e têm capacidades de generalização mais fortes.

Juntamente com a concorrência acirrada no campo da IA, várias instituições de investigação e gigantes estão empenhados em desenvolver modelos maiores e mais fortes para demonstrar a sua força técnica e posição de liderança. O tamanho do modelo de volume tornou-se naturalmente a direcção geral de desenvolvimento do LLM.

Karpathy também atribuiu a escala dos modelos mais poderosos atuais à complexidade dos dados de treinamento, acrescentando que grandes modelos de linguagem são excelentes em memória, superando as capacidades de memória humana.

Por analogia, se você tiver que fazer um exame presencial durante a semana de provas finais, o exame exige que você recite um determinado parágrafo do livro com base nas primeiras palavras.

Este é o objetivo do pré-treinamento dos grandes modelos atuais. Karpathy disse que os grandes modelos de hoje são como cobras gananciosas que só querem engolir todos os dados disponíveis.

Eles não apenas podem recitar a série SHA de algoritmos de hash para números comuns, mas também podem lembrar o conhecimento de todos os campos, grandes e pequenos.

Mas essa forma de aprender é como memorizar tudo, desde a biblioteca inteira e a internet para uma prova.

É inegável que quem consegue atingir esse tipo de capacidade de memória é um gênio, mas no final das contas, apenas uma página foi utilizada durante o exame!

Para esses alunos superdotados, é difícil para o LLM ter um desempenho melhor porque, no processo de treinamento, os dados, a demonstração do pensamento e o conhecimento estão "emaranhados".

Além disso, por um lado, do ponto de vista das aplicações práticas, os grandes modelos enfrentam elevados custos e consumo de recursos quando implantados e executados, incluindo recursos de computação, recursos de armazenamento e consumo de energia.

Modelos pequenos são mais fáceis de implantar em diversos dispositivos e cenários, atendendo aos requisitos de facilidade de uso e baixo consumo de energia.

Por outro lado, do ponto de vista da maturidade tecnológica, depois de a natureza e as leis do problema serem totalmente exploradas e compreendidas através de grandes modelos, estes conhecimentos e padrões podem ser refinados e aplicados à concepção e optimização de pequenos modelos.

Isso permite que modelos pequenos reduzam escala e custo, mantendo o mesmo desempenho ou até melhor que modelos grandes.

Embora o desenvolvimento de modelos grandes tenha encontrado um gargalo e os modelos pequenos tenham gradualmente se tornado uma nova tendência, Karpathy enfatizou que ainda são necessários modelos grandes, mesmo que não sejam treinados de forma eficaz, mas os modelos pequenos são condensados ​​​​a partir de modelos grandes.

Karpathy prevê que cada modelo continuará a melhorar, gerando dados de treinamento para o próximo modelo, até que haja um “conjunto de treinamento perfeito”.

Mesmo um modelo pronto para uso como o GPT-2, que possui 1,5 bilhão de parâmetros, quando você treina o GPT-2 com este conjunto de treinamento perfeito, ele pode se tornar um modelo muito poderoso e inteligente para os padrões atuais.

Este GPT-2, treinado com um conjunto de treinamento perfeito, pode pontuar um pouco mais baixo, por exemplo, no teste Massive Multi-task Language Understanding (MMLU), que cobre 57 tarefas, incluindo matemática elementar, história dos EUA, ciência da computação, direito, etc., usado para avaliar a cobertura do conhecimento básico e a capacidade de compreensão de grandes modelos.


Mas no futuro, os modelos de inteligência artificial mais inteligentes não dependerão do volume, mas serão capazes de recuperar informações e verificar factos de forma mais fiável.

Assim como um excelente aluno que faz um exame sem consulta, embora nem todo o conhecimento seja totalmente compreendido, ele consegue localizar com precisão a resposta correta.

Segundo relatos, o projeto Strawberry da OpenAI se concentra em resolver esse problema.

“Emagrecimento” do modelo grande “inchado”

Como disse Karpathy, a maioria dos modelos muito grandes (como o GPT-4) treinados com dados massivos são, na verdade, usados ​​para lembrar um grande número de detalhes irrelevantes, ou seja, para memorizar informações mecanicamente.

Isso está relacionado ao propósito do pré-treinamento do modelo. Na fase de pré-treinamento, o modelo é obrigado a recitar o seguinte conteúdo com a maior precisão possível, o que equivale a memorizar o texto. pontuação.

Embora o modelo possa aprender conhecimentos recorrentes, às vezes há erros e distorções nos dados, e o modelo deve primeiro lembrar-se de todos eles antes de ajustá-los.

Karpathy acredita que se houver um conjunto de dados de treinamento de maior qualidade, um modelo menor, mais capaz e mais capaz poderá ser treinado.

Com a ajuda de modelos muito grandes, conjuntos de dados de treinamento de maior qualidade podem ser gerados e limpos automaticamente.

Semelhante ao GPT-4o mini, ele é treinado usando dados limpos pelo GPT-4.

Primeiro aumente o modelo e depois “reduza” com base nisso. Esta pode ser uma nova tendência no desenvolvimento de modelos.

Para dar uma metáfora vívida, é como se o grande modelo atual tivesse o problema de muitos conjuntos de dados e fosse muito gordo. Após a limpeza dos dados e treinamento extensivo, ele se transforma em um modelo pequeno com músculos magros.


Esse processo é como uma evolução passo a passo, e cada geração de modelos ajudará a gerar a próxima geração de dados de treinamento até que finalmente obtenhamos um “conjunto de treinamento perfeito”.

O CEO da OpenAI, Sam Altman, também fez comentários semelhantes, declarando o “fim da era” dos grandes modelos de IA já em abril de 2023.

Além disso, é cada vez mais reconhecido que a qualidade dos dados é um fator chave de sucesso na formação em IA, quer se trate de dados reais ou de dados sintéticos.

Altman acredita que a questão principal é como os sistemas de IA podem aprender mais com menos dados.

Os pesquisadores da Microsoft fizeram o mesmo julgamento ao desenvolver o modelo Phi. Os pesquisadores da Hugging Face AI também concordaram com a busca por conjuntos de dados de alta qualidade e lançaram conjuntos de dados de treinamento de alta qualidade.

Isto significa que a expansão cega já não é o único objectivo técnico dos gigantes da tecnologia. Mesmo os modelos pequenos e de alta qualidade podem beneficiar de mais dados, mais diversificados e de maior qualidade.

O retorno a modelos menores e mais eficientes pode ser visto como o objetivo do próximo estágio de integração, e o lançamento do modelo da OpenAI indica claramente a direção do desenvolvimento futuro.

Área de comentários: correta, pertinente e sangrenta

Karpathy também mencionou a abordagem semelhante da Tesla na rede de condução autônoma.


Tesla tem algo chamado “rastreador offline” que gera dados de treinamento mais limpos ao executar um modelo anterior mais fraco.

Assim que soube que a tecnologia de Tesla estava na vanguarda da época, Musk rapidamente correu para a área de comentários:


Os internautas na área de comentários também expressaram seu apreço pela visão de Karpathy, e eu concordo!

Para a futura inteligência artificial geral, modelos de inteligência artificial menores e mais eficientes poderão redefinir a “inteligência” na inteligência artificial e desafiar a suposição de que “quanto maior, melhor”.


Sebastian Raschka, autor de "Python Machine Learning", acredita que isso é como destilação de conhecimento, destilando um modelo pequeno como o Gemma-2 de um modelo grande de 27B.

Ele também nos lembrou que testes de múltipla escolha como o MMLU podem testar conhecimentos, mas não podem refletir totalmente as habilidades reais.


Alguns internautas também são muito imaginativos. Se os modelos pequenos funcionam bem, então há uma especialização na área, por que não usar mais modelos pequenos para gerar respostas uma por uma?

Convoque 10 assistentes de IA e deixe o mais inteligente fazer o resumo final. É simplesmente a versão de IA de um think tank.


Então, o AGI é um modelo grande e todo-poderoso ou vem da colaboração de muitos modelos pequenos?

Referências:

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/

https://x.com/karpathy/status/1814038096218083497