notícias

Jia Yangqing: Modelos grandes estão retornando ao antigo caminho da CNN Musk: O mesmo acontece com a Tesla;

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A casa originou-se do Templo Aofei
Qubits | Conta pública QbitAI

O grande tamanho do modelo do Transformer muda e ele está retornando ao antigo caminho da CNN!

Vendo que todos são atraídos pelo LLaMA 3.1,Jia YangqingTal sentimento.



Comparando o desenvolvimento de modelos grandes com o desenvolvimento da CNN, podemos encontrar uma tendência e um fenômeno óbvios:

Na era ImageNet, pesquisadores e profissionais técnicos testemunharam um rápido crescimento nos tamanhos dos parâmetros e então começaram a migrar para modelos menores e mais eficientes.

Parece o mesmo que a ampliação dos parâmetros do modelo do GPT. A indústria geralmente concorda com a Lei de Escala e então aparecem o GPT-4o mini, o Apple DCLM-7B e o Google Gemma 2B?

Jia Yangqing disse com um sorriso: “Isso é da era pré-grande modelo e muitas pessoas podem não se lembrar bem :)”.



Além disso, Jia Yangqing não é o único que percebe isso.O mestre de IA Kapasi também pensa assim

  • A concorrência em modelos de grandes dimensões está a aumentar… mas os rolos estão a vir na direção oposta!
  • O modelo deve primeiro buscar o “maior” antes de buscar o “menor”, ​​porque precisamos desse processo para nos ajudar a reconstruir os dados de treinamento em um formato sintético ideal.

Ele até aposta que veremos modelos bons e confiáveis ​​para pensar.

E a escala dos parâmetros é muito pequena.



Até Musk disse repetidamente na área de comentários de Kapasi:



O que foi dito acima provavelmente pode ser chamado de "caras grandes veem a mesma coisa".

Expanda e fale

A emoção de Jia Yangqing começa com o LLaMA 3.1, que ficou no trono mais forte por apenas um curto dia.

Foi a primeira vez que “o modelo de código aberto mais forte = o modelo mais forte” foi realizado. Não surpreendentemente, atraiu muita atenção.

No entanto, Jia Yangqing apresentou um ponto neste momento:

"Mas eu acho,A indústria realmente prosperará com pequenos modelos verticais。”

Quanto ao que são os pequenos modelos verticais, Jia Yangqing também deixou bem claro, como aqueles grandes modelos de pequeno e médio porte representados pelo Iynx da Patrouns AI (o modelo de detecção de alucinações da empresa, que supera o GPT-4o em tarefas de alucinação).



Jia Yangqing disse que, em termos de preferência pessoal, ele pessoalmente gosta muito do modelo de 100 bilhões de parâmetros.

Mas, na realidade, ele observou que modelos grandes com faixas de parâmetros entre 7B e 70B são mais fáceis de usar para todos:

  • Eles são mais fáceis de hospedar e não exigem muito tráfego para serem lucrativos;
  • Contanto que você faça perguntas claras, poderá obter resultados de qualidade decente - ao contrário de algumas crenças anteriores.

Ao mesmo tempo, ele ouviu que os modelos mais recentes e mais rápidos da OpenAI também estavam começando a se tornar menores do que os modelos maiores “de última geração”.



“Se meu entendimento estiver correto, então isso é definitivamente um indicativo das tendências do setor”. Jia Yangqing declarou diretamente seu ponto de vista, “isto é, no mundo real, use modelos que sejam aplicáveis, econômicos e ainda poderosos”.

Desde então, Jia Yangqing resolveu brevemente a história do desenvolvimento da CNN.

Em primeiro lugar, é a era da ascensão da CNN.

Tomando AlexNet (2012) como ponto de partida, iniciou-se um período de aproximadamente três anos de crescimento em escala de modelo.

O VGGNet, que surgiu em 2014, é um modelo com desempenho e escala muito potentes.

Em segundo lugar, há um período de redução.

Em 2015, o GoogleNet reduziu o tamanho do modelo do nível “GB” para “MB”, ou seja, foi reduzido em 100 vezes, porém o desempenho do modelo não caiu drasticamente por causa disso, mas manteve um bom desempenho;

Seguindo tendências semelhantes está o modelo SqueezeNet lançado em 2015.

Durante um período de tempo, o foco do desenvolvimento foi a busca do equilíbrio.

Estudos subsequentes, como ResNet (2015), ResNeXT (2016), etc., mantiveram um tamanho de modelo moderado.

Vale ressaltar que o controle do tamanho do modelo não traz redução na quantidade de cálculos – na verdade, todos estão dispostos a investir mais recursos computacionais e buscar um estado de “mesmos parâmetros porém mais eficientes”.

O que se seguiu foi um período de dança paralela da CNN.

Por exemplo, MobileNet é um esforço interessante lançado pelo Google em 2017.

O interessante é que ele consome poucos recursos, mas tem excelente desempenho.

Na semana passada, alguém mencionou a Jia Yangqing: "Uau, ainda estamos usando o MobileNet porque ele pode ser executado no dispositivo e tem excelente generalização de incorporação de recursos (Generalidade de incorporação de recursos)."

Finalmente, Jia Yangqing pegou emprestada uma imagem de "Uma Pesquisa sobre Redes Neurais Convolucionais Eficientes e Aceleração de Hardware" de Ghimire et al.:



E mais uma vez fez sua pergunta:

Os modelos grandes seguirão a mesma tendência da era CNN?

O que pensam os internautas?

Na verdade, existem muitos exemplos de GPT-4o mini seguindo o caminho de desenvolvimento de modelos grandes, “não grandes, mas pequenos”.

Quando as pessoas acima mencionadas expressaram esta opinião, algumas pessoas imediatamente acenaram com a cabeça e apresentaram outros exemplos semelhantes para provar que tinham visto a mesma tendência.

Alguém o seguiu imediatamente:

  • Tenho aqui um novo exemplo positivo! Gemma-2 destila o conhecimento do modelo com um tamanho de parâmetro de 27B em uma versão menor.



Alguns internautas disseram que desenvolver modelos maiores significa “intensificar” o treinamento das gerações subsequentes de modelos menores e mais verticais.

Em última análise, esse processo iterativo produz o que é chamado de “conjunto de treinamento perfeito”.

Desta forma, modelos grandes e menores podem ser tão ou até mais inteligentes do que os modelos grandes de hoje, com parâmetros enormes em campos específicos.

Em poucas palavras,O modelo deve primeiro ser aumentado antes de poder ser reduzido.



A maioria das pessoas que discutiram esse ponto de vista ainda concordam com essa tendência. Algumas pessoas disseram sem rodeios: "Isso é uma coisa boa e é mais prático e útil do que a competição de parâmetros 'Meu modelo é maior que o seu modelo'."

Mas é claro!

Navegando pelas seções de comentários on-line,Outros fizeram barulhos diferentes.

Por exemplo, este amigo deixou uma mensagem no tweet de Jia Yangqing:

  • Mistral Large (a empresa por trás disso, Mistral AI), LLaMA 3.1 (a empresa por trás disso, Meta) e OpenAI, as empresas com os modelos mais competitivos, podem estar treinando modelos maiores atualmente.
  • Não vejo uma tendência de “avanços tecnológicos com modelos menores”.



Diante desta questão, Jia Yangqing respondeu prontamente.

Isso é o que ele disse: "Isso mesmo! Quando digo que modelos grandes podem estar seguindo o antigo caminho da CNN, definitivamente não pretendo pedir a todos que parem de treinar modelos maiores."

Ele explicou ainda que a intenção original de dizer isto é que, à medida que a tecnologia (incluindo a CNN e os grandes modelos) se torna cada vez mais implementada, todos começam a prestar cada vez mais atenção a modelos mais rentáveis. "



Portanto, talvez modelos pequenos e grandes mais eficientes possam redefinir a “inteligência” da IA ​​e desafiar a suposição de que “quanto maior, melhor”.

Você concorda com essa visão?

Links de referência:
[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497