notícias

Microsoft e NVIDIA apostam em modelos pequenos. Os modelos grandes não são mais populares?

2024-08-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

No desenvolvimento da inteligência artificial, os gigantes da tecnologia já competiram para desenvolver modelos de linguagem em grande escala, mas agora surgiu uma nova tendência: modelos de linguagem pequena (SLM) estão emergindo gradualmente, desafiando o conceito anterior de "maior é melhor".

Visual China

Em 21 de agosto, horário local, a Microsoft e a NVIDIA lançaram sucessivamente os mais recentes modelos de linguagem pequena - Phi-3.5-mini-instruct e Mistral-NeMo-Minitron8B. O principal ponto de venda de ambos os modelos é que eles fornecem um bom equilíbrio entre o uso de recursos computacionais e o desempenho funcional. De certa forma, seu desempenho pode até rivalizar com modelos maiores.

Clem Delangue, CEO da startup de inteligência artificial Hugging Face, destacou que até 99% dos cenários de uso podem ser resolvidos pelo SLM e previu que 2024 será o ano do SLM. De acordo com estatísticas incompletas, gigantes da tecnologia, incluindo Meta, Microsoft e Google, lançaram 9 modelos pequenos este ano.

Aumento dos custos de treinamento de grandes modelos

A ascensão do SLM não é acidental, mas está intimamente relacionada aos desafios dos grandes modelos (LLM) em termos de melhoria de desempenho e consumo de recursos.

Uma comparação de desempenho divulgada em abril pelas startups de IA Vellum e Hugging Face mostrou que a lacuna de desempenho entre os LLMs está diminuindo rapidamente, especialmente em tarefas específicas, como questões de múltipla escolha, raciocínio e problemas matemáticos, onde as diferenças entre os principais modelos são extremamente grandes. . Pequeno. Por exemplo, em questões de múltipla escolha, Claude 3 Opus, GPT-4 e Gemini Ultra alcançaram uma precisão de mais de 83%, enquanto em tarefas de inferência, Claude3 Opus, GPT-4 e Gemini 1.5Pro alcançaram uma precisão de mais de 92%.

Gary Marcus, ex-chefe da Uber AI, destacou: “Acho que todos diriam que o GPT-4 está um passo à frente do GPT-3.5, mas não houve nenhum salto qualitativo em mais de um ano desde então”.

Comparado com a melhoria limitada do desempenho, o custo de treinamento do LLM está aumentando constantemente. O treinamento desses modelos requer enormes quantidades de dados e centenas de milhões ou até trilhões de parâmetros, resultando em um consumo extremamente alto de recursos. O poder de computação e o consumo de energia necessários para treinar e executar o LLM são impressionantes, tornando difícil para pequenas organizações ou indivíduos participarem do desenvolvimento central do LLM.

A Agência Internacional de Energia estima que o consumo de eletricidade relacionado com centros de dados, criptomoedas e inteligência artificial será aproximadamente equivalente ao consumo total de eletricidade do Japão até 2026.

O CEO da OpenAI, Altman, disse certa vez em um evento do MIT que o treinamento do GPT-4 custaria pelo menos US$ 100 milhões, enquanto o CEO da Anthropic, Dario Amodei, previu que o custo de treinamento do modelo poderia chegar a US$ 100 bilhões no futuro.

Além disso, a complexidade das ferramentas e técnicas necessárias para usar o LLM também aumenta a curva de aprendizado do desenvolvedor. Todo o processo, desde o treinamento até a implantação, leva muito tempo, retardando o desenvolvimento. Um estudo da Universidade de Cambridge mostra que as empresas podem levar 90 dias ou mais para implantar um modelo de aprendizado de máquina.

Outro grande problema do LLM é que ele é propenso à "ilusão" - ou seja, a saída gerada pelo modelo parece razoável, mas na verdade é incorreta. Isso ocorre porque o LLM é treinado para prever a próxima palavra mais provável com base nos padrões dos dados, em vez de realmente compreender as informações. Como resultado, o LLM pode gerar declarações falsas, fabricar fatos ou combinar conceitos não relacionados de maneiras absurdas. Como detectar e reduzir essas “ilusões” é um desafio constante no desenvolvimento de modelos de linguagem confiáveis.

Modelos pequenos reduzem custos

As preocupações com as enormes necessidades energéticas do LLM, bem como com as oportunidades de mercado para fornecer às empresas opções de IA mais diversificadas, levaram as empresas tecnológicas a voltar gradualmente a sua atenção para o SLM.

Os repórteres do "Daily Economic News" notaram que tanto as startups de IA como Arcee, Sakana AI e Hugging Face, quanto os gigantes da tecnologia, estão atraindo investidores e clientes por meio de SLM e métodos mais econômicos.

Anteriormente, Google, Meta, OpenAI e Anthropic lançaram modelos pequenos que são mais compactos e flexíveis do que o carro-chefe LLM. Isto não apenas reduz os custos de desenvolvimento e implantação, mas também fornece aos clientes comerciais uma solução mais barata. Dadas as preocupações crescentes entre os investidores sobre os elevados custos e os retornos incertos dos empreendimentos de IA, mais empresas tecnológicas poderão escolher este caminho. Até a Microsoft e a NVIDIA lançaram agora seus próprios modelos pequenos (SLM).

SLMs são versões simplificadas de LLMs com menos parâmetros e designs mais simples, e exigem menos dados e tempo de treinamento – apenas minutos ou horas. Isso torna o SLM mais eficiente e mais fácil de implantar em dispositivos pequenos. Por exemplo, podem ser incorporados em telemóveis sem consumir recursos de supercomputação, reduzindo assim custos e melhorando significativamente a capacidade de resposta.

Outra grande vantagem do SLM é a sua especialização para aplicações específicas. Os SLMs concentram-se em tarefas ou domínios específicos, o que os torna mais eficientes em aplicações práticas. Por exemplo, os SLMs geralmente superam os modelos de uso geral em análise de sentimento, reconhecimento de entidade nomeada ou resposta a perguntas específicas de domínio. Essa customização permite que as empresas criem modelos que atendam com eficiência às suas necessidades específicas.

Os SLMs também são menos propensos a “alucinações” dentro de um domínio específico porque normalmente são treinados em conjuntos de dados mais restritos e direcionados, o que ajuda o modelo a aprender os padrões e as informações mais relevantes para sua tarefa. A natureza focada do SLM reduz a probabilidade de gerar resultados irrelevantes, inesperados ou inconsistentes.

Apesar do seu tamanho menor, o desempenho do SLM não é inferior aos modelos maiores em alguns aspectos. O mais recente mini-instruct Phi-3.5 da Microsoft tem apenas 3,8 bilhões de parâmetros, mas seu desempenho é melhor do que modelos com parâmetros muito mais altos do que Llama3.18B e Mistral7B. Aaron Mueller, especialista em pesquisa de modelos de linguagem da Northeastern University (uma importante universidade privada de pesquisa localizada em Boston, Massachusetts, EUA), destacou que expandir o número de parâmetros não é a única maneira de melhorar o desempenho do modelo. também produzem resultados semelhantes.

O CEO da OpenAI, Altman, disse em um evento em abril que acreditava que estávamos no fim da era dos modelos gigantes e “vamos melhorar seu desempenho de outras maneiras”.

Contudo, deve-se notar que embora a especialização do SLM seja uma grande vantagem, ela também apresenta limitações. Estes modelos podem ter um desempenho fraco fora do seu domínio de formação específico, carecer de uma ampla base de conhecimento e ser incapazes de gerar conteúdo relevante sobre uma vasta gama de tópicos em comparação com o LLM. Essa limitação exige que os usuários precisem implantar vários SLMs para cobrir diferentes áreas de demanda, complicando assim a infraestrutura de IA.

Com o rápido desenvolvimento do campo da IA, os padrões para modelos pequenos podem continuar a mudar. David Ha, cofundador e CEO da startup de pequenos modelos Sakana, com sede em Tóquio, disse que os modelos de IA que pareciam enormes há alguns anos agora parecem “modestos”. “O tamanho é sempre relativo”, disse David Ha.

notícias econômicas diárias

Relatório/Comentários