notícias

A Universidade de Ciência e Tecnologia da China e a Huawei Noah Entropy Law revelam o desempenho e a taxa de compressão de dados de grandes modelos

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Este trabalho foi concluído pela equipe do IEEE Fellow Chen Enhong do Laboratório Nacional Chave de Inteligência Cognitiva da Universidade de Ciência e Tecnologia da China e do Laboratório Arca de Noé da Huawei. A equipe do professor Chen Enhong está profundamente envolvida nas áreas de mineração de dados e aprendizado de máquina e publicou muitos artigos nas principais revistas e conferências do Google Scholar, sendo citados mais de 20.000 vezes. O Laboratório Arca de Noé é o laboratório da Huawei envolvido na pesquisa básica em inteligência artificial. Ele adere ao conceito de igual ênfase na pesquisa teórica e na inovação de aplicações e está comprometido em promover a inovação tecnológica e o desenvolvimento no campo da inteligência artificial.

Os dados são a base do sucesso dos grandes modelos de linguagem (LLMs), mas nem todos os dados são benéficos para modelar a aprendizagem. Intuitivamente, espera-se que amostras de alta qualidade tenham melhor eficiência no ensino do LLM. Portanto, os métodos existentes geralmente focam na seleção de dados baseada na qualidade. No entanto, a maioria desses métodos avalia diferentes amostras de dados de forma independente, ignorando os complexos efeitos combinatórios entre amostras. Conforme mostrado na Figura 1, mesmo que cada amostra tenha qualidade perfeita, sua combinação ainda pode ser abaixo do ideal devido à redundância ou inconsistência mútua de informações. Embora o subconjunto baseado na qualidade consista nas três amostras de qualidade, o conhecimento que elas codificam é, na verdade, redundante e conflitante. Em contraste, outro subconjunto de dados que consiste em várias amostras de qualidade relativamente inferior, mas diversas, pode transmitir mais informações no ensino do LLM. Portanto, a seleção de dados baseada na qualidade não é totalmente consistente com o objetivo de maximizar o conhecimento do LLM.

Este artigo tem como objetivo revelar a relação intrínseca entre o desempenho do LLM e a seleção de dados. Inspirados pela natureza da compressão de informações do LLM, descobrimos uma lei de entropia, que vincula o desempenho do LLM à taxa de compressão de dados e à perda de etapas anteriores de treinamento do modelo, que reflete respectivamente o grau de redundância de informações do conjunto de dados e o efeito inerente do LLM no conjunto de dados. O grau de domínio do conhecimento. Através de derivação teórica e avaliação empírica, descobrimos que o desempenho do modelo está inversamente relacionado à taxa de compressão dos dados de treinamento, o que geralmente resulta em menor perda de treinamento. Com base nas descobertas da lei da entropia, propomos um método de seleção de dados muito eficiente e geral para treinamento de LLM, denominado ZIP, que visa priorizar subconjuntos de dados com baixas taxas de compressão. O ZIP seleciona avidamente diversos dados em vários estágios, obtendo, em última análise, um subconjunto de dados com boa diversidade.



Equipe: Equipe de Chen Enhong no Laboratório Nacional Chave de Inteligência Cognitiva da Universidade de Ciência e Tecnologia da China, Laboratório Arca de Noé da Huawei

Link do artigo: https://arxiv.org/pdf/2407.06645

Link do código: https://github.com/USTC-StarTeam/ZIP



figura 1

Lei da Entropia

Realizamos uma análise teórica da relação entre compressão de dados e desempenho do LLM. Intuitivamente, a exatidão e a diversidade dos dados de treinamento afetarão o desempenho do modelo final. Ao mesmo tempo, o desempenho do LLM pode ser abaixo do ideal se os dados apresentarem conflitos inerentes graves ou se o modelo tiver uma compreensão deficiente das informações codificadas nos dados. Com base nessas suposições, denotamos o desempenho do LLM como Z, que deverá ser afetado por:

Taxa de compressão de dados R: Intuitivamente, um conjunto de dados com uma taxa de compressão mais baixa indica uma densidade de informação mais alta.

Perda de treinamento L: indica se os dados são difíceis de serem lembrados pelo modelo. No mesmo modelo base, a alta perda de treinamento geralmente se deve à presença de ruído ou informações inconsistentes no conjunto de dados.

Consistência dos dados C: A consistência dos dados é refletida pela entropia da probabilidade do próximo token dada a situação anterior. Maior consistência de dados geralmente leva a menor perda de treinamento.

Qualidade média dos dados Q: reflete a qualidade média dos dados em nível de amostra, que pode ser medida por meio de vários aspectos objetivos e subjetivos.



Com base na lei da Entropia, propomos duas inferências:

Se C for tratado como constante, a perda de treinamento é diretamente afetada pela taxa de compressão. Portanto, o desempenho do modelo é controlado pela taxa de compressão: se a taxa de compressão de dados R for maior, então Z geralmente é pior, o que será verificado em nossos experimentos.

Na mesma taxa de compressão, maior perda de treinamento significa menor consistência de dados. Portanto, o conhecimento efetivo aprendido pelo modelo pode ser mais limitado. Isso pode ser usado para prever o desempenho do LLM em dados diferentes com taxa de compactação e qualidade de amostra semelhantes. Mostraremos a aplicação desse raciocínio na prática mais adiante.

ZIP: um algoritmo de seleção de dados altamente leve

Sob a orientação da lei da entropia, propusemos o ZIP, um método de seleção de dados que seleciona amostras de dados através da taxa de compressão de dados, com o objetivo de maximizar a quantidade de informações efetivas sob um orçamento limitado de dados de treinamento. Por razões de eficiência, adotamos um paradigma guloso iterativo de vários estágios para obter soluções aproximadas de forma eficiente com taxas de compressão relativamente baixas. Em cada iteração, primeiro usamos um estágio de seleção global para selecionar um conjunto de amostras candidatas com baixa taxa de compressão para encontrar amostras com alta densidade de informação. Em seguida, empregamos um estágio de seleção local de granulação grossa para selecionar um conjunto de amostras menores que possuem a menor redundância com as amostras selecionadas. Finalmente, usamos um estágio de seleção local refinado para minimizar a similaridade entre as amostras a serem adicionadas. O processo acima continua até que dados suficientes sejam obtidos. O algoritmo específico é o seguinte:



Resultados experimentais

1. Eficácia do algoritmo de seleção ZIP para diferentes LLMs e em diferentes estágios de alinhamento de LLM

Comparando diferentes algoritmos de seleção de dados SFT, o modelo treinado com base em dados de seleção ZIP apresenta vantagens em desempenho e também é superior em eficiência. Veja a tabela abaixo para resultados específicos:



Graças às características independentes de modelo e insensíveis ao conteúdo do ZIP, ele também pode ser aplicado à seleção de dados no estágio de alinhamento de preferências. Os dados selecionados pelo ZIP também apresentam grandes vantagens. Veja a tabela abaixo para resultados específicos:



2. Verificação experimental da lei da entropia

Com base no experimento de seleção de dados SFT, ajustamos múltiplas curvas de relacionamento com base no efeito do modelo, na taxa de compactação de dados e na perda do modelo nas etapas anteriores do treinamento. Os resultados são apresentados na Figura 2 e na Figura 3, onde podemos observar a estreita correlação entre os três fatores. Em primeiro lugar, dados com baixa taxa de compressão geralmente trazem melhores resultados do modelo. Isso ocorre porque o processo de aprendizagem dos LLMs está altamente relacionado à compressão de informações. Podemos pensar no LLM como um compressor de dados, portanto, dados com menor taxa de compressão significam maior quantidade de conhecimento. e, portanto, mais valioso para o compressor. Ao mesmo tempo, pode-se observar que taxas de compressão mais baixas costumam ser acompanhadas de maiores perdas de treinamento. Isso ocorre porque os dados difíceis de compactar carregam mais conhecimento, apresentando maiores desafios para o LLM absorver o conhecimento neles contido.



Figura 2 Mistral-7B



Figura 3 Lhama-3-8B

3. Aplicação prática da lei da entropia

Fornecemos uma aplicação de uma lei de entropia para orientar atualizações incrementais de dados de treinamento LLM em cenários reais. Neste cenário de tarefa, a quantidade de dados de treinamento permanece relativamente estável e apenas uma pequena parte dos dados é modificada.Os resultados são mostrados na Figura 4, onde



São 5 versões de dados que são atualizadas gradualmente de forma incremental. Devido aos requisitos de confidencialidade, apenas a relação relativa dos efeitos do modelo sob diferentes taxas de compactação é fornecida. De acordo com as previsões da lei da entropia, assumindo que a qualidade dos dados não diminui significativamente após cada atualização incremental, pode-se esperar que o desempenho do modelo melhore à medida que a taxa de compressão de dados diminui.Esta previsão é consistente com a versão dos dados na figura

Os resultados são consistentes.No entanto, a versão dos dados

Apresenta aumentos incomuns na perda e compactação de dados, o que indica possível degradação do desempenho do modelo devido à consistência reduzida nos dados de treinamento. Esta previsão foi confirmada pela avaliação subsequente do desempenho do modelo. Portanto, a lei da entropia pode ser usada como um princípio orientador para o treinamento LLM para prever o risco potencial de falha no treinamento LLM sem treinar o modelo no conjunto completo de dados até a convergência. Isto é particularmente importante dado o elevado custo da formação de LLMs.



Figura 4