Uma avaliação de 10.000 palavras de grandes conjuntos de dados de ajuste de instruções de modelo! Produzido conjuntamente pela Tencent e pela Shanghai Jiao Tong University

Uma avaliação de 10.000 palavras de grandes conjuntos de dados de ajuste de instruções de modelo! Produzido em conjunto pela Tencent e pela Shanghai Jiao Tong University

2024-08-15

Contribuição de Tencent Youtu Lab
Qubits | Conta pública QbitAI

Com o rápido desenvolvimento de grandes modelos, o ajuste de instruções desempenha um papel crucial na melhoria do desempenho do modelo e nas capacidades de generalização.

No entanto, os métodos de avaliação e seleção de dados para conjuntos de dados de ajuste de instruções ainda não formaram um sistema unificado e falta uma revisão abrangente e aprofundada.

Para preencher essa lacuna, o Tencent Youtu Lab lançou uma análise completa para resolver.

Tem mais de 10.000 palavras e envolve mais de 400 documentos.

Este estudo aborda métodos de avaliação e seleção de dados em três aspectos principais: qualidade, diversidade e importância, cada um dos quais é classificado e elaborado detalhadamente.

Ao mesmo tempo, o autor também presta atenção aos últimos progressos e tendências neste campo, incluindo algumas tecnologias e métodos emergentes, como o uso de modelos de linguagem poderosos, como GPT para pontuação de dados, amostragem Coreset baseada em otimização de duas camadas, etc. .

Avaliação abrangente de conjuntos de dados de ajuste de instruções

O objetivo de desenvolvimento dos LLMs é desbloquear a capacidade de generalização para tarefas de processamento de linguagem natural (PNL), nas quais o ajuste de instruções desempenha um papel importante e a qualidade dos dados é crucial para o efeito do ajuste de instruções.

Os autores realizam um estudo aprofundado de métodos de avaliação e seleção de dados para diversos conjuntos de dados de ajuste de instruções, classificando-os e elaborando-os a partir de três aspectos: qualidade, diversidade e importância.

★ Avaliação e seleção de qualidade

“Qualidade” refere-se principalmente à integridade, precisão e razoabilidade dos pontos de dados de resposta de comando. Os métodos existentes geralmente desenvolvem um mecanismo de pontuação unificado para considerar de forma abrangente essas dimensões.

Em relação à qualidade do conjunto de dados, o autor resume principalmente quatro métodos de teste:

A primeira é projetar indicadores manualmente, como usar vocabulário, sintaxe, similaridade semântica, etc. para avaliar a qualidade dos dados. A vantagem é que o cálculo do indicador é claro, mas não pode detectar pares instrução-resposta incompatíveis.
A segunda é usar indicadores baseados em modelos. Este método utiliza um modelo treinável (como o uso de perplexidade, avaliador de pontuação multidimensional, etc.), combinado com uma tecnologia híbrida de múltiplos indicadores de treinamento (como incerteza, pontuação de recompensa). , etc.). Este método Este método tem o potencial de selecionar amostras imparciais de alta qualidade.
O terceiro método é entregá-lo diretamente ao GPT e chamar APIs OpenAI para pontuar automaticamente o conjunto de dados de ajuste de instruções. Este método está altamente alinhado com as preferências humanas. Depois de coletar um pequeno número de amostras de pontuação do GPT, ajuste o LLM de código aberto. para a medição da qualidade pode melhorar a eficiência de custos.
Finalmente, existe a avaliação manual. Este método é indispensável na construção de conjuntos de dados de alinhamento de preferências e pode fornecer dados de alta qualidade para o treinamento do modelo. No entanto, existe o problema da inconsistência de rotulagem. como pontuação GPT.

★ Avaliação e seleção da diversidade

A diversidade aqui se refere à diversidade individual (como vocabulário e riqueza semântica) e à diversidade geral (como distribuição de dados) do conjunto de dados de instrução. A escolha de um conjunto de dados com diversidade pode aumentar a capacidade de generalização do modelo.

O autor também resume quatro maneiras de testar a diversidade de conjuntos de dados.

Indicadores projetados manualmente: incluindo diversidade lexical (como proporção de token de tipo, vocd-D, MTLD, HD-D, etc.) e diversidade semântica (como cálculo de distância por meio de gráfico k-NN, cálculo de variância usando incorporação de BERT, etc. ), etc. tipo de indicador.
Métricas baseadas em modelo: Avalie a diversidade por meio de métodos relacionados à entropia (como entropia vanilla, entropia de Rényi, índice de Simpson, pontuação de Vendi, etc.), incorporações Task2Vec, marcadores de diversidade de rótulo aberto, etc.
Amostragem de coreset com base em características geométricas: Selecione o subconjunto mais informativo e diversificado por meio de k-center guloso, rebanho e outros métodos para representar todo o conjunto de dados, de modo que o desempenho de treinamento do modelo no subconjunto esteja próximo do desempenho de treinamento no todo o conjunto de dados, a tecnologia de cluster desempenha um papel na explicação da estrutura de dados.
Amostragem Coreset baseada em Bi-level: Tratar a amostragem Coreset como um problema de otimização Bi-level, selecionando subconjuntos otimizando máscaras rígidas ou pesos suaves, envolvendo a otimização de parâmetros internos do modelo e do loop externo de seleção de dados. por conjunto de validação, técnicas de correspondência e otimização de gradiente, etc. para melhorar a robustez e a eficiência.

★ Avaliação e seleção de importância

Importância refere-se à necessidade de amostras para treinamento do modelo, que está relacionada à tarefa do modelo e também ao desempenho. Amostras fáceis podem não exigir ajuste adicional, enquanto amostras difíceis são essenciais para o treinamento do modelo.

Existem vários indicadores e métodos principais para avaliar a importância:

Métricas projetadas à mão: avalie a dificuldade do texto por meio de métricas de legibilidade (como gramática, vocabulário, dependências de inferência, etc.), selecione amostras desafiadoras para avaliar a robustez do modelo e construir benchmarks discriminativos de PNL.
Indicadores baseados em modelos: incluindo incerteza (como incerteza imediata), pontuações de recompensa (usando o modelo de recompensa para julgar a necessidade de amostras para o comportamento do modelo) e modelos de dados (como prever o impacto de pontos de dados no comportamento do modelo através do modelo de dados, DSIR baseado na pontuação de importância de estimativa de similaridade de distribuição, seleção contínua MATES do subconjunto mais eficaz, Xie et al.
Amostragem de coreset baseada em perdas e erros: estimar a importância registrando os erros das amostras no treinamento (como esquecimento de pontuação, memorização, influência, etc.), selecionando amostras que contribuem muito para a perda ou levam a um desempenho ruim, alguns estudos usam aproximação iterativa e pequenos agentes O modelo acelera o cálculo dos efeitos marginais.
Amostragem Coreset baseada em gradiente: utiliza as características dos gradientes para afetar diretamente a otimização do modelo de linguagem, selecionada por meio de correspondência de gradiente (como aproximar o gradiente de todo o conjunto de dados) e influência baseada em gradiente (como medir o impacto das amostras nos parâmetros do modelo através da multiplicação de gradiente ponderado superior) Dados, algumas técnicas (como pesquisa de similaridade de gradiente de classificação baixa, aproximação de amostra móvel, etc.) são usadas para acelerar os cálculos e melhorar a eficiência, enquanto a precisão e a eficiência da aproximação precisam ser consideradas.

Desafios existentes e direções futuras

Os autores encontraram uma lacuna entre a eficácia da seleção de dados e o desempenho relatado do modelo em benchmarks, devido a razões que incluem fraca correlação entre perda de avaliação e desempenho de benchmark, contaminação do conjunto de testes, etc.

No futuro, será necessário construir benchmarks especializados para avaliar modelos de ajuste de instruções e pontos de dados selecionados, e para dissociar a seleção de dados e a avaliação de modelos para excluir o impacto da contaminação de dados.

Atualmente, não existe um padrão unificado para distinguir instruções "boas" e "ruins". Os métodos de medição de qualidade existentes são específicos para cada tarefa e carecem de interpretabilidade. No futuro, serão necessárias definições mais unificadas e universais e uma melhor interpretabilidade dos canais de seleção. necessidades de tarefas posteriores.

À medida que o conjunto de dados se expande, a determinação da taxa de seleção ideal torna-se difícil devido ao aumento de ruído, overfitting e problemas de esquecimento. Recomenda-se determinar a melhor taxa de seleção por meio de esquemas de medição de qualidade, enfatizando a diversidade e considerando a similaridade com os dados de pré-treinamento. Taxas de seleção ideais e pipelines de escalabilidade otimizados para avaliação e seleção de dados.

Além dos conjuntos de dados, o tamanho dos próprios modelos grandes também está aumentando, tornando a avaliação e seleção de dados menos econômica, exigindo o desenvolvimento de modelos substitutos eficientes e repensando as técnicas tradicionais de aprendizado de máquina, como técnicas de otimização e métodos de redução de dimensionalidade.

Página inicial do projeto:
https://github.com/yuleiqin/fantastic-data-engineering
Endereço do papel:
https://arxiv.org/abs/2408.02085

notícias

Uma avaliação de 10.000 palavras de grandes conjuntos de dados de ajuste de instruções de modelo! Produzido em conjunto pela Tencent e pela Shanghai Jiao Tong University

Avaliação abrangente de conjuntos de dados de ajuste de instruções

Introdução

Minhas informações de contato