Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Contribuição de Tencent Youtu Lab
Qubits | Conta pública QbitAI
Com o rápido desenvolvimento de grandes modelos, o ajuste de instruções desempenha um papel crucial na melhoria do desempenho do modelo e nas capacidades de generalização.
No entanto, os métodos de avaliação e seleção de dados para conjuntos de dados de ajuste de instruções ainda não formaram um sistema unificado e falta uma revisão abrangente e aprofundada.
Para preencher essa lacuna, o Tencent Youtu Lab lançou uma análise completa para resolver.
Tem mais de 10.000 palavras e envolve mais de 400 documentos.
Este estudo aborda métodos de avaliação e seleção de dados em três aspectos principais: qualidade, diversidade e importância, cada um dos quais é classificado e elaborado detalhadamente.
Ao mesmo tempo, o autor também presta atenção aos últimos progressos e tendências neste campo, incluindo algumas tecnologias e métodos emergentes, como o uso de modelos de linguagem poderosos, como GPT para pontuação de dados, amostragem Coreset baseada em otimização de duas camadas, etc. .
O objetivo de desenvolvimento dos LLMs é desbloquear a capacidade de generalização para tarefas de processamento de linguagem natural (PNL), nas quais o ajuste de instruções desempenha um papel importante e a qualidade dos dados é crucial para o efeito do ajuste de instruções.
Os autores realizam um estudo aprofundado de métodos de avaliação e seleção de dados para diversos conjuntos de dados de ajuste de instruções, classificando-os e elaborando-os a partir de três aspectos: qualidade, diversidade e importância.
★ Avaliação e seleção de qualidade
“Qualidade” refere-se principalmente à integridade, precisão e razoabilidade dos pontos de dados de resposta de comando. Os métodos existentes geralmente desenvolvem um mecanismo de pontuação unificado para considerar de forma abrangente essas dimensões.
Em relação à qualidade do conjunto de dados, o autor resume principalmente quatro métodos de teste:
★ Avaliação e seleção da diversidade
A diversidade aqui se refere à diversidade individual (como vocabulário e riqueza semântica) e à diversidade geral (como distribuição de dados) do conjunto de dados de instrução. A escolha de um conjunto de dados com diversidade pode aumentar a capacidade de generalização do modelo.
O autor também resume quatro maneiras de testar a diversidade de conjuntos de dados.
★ Avaliação e seleção de importância
Importância refere-se à necessidade de amostras para treinamento do modelo, que está relacionada à tarefa do modelo e também ao desempenho. Amostras fáceis podem não exigir ajuste adicional, enquanto amostras difíceis são essenciais para o treinamento do modelo.
Existem vários indicadores e métodos principais para avaliar a importância:
Desafios existentes e direções futuras
Os autores encontraram uma lacuna entre a eficácia da seleção de dados e o desempenho relatado do modelo em benchmarks, devido a razões que incluem fraca correlação entre perda de avaliação e desempenho de benchmark, contaminação do conjunto de testes, etc.
No futuro, será necessário construir benchmarks especializados para avaliar modelos de ajuste de instruções e pontos de dados selecionados, e para dissociar a seleção de dados e a avaliação de modelos para excluir o impacto da contaminação de dados.
Atualmente, não existe um padrão unificado para distinguir instruções "boas" e "ruins". Os métodos de medição de qualidade existentes são específicos para cada tarefa e carecem de interpretabilidade. No futuro, serão necessárias definições mais unificadas e universais e uma melhor interpretabilidade dos canais de seleção. necessidades de tarefas posteriores.
À medida que o conjunto de dados se expande, a determinação da taxa de seleção ideal torna-se difícil devido ao aumento de ruído, overfitting e problemas de esquecimento. Recomenda-se determinar a melhor taxa de seleção por meio de esquemas de medição de qualidade, enfatizando a diversidade e considerando a similaridade com os dados de pré-treinamento. Taxas de seleção ideais e pipelines de escalabilidade otimizados para avaliação e seleção de dados.
Além dos conjuntos de dados, o tamanho dos próprios modelos grandes também está aumentando, tornando a avaliação e seleção de dados menos econômica, exigindo o desenvolvimento de modelos substitutos eficientes e repensando as técnicas tradicionais de aprendizado de máquina, como técnicas de otimização e métodos de redução de dimensionalidade.
Página inicial do projeto:
https://github.com/yuleiqin/fantastic-data-engineering
Endereço do papel:
https://arxiv.org/abs/2408.02085