notícias

Os dados de alinhamento do LLM são sintetizados de forma totalmente automática! Estudante de doutorado chinês da UW propõe método Magpie, Macbook Air pode executá-lo

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Novo Relatório de Sabedoria

Editor: Qiao Yang

[Introdução à Nova Sabedoria] Um artigo recente da Universidade de Washington e da Allen AI propõe uma abordagem nova e interessante para a síntese de dados. Eles descobriram que fazer uso total das características autoregressivas do LLM pode orientar o modelo para gerar automaticamente dados de ajuste fino de instruções de alta qualidade.

Os dados são cruciais para o treinamento LLM, mas nosso foco geralmente está nos dados de treinamento e avaliação, enquanto os dados de ajuste fino são ignorados.

Por exemplo, embora os modelos da série Llama tenham pesos abertos (como Llama-3-Instruct), o conjunto de dados de ajuste fino ainda é privado.

Uma grande parte do sucesso do LLM depende do ajuste fino da instrução, um processo que permite ao modelo generalizar melhor para tarefas às quais não foi exposto durante o treinamento.

Assim como a eficácia do treinamento depende da qualidade do corpus de treinamento, a eficácia do ajuste fino da instrução também depende da disponibilidade de conjuntos de dados de instrução de alta qualidade.

No entanto, em comparação com o corpus de treinamento auto-supervisionado não rotulado, conjuntos de dados de ajuste fino e alinhamento de alta qualidade são mais difíceis de construir e expandir porque são necessárias mais anotações manuais e há intervalos de dicas predefinidos.

Mesmo as empresas especializadas no fornecimento de dados a gigantes da tecnologia de IA não conseguem obter anotações automatizadas na fase atual e têm mesmo de contratar profissionais com salários elevados para participarem no ajuste fino e na construção de conjuntos de dados alinhados.

Alexandr Wang, CEO da Scale AI, disse uma vez:

Recentemente, um artigo publicado em conjunto pela Universidade de Washington e pela instituição de pesquisa Allen AI concentra-se em como sintetizar dados de ajuste fino de alta qualidade com LLM alinhado.


Endereço do artigo: https://arxiv.org/abs/2406.08464

O método proposto no artigo realiza a automação de todo o processo e não requer problemas de sementes. O que é ainda mais surpreendente é que o código não só pode ser executado localmente, mas também usa LLM para gerar automaticamente dados muito confiáveis ​​e de alta qualidade.

Depois de usarem o modelo básico do Llama-3-8B para ajustar o conjunto de dados SFT gerados, eles obtiveram um modelo com desempenho mais forte do que a versão oficial ajustada do Llama-3-Instruct.


O artigo foi encaminhado e endossado por Sebastian Raschka, uma grande figura no círculo de IA.


No início, ele não acreditava que esse método pudesse realmente ser executado localmente no MacBook Air, mas depois de experimentá-lo, ficou agradavelmente surpreso ao descobrir que realmente poderia.


Raschka é autor de vários livros técnicos mais vendidos, incluindo "Building Large Language Models from Scratch", "Python Machine Learning" etc. Atualmente, ele atua como engenheiro de pesquisa na Lightning AI.



O primeiro autor do artigo, Zhangchen Xu, é estudante de doutorado do segundo ano no Laboratório de Segurança de Rede da Universidade de Washington, estudando com a professora Radha Poovendran. Seus interesses de pesquisa são segurança, privacidade e justiça do aprendizado de máquina, e ele está atualmente. focando em como construir um LLM confiável.


Então, vamos dar uma olhada mais de perto em como esse método eficiente de síntese de dados é implementado.

Visão geral do método

Uma entrada LLM típica geralmente consiste em 3 partes:

- modelo de pré-consulta

- Consultar conteúdo (consulta)

- Modelo pós-consulta

Dois dos modelos são geralmente predefinidos pelo desenvolvedor do modelo para garantir que o modelo seja solicitado corretamente.

Por exemplo, o formulário de entrada do Llama-2-chat é:

[INST] Olá! [/INST]

Em estudos anteriores, geralmente existem dois métodos para construir conjuntos de dados de ajuste fino. Uma delas é permitir que os humanos façam isso manualmente, o que obviamente consome tempo e recursos. A segunda é começar com um pequeno número de instruções iniciais anotadas manualmente e chamar o LLM por meio de prompts para sintetizar mais instruções.

Embora o segundo método economize mão de obra, ele testa muito o nível de engenharia imediata e a seleção dos problemas iniciais. Por outras palavras, é difícil conseguir uma expansão controlável em grande escala.

Um problema mais fatal é que as instruções sintetizadas estão frequentemente muito próximas das instruções iniciais, o que afetará seriamente a diversidade de conjuntos de dados em grande escala. A criação de conjuntos de dados de instrução diversificados e de alta qualidade de maneira escalonável continua sendo um problema desafiador no campo LLM.

No entanto, o autor fez uma descoberta interessante nos primeiros experimentos: devido às características autorregressivas do LLM, quando apenas o modelo de pré-consulta é inserido, o modelo sintetizará automaticamente a consulta e, do ponto de vista do conteúdo, parece ter boa qualidade e diversidade. Isto mostra que pode explorar eficazmente as capacidades aprendidas durante o processo de alinhamento.

Inspirado nisso, o autor propôs a seguinte ideia para construir um conjunto de dados de instrução: usar o modelo de pré-consulta como um prompt, inseri-lo no LLM alinhado e gerar dados de instrução automaticamente.

Conforme mostrado na figura abaixo, cada instância de dados de instrução contém um ou mais pares instrução-resposta e as funções de provedor e seguidor de instrução são especificadas.


A Figura 1 descreve o pipeline gerado automaticamente por todos os dados, que é dividido aproximadamente em duas etapas.

A primeira é a geração de instruções. O método MAGPIE constrói o conteúdo da consulta no formato do modelo de instrução predefinido LLM, mas inclui apenas o provedor da instrução (como o usuário) e não inclui o conteúdo específico da instrução.

Usando isso como entrada LLM, o modelo irá gerar instruções de maneira autorregressiva. Este processo garante a diversidade de instruções geradas, uma vez que nenhuma habilidade específica de engenharia de dicas é necessária e nenhuma pergunta de propagação é usada.

Na segunda etapa, o MAGPIE insere as instruções geradas anteriormente no LLM para obter o conteúdo da resposta.

Ao iterar repetidamente as duas etapas acima, várias rodadas de dados de instrução podem ser obtidas. Se quiser gerar dados para um campo específico, você pode fazer isso adicionando prompts correspondentes.


Após obter os resultados originais da geração, o autor também os filtrou com base no comprimento do texto, categoria da tarefa, qualidade da entrada, dificuldade de entrada e outros indicadores.


O artigo usa dois modelos, Llama-3-8B-Instruct e Llama-3-70B-Instruct respectivamente, para construir dois conjuntos de dados MAGPIE-Air e MAGPIE-Pro, e dá exemplos de instruções geradas no apêndice:


Como você pode ver, a qualidade do texto é realmente boa e é totalmente comparável às instruções escritas por humanos.

No entanto, para avaliar a qualidade de dados em tão grande escala, não podemos confiar apenas em sentimentos subjetivos, por isso o autor conduziu uma análise quantitativa no conjunto de dados de instrução gerado MAGPIE-Pro.

Análise de conjunto de dados

Cobertura

Para considerar a diversidade dos textos de instrução, uma métrica eficaz é a cobertura das incorporações de texto no espaço semântico.

O autor amostrou aleatoriamente o texto de instrução do MAGPIE-Pro, codificou-o em vetores incorporados e projetou-o em um espaço bidimensional usando o método t-SNE. Três conjuntos de dados de linha de base foram usados ​​para comparação, incluindo Alpaca, Evol Instruct e UltraChat.

Cada ponto de projeção t-SNE na figura abaixo representa 10.000 instruções selecionadas aleatoriamente. Percebe-se que a projeção do MAGPIE-Pro cobre basicamente o escopo dos outros três conjuntos de dados, o que mostra que oferece um tema mais amplo e diversificado.


Atributos de comando

O artigo usa o modelo Llama-3-8B-Instruct para avaliar vários atributos dos dados de instrução MAGPIE, como categoria de tarefa, qualidade, dificuldade, similaridade e qualidade de resposta da instrução.

As categorias de tarefas para gerar instruções são principalmente recuperação de informações, representando mais da metade, e também incluem escrita criativa, busca de aconselhamento, planejamento, matemática, raciocínio, brainstorming e edição, etc., que são basicamente consistentes com as principais necessidades dos usuários humanos .


A qualidade e a dificuldade das instruções também são avaliadas automaticamente usando o modelo Llama-3-8B-Instruct.

Pode-se observar que em ambos os conjuntos de dados, a maioria dos casos é considerada média ou superior, e a qualidade geral do MAGPIE-Pro é melhor do que a do MAGPIE-Air.

A distribuição da dificuldade de instrução do conjunto de dados é basicamente semelhante, com mais de 60% concentrados no nível “fácil”, e o conjunto de dados Pro é um pouco mais desafiador que o Air.


Ao calcular a similaridade de instruções, o grau de diversificação pode ser avaliado sob outro aspecto. O artigo usa o FAISS para procurar os vizinhos mais próximos de cada incorporação de texto e calcular a distância entre eles para medir o grau de similaridade.

Em termos de qualidade de resposta, FsfairX-LLaMA3-RM-v0.1 é usado como modelo de avaliação de recompensa e URIAL é usado como modelo de linha de base para comparação. Uma diferença de recompensa positiva indica maior qualidade, o que é benéfico para o processo de ajuste fino da instrução.

Como pode ser visto na Figura 5b, a distribuição dos dados do MAGPIE é deslocada para a direita como um todo e tem um valor de pico inferior ao do modelo de base, indicando que a qualidade geral da resposta é melhor.


segurança

Além disso, em termos de segurança de comando, o autor usou Llama-guard-2 para avaliação automática e descobriu que a maior parte do conjunto de dados MAGPIE é segura, mas ainda contém menos de 1% de comandos ou resultados de resposta prejudiciais.


Avaliação de resultados

Um dos maiores destaques desta pesquisa são os custos operacionais eficientes e o pipeline totalmente automatizado, sem qualquer intervenção manual.

Ao criar o conjunto de dados 3M MAGPIE-Air, quatro GPUs A100 foram usadas para completar a geração de comando/resposta em 1,55 horas/50 horas. A geração do conjunto de dados 1M MAGPIE-Pro leva 3,5 horas/150 horas, respectivamente.

Se estiver executando em um servidor em nuvem, o custo também é muito considerável. Custa US$ 0,12 ou US$ 1,10 por mil instâncias geradas, dependendo do conjunto de dados Air ou Pro.

A fim de refletir verdadeiramente as vantagens do método MAGPIE, o artigo aplica o conjunto de dados ao ajuste fino do modelo base e o compara com a versão ajustada oficialmente lançada.

O autor selecionou 6 conjuntos de dados de ajuste fino de instruções de código aberto mais avançados, como ShareGPT e Evol Instruct como linhas de base. Entre eles, ShareGPT e WildChat são escritos por humanos, e Evol Instruct e UltraChat são conjuntos de dados sintéticos.

Os modelos básicos ajustados incluem Llama-3 e Qwen-1.5, e dois indicadores amplamente utilizados, AlpacaEval e Arena-Hard, são selecionados para avaliar o desempenho.

A partir da comparação detalhada dos dados entre as duas tabelas, pode-se constatar que, independentemente do modelo base utilizado, o conjunto de dados gerado pelo método MAGPIE tem maior qualidade, é melhor do que todos os conjuntos de dados de linha de base e é melhor do que os dados oficiais. definido na maioria dos indicadores. Modelo ajustado.



À medida que a lei de escala do LLM toca gradualmente a parede de dados, o método deste artigo abre outra porta de esperança para os dados sintéticos. Talvez usando algoritmos e técnicas cuidadosamente projetadas, os dados sintéticos do LLM possam gradualmente se tornar o “esteio” ​​dos conjuntos de dados públicos.

Referências:

https://arxiv.org/abs/2406.08464