ainda lutando com feitiços de ia? a universidade de pequim-baichuan desenvolveu um sistema de engenharia de lembrete automático pas

2024-09-10

a coluna aixiv é uma coluna onde a machine heart publica conteúdo acadêmico e técnico. nos últimos anos, a coluna heart of the machine aixiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. e-mail de envio: [email protected]; [email protected];

zheng miao, o co-autor do artigo, vem da equipe de alinhamento de baichuan liderada por zhou zenan. ele se formou na universidade de pequim. seus interesses de pesquisa incluem grandes modelos de linguagem, aprendizagem multimodal e visão computacional. projetos como mmflow. o co-primeiro autor liang hao é estudante de doutorado no instituto de estudos interdisciplinares de fronteira da universidade de pequim. sua direção de pesquisa é o lado dos dados de grandes modelos, e seu orientador é o professor zhang wentao. o laboratório conjunto de sistemas inteligentes de ia da universidade de pequim-baichuan foi estabelecido em janeiro de 2024. seu objetivo é estudar questões importantes, como geração de dados científicos e sistemáticos e estratégias de avaliação de qualidade, treinamento de grandes modelos e aceleração de inferência em todo o processo técnico de sistemas de modelos de inteligência artificial. . o laboratório conjunto é dirigido por cui bin, distinto professor de boya na universidade de pequim, e chen weipeng, cofundador da baichuan intelligence.

grandes modelos de linguagem baseados na arquitetura transformer estão alcançando resultados inovadores em vários campos. a prompt engineering desempenha um papel crucial nisso.

com boas dicas, pesquisadores e desenvolvedores podem orientar os modelos para um melhor desempenho em tarefas específicas. este método pode não só melhorar significativamente o desempenho do modelo, mas também aumentar a adaptabilidade do modelo, tornando-o mais flexível e eficiente ao enfrentar diversas tarefas complexas.

além disso, o projeto prompt word também pode otimizar o processo de aprendizagem do modelo, melhorar a eficiência do processamento de problemas complexos e reduzir o tempo de treinamento e os requisitos de recursos computacionais.

em comparação com os métodos tradicionais de ajuste fino, a engenharia de palavras rápidas pode adaptar o modelo a múltiplas tarefas posteriores a um custo muito baixo, economizando significativamente recursos de computação e custos de coleta de dados. no entanto, criar palavras-chave eficazes ainda é um desafio para não especialistas e muitas vezes requer muito aprendizado e prática.

geralmente é difícil alcançar resultados ideais usando diretamente grandes modelos de linguagem para projetos de prompt automático. dicas inadequadas podem distrair o modelo e, na verdade, reduzir o desempenho. portanto, é particularmente importante desenvolver um sistema de engenharia automático e rápido que possa auxiliar os usuários e seja fácil de operar.

pas: sistema inovador de engenharia de alerta automático

para enfrentar esse desafio, o laboratório conjunto universidade de pequim-baichuan propôs o sistema de engenharia automática de alerta pas. a inovação do pas é:

1. projete um conjunto de dados de prompt automático de alta qualidade

2. realize o aprendizado de algumas amostras e a triagem de dados no modelo gpt

3. crie automaticamente um conjunto de dados de prompt simplificado e eficiente

4. implementar engenharia imediata e automática eficaz por meio de ajuste fino

o pas pode complementar a entrada do usuário de forma concisa e eficaz, realizando um projeto rápido, simples e automático que suporta exibição de streaming.

em vários testes de benchmark, o pas supera em muito os modelos sota existentes e requer menos dados. os resultados da avaliação manual também mostram que o pas tem excelente desempenho, destacando o seu enorme potencial em aplicações práticas.

este resultado inovador não apenas promove o desenvolvimento da engenharia de palavras rápidas, mas também abre caminho para a aplicação de grandes modelos de linguagem em uma ampla gama de campos.

endereço do artigo: https://arxiv.org/abs/2407.06027
laboratório de sistema ml pku-baichuan:

https://github.com/pku-baichuan-mlsystemlab

https://huggingface.co/pku-baichuan-mlsystemlab

método

o treinamento pas é dividido principalmente em três etapas:

etapa 1: construir um conjunto de dados de problemas de alta qualidade

a primeira tarefa no treinamento do pas é construir um conjunto de dados de problemas de alta qualidade. conforme mostrado na figura (a), os pesquisadores selecionaram questões de alta qualidade com base nos conjuntos de dados lmsys-1m e wildchat por meio dos três aspectos a seguir:

1. desduplicação de dados: use tecnologia de incorporação combinada com algoritmos de cluster para remover dados duplicados com eficácia.

2. triagem de qualidade: use o modelo grande de baichuan para avaliar e rastrear a qualidade dos dados.

3. garantia de diversidade: foram finalmente selecionados 9.000 dados de perguntas de alta qualidade cobrindo mais de 10 categorias.

etapa 2: complementar os dados de engenharia imediatos

nesta fase, os pesquisadores usaram de forma abrangente os 100 dados de alta qualidade acumulados internamente e os dados do problema selecionados na primeira etapa, e usaram o método de aprendizagem de poucas tentativas para construir dados de engenharia imediatos e automáticos com a ajuda do modelo gpt:

1. geração inicial de dados: use o aprendizado rápido para orientar o gpt na geração de dados de engenharia preliminares e imediatos.

2. controle de qualidade: projete a etapa crítica e use o aprendizado rápido novamente para permitir que o gpt avalie a qualidade dos dados gerados.

3. otimização iterativa: filtre automaticamente os dados de baixa qualidade e regenere-os para garantir a qualidade dos dados por meio de várias rodadas de iteração.

4. resultado final: 9.000 dados de engenharia automática de alta qualidade foram finalmente obtidos.

distribuição de dados

a distribuição dos 9.000 dados gerados está mostrada na figura acima, garantindo a diversidade e representatividade dos dados.

etapa 3: ajuste o modelo de prompt automático

a etapa final usará o conjunto de dados obtido nas duas primeiras etapas para ajustar o grande modelo de linguagem:

1. selecione um modelo básico: como qwen2-7b e outros modelos.

2. ajuste fino direcionado: use conjuntos de dados de alta qualidade para ajuste fino.

3. treinamento especializado: finalmente, um grande modelo de linguagem é obtido especificamente para projetos de prompt automático.

experimentos e resultados

revisão manual

de acordo com a avaliação de avaliadores humanos, o pas apresenta uma maior taxa de vitórias em diversas áreas em comparação com o modelo sota (state-of-the-art) anterior. a taxa média de vitórias em muitos campos excede 50%, e a soma da taxa de vitórias e da taxa de empate chega a mais de 80%.

avaliação da máquinabenchmark

para avaliar de forma abrangente o desempenho do pas, os pesquisadores selecionaram três benchmarks: arena-hard, alpaca-eval 2.0 e alpaca-eval 2.0 (lc).

os pesquisadores então aplicaram o pas a seis principais modelos de ia, incluindo:

gpt-4 (três versões)
gpt-3.5
qwen2-72-instruir
llama3-70b-instruir

os resultados da avaliação mostram:

o pas alcança melhorias significativas em comparação com o caso sem aviso e com o modelo de engenharia de aviso automático sota anterior.
comparado com modelos bpo anteriores, o pas apresenta maior adaptabilidade, é compatível com uma variedade de modelos muito grandes e alcança melhorias de desempenho em cada modelo.

análise de eficiência computacional

o pas não só tem um bom desempenho em termos de desempenho, mas também é muito eficiente em termos computacionais: em termos de eficiência de dados, requer apenas 9.000 dados ajustados para demonstrar um desempenho superior. em termos de eficiência de saída, pode limitar a duração dos prompts automáticos suplementares, geralmente não mais do que 30 palavras.

em termos de experiência do usuário, o pas também traz ganhos para modelos de grande porte, especificamente:

ao contrário dos modelos anteriores, como o bpo, o pas não precisa modificar a pergunta original do usuário, apenas prompts automáticos complementares.
fornece excelente experiência ao usuário com tempo de resposta controlável.
suporta exibição de streaming semelhante a gpt para aprimorar ainda mais a experiência interativa.

exemplo: pas ajuda modelos grandes a evitar armadilhas lógicas

“se há 10 pássaros na árvore e um deles é morto a tiros, quantos pássaros há no chão?”

esta pergunta aparentemente simples esconde, na verdade, uma armadilha lógica inteligente. quando você a vê, pode levar alguns segundos para perceber que restam 9 pássaros na árvore e apenas 1 no chão.

conforme mostrado na figura, sem o auxílio do pas, o gpt dá respostas erradas. o sistema pas melhora significativamente o desempenho do modelo, complementando palavras de alerta:

sob a orientação do pas, a nova rodada de respostas do modelo apresentou melhorias significativas. ele não apenas evitou com sucesso as armadilhas lógicas nas perguntas, demonstrou um processo de raciocínio lógico claro e em várias etapas, mas também deu a resposta correta para que os usuários entendessem. todo o processo de raciocínio.

os leitores interessados podem ler o texto original do artigo para saber mais sobre o conteúdo da pesquisa.

notícias

ainda lutando com feitiços de ia? a universidade de pequim-baichuan desenvolveu um sistema de engenharia de lembrete automático pas

introdução

minhas informações de contato