notícias

Artigo de alta pontuação da COLM, a primeira grande conferência de modelos: Algoritmo de busca de preferência torna a avaliação de modelos grandes mais eficiente

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar. E-mail de envio: [email protected]; [email protected];

Os autores do artigo são todos do Laboratório de Tecnologia da Linguagem da Universidade de Cambridge. Um deles é o estudante de doutorado do terceiro ano, Liu Yinhong, e seus supervisores são os professores Nigel Collier e Ehsan Shareghi. Seus interesses de pesquisa são avaliação de grandes modelos e textos, geração de dados, etc. Zhou Han, estudante de doutorado do segundo ano em Tongyi, é orientado pelos professores Anna Korhonen e Ivan Vulić. Seu interesse de pesquisa está em grandes modelos eficientes.

Modelos grandes exibem excelentes capacidades de seguimento de comando e generalização de tarefas. Essa habilidade única vem do uso de dados de seguimento de comando e aprendizado de reforço com feedback humano (RLHF) no treinamento. No paradigma de treinamento RLHF, o modelo de recompensa está alinhado com as preferências humanas com base em dados de comparação de classificação. Isto melhora o alinhamento dos LLMs com os valores humanos, gerando assim respostas que melhor auxiliam os humanos e aderem aos valores humanos.

Recentemente, a primeira grande conferência de modelos COLM acaba de anunciar os resultados de aceitação. Um dos trabalhos de maior pontuação analisou o problema de viés de pontuação que é difícil de evitar e corrigir quando o LLM é usado como avaliador de texto e propôs converter o problema de avaliação. em um problema de classificação de preferências Assim, o algoritmo PairS foi projetado, um algoritmo que pode pesquisar e classificar a partir de preferências pareadas. Ao utilizar as suposições de incerteza e transitividade do LLM, o PairS pode fornecer classificações de preferência eficientes e precisas e demonstrar maior consistência com o julgamento humano em vários conjuntos de testes.



Link do artigo: https://arxiv.org/abs/2403.16950

Alinhamento com o julgamento humano: o papel da preferência em pares em grandes avaliadores de modelos de linguagem

Endereço Github: https://github.com/cambridgeltl/PairS

Quais são os problemas de usar modelos grandes para avaliação?

Um grande número de trabalhos recentes demonstraram o excelente desempenho dos LLMs na avaliação da qualidade do texto, formando um novo paradigma para avaliação livre de referências de tarefas generativas, evitando custos dispendiosos de anotação humana. No entanto, os avaliadores LLM são altamente sensíveis ao design imediato e podem até ser afetados por múltiplos preconceitos, incluindo preconceitos posicionais, preconceitos de verbosidade e preconceitos de contexto. Esses preconceitos impedem que os avaliadores do LLM sejam justos e confiáveis, levando a inconsistências e desalinhamentos com o julgamento humano.



Para reduzir as previsões tendenciosas dos LLMs, trabalhos anteriores desenvolveram técnicas de calibração para reduzir o viés nas previsões do LLM. Primeiro conduzimos uma análise sistemática da eficácia das técnicas de calibração no alinhamento de estimadores LLM pontuais. Conforme mostrado na Figura 2 acima, os métodos de calibração existentes ainda não conseguem alinhar bem o estimador LLM, mesmo quando os dados de supervisão são fornecidos.

Conforme mostrado na Equação 1, acreditamos que a principal razão para o desalinhamento da avaliação não são os priores tendenciosos sobre a distribuição da pontuação de avaliação do LLM, mas o desalinhamento do padrão de avaliação, ou seja, a similaridade do avaliador do LLM. Acreditamos que os avaliadores de LLM terão critérios de avaliação mais consistentes com os humanos ao fazer avaliações pareadas, por isso exploramos um novo paradigma de avaliação de LLM para promover julgamentos mais alinhados.



Inspirado em RLHF

Conforme mostrado na Figura 1 abaixo, inspirado no alinhamento de modelos de recompensa por meio de dados de preferência em RLHF, acreditamos que o avaliador LLM pode obter previsões mais alinhadas com os humanos, gerando classificações de preferência. Recentemente, alguns trabalhos começaram a obter classificações de preferência, permitindo que o LLM realizasse comparações aos pares. No entanto, a avaliação da complexidade e escalabilidade das classificações de preferências tem sido amplamente ignorada. Eles ignoram a suposição de transitividade, tornando a complexidade do número de comparações O (N^2), tornando o processo de avaliação caro e inviável.

PairS: Algoritmo Eficiente de Pesquisa de Preferências

Neste trabalho, propomos dois algoritmos de busca de preferência pareada (PairS-greedy e PairS-beam). PairS-greedy é um algoritmo baseado na suposição de transitividade completa e classificação por mesclagem, e pode obter classificação de preferência global com complexidade apenas O (NlogN). A suposição de transitividade significa que, por exemplo, para três candidatos, LLM sempre tem se A≻B e B≻C, então A≻C. Sob esta suposição, podemos usar diretamente algoritmos de classificação tradicionais para obter classificações de preferências a partir de preferências pareadas.

No entanto, o LLM não possui transitividade perfeita, então projetamos o algoritmo PairS-beam. Sob a suposição de transitividade mais flexível, derivamos e simplificamos a função de verossimilhança para classificação de preferência. PairS-beam é um método de pesquisa que realiza uma pesquisa de feixe com base no valor de probabilidade em cada operação de mesclagem do algoritmo de classificação de mesclagem e reduz o espaço de comparação entre pares por meio da incerteza das preferências. O feixe PairS pode ajustar a complexidade do contraste e a qualidade da classificação e fornecer com eficiência a estimativa de máxima verossimilhança (MLE) da classificação de preferência. Na Figura 3 abaixo mostramos um exemplo de como o PairS-beam executa uma operação de mesclagem.



Resultados experimentais

Testamos em vários conjuntos de dados representativos, incluindo as tarefas fechadas de abreviação NewsRoom e SummEval, e a tarefa aberta de geração de histórias HANNA, e comparamos vários métodos de linha de base de avaliação de ponto único LLM, incluindo pontuação direta supervisionada, G-Eval, GPTScore. e UniEval e BARTScore treinados supervisionados. Conforme mostrado na Tabela 1 abaixo, PairS tem maior consistência com classificações humanas do que em todas as tarefas. O GPT-4-turbo pode até atingir efeitos SOTA.

No artigo, também comparamos dois métodos básicos para classificação de preferência, taxa de vitórias e classificação ELO. PairS pode atingir sua classificação de preferência da mesma qualidade com apenas cerca de 30% do número de comparações. O artigo também fornece mais informações sobre como as preferências aos pares podem ser usadas para calcular quantitativamente a transitividade dos estimadores LLM e como os estimadores aos pares podem se beneficiar da calibração.

Para obter mais detalhes da pesquisa, consulte o artigo original.