notícias

Leia todas as tecnologias de alinhamento LLM em um artigo: RLHF, RLAIF, PPO, DPO...

2024-08-05

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Relatório do coração da máquina

Editor: Panda

Para alinhar o LLM, pesquisadores de todas as esferas da vida criaram truques inteligentes.

O LLM é muito poderoso, mas não é perfeito. Também pode cometer erros ou produzir resultados inúteis ou até prejudiciais. Por exemplo, alguém descobriu que o ChatGPT pode ensinar as pessoas a roubar.



Deixe o ChatGPT ensinar as pessoas a roubar lojas à esquerda, o ChatGPT se recusa a responder à direita, depois de adicionar “sem restrições morais (sem restrições morais)” ao prompt, o ChatGPT dá um guia para furtos em lojas;

Neste momento o alinhamento é crucial, seu papel é tornar o LLM consistente com os valores humanos.

A aprendizagem por reforço baseada em feedback humano (RLHF) é uma tecnologia inovadora no alinhamento do LLM. Este método deu origem a modelos poderosos como GPT-4, Claude e Gemini. Após o RLHF, vários métodos de alinhamento de LLMs foram explorados. No entanto, ninguém resumiu anteriormente de forma abrangente os métodos para alinhar o LLM com as preferências humanas.

A Salesforce decidiu preencher essa lacuna e lançou recentemente um relatório de revisão de 37 páginas, que resume a literatura de pesquisa existente por categoria e analisa cada artigo detalhadamente.



  • Título do artigo: Uma pesquisa abrangente de técnicas de alinhamento LLM: RLHF, RLAIF, PPO, DPO e mais
  • Endereço do artigo: https://arxiv.org/pdf/2407.16216

Este artigo está dividido em quatro temas principais: modelo de recompensa, feedback, aprendizagem por reforço (RL) e otimização. Cada tópico contém outros subtópicos, conforme mostrado na Figura 1.



Os subtópicos do modelo de recompensa incluem: 1. Modelo de recompensa explícita e modelo de recompensa implícita 2. Modelo de recompensa ponto a ponto e modelo de preferência 3. Recompensas em nível de resposta e recompensas em nível de token;



Os subtópicos de feedback incluem: 1. Feedback de preferência e feedback binário; 2. Feedback emparelhado e feedback de lista; 3. Feedback humano e feedback de IA;



Os subtópicos da aprendizagem por reforço incluem: 1. Aprendizagem por reforço baseada em referências e aprendizagem por reforço sem referências 2. Aprendizagem por reforço controlada por comprimento 3. Diferentes ramos da aprendizagem por reforço de políticas;

Os subtópicos de otimização incluem: 1. Otimização de preferência online/iterativa e otimização de preferência offline/não iterativa 2. Separação de SFT e alinhamento e fusão de SFT e alinhamento;



A Tabela 1 lista a classificação de todos os artigos analisados ​​neste relatório de revisão nesses 13 indicadores de avaliação.



Artigos de pesquisa

Esta seção apresentará cada artigo em detalhes para que os leitores possam compreender essas importantes inovações sem ler o artigo original. O Coração da Máquina classificará brevemente várias direções de pesquisa e listará artigos representativos.

1. RLHF/PPO

A pré-formação do LLM requer a utilização de um grande número de corpora de diferentes fontes, o que por si só não pode garantir a qualidade desses conjuntos de dados. Além disso, o principal objetivo do LLM é prever o próximo token, o que é inconsistente com o objetivo de "seguir as instruções do usuário de forma útil e segura". Como resultado, o LLM pode gerar conteúdo falso, prejudicial ou inútil para os usuários. Essencialmente, esses modelos não estão alinhados com a intenção do usuário. O principal objetivo do RLHF/PPO é alinhar modelos de linguagem com a intenção do usuário em uma variedade de tarefas, usando feedback humano para ajustar o modelo. Existem muitos estudos sobre este tema.

InstruirGPT

InstructGPT vem do OpenAI, que é a base para modelos de treinamento como ChatGPT e GPT-4. Consulte o "Relatório Técnico GPT-4" e o relatório Heart of the Machine "GPT-4 Shocking Release: Multi-modal large model". , atualizar diretamente ChatGPT, Bing, abrir API, fim do jogo? 》《Aprenda a tecnologia por trás do ChatGPT com Li Mu: Leia o artigo do InstructGPT completamente em 67 minutos》.

Ao incorporar as preferências humanas, o difícil problema de avaliação das respostas geradas pelo LLM é resolvido. As métricas de avaliação tradicionais utilizadas para avaliar LLM, como BLEU, ROUGE e BERTScore, não podem garantir consistência com as preferências humanas. Para resolver este problema, os investigadores integraram diretamente as preferências humanas no LLM para melhorar o seu desempenho. Este processo normalmente envolve duas etapas principais: aprendizagem do modelo de recompensa e treinamento de políticas de aprendizagem por reforço.

Durante a fase de aprendizagem do modelo de recompensa, uma função de recompensa pontual explícita é treinada usando prompts e respostas pareadas.

Depois disso, começa a fase de treinamento da política de aprendizagem por reforço; nesta fase, o LLM e o modelo de recompensa pré-treinado servem como agente e ambiente em uma estrutura de aprendizagem por reforço, respectivamente;

Para treinar o InstructGPT, são usados ​​três conjuntos de dados: 1. Conjunto de dados SFT: Contém demonstrações do anotador usadas para treinar o modelo SFT. 2. Conjunto de dados RM (modelo de recompensa): consiste na classificação dos resultados do modelo por anotadores humanos e é usado para treinar modelos de recompensa. 3. Conjunto de dados PPO: consiste em prompts usados ​​como entrada para ajuste fino de RLHF.

O InstructGPT treinado será avaliado em três aspectos: utilidade, credibilidade e nocividade.

A julgar pelos resultados, a avaliação humana mostra que “as pessoas preferem a saída da versão de parâmetros 1.3B do modelo InstructGPT ao 175B GPT-3, embora este último tenha mais de 100 vezes menos parâmetros. É importante notar que o InstructGPT”. tem O desempenho é melhor que o GPT-3 em tarefas de utilidade e toxicidade, que são cruciais para o alinhamento.

RLHF da Antrópico

A Anthropic também estudou o mesmo tópico, e o artigo é "Treinando um assistente útil e inofensivo com aprendizagem por reforço a partir de feedback humano".

A OpenAI descobriu que o RLHF ajuda no alinhamento, mas também pode causar degradação do desempenho do modelo em alguns benchmarks de PNL, um fenômeno conhecido como “imposto de alinhamento”. O modelo InstructGPT por ele desenvolvido possui parâmetros de 1,3B. Em vez disso, os pesquisadores da Anthropic avaliaram sete modelos diferentes, variando em tamanho de 13M a 52B, que cresceram geometricamente por um fator de 4.

Eles concluíram que existe uma “taxa” de alinhamento para modelos menores, mas apenas benefícios para modelos maiores, especialmente modelos com tamanhos de parâmetros entre 13B e 52B.

Considerando esta vantagem do alinhamento, eles também experimentaram o uso de conjuntos de dados de tecnologia de programação para melhorar as capacidades do LLM. O método RLHF da OpenAI inclui PPO e PPO-ptx, onde o objetivo do design do PPO-ptx é reduzir a taxa de alinhamento no benchmark da PNL. O estudo RLHF da Anthropic descobriu que, desde que o modelo seja grande o suficiente, o próprio PPO pode trazer benefícios de alinhamento para tarefas posteriores de PNL. Eles também determinaram que o parâmetro ideal de divergência KL no treinamento de políticas de aprendizagem por reforço é β = 0,001.

RLHF on-line/iterativo

Tradicionalmente, as técnicas RLHF para alinhar o LLM são métodos offline. No entanto, este tipo de método apresenta algumas deficiências, como a dificuldade em lidar com dados fora de distribuição.

Para este fim, o LLM precisa ser continuamente ajustado e realizar aprendizagem iterativa/online, ou seja, usar uma estratégia intermediária para gerar respostas para prompts, depois usar um oráculo para dar feedback de preferência para tais dados emparelhados e, em seguida, alimentar esses feedbacks. Dê estratégia. Na prática, a aprendizagem iterativa é dividida em duas partes: aprendizagem oracle de preferência e otimização de política iterativa. Veja o artigo "Fluxo de trabalho RLHF: Da modelagem de recompensa ao RLHF online".

2. RLAIF

O custo de obtenção de conjuntos de dados de preferências humanas não é barato, então nasceu o aprendizado por reforço baseado em feedback de inteligência artificial (RLAIF). Além disso, à medida que as capacidades do LLM continuam a melhorar, a qualidade dos conjuntos de dados de preferências de IA que podem ser coletados também continua a melhorar, o que pode melhorar o efeito de alinhamento do LLM.

RLAIF da Antrópico

Com base no trabalho de pesquisa básica do RLHF, a Anthropic propôs um novo método denominado RLAIF. Veja o artigo "IA constitucional: inocuidade do feedback de IA".

O método consiste principalmente em duas etapas: 1. Aprendizagem supervisionada por meio de Críticas e Revisões, que é orientada por um regulamento. 2. RLAIF.

RLAIF do Google

Com base nos resultados da pesquisa RLAIF da Anthropic, uma equipe de pesquisa do Google acredita que pesquisas anteriores não podem comparar diretamente os efeitos do feedback humano e do feedback da IA, e são dignas de pesquisas adicionais. No processo de coleta de feedback da IA, deve ser criado um prompt estruturado, que consiste em: introdução, alguns exemplos de amostra (opcional), amostras a serem rotuladas e conclusão.

Para gerar feedback de IA, uma avaliação em duas etapas precisa ser realizada: primeiro, deixe o LLM gerar a resposta usando os 4 componentes da instrução mais o CoT. Na próxima etapa, esta resposta LLM é enviada de volta ao LLM com a terminação "resumo preferido =", gerando assim uma probabilidade de preferência de "resumo 1 = 0,6, resumo 2 = 0,4". Para reduzir o viés posicional, as sequências dessas duas respostas precisam ser alternadas e suas pontuações médias calculadas.

O processo RLAIF adota duas estratégias: 1. “Destilled RLAIF”, que segue o método RLHF tradicional, ou seja, utiliza preferências para treinar um modelo de recompensa e depois utiliza-as para treinar a estratégia LLM 2. “Direct RLAIF”, que diretamente; usa o feedback LLM é usado como um prompt para gerar uma pontuação de avaliação, que é então usada como um sinal para treinamento em políticas de aprendizagem de reforço.

Finalmente, seu processo de avaliação usa três métricas principais: 1. Alinhamento do Anotador da IA: Quão consistente é a IA com os anotadores humanos. 2. Taxa de vitória: a probabilidade de um anotador humano comparar dois candidatos e escolher um deles. 3. Taxa de inofensividade: A proporção de respostas que os avaliadores humanos consideram inofensivas.

Para obter mais detalhes, consulte o artigo "RLAIF: Dimensionando a aprendizagem por reforço a partir de feedback humano com feedback de IA".

Otimização direta da preferência humana

Os métodos tradicionais de RLHF geralmente envolvem a otimização de uma função de recompensa derivada das preferências humanas. Embora esta abordagem seja eficaz, também pode introduzir algumas dificuldades, tais como o aumento da complexidade computacional e a necessidade de considerar compensações entre viés e variância ao estimar e otimizar recompensas. Veja o artigo "Controle contínuo de alta dimensão usando estimativa de vantagem generalizada".

Pesquisas recentes exploraram outros métodos destinados a otimizar diretamente as políticas de LLM com base nas preferências humanas, sem depender de um sinal de recompensa escalar.

Os objetivos desses métodos são simplificar o processo de alinhamento, reduzir a sobrecarga computacional e permitir uma otimização mais robusta por meio do uso mais direto de dados preferenciais. Ao enquadrar o problema como um problema de otimização de preferências, em vez de um problema de estimativa e maximização de recompensas, esses métodos podem fornecer uma perspectiva diferente sobre o alinhamento de modelos de linguagem com o julgamento humano:

  • SliC-HF, usa feedback humano para calibração de probabilidade de sequência, consulte o artigo "SliC-HF: Calibração de probabilidade de sequência com feedback humano".
  • RSO, otimização de amostragem de rejeição, consulte o artigo "Amostragem de rejeição estatística melhora a otimização de preferência".
  • DPO, otimização de preferência direta, consulte o artigo "Otimização de preferência direta: seu modelo de linguagem é secretamente um modelo de recompensa".
  • DPOP, DPO positivo, consulte o artigo "Smaug: Corrigindo modos de falha de otimização de preferência com DPO positivo".
  • β-DPO, consulte o artigo "β-DPO: Otimização de preferência direta com β dinâmico".
  • IPO, otimização de preferência de identidade, veja o artigo "Um paradigma teórico geral para entender a aprendizagem com as preferências humanas".
  • sDPO, DPO passo a passo, consulte o artigo "sDPO: não use seus dados todos de uma vez".
  • GPO, otimização de preferência generalizada, consulte o artigo "Otimização de preferência generalizada: uma abordagem unificada para alinhamento offline".

DPO em nível de token

Ao usar o DPO, as recompensas são atribuídas a solicitações e respostas juntas. Em contraste, com o MDP, as recompensas são atribuídas a ações individuais. Os dois artigos seguintes elaboraram o DPO no nível do token e estenderam sua aplicação à análise no nível do token.

  • O DPO pode realizar pesquisas sobre a alocação de crédito em nível de token. Consulte o artigo "De r a Q*: Seu modelo de linguagem é secretamente uma função Q" e o relatório "Este é o misterioso Q* da OpenAI?" Stanford: O modelo de linguagem é a função Q.
  • TDPO, DPO em nível de token, consulte o artigo "Otimização de preferência direta em nível de token".

DPO iterativo/on-line

Ao usar o DPO, todos os conjuntos de dados de preferências disponíveis são usados ​​para alinhar o LLM. A fim de melhorar continuamente o LLM, o DPO iterativo/online deve ser implementado. Isto levanta uma questão interessante: como recolher eficientemente novos conjuntos de dados de preferências. Os dois artigos a seguir exploram esse tópico em profundidade.

  • Para modelos de linguagem auto-recompensadores, consulte o artigo "Modelos de linguagem auto-recompensadores".
  • CRINGE, veja o artigo "A perda assustadora: aprendendo qual linguagem não modelar".

feedback binário

Acontece que coletar feedback de preferência é mais difícil do que coletar feedback binário (como gostos ou desgostos), então este último pode facilitar o escalonamento do processo de alinhamento. Os dois estudos, KTO e DRO, concentram-se no uso de feedback binário para alinhar o LLM.

  • KTO, otimização Kahneman-Tversky, consulte o artigo "KTO: Alinhamento do modelo como otimização teórica do prospecto".
  • DRO, otimização de recompensa direta, consulte o artigo "Aprendizagem por reforço regularizado offline para alinhamento de modelos de linguagem grandes".

Fusão de SFT e alinhamento

Pesquisas anteriores realizaram principalmente SFT e alinhamento sequencialmente, mas esta abordagem provou ser trabalhosa e pode levar ao esquecimento catastrófico. A pesquisa de acompanhamento tem duas direções: uma é integrar esses dois processos em uma única etapa, a outra é ajustar os dois modelos em paralelo e, finalmente, fundi-los;

  • ORPO, otimização de preferência de razão de chances, consulte o artigo "ORPO: Otimização de preferência monolítica sem modelo de referência".
  • PAFT, ajuste fino paralelo, consulte o artigo "PAFT: Um paradigma de treinamento paralelo para ajuste fino eficaz de llm".

DPO controlado por comprimento e DPO sem referência

Pesquisas anteriores mostraram que o resultado do LLM costuma ser muito detalhado. Para resolver este problema, R-DPO e SimPO concentram-se em controlar o comprimento da resposta sem afetar o desempenho da geração.

Além disso, o DPO exige uma estratégia de referência para garantir que o modelo alinhado não se desvie muito do modelo de referência. Em contraste, SimPO e RLOO propõem métodos que eliminam a necessidade de um modelo de referência sem afetar o efeito LLM.

  • R-DPO, DPO regularizado, consulte o artigo "Desenredando comprimento da qualidade na otimização de preferência direta".
  • SimPO, otimização de preferência simples, consulte o artigo "SimPO: otimização de preferência simples com recompensa sem referência", o relatório "Abrangente além do DPO: a equipe de Chen Danqi propôs otimização de preferência simples SimPO e também refinou o modelo de código aberto 8B mais forte ".
  • RLOO, REINFORCE Leave-One-Out, 参阅论文《De volta ao básico: revisitando a otimização do estilo de reforço para aprender com o feedback humano em LLMs》。

Otimização de preferência lista por lista

Pesquisas anteriores sobre PPO e DPO focaram nas preferências aos pares, enquanto a pesquisa sobre RLHF coletou preferências em listas para acelerar o processo de coleta de dados e depois as converteu em preferências aos pares. No entanto, para melhorar o desempenho do LLM, é viável usar diretamente conjuntos de dados baseados em listas para realizar a otimização de preferências. Os três artigos a seguir discutem especificamente essa abordagem.

  • LiPO, otimização de preferência listwise, consulte o artigo "LIPO: otimização de preferência listwise por meio do aprendizado de classificação".
  • RRHF, consulte o artigo "RRHF: Classifique as respostas para alinhar modelos de linguagem com feedback humano sem lágrimas".
  • PRO, otimização de classificação de preferência, consulte o artigo "Otimização de classificação de preferência para alinhamento humano".

otimização de preferência negativa

Estes estudos partilham uma premissa comum: a atual geração de LLMs ultrapassou o desempenho humano em tarefas como tradução e sumarização. Portanto, é vantajoso tratar a saída do LLM como uma resposta desejada sem depender do tratamento de dados marcados por humanos como uma resposta preferida. Por outro lado, respostas indesejáveis ​​ainda podem ser usadas para alinhar LLMs, um processo denominado otimização de preferência negativa (NPO).

  • NN, método de exemplo negativo negativo, consulte o artigo "Negando negativos: Alinhamento sem amostras humanas positivas por meio de otimização de dispreferência distributiva".
  • NPO, otimização de preferência negativa, consulte o artigo "Otimização de preferência negativa: do colapso catastrófico à desaprendizagem efetiva".
  • CPO, Otimização de preferência contrastiva, consulte o artigo "Otimização de preferência contrastiva: ampliando os limites do desempenho do llm na tradução automática".

Nash aprendendo

Estudos anteriores geralmente usam modelos de recompensa pontual e BT para obter preferências aos pares. No entanto, esta abordagem é inferior à modelagem direta de preferências pareadas e não pode resolver inconsistências nas preferências pareadas. Para superar essas limitações, alguns estudos propuseram o método de aprendizagem Nash.

  • Nash aprendendo com feedback humano, consulte o artigo "Nash aprendendo com feedback humano".
  • SPPO, otimização de preferência de jogo próprio, veja o artigo "Uma abordagem minimalista para aprendizagem por reforço a partir de feedback humano".
  • DNO, Direct Nash Optimization, veja o artigo "Otimização Direct Nash: Ensinando modelos de linguagem para auto-aperfeiçoamento com preferências gerais".

Comparação de diferentes métodos

Alguns estudos foram realizados para comparar esses diferentes métodos. Tais estudos podem ilustrar as respectivas vantagens e desvantagens de cada abordagem.

  • Avalie o DPO e suas variantes

O artigo "Insights sobre alinhamento: avaliando dpo e suas variantes em múltiplas tarefas" avalia de forma abrangente modelos de recompensa implícita, ou seja, sem algoritmos de aprendizagem por reforço, em múltiplas tarefas, como raciocínio, resolução de problemas matemáticos, credibilidade, resposta a perguntas e multitarefa Incluindo DPO, KTO, IPO e CPO. Essas avaliações envolvem três cenários diferentes: 1) ajuste fino de um modelo de ajuste fino supervisionado (SFT), 2) ajuste fino de um modelo pré-treinado e 3) ajuste fino de um modelo de instrução.

O estudo descobriu que o KTO superou outros métodos de alinhamento na maioria dos benchmarks. Além disso, a pesquisa mostra que o alinhamento não melhora significativamente o raciocínio do modelo e o desempenho de resposta a perguntas, mas melhora significativamente as capacidades de resolução de problemas matemáticos do modelo. O estudo também observou a importância do tamanho dos dados, com os métodos de alinhamento apresentando melhor desempenho em subconjuntos menores de dados. Além disso, o estudo descobriu que KTO e CPO podem efetivamente ignorar o estágio SFT e entrar diretamente no estágio de alinhamento sem afetar o desempenho. Em contraste, o DPO e o IPO apresentam uma degradação significativa do desempenho ao contornar a fase SFT e entrar diretamente na fase de alinhamento.

  • O DPO é um método de alinhamento LLM melhor do que o PPO?

O artigo "O DPO é superior ao PPO para alinhamento LLM? Um estudo abrangente" mostra que o DPO pode ter limitações inerentes, pode produzir respostas tendenciosas e pode causar degradação do desempenho devido a mudanças na distribuição,

Descobriram que a política treinada pelo DPO favorecia respostas invisíveis, especialmente amostras fora de distribuição. O DPO iterativo/online alivia esse problema explorando amplamente o espaço de resposta e atualizando continuamente o modelo de referência. Por outro lado, o RLHF/PPO aborda esses desafios por meio da normalização de dominância, de lotes grandes e do uso de médias móveis exponenciais em um modelo de referência. Em última análise, essas descobertas demonstram que o PPO supera o DPO iterativo/online, que por sua vez supera o DPO padrão.

Para obter mais detalhes, consulte o artigo da coluna Heart of the Machine "ICML 2024 Oral | O DPO é mais adequado para LLM do que PPO, o último segredo revelado pela equipe de Tsinghua Wu Yi".

Direção futura

Ao analisar artigos anteriores, a equipe identificou uma série de questões de pesquisa para exploração adicional.

Tarefas gerais para avaliação de alinhamento

Diferentes artigos usaram diferentes tarefas para avaliar o desempenho desses métodos. No entanto, algumas tarefas como o GSM8K concentram-se mais na inferência e podem não ser adequadas para avaliar o desempenho do alinhamento. Em vez disso, tarefas como TruthfulQA ou aquelas focadas na toxicidade devem ser priorizadas para avaliar a toxicidade de LLMs ajustados. Devem ser encontradas formas de combinar estas tarefas para criar uma lista de classificação unificada para avaliar o alinhamento.

Usando modelos de recompensa implícitos, preferências baseadas em listas e aprendizagem Nash para modelos de linguagem maiores

Atualmente, o maior modelo que usa um modelo de recompensa implícita possui apenas 70B de parâmetros. Se esses métodos puderem ser estendidos a modelos maiores, como aqueles do tamanho de GPT-4 e Claude-3, isso deverá nos ajudar a entender melhor sua eficácia relativa com RLHF/PPO.

Da mesma forma, os modelos de preferência por lista também merecem um estudo mais aprofundado. Ao usar RLHF, um conjunto de dados de preferência é coletado usando preferências de lista, que são então convertidas em dados de preferência de pares. Problemas potenciais com aplicações em larga escala de modelos de preferências baseados em listas ainda precisam ser resolvidos.

Finalmente, o aprendizado de Nash pode resolver inconsistências entre anotadores humanos. Se o modelo de aprendizagem de Nash puder ser integrado num LLM de maior escala, a sua capacidade de capturar a complexidade da natureza humana pode ser demonstrada.

Experimentos em feedback binário

Tanto o KTO quanto o DRO usam mecanismos de feedback binário, como "gostei" e "não gostei", em vez de preferências emparelhadas. Esses feedbacks binários vêm de um conjunto de dados de preferência, onde as respostas desejadas são rotuladas como exemplos positivos e as respostas indesejadas são rotuladas como exemplos negativos. Também precisamos de mais pesquisas sobre conjuntos de dados binários realistas. Além disso, os conjuntos de dados binários são mais fáceis de coletar do que os dados de preferência, por isso espera-se usar conjuntos de dados de feedback binário maiores para alinhamento. No entanto, o ruído no feedback binário pode ser mais óbvio do que o ruído no conjunto de dados de preferência, portanto, como filtrar efetivamente os dados ruidosos também é uma direção de pesquisa muito interessante.

Experimentando feedback útil de IA

O feedback atual da IA ​​inclui principalmente feedback inofensivo no RLAIF e classificação de feedback no DPO iterativo. No entanto, ao usar o RLAIF, comentários úteis ainda são fornecidos por anotadores humanos. Esta abordagem justifica-se porque gerar respostas úteis é significativamente mais difícil do que identificar feedback prejudicial. Uma direção interessante de pesquisa futura é usar o LLM para gerar feedback útil, permitindo assim que o LLM se aprimore.

Acelere o aprendizado do Nash

Os métodos de aprendizagem Nash podem modelar efetivamente preferências de pares e resolver inconsistências entre anotações humanas. No entanto, são necessárias múltiplas iterações para convergir para a estratégia ideal. Embora seu autor não tenha declarado explicitamente o tempo necessário para o alinhamento, pode-se supor que será muito mais lento do que modelos de recompensa implícitos, como o DPO. Portanto, melhorar a velocidade do processo de aprendizagem de Nash também é uma direção de pesquisa que merece atenção.

Término da iteração/aprendizagem on-line

Ao usar treinamento iterativo/online, é fundamental determinar quando encerrar uma iteração. Pesquisas anteriores descobriram que a aprendizagem iterativa às vezes reduz o desempenho do LLM em determinadas tarefas, o que pode ser um sinal de overfitting. No entanto, nenhum pesquisador explorou ainda como determinar a época razoável para encerrar as iterações.

SFT + alinhamento simplificado

As abordagens atuais normalmente implementam SFT e alinhamento de maneira sequencial. No entanto, esta abordagem muitas vezes leva ao esquecimento catastrófico e torna todo o processo de formação mais trabalhoso. O método PAFT mitiga o esquecimento catastrófico, primeiro ajustando o SFT e o alinhamento separadamente e depois fundindo-os, mas isso também aumenta a complexidade. Em contraste, a tecnologia ORPO integra ambos os processos simultaneamente, mas resulta na degradação do desempenho. Então, como você combina efetivamente SFT e alinhamento para alcançar alto desempenho e, ao mesmo tempo, manter alta eficiência? Este ainda é um desafio que precisa ser resolvido.

Veja o artigo original para mais detalhes.