O desempenho da inferência do LLM é afetado pelo formato de saída, JSON é a notícia mais séria

O desempenho da inferência do LLM é afetado pelo formato de saída, JSON é o mais sério

2024-08-16

Diferentes formatos de saída podem realmente afetar o desempenho de modelos grandes? !

Deixe que grandes modelos de linguagem (LLMs) resolvam o mesmo problema matemático sob duas instruções. O problema é o seguinte:

O salário por hora de Eliza para as primeiras 40 horas de trabalho por semana é de US$ 10, e o pagamento de horas extras é de x1,2 por hora. Se Eliza trabalhou 45 horas esta semana, quanto ela ganhou esta semana?

Alerta de cadeia de pensamento: "Forneça resultados, raciocínio passo a passo, no seguinte formato: ...Resposta: A resposta final é...".

Solicitação de restrição de formato: "Forneça a saída no seguinte formato JSON válido: ... (veja a figura para o formato JSON específico)".

A resposta correta é460, pode-se observar que a cadeia de pensamento (deixe o modelo pensar passo a passo) funciona, mas a restrição de formato ("saída no formato JSON") falha! !

Esta é uma cena de um novo estudo da National Taiwan University e da Appier AI Research. Eles descobriram que——.

As restrições de formato reduzirão a capacidade de raciocínio dos LLMs e, quanto mais rigorosas as restrições, pior será o raciocínio. (apresentando um personagem rebelde)

Mas a boa notícia é que pode ser tratada.

Eles encontraram,melhor soluçãoÉ uma “conversão secundária” (isso mesmo), ou seja, os LLMs primeiro respondem às perguntas em linguagem natural e depois convertem as respostas para o formato alvo.

No processo, eles compararam as diferenças de desempenho de diferentes modelos, como GPT-3.5 Turbo, Claude 3 Haiku, Gemini 1.5 Flash, etc., ao gerar dados em diferentes formatos.Acontece que：

GPT gosta de YAML, Claude gosta de XML e Gemini/Gemma gosta de JSON. (Principalmente todo mundo tem suas próprias preferências)

Depois de ler a pesquisa, alguns internautas apontaram que éEquilibrando geração estruturada e raciocínio de tarefasignificado:

As restrições de formato reduzem as capacidades de raciocínio dos LLMs

A pesquisa mencionada acima foi publicada no arXiv. O artigo revela principalmente que sob restrições de formato, a capacidade de raciocínio dos LLMs cai significativamente.Especialmente no modo JSON。

O tempo todo,Incorporando LLMs em aplicações industriaisUm grande obstáculo é a falta de adesão a formatos de produção padronizados.

Uma solução comum é a geração estruturada, onde as restrições de formato permitem que os LLMs forneçam resultados em um formato padronizado, como JSON ou XML.

Mas dito isto, embora existam muitas maneiras de alcançar esta restrição, os efeitos subsequentes não foram estudados. (A restrição afeta o desempenho do modelo?)

Basta fazer isso, os pesquisadores adotam3 métodos comunsPara avaliar o impacto de diferentes restrições de formato no desempenho downstream:

Modo JSON: Limite a saída de LLMs por um espaço de tag predefinido
FRI: Orienta LLMs para gerar respostas de formato padronizado que estejam em conformidade com padrões específicos
NL-to-Format: um processo de duas etapas que primeiro responde às perguntas em linguagem natural e depois converte para o formato de destino

A propósito, devo acrescentarLinguagem Natural (NL), que é o formato mais irrestrito e permite que os modelos respondam livremente às perguntas em linguagem natural.

Os objetos de avaliação são GSM8K (contendo problemas matemáticos em um ambiente de linguagem natural) e Last Letter Concatenation (a tarefa de conexão da última letra), dois conjuntos de dados que requerem respostas exatas, bem como Shuffled Objects (tarefa de rastreamento de objetos embaralhados).

Eles descobriram que dicas mais flexíveis geralmente resultavam em melhores resultados nessas tarefas que envolviam raciocínio.

ao mesmo tempo,O esquema JSON tem pior desempenho na maioria dos casos, seguido por instruções de restrição de formato (FRI), conversão de linguagem natural para formato (NL para formato) e prompts de linguagem natural (NL).

O estudo também descobriu que diferentes LLMs respondem a diferentes formatos de dadosmostrar preferências diferentes。

Por exemplo, GPT prefere o formato YAML, Claude prefere o formato XML e Gemini/Gemma prefere o formato JSON.

No entanto, em tarefas de classificação,As restrições de formato podem ter melhorado a precisão, porque reduz as possíveis opções de resposta, diminuindo assim a taxa de erro.

Concluíram ainda que as restrições de formato podem reduzir as capacidades de inferência do modelo.razão, incluindo principalmente:

Limita a capacidade do modelo de gerar etapas de inferência intermediárias necessárias.
Os requisitos de formatação impostos podem ser incompatíveis com a forma como o modelo gera naturalmente as respostas.
Erros de formatação podem fazer com que a resposta seja considerada incorreta devido a problemas de formatação, mesmo que o raciocínio esteja correto.

Boas notícias: pode ser curado

Em resposta a este problema, propuseram várias contramedidas:

Primeiro, como mencionado anteriormente, o modo JSON tem o pior desempenho na maioria dos casos e, finalmente, a conversão de linguagem natural para formato (NL para formato).

Então, inversamente,A melhor solução para resolver limitações de formato é NL to Format, ou seja, os LLMs primeiro respondem às perguntas em linguagem natural e depois convertem as respostas no formato de destino. Esta abordagem permite um melhor desempenho ao dissociar o raciocínio da conformidade com o formato.

Além disso, a saída estruturadaordem de chaveTêm um impacto importante na forma como os LLMs respondem.

Por exemplo, ao usar o GPT-3.5 Turbo, 100% das respostas no modo JSON colocaram incorretamente a chave "resposta" antes do "raciocínio", o que fez com que o modelo desse a resposta diretamente em vez de mostrar o processo de pensamento.

A pesquisa também mostra que as limitações de formato levam aErro de análiseNão é o principal motivo da diferença de desempenho.

Por exemplo, no modelo LLaMA 3 8B, a taxa de erro de análise do formato JSON para a tarefa Última Letra é de apenas 0,15%, mas comparada com a resposta em linguagem natural, a diferença de desempenho chega a 38,15%.

e podeMitigue esses erros com dicas corretivas, por exemplo, para o modelo Claude-3-Haiku, na tarefa Última Letra, através da etapa de correção, a precisão dos formatos JSON e YAML aumentou +2,8% e +44,8% respectivamente.

O que foi dito acima também significa que, ao aplicar LLMs, é necessário encontrar um equilíbrio entre um formato facilmente analisável e a retenção de capacidades de raciocínio inerentes.

Por fim, os pesquisadores lembraram no artigo:

Em comparação com expressões regulares, os LLMs como analisadores de respostas podem fornecer uma compreensão de texto mais profunda e precisa. Eles não se limitam à correspondência superficial de padrões, mas podem realmente compreender o significado e o contexto da resposta.

notícias

O desempenho da inferência do LLM é afetado pelo formato de saída, JSON é o mais sério

Introdução

Minhas informações de contato