notícias

o google deepmind demonstra a tecnologia genrm: ajustando llms como modelos de recompensa para melhorar os recursos de raciocínio generativo de ia

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

a it house informou em 3 de setembro que a equipe do google deepmind publicou um artigo sobre arxiv em 27 de agosto, apresentando e demonstrando o verificador generativo genrm e propondo criativamente um modelo de recompensa para melhorar as capacidades de raciocínio generativo de ia.

na indústria de ia, a abordagem atual para melhorar grandes modelos de linguagem (llms) é o modo best-of-n, ou seja, as n soluções candidatas geradas pelo llm são classificadas pelo verificador e a melhor solução é selecionada .

esses validadores baseados em llm são geralmente treinados como classificadores discriminativos para pontuar soluções, mas não podem aproveitar as vantagens dos recursos de geração de texto de llms pré-treinados.

para superar essa limitação, a equipe deepmind tentou usar o próximo alvo de previsão de token para treinar o verificador enquanto realizava a verificação e geração de solução.

o verificador generativo da equipe deepmind (genrm) inclui principalmente as seguintes vantagens em comparação aos verificadores tradicionais:

integração perfeita de ajustes de comando

apoie a cadeia de raciocínio de pensamento

aproveitando cálculos adicionais de tempo de inferência por meio de votação majoritária

ao usar validadores baseados em gemma em tarefas algorítmicas e de raciocínio matemático do ensino fundamental, o genrm supera os validadores discriminativos e llm como juiz, melhorando a porcentagem de problemas resolvidos usando o best-of-n 16-64%.

conforme relatado pelo google deepmind, a vantagem do genrm sobre os modelos de recompensa categórica marca uma evolução crítica nos sistemas de recompensa de inteligência artificial, particularmente em termos de sua capacidade de prevenir fraudes aprendidas por novos modelos. este progresso destaca a necessidade urgente de melhorar os modelos de recompensa para alinhar os resultados da ia ​​com os padrões de responsabilidade social.