minhas informações de contato
correspondência[email protected]
2024-10-03
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
o trabalho de um chinês nascido na década de 2000 foi publicado na nature, e este grande modelo de artigo causou acalorada discussão.
simplificando, o artigo descobriu que modelos maiores que seguem as instruções mais de perto também se tornam menos confiáveis e, em alguns casos,o gpt-4 não é tão confiável quanto o gpt-3 para responder perguntas。
em comparação com os modelos anteriores, os modelos mais recentes, que têm mais poder computacional e feedback humano, pioraram na confiabilidade das respostas.
assim que a conclusão foi divulgada, atraiu imediatamente mais de 200.000 internautas para assistir:
também gerou discussões no fórum do reddit.
isso lembra às pessoas que muitos modelos de nível especialista/doutorado ainda não sabem a simples questão de "qual é maior, 9,9 ou 9,11".
em relação a este fenômeno, o artigo mencionou que isso também reflete,o desempenho do modelo não corresponde às expectativas humanas de dificuldade。
em outras palavras, “os llms têm sucesso e (mais perigosamente) falham em lugares onde os usuários não esperam”.
ilya sutskever previu em 2022:
talvez com o tempo essa diferença diminua.
no entanto, este artigo conclui que este não é o caso. não apenas as séries gpt, llama e bloom, mas até mesmoopenainovomodelo o1 e claude-3.5-sonetotambém existem preocupações em relação à confiabilidade.
mais importante ainda, o artigo também descobriuconfie na supervisão humana para corrigir errosa abordagem também não funciona.
alguns internautas acreditam que, embora modelos maiores possam trazer problemas de confiabilidade, eles também oferecem funcionalidades sem precedentes.
precisamos de nos concentrar no desenvolvimento de métodos de avaliação robustos e no aumento da transparência.
outros acreditam que este estudo destacaiadesafios sutis enfrentados(equilibrando expansão e confiabilidade do modelo)。
para ilustrar a conclusão, o artigo examina três aspectos principais que influenciam a confiabilidade dos llms de uma perspectiva humana:
1、dificuldade inconsistente: os llms falham onde os humanos esperam que falhem?
2、evitação de tarefas: os llms evitam responder perguntas que estão além de suas capacidades?
3、sensibilidade para solicitar expressões de linguagem: a eficácia da formulação do problema é afetada pela dificuldade do problema?
mais importante ainda, os autores também analisam tendências históricas e como estes três aspectos evoluem com a dificuldade da tarefa.
expanda-os um por um abaixo.
para a primeira questão, o artigo se concentra principalmente emevolução da correção em relação à dificuldade。
a julgar pela evolução do gpt e do llama, à medida que a dificuldade aumenta, a correção de todos os modelos diminuirá significativamente.(consistente com as expectativas humanas)
no entanto, estes modelos ainda não conseguem resolver muitas tarefas muito simples.
isso significa que os usuários humanos não podem descobrir o espaço operacional seguro dos llms e usá-lo para garantir que o desempenho de implantação do modelo seja perfeito.
surpreendentemente, os novos llms melhoram principalmente o desempenho em tarefas difíceis, sem melhorias significativas em tarefas mais simples. por exemplo,gpt-4 comparado ao seu antecessor gpt-3.5-turbo。
o que foi dito acima prova que existe uma inconsistência entre as expectativas de dificuldade humana e o desempenho do modelo.e esta inconsistência é agravada no novo modelo.
isso também significa:
atualmente não existem condições operacionais seguras para humanos determinarem que os llms são confiáveis.
isto é particularmente preocupante em aplicações que exigem alta confiabilidade e identificação de espaços operacionais seguros. isto faz com que as pessoas reflitam sobre se a inteligência artificial de ponta que os humanos estão trabalhando arduamente para criar é realmente o que o público espera ter.
em segundo lugar, no que diz respeito ao ponto 2, as conclusões do artigo(evitar geralmente se refere ao modelo que se desvia da resposta à pergunta ou afirma diretamente "não sei"):
em comparação com llms anteriores,os llms mais recentes melhoram drasticamente muitas das respostas erradas ou sem sentido solene, em vez de evitar cuidadosamente tarefas além de suas capacidades.
isto também leva a um fenômeno irônico: em alguns benchmarks, a taxa de erro de novos llms melhora ainda mais rápido do que a precisão (doge).
de um modo geral, quanto mais difícil for a tarefa que os humanos enfrentam, maior será a probabilidade de serem vagos.
mas o desempenho real dos llms é completamente diferente. a pesquisa mostra isso.o seu comportamento de evitação não está significativamente relacionado com a dificuldade.
isso pode facilmente fazer com que os usuários inicialmente confiem demais nos llms para concluir tarefas nas quais não são bons, mas deixando-os desapontados no longo prazo.
como consequência, os humanos também precisam verificar a precisão da saída do modelo e detectar erros.(se você quiser usar llms para ser preguiçoso, terá um grande desconto)
por fim, o artigo constatou que mesmo que alguns indicadores de confiabilidade tenham melhorado, o modelo ainda é sensível a pequenas mudanças na formulação do mesmo problema.
dê uma castanha, perguntar "você pode responder...?" em vez de "por favor, responda à seguinte pergunta..." resultará em vários graus de precisão.
análise encontrada:depender apenas do aumento de escala e da configuração existentes dificilmente resolverá completamente o problema da sensibilidade da indicação, uma vez que os modelos mais recentes não são significativamente otimizados em comparação com os seus antecessores.
e mesmo que você escolha o melhor formato de representação em termos de desempenho médio, ele pode ser principalmente eficaz para tarefas de alta dificuldade, mas ao mesmo tempo ineficaz para tarefas de baixa dificuldade.(maior taxa de erro)。
isso mostra quea humanidade ainda está sujeita ao projeto inspirador。
o que é ainda mais assustador é que o jornal descobriu quea supervisão humana não pode mitigar a falta de confiabilidade do modelo。
o artigo analisa, com base em pesquisas humanas, se as percepções humanas de dificuldade são consistentes com o desempenho real e se os humanos podem avaliar com precisão o resultado do modelo.
os resultados mostram, na região de operação que os usuários consideram difícil, eles muitas vezes consideram a saída incorreta como correta, mesmo para tarefas simples, não existe uma região de operação segura com baixo erro de modelo e baixo erro de supervisão;
os problemas de falta de confiabilidade acima existem em várias séries de llms, incluindo gpt, llama e bloom. os seguintes estão listados no estudo.32 modelos。
esses modelos apresentam diferentesampliação(aumento de cálculos, tamanho do modelo e dados) emoldar(por exemplo, instruções ft, rlhf).
além do acima exposto, os autores descobriram posteriormente que alguns dos modelos mais recentes e mais fortes também sofrem com os problemas de falta de confiabilidade mencionados neste artigo:
incluindo o modelo o1 da openai, claude-3.5-sonnet da antropicic e llama-3.1-405b da meta。
existe também um documento que dá exemplos.(para obter detalhes, consulte o documento original):
além disso, para verificar se outros modelos apresentam problemas de confiabilidade, o autor utilizou os benchmarks de teste utilizados no artigoconfiabilidadebancotambém é de código aberto.
este é um conjunto de dados que abrange cinco domínios, aritmética simples ("adição"), reorganização de vocabulário ("quebra-cabeças de palavras"), conhecimento geográfico ("localização"), problemas científicos básicos e avançados ("ciência") e problemas centrados em informações. transformação ("transformação").
o primeiro artigolexin zhou, atualmente recém-formado pela universidade de cambridge com mestrado em ciência da computação (24 anos), e seu interesse de pesquisa é avaliação de modelos de linguagem de grande porte.
antes disso, obteve o diploma de bacharel em ciência de dados pela universidade politécnica de valência, orientado pelo professor josé hernandez-orallo.
sua página pessoal mostra que ele teve muitas experiências de estágio profissional. participou de testes do red team na openai e meta.(consultoria red teaming)
em relação a este artigo, ele se concentrou em:
a concepção e o desenvolvimento da inteligência artificial geral precisam demudança fundamental, especialmente em domínios de alto risco, onde a distribuição previsível de erros é crucial. antes que isso seja alcançado,existe o perigo de confiar na supervisão humana.
ao avaliar um modelo,considere a dificuldade percebida pelo ser humano e avalie o comportamento de evitação do modelo, pode fornecer uma descrição mais abrangente das capacidades e riscos do modelo, em vez de focar apenas no desempenho em tarefas difíceis.
o documento também menciona especificamente algumas possíveis razões para essas faltas de confiabilidade, bem como soluções:
no scaling-up, os benchmarks nos últimos anos tendem cada vez mais a adicionar exemplos mais difíceis, ou a dar mais peso às chamadas fontes "autorizadas". portanto, os pesquisadores estão mais inclinados a otimizar o desempenho dos modelos em tarefas difíceis, resultando em crônicas. deterioração na consistência da dificuldade.
na modelagem (como o rlhf), o contratado tende a penalizar respostas que contornam a tarefa, fazendo com que o modelo fique mais propenso a “falar besteiras” quando se deparar com problemas difíceis que não consegue resolver.
como resolver essa falta de confiabilidade, o artigo acredita que as expectativas de dificuldade humana podem ser usadas para treinar ou ajustar melhor o modelo, ou a dificuldade da tarefa e a confiança do modelo podem ser usadas para ensinar melhor o modelo a evitar problemas além de suas próprias capacidades, etc.
o que você pensa sobre isso?