notícias

mini avalanche de classificação gpt-4o, regras de arena de modelo grande atualizadas, dicas para aumentar pontos do ultraman inválidas

2024-08-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

regras de arena de modelos grandes atualizadas,a classificação do gpt-4o mini desabou imediatamente e saiu do top 10

a nova lista responde à iacaracterísticas como comprimento e estilo foram rebaixadas., garantindo que a pontuação reflita a verdadeira capacidade do modelo de resolver o problema.

tentar usar formatos bonitos, aumentar o número de legendas e outras técnicas para agradar os usuários e aumentar as classificações são inúteis agora.

sob as novas regras, o ultramangpt-4o mini, musksérie grok-2queda significativa nas classificações, googlegêmeos-1.5-flashos modelos pequenos também recuaram.

série claudelhama-3.1-405bas pontuações de grandes modelos aumentaram uma após a outra.

quando apenas tarefas difíceis (hard prompt) são calculadas, a vantagem de modelos grandes na lista de controle de estilo é ainda mais óbvia.

anteriormente, o mini modelo gpt-4o chegou ao topo, empatando em primeiro lugar com a versão completa do gpt-4o, o que era obviamente inconsistente com a experiência física dos internautas.

lmsys large model arena, um padrão de avaliação já recomendado por karpathy, também caiu ao ponto em que “só pode refletir as preferências do usuário, em vez das capacidades do modelo”.

a organização lmsys aprendeu com a experiência e divulgou pela primeira vez os dados de 1.000 batalhas em que o gpt-4o mini participou, analisando assim a taxa de rejeição do modelo, a duração do conteúdo gerado e a formatação como diversos fatores que afetam o resultado da votação.

além disso, antes do lançamento do gpt-4o mini, ultraman deu a entender que ele foi otimizado de acordo com as preferências humanas.

agora, a lmsys deu um passo além e lançou um novo algoritmo para controlar esses fatores, e este é apenas o primeiro passo do planejamento.

como controlar a influência do estilo?

suponha que hajamodelo aé bom para gerar códigos, fatos, respostas imparciais, etc., mas seu resultado é muito conciso.

modelo bnão é muito bom em termos de conteúdo (como correção), mas seu resultado é longo, detalhado e bem formatado.

então, qual é o melhor?

a resposta não é única, lmsys tenta descobrir matematicamente quanto da pontuação de um modelo é contribuído pelo conteúdo ou estilo.

além disso, estudos recentes mostraram queos humanos podem ter preferência por respostas de ia que sejam lindamente formatadas e mais detalhadas.

por embradley-terry retornaadicione recursos de estilo, como comprimento da resposta, número de legendas remarcadas, listas e número de texto em negrito como argumentos.

esta é uma técnica comum em estatística e foi recentemente usada para avaliação de grandes modelos pela alpacaeval lc e outros.

a inclusão de quaisquer variáveis ​​de confusão (como o comprimento da resposta) na regressão permite que o aumento nas pontuações seja atribuído às variáveis ​​de confusão e não ao próprio poder do modelo.

o código relevante foi divulgado no google colab.

além disso, a equipe também conduziu experimentos de ablação “controlando apenas o comprimento” e “controlando apenas o formato”. as pontuações das séries gpt-4o mini e google gemini são mais afetadas pelo formato.

existem limitações para esta abordagem, no entanto, como a possibilidade de fatores de confusão não observados, como uma correlação positiva entre duração e qualidade da resposta, que não são levados em consideração (por exemplo, sugestões de cadeia de pensamento).

muitos internautas disseram que a lista de tarefas difíceis ajustada é mais consistente com suas impressões subjetivas.

algumas pessoas também pensam que é o jogo de ida e volta entre a lista e as grandes empresas modelo que competem pela lista que pode fazer todo o campo progredir juntos.

você ainda está escolhendo modelos com base nos resultados da grande arena de modelos? ou se você tiver métodos de avaliação melhores, compartilhe-os na área de comentários.