A estrutura de avaliação de modelo multimodal lmms-eval foi lançada! Cobertura abrangente, baixo custo e poluição zero

2024-08-21

A coluna AIxiv é uma coluna onde a Machine Heart publica conteúdo acadêmico e técnico. Nos últimos anos, a coluna Heart of the Machine AIxiv recebeu mais de 2.000 relatórios, abrangendo os principais laboratórios das principais universidades e empresas de todo o mundo, promovendo efetivamente o intercâmbio e a divulgação acadêmica. Se você tem um trabalho excelente que deseja compartilhar, sinta-se à vontade para contribuir ou entre em contato conosco para reportar.E-mail de envio: [email protected]; [email protected];

juntamente commodelo grandeCom o aprofundamento da pesquisa, como estendê-la para mais modalidades tornou-se um tema quente na academia e na indústria. Modelos grandes de código fechado lançados recentemente, como GPT-4o、Cláudio 3.5 e outros já possuem recursos de compreensão de superimagem, e modelos de domínio de código aberto como LLaVA-NeXT, MiniCPM e InternVL também mostraram desempenho que está se aproximando do código fechado.

Nesta era de "80.000 quilogramas por mu" e "um SoTA a cada 10 dias", estruturas de avaliação multimodais fáceis de usar, com padrões transparentes e reproduzíveis estão se tornando cada vez mais importantes, e isso não é fácil.

Para resolver os problemas acima, pesquisadores do LMMs-Lab da Universidade Tecnológica de Nanyang abriram em conjunto o LMMs-Eval, que é uma estrutura de avaliação especialmente projetada para modelos multimodais em grande escala e fornece um método para a avaliação de modelos multimodais (LMMs). Uma solução completa e eficiente.

Repositório de código: https://github.com/EvolvingLMMs-Lab/lmms-eval
Página inicial oficial: https://lmms-lab.github.io/
Endereço do artigo: https://arxiv.org/abs/2407.12772
Endereço da lista: https://huggingface.co/spaces/lmms-lab/LiveBench

Desde o seu lançamento em março de 2024, a estrutura LMMs-Eval recebeu contribuições colaborativas de muitas partes, incluindo a comunidade de código aberto, empresas e universidades. Já obteve 1,1 mil estrelas no Github, com mais de 30 colaboradores, incluindo um total de mais de 80 conjuntos de dados e mais de 10 modelos, e ainda está crescendo.

Estrutura de avaliação padronizada

A fim de fornecer uma plataforma de avaliação padronizada, o LMMs-Eval inclui os seguintes recursos:

Interface unificada: LMMs-Eval é melhorado e ampliado com base na estrutura de avaliação de texto lm-evaluation-harness Ao definir uma interface unificada para modelos, conjuntos de dados e indicadores de avaliação, é conveniente para os usuários adicionar novos modelos e dados multimodais. definir.
Lançamento com um clique: LMMs-Eval hospeda mais de 80 (e crescentes) conjuntos de dados no HuggingFace, cuidadosamente transformados a partir das fontes originais, incluindo todas as variantes, versões e divisões. Os usuários não precisam fazer nenhuma preparação. Com apenas um comando, vários conjuntos de dados e modelos serão baixados e testados automaticamente, e os resultados estarão disponíveis em alguns minutos.
Transparente e reprodutível: o LMMs-Eval possui uma ferramenta de registro unificada integrada. Cada pergunta respondida pelo modelo e se está correta ou não será registrada, garantindo reprodutibilidade e transparência. Também facilita a comparação das vantagens e desvantagens de diferentes modelos.

A visão do LMMs-Eval é que os futuros modelos multimodais não exijam mais a escrita de seu próprio processamento de dados, inferência e código de submissão. No ambiente atual, onde os conjuntos de testes multimodais são altamente concentrados, esta abordagem não é realista e as pontuações medidas são difíceis de comparar diretamente com outros modelos. Ao acessar o LMMs-Eval, os treinadores de modelos podem se concentrar mais na melhoria e otimização do próprio modelo, em vez de gastar tempo na avaliação e nos resultados de alinhamento.

O “Triângulo Impossível” da Avaliação

O objetivo final do LMMs-Eval é encontrar um método para avaliar LMMs com 1. ampla cobertura, 2. baixo custo e 3. zero vazamento de dados. Porém, mesmo com o LMMs-Eval, a equipe de autores descobriu que é difícil ou mesmo impossível atingir esses três pontos ao mesmo tempo.

Conforme mostrado na figura abaixo, quando expandiram o conjunto de dados de avaliação para mais de 50, tornou-se muito demorado realizar uma avaliação abrangente desses conjuntos de dados. Além disso, esses benchmarks também são suscetíveis à contaminação durante o treinamento. Para tanto, o LMMs-Eval propôs o LMMs-Eval-Lite para levar em consideração a ampla cobertura e o baixo custo. Eles também projetaram o LiveBench para ser de baixo custo e sem vazamento de dados.

LMMs-Eval-Lite: Avaliação leve com ampla cobertura

Ao avaliar modelos grandes, o grande número de parâmetros e tarefas de teste geralmente aumenta drasticamente o tempo e o custo da tarefa de avaliação. Portanto, as pessoas geralmente optam por usar conjuntos de dados menores ou usar conjuntos de dados específicos para avaliação. No entanto, a avaliação limitada muitas vezes leva à falta de compreensão das capacidades do modelo. Para levar em conta tanto a diversidade da avaliação quanto o custo da avaliação, o LMMs-Eval lançou o LMMs-Eval-Lite.

O LMMs-Eval-Lite visa construir um conjunto de benchmark simplificado para fornecer sinais úteis e rápidos durante o desenvolvimento do modelo, evitando assim o problema de inchaço dos testes atuais. Se pudermos encontrar um subconjunto do conjunto de testes existente no qual as pontuações absolutas e as classificações relativas entre os modelos permaneçam semelhantes ao conjunto completo, então poderemos considerar seguro podar esses conjuntos de dados.

Para encontrar os pontos salientes dos dados no conjunto de dados, o LMMs-Eval primeiro usa os modelos CLIP e BGE para converter o conjunto de dados de avaliação multimodal na forma de incorporação vetorial e usa o método de agrupamento k-greedy para encontrar os dados salientes pontos. Nos testes, esses conjuntos de dados menores ainda demonstraram capacidades de avaliação semelhantes ao conjunto completo.

Posteriormente, o LMMs-Eval usou o mesmo método para produzir uma versão Lite cobrindo mais conjuntos de dados. Esses conjuntos de dados são projetados para ajudar as pessoas a economizar custos de avaliação durante o desenvolvimento para avaliar rapidamente o desempenho do modelo.

LiveBench: Teste dinâmico de LMMs

Os benchmarks tradicionais concentram-se na avaliação estática usando perguntas e respostas fixas. Com o progresso da pesquisa multimodal, os modelos de código aberto são muitas vezes melhores que os modelos comerciais, como o GPT-4V, na comparação de pontuação, mas ficam para trás na experiência real do usuário. Os Chatbots Arenas e WildVision dinâmicos e orientados ao usuário são cada vez mais populares para avaliação de modelos, mas exigem a coleta de milhares de preferências do usuário, tornando a avaliação extremamente cara.

A ideia central do LiveBench é avaliar o desempenho do modelo em um conjunto de dados continuamente atualizado para atingir contaminação zero e manter os custos baixos. A equipe de autores coletou dados de avaliação da web e construiu um pipeline para coletar automaticamente as informações globais mais recentes de sites como notícias e fóruns comunitários. Para garantir a atualidade e autenticidade das informações, a equipe de autores selecionou fontes de mais de 60 meios de comunicação, incluindo CNN, BBC, Asahi Shimbun do Japão e Agência de Notícias Xinhua da China, bem como fóruns como o Reddit. As etapas específicas são as seguintes:

Faça uma captura de tela da sua página inicial e remova anúncios e elementos não noticiosos.
Projete conjuntos de perguntas e respostas usando os modelos multimodais mais poderosos disponíveis atualmente, como GPT4-V, Claude-3-Opus e Gemini-1.5-Pro. Revisado e revisado por outro modelo
perguntas para garantir precisão e relevância.
O conjunto final de perguntas e respostas é revisado manualmente e aproximadamente 500 perguntas são coletadas a cada mês, e 100-300 são retidas como o conjunto final de perguntas do livebench.
Os padrões de pontuação de LLaVA-Wilder e Vibe-Eval são usados – as pontuações do modelo de pontuação são baseadas nas respostas padrão fornecidas, e a faixa de pontuação é [1, 10]. O modelo de pontuação padrão é GPT-4o, com Claude-3-Opus e Gemini 1.5 Pro também incluídos como alternativas. Os resultados finais relatados serão baseados na pontuação convertida em uma métrica de precisão que varia de 0 a 100.

No futuro, você também poderá visualizar os dados de avaliação mais recentes de modelos multimodais atualizados dinamicamente todos os meses em nossa lista atualizada dinamicamente, bem como os resultados das últimas avaliações da lista.

notícias

A estrutura de avaliação de modelo multimodal lmms-eval foi lançada! Cobertura abrangente, baixo custo e poluição zero

Introdução

Minhas informações de contato