notícias

google ai lança estrutura de avaliação cardbench: incluindo 20 bancos de dados reais para avaliar de forma mais abrangente modelos de estimativa de cardinalidade

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

a it house informou em 3 de setembro que os pesquisadores de ia do google lançaram recentemente o benchmark cardbench, que atende principalmente às necessidades da estrutura de avaliação do sistema para aprender a estimativa de cardinalidade.

o benchmark cardbench é uma estrutura de avaliação abrangente que inclui milhares de consultas em 20 bancos de dados reais diferentes, excedendo significativamente qualquer benchmark anterior.

histórico do projeto

a estimativa de cardinalidade (ce) é a chave para otimizar o desempenho da consulta de bancos de dados relacionais. ela envolve a previsão do número de resultados intermediários que uma consulta ao banco de dados retornará e afeta diretamente a escolha do plano de execução do otimizador de consulta.

estimativas de imersão precisas são essenciais para escolher sequências de junção eficientes, decidir se devem usar índices e escolher o melhor método de junção.

essas decisões podem ter um impacto significativo no tempo de execução da consulta e no desempenho geral do banco de dados. estimativas imprecisas podem levar a planos de execução deficientes que reduzem significativamente o desempenho, às vezes em ordens de magnitude.

as técnicas de estimativa de cardinalidade amplamente utilizadas em sistemas de banco de dados modernos dependem de métodos heurísticos e modelos simplificados, como assumir dados uniformes e colunas independentes.

embora esses métodos sejam computacionalmente eficientes, eles geralmente exigem uma previsão precisa da cardinalidade, especialmente em consultas complexas que envolvem diversas tabelas e filtros.

os métodos mais recentes baseados em dados tentam modelar a distribuição de dados dentro e entre tabelas sem executar consultas, reduzindo assim alguma sobrecarga, mas ainda exigem novo treinamento quando os dados mudam.

apesar destes avanços, a falta de parâmetros de referência abrangentes torna difícil comparar diferentes modelos e avaliar a sua generalização em diferentes conjuntos de dados.

banco de cartões

o cardbench permite uma avaliação mais abrangente dos modelos de cardinalidade aprendidos sob diversas condições. o benchmark oferece suporte a três configurações principais:

modelos baseados em instâncias, ou seja, treinados em um único conjunto de dados;

o modelo de ponto zero é pré-treinado em vários conjuntos de dados e depois testado em um conjunto de dados invisível;

ajustar o modelo, ou seja, pré-treiná-lo e depois ajustá-lo usando uma pequena quantidade de dados do conjunto de dados de destino.

o benchmark fornece dois conjuntos de dados de treinamento: um para uma consulta de tabela única com vários predicados de filtro e outro para uma consulta de junção binária envolvendo duas tabelas.

o benchmark inclui 9.125 consultas de tabela única e 8.454 consultas de junção binária em um dos conjuntos de dados menores, garantindo um ambiente robusto e desafiador para avaliação de modelo.

por exemplo, o modelo de rede neural gráfica ajustada (gnn) tem um erro q mediano de 1,32 e um percentil 95 de 120 em consultas de junção binária, o que é significativamente melhor do que o modelo de ponto zero. os resultados mostram que o ajuste fino do modelo pré-treinado pode melhorar significativamente o seu desempenho, mesmo para 500 consultas. isto os torna viáveis ​​para aplicações práticas onde os dados de treinamento são limitados.

em resumo, o cardbench representa um avanço significativo na estimativa de cardinalidade aprendida. os investigadores podem facilitar novas inovações nesta área crítica, fornecendo referências abrangentes e diversas para avaliar e comparar sistematicamente diferentes modelos de ec.este benchmark permite o ajuste fino de modelos que requerem menos dados e tempo de treinamento,ele fornece uma solução prática para aplicações práticas onde o treinamento de novos modelos é muito caro.