nouvelles

google ai lance le cadre d'évaluation cardbench : comprenant 20 bases de données réelles pour évaluer de manière plus complète les modèles d'estimation de cardinalité

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house a rapporté le 3 septembre que les chercheurs de google ai avaient récemment lancé le benchmark cardbench, qui répond principalement aux besoins du cadre d'évaluation du système pour l'estimation de la cardinalité de l'apprentissage.

le benchmark cardbench est un cadre d'évaluation complet qui comprend des milliers de requêtes sur 20 bases de données réelles différentes, dépassant largement tous les benchmarks précédents.

contexte du projet

l'estimation de cardinalité (ce) est la clé pour optimiser les performances des requêtes des bases de données relationnelles. elle implique de prédire le nombre de résultats intermédiaires qu'une requête de base de données renverra et affecte directement le choix du plan d'exécution par l'optimiseur de requêtes.

des estimations précises de l'immersion sont essentielles pour choisir des séquences de jointure efficaces, décider d'utiliser ou non des index et choisir la meilleure méthode de jointure.

ces décisions peuvent avoir un impact significatif sur le temps d'exécution des requêtes et les performances globales de la base de données. des estimations inexactes peuvent conduire à des plans d’exécution médiocres qui réduisent considérablement les performances, parfois de plusieurs ordres de grandeur.

les techniques d'estimation de cardinalité largement utilisées dans les systèmes de bases de données modernes reposent sur des méthodes heuristiques et des modèles simplifiés, comme l'hypothèse de données uniformes et de colonnes indépendantes.

bien que ces méthodes soient efficaces sur le plan informatique, elles nécessitent souvent une prédiction précise de la cardinalité, en particulier dans les requêtes complexes impliquant plusieurs tables et filtres.

les dernières méthodes basées sur les données tentent de modéliser la distribution des données au sein et entre les tables sans exécuter de requêtes, réduisant ainsi une certaine surcharge, mais nécessitent toujours un recyclage lorsque les données changent.

malgré ces progrès, le manque de références complètes rend difficile la comparaison de différents modèles et l’évaluation de leur généralisabilité sur différents ensembles de données.

banc de cartes

cardbench permet une évaluation plus complète des modèles de cardinalité appris dans diverses conditions. le benchmark prend en charge trois paramètres clés :

modèles basés sur des instances, c'est-à-dire formés sur un seul ensemble de données ;

le modèle du point zéro est pré-entraîné sur plusieurs ensembles de données, puis testé sur un ensemble de données invisible ;

affinez le modèle, c'est-à-dire pré-entraînez-le, puis affinez-le à l'aide d'une petite quantité de données de l'ensemble de données cible.

le test fournit deux ensembles de données de formation : un pour une requête de table unique avec plusieurs prédicats de filtre et un pour une requête de jointure binaire impliquant deux tables.

le benchmark comprend 9 125 requêtes sur table unique et 8 454 requêtes de jointure binaire sur l'un des plus petits ensembles de données, garantissant ainsi un environnement robuste et stimulant pour l'évaluation des modèles.

par exemple, le modèle de réseau neuronal graphique (gnn) a une erreur q médiane de 1,32 et un 95e centile de 120 dans les requêtes de jointure binaire, ce qui est nettement meilleur que le modèle du point zéro. les résultats montrent qu'un réglage fin du modèle pré-entraîné peut améliorer considérablement ses performances, même pour 500 requêtes. cela les rend réalisables pour des applications pratiques où les données de formation sont limitées.

en résumé, cardbench représente une avancée significative dans l'estimation de la cardinalité apprise. les chercheurs peuvent faciliter l’innovation dans ce domaine critique en fournissant des références complètes et diverses pour évaluer et comparer systématiquement différents modèles d’ec.ce benchmark permet d'affiner les modèles qui nécessitent moins de données et de temps de formation,il fournit une solution pratique pour les applications pratiques où la formation de nouveaux modèles est trop coûteuse.