noticias

google ai lanza el marco de evaluación cardbench: incluye 20 bases de datos reales para evaluar de manera más completa los modelos de estimación de cardinalidad

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house informó el 3 de septiembre que los investigadores de inteligencia artificial de google lanzaron recientemente el punto de referencia cardbench, que satisface principalmente las necesidades del marco de evaluación del sistema para aprender a estimar la cardinalidad.

el punto de referencia cardbench es un marco de evaluación integral que incluye miles de consultas en 20 bases de datos diferentes del mundo real, superando significativamente cualquier punto de referencia anterior.

antecedentes del proyecto

la estimación de cardinalidad (ce) es la clave para optimizar el rendimiento de las consultas de bases de datos relacionales. implica predecir la cantidad de resultados intermedios que devolverá una consulta de base de datos, lo que afecta directamente la elección del plan de ejecución del optimizador de consultas.

las estimaciones de inmersión precisas son fundamentales para elegir órdenes de unión eficientes, decidir si se utilizan índices y elegir el mejor método de unión.

estas decisiones pueden tener un impacto significativo en el tiempo de ejecución de las consultas y el rendimiento general de la base de datos. las estimaciones inexactas pueden dar lugar a planes de ejecución deficientes que reducen significativamente el rendimiento, a veces en órdenes de magnitud.

las técnicas de estimación de cardinalidad, ampliamente utilizadas en los sistemas de bases de datos modernos, se basan en métodos heurísticos y modelos simplificados, como asumir uniformidad de datos e independencia de columnas.

aunque estos métodos son computacionalmente eficientes, a menudo requieren una predicción de cardinalidad precisa, especialmente en consultas complejas que involucran múltiples tablas y filtros.

los últimos métodos basados ​​en datos intentan modelar la distribución de datos dentro y entre tablas sin ejecutar consultas, reduciendo así algunos gastos generales, pero aún requieren reentrenamiento cuando los datos cambian.

a pesar de estos avances, la falta de puntos de referencia integrales dificulta comparar diferentes modelos y evaluar su generalización en diferentes conjuntos de datos.

banco de tarjetas

cardbench permite una evaluación más completa de los modelos de cardinalidad aprendidos en una variedad de condiciones. el punto de referencia admite tres configuraciones clave:

modelos basados ​​en instancias, es decir, entrenados en un único conjunto de datos;

el modelo de punto cero se entrena previamente en múltiples conjuntos de datos y luego se prueba en un conjunto de datos invisible;

ajuste el modelo, es decir, preentrenelo y luego ajústelo utilizando una pequeña cantidad de datos del conjunto de datos de destino.

el punto de referencia proporciona dos conjuntos de datos de entrenamiento: uno para una consulta de una sola tabla con múltiples predicados de filtro y otro para una consulta de unión binaria que involucra dos tablas.

el punto de referencia incluye 9125 consultas de tabla única y 8454 consultas de combinación binaria en uno de los conjuntos de datos más pequeños, lo que garantiza un entorno sólido y desafiante para la evaluación de modelos.

por ejemplo, el modelo de red neuronal de gráficos (gnn) ajustado tiene un error q mediano de 1,32 y un percentil 95 de 120 en consultas de unión binaria, lo que es significativamente mejor que el modelo de punto cero. los resultados muestran que ajustar el modelo previamente entrenado puede mejorar significativamente su rendimiento incluso para 500 consultas. esto los hace viables para aplicaciones prácticas donde los datos de entrenamiento son limitados.

en resumen, cardbench representa un avance significativo en la estimación de cardinalidad aprendida. los investigadores pueden facilitar una mayor innovación en esta área crítica proporcionando puntos de referencia integrales y diversos para evaluar y comparar sistemáticamente diferentes modelos de ce.este punto de referencia permite ajustar modelos que requieren menos datos y tiempo de entrenamiento.proporciona una solución práctica para aplicaciones prácticas en las que entrenar nuevos modelos es demasiado caro.