notizia

google ai lancia il framework di valutazione cardbench: inclusi 20 database reali per valutare in modo più completo i modelli di stima della cardinalità

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house ha riferito il 3 settembre che i ricercatori di google ai hanno recentemente lanciato il benchmark cardbench, che soddisfa principalmente le esigenze del quadro di valutazione del sistema per l'apprendimento della stima della cardinalità.

il benchmark cardbench è un quadro di valutazione completo che include migliaia di query su 20 diversi database reali, superando significativamente qualsiasi benchmark precedente.

contesto del progetto

la stima della cardinalità (ce) è la chiave per ottimizzare le prestazioni delle query dei database relazionali. implica la previsione del numero di risultati intermedi che una query del database restituirà e influisce direttamente sulla scelta del piano di esecuzione di query optimizer.

stime di immersione accurate sono fondamentali per scegliere sequenze di join efficienti, decidere se utilizzare gli indici e scegliere il metodo di join migliore.

queste decisioni possono avere un impatto significativo sul tempo di esecuzione delle query e sulle prestazioni complessive del database. stime imprecise possono portare a piani di esecuzione inadeguati che riducono significativamente le prestazioni, a volte per ordini di grandezza.

le tecniche di stima della cardinalità ampiamente utilizzate nei moderni sistemi di database si basano su metodi euristici e modelli semplificati, come l'assunzione di dati uniformi e colonne indipendenti.

sebbene questi metodi siano efficienti dal punto di vista computazionale, spesso richiedono una previsione accurata della cardinalità, soprattutto in query complesse che coinvolgono più tabelle e filtri.

i più recenti metodi basati sui dati tentano di modellare la distribuzione dei dati all'interno e tra le tabelle senza eseguire query, riducendo così alcuni costi generali, ma richiedono comunque una riqualificazione quando i dati cambiano.

nonostante questi progressi, la mancanza di parametri di riferimento completi rende difficile confrontare modelli diversi e valutarne la generalizzabilità su set di dati diversi.

banco delle carte

cardbench consente una valutazione più completa dei modelli di cardinalità appresa in una varietà di condizioni. il benchmark supporta tre impostazioni chiave:

modelli basati su istanze, ovvero addestrati su un singolo set di dati;

il modello punto zero viene pre-addestrato su più set di dati e quindi testato su un set di dati invisibile;

ottimizzare il modello, ovvero pre-addestrarlo e quindi ottimizzarlo utilizzando una piccola quantità di dati dal set di dati di destinazione.

il benchmark fornisce due set di dati di training: uno per una query su una singola tabella con più predicati di filtro e uno per una query di join binaria che coinvolge due tabelle.

il benchmark include 9125 query a tabella singola e 8454 query di join binari su uno dei set di dati più piccoli, garantendo un ambiente robusto e stimolante per la valutazione del modello.

ad esempio, il modello di rete neurale a grafico ottimizzato (gnn) ha un errore q medio di 1,32 e un 95° percentile di 120 nelle query di join binarie, che è significativamente migliore rispetto al modello a punto zero. i risultati mostrano che l'ottimizzazione del modello pre-addestrato può migliorarne significativamente le prestazioni anche per 500 query. ciò li rende fattibili per applicazioni pratiche in cui i dati di addestramento sono limitati.

in sintesi, cardbench rappresenta un progresso significativo nella stima della cardinalità appresa. i ricercatori possono facilitare l’ulteriore innovazione in quest’area critica fornendo parametri di riferimento completi e diversificati per valutare e confrontare sistematicamente diversi modelli ce.questo benchmark consente di mettere a punto modelli che richiedono meno dati e tempi di formazione,fornisce una soluzione pratica per applicazioni pratiche in cui la formazione di nuovi modelli è troppo costosa.