uutiset

google ai lanseeraa cardbench-arviointikehyksen: sisältää 20 todellista tietokantaa kardinaalisuuden arviointimallien kattavampaa arviointia varten

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house raportoi 3. syyskuuta, että googlen ai-tutkijat ovat äskettäin julkaisseet cardbench-benchmarkin, joka vastaa pääasiassa järjestelmän arviointikehyksen tarpeita oppimisen kardinaalisuuden arvioinnissa.

cardbench benchmark on kattava arviointikehys, joka sisältää tuhansia kyselyitä 20 erilaisessa todellisessa tietokannassa, mikä ylittää merkittävästi aiemmat vertailuarvot.

projektin tausta

cardinality estimation (ce) on avain relaatiotietokantojen kyselyn suorituskyvyn optimointiin. se sisältää tietokantakyselyn palauttamien välitulosten määrän ennustamisen, ja se vaikuttaa suoraan kyselyn optimoijan valintaan.

tarkat upotusarviot ovat kriittisiä valittaessa tehokkaita liitossarjoja, päätettäessä, käytetäänkö indeksejä ja valittaessa paras liitosmenetelmä.

näillä päätöksillä voi olla merkittävä vaikutus kyselyn suoritusaikaan ja tietokannan yleiseen suorituskykyyn. epätarkat arviot voivat johtaa huonoihin toteutussuunnitelmiin, jotka heikentävät merkittävästi suorituskykyä, joskus jopa suuruusluokkaa.

nykyaikaisissa tietokantajärjestelmissä laajalti käytetyt kardinaalisuuden estimointitekniikat perustuvat heuristisiin menetelmiin ja yksinkertaistettuihin malleihin, kuten olettamaan yhtenäisiä tietoja ja itsenäisiä sarakkeita.

vaikka nämä menetelmät ovat laskennallisesti tehokkaita, ne vaativat usein tarkan kardinaalisuuden ennustamisen, erityisesti monimutkaisissa kyselyissä, joissa on useita taulukoita ja suodattimia.

uusimmat dataohjatut menetelmät yrittävät mallintaa tietojen jakautumista taulukoiden sisällä ja välillä suorittamatta kyselyitä, mikä vähentää jonkin verran ylimääräisiä kustannuksia, mutta vaativat silti uudelleenkoulutusta, kun tiedot muuttuvat.

näistä edistysaskeleista huolimatta kattavien vertailuarvojen puute vaikeuttaa eri mallien vertaamista ja niiden yleistettävyyden arvioimista eri aineistoissa.

cardbench

cardbench mahdollistaa opittujen kardinaalisuusmallien kattavamman arvioinnin erilaisissa olosuhteissa. vertailuarvo tukee kolmea keskeistä asetusta:

instanssipohjaiset mallit, eli ne on koulutettu yhdelle tietojoukolle;

nollapistemalli on esiopetettu useille tietojoukoille ja sitten testattu näkymättömällä tietojoukolla;

hienosäädä mallia, eli esiopeta se ja sitten hienosäädä sitä käyttämällä pientä datamäärää kohdetietojoukosta.

vertailuarvo tarjoaa kaksi opetusdatajoukkoa: yhden yksittäiselle taulukkokyselylle, jossa on useita suodatinpredikaatteja, ja toisen binääriliitoskyselylle, joka sisältää kaksi taulukkoa.

vertailuarvo sisältää 9125 yhden taulukon kyselyä ja 8454 binääriliitoskyselyä yhdessä pienemmistä tietojoukoista, mikä takaa vankan ja haastavan ympäristön mallien arviointiin.

esimerkiksi hienosäädetyn graafisen hermoverkon (gnn) mallin q-virheen mediaani on 1,32 ja 95. prosenttipiste 120 binääriliitoskyselyissä, mikä on huomattavasti parempi kuin nollapistemalli. tulokset osoittavat, että esiopetetun mallin hienosäätö voi parantaa merkittävästi sen suorituskykyä jopa 500 kyselyssä. tämä tekee niistä toteutettavissa käytännön sovelluksissa, joissa koulutustiedot ovat rajalliset.

yhteenvetona cardbench edustaa merkittävää edistystä opitussa kardinaalisuuden arvioinnissa. tutkijat voivat helpottaa lisäinnovointia tällä kriittisellä alueella tarjoamalla kattavia ja monipuolisia vertailuarvoja, joiden avulla voidaan järjestelmällisesti arvioida ja vertailla erilaisia ​​ce-malleja.tämä vertailuarvo mahdollistaa mallien hienosäädön, jotka vaativat vähemmän dataa ja harjoitusaikaa,se tarjoaa käytännöllisen ratkaisun käytännön sovelluksiin, joissa uusien mallien kouluttaminen on liian kallista.