ニュース

google ai が cardbench 評価フレームワークを開始: カーディナリティ推定モデルをより包括的に評価するための 20 の実際のデータベースを含む

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house は 9 月 3 日、google ai 研究者が最近、主にカーディナリティ推定を学習するためのシステム評価フレームワークのニーズを満たす cardbench ベンチマークを開始したと報告しました。

cardbench ベンチマークは、20 の異なる実世界のデータベースに対する数千のクエリを含む包括的な評価フレームワークであり、これまでのベンチマークを大幅に上回っています。

プロジェクトの背景

カーディナリティ推定 (ce) は、リレーショナル データベースのクエリ パフォーマンスを最適化するための鍵です。これには、データベース クエリが返す中間結果の数の予測が含まれ、クエリ オプティマイザーの実行プランの選択に直接影響します。

効率的な結合順序の選択、インデックスを使用するかどうかの決定、最適な結合方法の選択には、正確なイマージョン推定が重要です。

これらの決定は、クエリの実行時間とデータベース全体のパフォーマンスに大きな影響を与える可能性があります。見積もりが不正確だと、実行計画が不十分になり、パフォーマンスが大幅に、場合によっては桁違いに低下する可能性があります。

最新のデータベース システムで広く使用されているカーディナリティ推定手法は、データの均一性や列の独立性を仮定するなど、ヒューリスティックな手法と単純化されたモデルに依存しています。

これらの方法は計算効率が高いですが、多くの場合、特に複数のテーブルとフィルターを含む複雑なクエリでは正確なカーディナリティ予測が必要です。

最新のデータ駆動型の手法では、クエリを実行せずにテーブル内およびテーブル間のデータの分散をモデル化しようとしているため、オーバーヘッドがある程度削減されますが、データが変更された場合には再トレーニングが必要になります。

これらの進歩にもかかわらず、包括的なベンチマークが不足しているため、さまざまなモデルを比較し、さまざまなデータセットでの一般化可能性を評価することが困難になっています。

カードベンチ

cardbench を使用すると、学習されたカーディナリティ モデルをさまざまな条件下でより包括的に評価できます。ベンチマークは 3 つの主要な設定をサポートしています。

インスタンスベースのモデル、つまり単一のデータセットでトレーニングされたモデル。

ゼロ点モデルは複数のデータセットで事前トレーニングされ、その後、目に見えないデータセットでテストされます。

モデルを微調整します。つまり、モデルを事前トレーニングしてから、ターゲット データセットからの少量のデータを使用して微調整します。

このベンチマークは 2 セットのトレーニング データを提供します。1 つは複数のフィルター述部を含む単一のテーブル クエリ用で、もう 1 つは 2 つのテーブルを含むバイナリ結合クエリ用です。

このベンチマークには、小規模なデータセットの 1 つに対する 9125 の単一テーブル クエリと 8454 のバイナリ結合クエリが含まれており、モデル評価のための堅牢かつ困難な環境が保証されています。

たとえば、微調整されたグラフ ニューラル ネットワーク (gnn) モデルの q エラー中央値は 1.32、バイナリ結合クエリの 95 パーセンタイルは 120 で、ゼロ点モデルよりも大幅に優れています。結果は、事前トレーニングされたモデルを微調整することで、500 クエリでもパフォーマンスを大幅に向上できることを示しています。これにより、トレーニング データが限られている実際のアプリケーションでも実現可能になります。

要約すると、cardbench は学習されたカーディナリティ推定において大幅な進歩を示しています。研究者は、さまざまな ce モデルを体系的に評価および比較するための包括的で多様なベンチマークを提供することで、この重要な分野でのさらなるイノベーションを促進できます。このベンチマークにより、より少ないデータとトレーニング時間を必要とするモデルの微調整が可能になります。新しいモデルのトレーニングにコストがかかりすぎる実際のアプリケーションに実用的なソリューションを提供します。