소식

google ai, cardbench 평가 프레임워크 출시: 카디널리티 추정 모델을 보다 포괄적으로 평가하기 위한 20개의 실제 데이터베이스 포함

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

it house는 9월 3일 google ai 연구원들이 최근 카디널리티 추정 학습을 위한 시스템 평가 프레임워크의 요구 사항을 충족하는 cardbench 벤치마크를 출시했다고 보도했습니다.

cardbench 벤치마크는 20개의 서로 다른 실제 데이터베이스에 대한 수천 개의 쿼리를 포함하는 포괄적인 평가 프레임워크로, 이전 벤치마크를 훨씬 능가합니다.

프로젝트 배경

ce(카디널리티 추정)는 관계형 데이터베이스의 쿼리 성능을 최적화하는 핵심입니다. 여기에는 데이터베이스 쿼리가 반환할 중간 결과 수를 예측하는 작업이 포함되며, 이는 쿼리 최적화 프로그램의 실행 계획 선택에 직접적인 영향을 미칩니다.

효율적인 조인 순서를 선택하고, 인덱스 사용 여부를 결정하고, 최상의 조인 방법을 선택하려면 정확한 몰입 추정이 중요합니다.

이러한 결정은 쿼리 실행 시간과 전체 데이터베이스 성능에 상당한 영향을 미칠 수 있습니다. 부정확한 추정은 때로는 성능을 크게 저하시키는 잘못된 실행 계획으로 이어질 수 있습니다.

최신 데이터베이스 시스템에서 널리 사용되는 카디널리티 추정 기술은 데이터 균일성 및 열 독립성 가정과 같은 경험적 방법과 단순화된 모델을 사용합니다.

이러한 방법은 계산적으로 효율적이지만 특히 여러 테이블과 필터가 포함된 복잡한 쿼리의 경우 정확한 카디널리티 예측이 필요한 경우가 많습니다.

최신 데이터 기반 방법은 쿼리를 실행하지 않고 테이블 내 및 테이블 간의 데이터 분포를 모델링하여 일부 오버헤드를 줄이려고 시도하지만 여전히 데이터가 변경될 때 재교육이 필요합니다.

이러한 발전에도 불구하고 포괄적인 벤치마크가 부족하여 다양한 모델을 비교하고 다양한 데이터 세트에 대한 일반화 가능성을 평가하기가 어렵습니다.

카드벤치

cardbench를 사용하면 다양한 조건에서 학습된 카디널리티 모델을 보다 포괄적으로 평가할 수 있습니다. 벤치마크는 세 가지 주요 설정을 지원합니다.

인스턴스 기반 모델, 즉 단일 데이터세트에 대해 학습됨

영점 모델은 여러 데이터 세트에 대해 사전 훈련된 다음 보이지 않는 데이터 세트에서 테스트됩니다.

모델을 미세 조정합니다. 즉, 사전 학습한 다음 대상 데이터 세트의 소량의 데이터를 사용하여 미세 조정합니다.

벤치마크는 두 가지 훈련 데이터 세트를 제공합니다. 하나는 여러 필터 조건자가 있는 단일 테이블 쿼리용이고 다른 하나는 두 테이블을 포함하는 이진 조인 쿼리용입니다.

벤치마크에는 소규모 데이터세트 중 하나에 대한 9125개의 단일 테이블 쿼리와 8454개의 이진 조인 쿼리가 포함되어 있어 모델 평가를 위한 강력하고 까다로운 환경을 보장합니다.

예를 들어, 미세 조정된 gnn(그래프 신경망) 모델은 이진 조인 쿼리에서 중앙값 q 오류가 1.32이고 95번째 백분위수는 120이며 이는 0점 모델보다 훨씬 좋습니다. 결과는 사전 훈련된 모델을 미세 조정하면 500개의 쿼리에 대해서도 성능을 크게 향상시킬 수 있음을 보여줍니다. 이는 훈련 데이터가 제한된 실제 애플리케이션에 적합합니다.

요약하자면, cardbench는 학습된 카디널리티 추정에 있어 상당한 발전을 보여줍니다. 연구원들은 다양한 ce 모델을 체계적으로 평가하고 비교할 수 있는 포괄적이고 다양한 벤치마크를 제공함으로써 이 중요한 영역에서 추가적인 혁신을 촉진할 수 있습니다.이 벤치마크를 통해 더 적은 데이터와 훈련 시간이 필요한 미세 조정 모델이 가능해졌습니다.새로운 모델을 훈련하는 데 비용이 너무 많이 드는 실제 애플리케이션을 위한 실용적인 솔루션을 제공합니다.