소식

비용 절감과 효율성 향상을 지원하는 bytehouse는 차세대 클라우드 네이티브 데이터 웨어하우스를 구축합니다.

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

데이터 볼륨의 폭발적인 증가, 기업의 클라우드로의 마이그레이션 가속화, 실시간 데이터에 대한 수요 증가로 인해 클라우드 네이티브 데이터 웨어하우스 시장은 급속한 개발 기회를 가져왔습니다.
idc 및 gartner 연구 기관의 데이터에 따르면 2025년까지 기업 데이터의 50%가 클라우드 스토리지가 될 것으로 예상되고, 데이터베이스의 75%가 클라우드에서 실행되며, 글로벌 데이터 처리의 30%가 실시간 데이터 처리가 될 것으로 예상됩니다. , 데이터의 80%는 비클라우드 스토리지가 될 것으로 예상됩니다. 구조화된 데이터는 클라우드 기반 데이터 웨어하우스가 기업 사이에서 점점 더 인기를 끌도록 이끌 것입니다.
최근 volcano engine 클라우드 네이티브 데이터 웨어하우스 bytehouse의 제품 관리자인 li qun은 "신세대 클라우드 네이티브의 핵심 기술 및 모범 사례"라는 주제에 초점을 맞춘 "csdi 서밋 중국 소프트웨어 r&d 혁신 및 기술 서밋"에 초대되었습니다. data warehouse bytehouse"는 클라우드 데이터 웨어하우스에서 역사와 최첨단을 시작으로 douyin group 내부 및 외부의 다양한 시나리오에서 bytehouse의 전체 아키텍처, 주요 하이라이트, 성능 혁신, 주요 저장 및 계산 분리 설계, bytehouse의 비즈니스 관행을 소개합니다. .
li qun은 금융, 게임, 범인터넷 및 기타 산업에 대한 bytehouse의 경험 요약을 바탕으로 현재 클라우드 기반 데이터 웨어하우스가 직면한 어려움과 과제를 먼저 소개했습니다. 고성능, 높은 동시성 및 높은 처리량 쓰기는 이미 클라우드 데이터 웨어하우스에 대한 오늘날 기업의 기본 요구 사항입니다. 인터넷이 계속 발전함에 따라 데이터, 특히 로그 데이터가 빠르게 증가하고 있습니다. 보다 활동적인 앱 중 일부는 매일 수백억, 심지어 수천억에 달하는 데이터를 보유하고 있으며, 대규모 킬러 애플리케이션은 매일 수천억 개의 이벤트를 생성합니다. 이를 위해서는 데이터 플랫폼이 높은 처리량의 쓰기 및 실시간 중복 제거를 지원할 뿐만 아니라 비즈니스 요청에 대해 밀리초 수준의 응답을 달성해야 합니다.
또한 기업은 복잡한 데이터 아키텍처, 유연성 부족, 비용 통제의 어려움 등의 문제에 직면해 있습니다. 예를 들어, 데이터 분석 기능을 구현하기 위해 기업은 이를 구축하기 위해 3개, 4개 또는 그 이상의 구성 요소를 도입해야 할 수 있으며, 이로 인해 용량 확장이 어렵고 운영 및 유지 관리에 대한 부담이 커지고 인건비 유지 비용이 높아집니다.
위와 같은 문제를 해결하기 위해 바이트하우스는 먼저 성능의 획기적인 발전을 이루었습니다. 복잡한 쿼리의 경우 바이트하우스는 rbo(규칙 기반 최적화 기능), cbo(비용 기반 최적화 기능) 및 분산 계획 생성 측면에서 자체 개발한 최적화 프로그램을 출시하여 효율성을 극대화하는 실행 경로를 크게 계산할 수 있습니다. 개선 사용자 쿼리 시간을 줄입니다. 또한 bytehouse는 exchange, 런타임 필터 및 병렬 재구성 측면에서도 최적화되었습니다. 6가지 주요 시나리오(느린 실시간 처리량, 느린 bi 보고, 느린 오프라인/온라인 복합 분석, 느린 레이크 + 창고 통합 분석, 느린 군중 선택, 느린 이미지 검색)에 대해 bytehouse는 맞춤형 솔루션을 출시하여 실제 고객 시나리오에 구현했습니다. . 실제 결과를 생성합니다.
둘째, 탄력성 역시 bytehouse의 핵심 기능 중 하나입니다. bytehouse의 탄력적인 확장 기능을 기반으로 사용자는 시간, 리소스 로드 및 기타 조건만을 기반으로 확장 및 축소 구성을 수행할 수 있어 수동 관리 부담을 줄이고 리소스 활용도를 높일 수 있습니다. 스토리지 수준에서 bytehouse는 저렴하고 무제한 확장 기능을 갖춘 서버리스 아키텍처를 채택합니다. 컴퓨팅 수준에서 bytehouse는 paas 모델을 기반으로 하며 컨테이너화를 통해 상태 비저장 또는 약한 상태를 구현합니다. 전체 컴퓨팅 그룹을 테넌트와 애플리케이션으로 패키징하여 사용자에게 제공하므로 리소스 요청 충돌이나 성능 저하가 발생하지 않습니다. 컴퓨팅 자원을 사용할 수 있도록 몇 초 안에 탄력적인 풀업과 탄력적인 확장 및 수축을 달성합니다.
마지막으로 bytehouse는 효율성을 향상시키는 동시에 사용자가 비용을 절감하도록 돕는 데에도 중점을 둡니다. bytehouse의 클라우드 네이티브 아키텍처는 맞춤형 시간 공유 유연성을 지원하여 사용자가 비즈니스 피크에 맞춰 리소스를 사전 구매할 필요가 없도록 하여 비용을 30% 이상 절감하는 데 도움을 줍니다. 동시에 사용자의 아키텍처 단순화를 돕기 위해 바이트하우스는 통합 플랫폼 구축을 통해 보다 풍부한 데이터 분석 기능을 제공하고 데이터 효율성을 극대화하여 사용자가 즐길 수 있도록 전체 텍스트 검색 엔진, gis 엔진, 벡터 엔진을 출시했습니다. olap의 최고의 성능을 활용하면 다른 아키텍처를 도입하지 않고도 텍스트 검색, 지리공간 분석, 벡터 검색 기능을 사용할 수 있습니다. 또한 생태학적 호환성 측면에서 bytehouse는 clickhouse, mysql 및 기타 sql 생태학과 레이크 웨어하우스 통합을 지원하여 애플리케이션과 데이터를 무료로 재배치할 수 있습니다.
애플리케이션 시나리오 측면에서 li qun은 실시간 데이터 웨어하우스, 엔터프라이즈급 olap 중간 플랫폼, 정밀 광고 마케팅이라는 세 가지 시나리오에서 bytehouse의 모범 사례를 공유했습니다.
광고의 정밀 마케팅 시나리오를 예로 들면, 모바일 인터넷의 트래픽 배당이 줄어들면서 세련된 마케팅 모델이 주류가 되었습니다. 수억 명의 사람들 중에서 가장 잠재적인 타겟 고객을 선택하는 것은 정밀 마케팅의 본질이며, 기본 엔진인 데이터 웨어하우스 역량이 직면한 과제이기도 합니다.
bytehouse가 서비스를 제공한 단편 드라마 광고 및 마케팅 회사로 판단하면, 회사는 실시간으로 비즈니스 전략을 조정해야 하며, 데이터 분석 및 업데이트 적시성은 3초 이내, 동시 qps는 2,000에 도달해야 합니다. 한편, 마케팅 시나리오에서 대용량 데이터의 실시간 업데이트는 대량의 데이터 조각을 생성하여 쿼리 성능을 저하시키고 저장 공간을 낭비하게 됩니다.
광고 및 마케팅 회사는 bytehouse, lianshan cloud 및 juju engine의 공동 솔루션을 도입하여 "원클릭 실시간 동기화, 미니멀리스트 아키텍처 및 낮은 임계값 기술"로 단편 드라마 산업을 위한 범용 솔루션 세트를 구축했습니다. " 광고 데이터 처리의 효율성과 투자 roi를 향상시킵니다.
실제로 bytehouse는 정렬 키 인덱스, 파티션 키 최적화, 점프 인덱스 등의 다단계 인덱스를 통해 하루에 수천만 건의 쿼리가 발생하더라도 광고 및 마케팅 쿼리 중에 스캔되는 데이터의 양을 효과적으로 줄입니다. 데이터 반환 적시성도 향상될 수 있으며, 이는 이전보다 5배 더 높은 두 번째 수준입니다. 컴퓨팅 그룹 격리 전략에서 bytehouse는 유연한 sql 배포 메커니즘을 통해 광고 및 마케팅 시나리오에서 데이터 읽기 및 쓰기를 위한 독립적인 컴퓨팅 리소스를 구축하여 2000qps 이상의 높은 동시 쿼리를 지원할 수 있습니다.
보고서에 따르면 bytehouse는 차세대 클라우드 네이티브 아키텍처, 효율적이고 편리한 운영 및 유지 관리 모델을 기반으로 중국 지진 네트워크 센터(china seismological network center), lilith games, geeknet technology 등과 같은 많은 업계 기업과 심층적인 협력을 이루었습니다. , 고성능 및 더욱 유연해진 실시간 쿼리 기능은 기업이 디지털 기회를 포착하고 기업의 디지털 전환과 업그레이드를 촉진할 수 있는 견고한 기반을 구축했습니다.
보고/피드백