contribuendo a ridurre i costi e ad aumentare l'efficienza, bytehouse crea una nuova generazione di data warehouse nativi del cloud
2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
con la crescita esplosiva del volume dei dati, l'accelerazione della migrazione delle imprese al cloud e la crescente domanda di dati in tempo reale, il mercato del data warehouse nativo del cloud ha inaugurato rapide opportunità di sviluppo.
secondo i dati degli istituti di ricerca idc e gartner, entro il 2025, si prevede che il 50% dei dati aziendali sarà archiviato nel cloud, il 75% dei database verrà eseguito sul cloud, il 30% dell'elaborazione globale dei dati dovrebbe essere un'elaborazione dati in tempo reale e si prevede che l'80% dei dati sarà archiviato non nel cloud. i dati strutturati porteranno i data warehouse nativi del cloud a diventare sempre più popolari tra le aziende.
recentemente, li qun, product manager del data warehouse nativo del cloud bytehouse di volcano engine, è stato invitato a partecipare al "vertice csdi china software r&d innovation and technology summit", concentrandosi sul tema "tecnologie chiave e migliori pratiche del cloud nativo di nuova generazione" data warehouse bytehouse", dal data warehouse nel cloud partendo dalla storia e dall'avanguardia, presentiamo l'architettura complessiva di bytehouse, i punti salienti principali, le innovazioni prestazionali, i progetti chiave di separazione di archiviazione e calcolo e le pratiche commerciali di bytehouse in diversi scenari all'interno e all'esterno del gruppo douyin .
basandosi sul riepilogo dell'esperienza di bytehouse nel campo della finanza, dei giochi, di pan-internet e di altri settori, li qun ha introdotto per la prima volta le difficoltà e le sfide attualmente affrontate dai data warehouse nativi del cloud. prestazioni elevate, elevata concorrenza e scrittura con throughput elevato rappresentano già le esigenze fondamentali delle aziende odierne per i data warehouse sul cloud. con il continuo sviluppo di internet, i dati crescono rapidamente, in particolare i dati di registro. alcune delle app più attive contengono decine o addirittura centinaia di miliardi di dati ogni giorno e le applicazioni killer su larga scala generano centinaia di miliardi di eventi ogni giorno. ciò richiede che la piattaforma dati non solo supporti la scrittura ad alto throughput e la deduplica in tempo reale, ma ottenga anche una risposta a livello di millisecondi alle richieste aziendali.
inoltre, le imprese devono affrontare anche problemi quali la complessità dell’architettura dei dati, la mancanza di flessibilità e la difficoltà nel controllo dei costi. ad esempio, per implementare una funzione di analisi dei dati, un’impresa potrebbe dover introdurre tre, quattro o anche più componenti per realizzarla, con conseguenti difficoltà di espansione della capacità, elevata pressione operativa e di manutenzione ed elevati costi di manutenzione della manodopera.
per risolvere i problemi di cui sopra, bytehouse ha innanzitutto ottenuto un passo avanti in termini di prestazioni. per query complesse, bytehouse ha lanciato un ottimizzatore sviluppato autonomamente in termini di rbo (capacità di ottimizzazione basata su regole), cbo (capacità di ottimizzazione basata sui costi) e generazione di piani distribuiti, in grado di calcolare con precisione il percorso di esecuzione massimizzando l'efficienza, in modo significativo miglioramento ridurre il tempo di query dell'utente. inoltre bytehouse è stato ottimizzato anche per quanto riguarda exchange, runtime filter e ricostruzione parallela. per sei scenari principali: throughput lento in tempo reale, reporting bi lento, analisi complessa offline/online lenta, analisi federata lago+magazzino lenta, selezione della folla lenta e ricerca di immagini lenta, bytehouse ha lanciato soluzioni personalizzate e le ha implementate in scenari reali dei clienti produrre risultati concreti.
in secondo luogo, anche l’elasticità è una delle capacità principali di bytehouse. sulla base delle capacità di scalabilità elastica di bytehouse, gli utenti possono eseguire configurazioni di espansione e contrazione basate solo sul tempo, sul carico delle risorse e su altre condizioni, riducendo il carico della gestione manuale e migliorando l'utilizzo delle risorse. a livello di storage, bytehouse adotta un'architettura serverless, che ha costi contenuti e capacità di espansione illimitate. a livello informatico, bytehouse si basa sul modello paas e implementa stati stateless o deboli attraverso la containerizzazione. impacchetta l'intero gruppo informatico in tenant e applicazioni e li presenta agli utenti, garantendo che non vi siano conflitti di richiesta di risorse o degrado delle prestazioni. inquilini, in modo che le risorse informatiche possano essere utilizzate. ottieni pull-up elastico ed espansione e contrazione elastica in pochi secondi.
infine, oltre a migliorare l'efficienza, bytehouse si concentra anche sull'aiutare gli utenti a risparmiare sui costi. l'architettura nativa del cloud di bytehouse supporta la flessibilità di time-sharing personalizzata, eliminando la necessità per gli utenti di preacquistare le risorse per i picchi di business, contribuendo a ridurre i costi di oltre il 30%. allo stesso tempo, per aiutare gli utenti a semplificare l'architettura, bytehouse offre funzionalità di analisi dei dati più ricche e massimizza l'efficienza dei dati costruendo una piattaforma unificata ha lanciato motori di ricerca full-text, motori gis e motori vettoriali, consentendo agli utenti di divertirsi le massime prestazioni di olap, è possibile utilizzare le funzionalità di recupero di testo, analisi geospaziale e recupero di vettori senza introdurre altre architetture. inoltre, in termini di compatibilità ecologica, bytehouse supporta clickhouse, mysql e altri sistemi di ecologia sql e integrazione di lake warehouse, consentendo il trasferimento di applicazioni e dati a costo zero.
in termini di scenari applicativi, li qun ha condiviso le migliori pratiche di bytehouse da tre scenari: data warehouse in tempo reale, piattaforma intermedia olap di livello aziendale e marketing pubblicitario di precisione.
prendendo come esempio lo scenario del marketing di precisione della pubblicità, man mano che il dividendo del traffico di internet mobile diminuisce, il modello di marketing raffinato è diventato mainstream. selezionare il pubblico target più potenziale tra centinaia di milioni di persone è l'essenza del marketing di precisione ed è anche una sfida affrontata dalla capacità di data warehouse come motore di base.
a giudicare da una breve fiction pubblicitaria e di marketing fornita da bytehouse, da un lato, l'azienda deve adattare la propria strategia aziendale in tempo reale, richiedendo l'analisi dei dati e la tempestività degli aggiornamenti entro 3 secondi, e dall'altro il raggiungimento simultaneo di 2.000 qps; d'altra parte, negli scenari di marketing, gli aggiornamenti in tempo reale di enormi quantità di dati genereranno una grande quantità di frammenti di dati, che ridurranno le prestazioni delle query e sprecheranno spazio di archiviazione.
introducendo la soluzione congiunta di bytehouse, lianshan cloud e juju engine, la società di pubblicità e marketing ha creato una serie di soluzioni universali per l'industria dei cortometraggi con "sincronizzazione in tempo reale con un clic, architettura minimalista e tecnologia a bassa soglia". " per migliorare l'efficienza dell'elaborazione dei dati pubblicitari e il roi degli investimenti.
in effetti, attraverso indici multilivello, come l'indice delle chiavi di ordinamento, l'ottimizzazione delle chiavi di partizione, l'indice di salto, ecc., bytehouse riduce efficacemente la quantità di dati scansionati durante le query pubblicitarie e di marketing. anche con decine di milioni di query al giorno anche la tempestività della restituzione dei dati può essere migliorata. la garanzia è al secondo livello, che è 5 volte superiore a prima. nella strategia di isolamento del gruppo di calcolo, bytehouse crea risorse di calcolo indipendenti per la lettura e la scrittura di dati in scenari pubblicitari e di marketing. attraverso il meccanismo di distribuzione sql flessibile, può supportare query ad alta concorrenza di oltre 2000 qps.
secondo i rapporti, bytehouse ha anche raggiunto una cooperazione approfondita con molte aziende del settore come china seismological network center, lilith games, geeknet technology, ecc., basandosi su una nuova generazione di architettura nativa del cloud, modelli di funzionamento e manutenzione efficienti e convenienti , ad alte prestazioni e più flessibile la capacità di query in tempo reale ha stabilito una solida base affinché le imprese possano cogliere le opportunità digitali e promuovere la trasformazione digitale e l'aggiornamento delle imprese.