en contribuant à réduire les coûts et à accroître l'efficacité, bytehouse crée une nouvelle génération d'entrepôt de données cloud natif
2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
avec la croissance explosive du volume de données, l'accélération de la migration des entreprises vers le cloud et la demande croissante de données en temps réel, le marché des entrepôts de données cloud natifs a ouvert la voie à des opportunités de développement rapide.
selon les données des instituts de recherche idc et gartner, d'ici 2025, 50 % des données d'entreprise devraient être stockées dans le cloud, 75 % des bases de données fonctionneront sur le cloud et 30 % du traitement mondial des données devrait être un traitement de données en temps réel. , et 80 % des données devraient être stockées hors cloud. les données structurées permettront aux entrepôts de données cloud natifs de devenir de plus en plus populaires parmi les entreprises.
récemment, li qun, chef de produit de l'entrepôt de données cloud natif volcano engine bytehouse, a été invité à assister au « sommet csdi china software r&d innovation and technology summit », axé sur le thème « technologies clés et meilleures pratiques de la nouvelle génération cloud native ». data warehouse bytehouse", de l'entrepôt de données cloud en partant de l'histoire et de l'avant-garde, nous présentons l'architecture globale de bytehouse, les points forts, les avancées en matière de performances, les conceptions clés de séparation du stockage et des calculs, ainsi que les pratiques commerciales de bytehouse dans divers scénarios à l'intérieur et à l'extérieur du groupe douyin. .
sur la base du résumé de l'expérience de bytehouse dans les domaines de la finance, des jeux, de l'internet pan-internet et d'autres secteurs, li qun a d'abord présenté les difficultés et les défis auxquels sont actuellement confrontés les entrepôts de données cloud natifs. hautes performances, haute concurrence et écriture à haut débit constituent déjà les besoins fondamentaux des entreprises d'aujourd'hui en matière d'entrepôts de données cloud. à mesure qu'internet continue de se développer, les données augmentent rapidement, en particulier les données de journaux. certaines des applications les plus actives génèrent des données atteignant des dizaines, voire des centaines de milliards chaque jour, et les applications tueuses à grande échelle génèrent des centaines de milliards d'événements chaque jour. cela nécessite que la plate-forme de données non seulement prenne en charge l'écriture à haut débit et la déduplication en temps réel, mais qu'elle fournisse également une réponse de l'ordre de la milliseconde aux demandes commerciales.
en outre, les entreprises sont également confrontées à des problèmes tels qu'une architecture de données complexe, un manque de flexibilité et des difficultés de contrôle des coûts. par exemple, afin de mettre en œuvre une fonction d'analyse de données, une entreprise peut avoir besoin d'introduire trois, quatre composants, voire plus, pour la construire, ce qui entraîne des difficultés d'expansion des capacités, une pression élevée d'exploitation et de maintenance et des coûts de maintenance de main d'œuvre élevés.
afin de résoudre les problèmes ci-dessus, bytehouse a d'abord réalisé une percée en termes de performances. pour les requêtes complexes, bytehouse a lancé un optimiseur auto-développé en termes de rbo (capacité d'optimisation basée sur des règles), de cbo (capacité d'optimisation basée sur les coûts) et de génération de plans distribués, qui peut calculer avec précision le chemin d'exécution maximisant l'efficacité, de manière significative. amélioration réduire le temps de requête des utilisateurs. de plus, bytehouse a également été optimisé du point de vue d'exchange, du runtime filter et de la reconstruction parallèle. pour six scénarios majeurs : débit en temps réel lent, reporting bi lent, analyse complexe hors ligne/en ligne lente, analyse fédérée lac + entrepôt lente, sélection de foule lente et recherche d'images lente, bytehouse a lancé des solutions personnalisées et les a mises en œuvre dans des scénarios clients réels. . produire des résultats réels.
deuxièmement, l’élasticité est également l’une des principales capacités de bytehouse. grâce aux capacités de mise à l'échelle élastique de bytehouse, les utilisateurs peuvent effectuer des configurations d'expansion et de contraction basées uniquement sur le temps, la charge des ressources et d'autres conditions, réduisant ainsi la charge de gestion manuelle et améliorant l'utilisation des ressources. au niveau du stockage, bytehouse adopte une architecture sans serveur, dotée de capacités d'extension à faible coût et illimitées. au niveau informatique, bytehouse est basé sur le modèle paas et implémente des états sans état ou faibles via la conteneurisation. il regroupe l'ensemble du groupe informatique en locataires et applications et les présente aux utilisateurs, garantissant qu'il n'y aura pas de conflits de réquisition de ressources ni de dégradation des performances entre les deux. locataires, afin que les ressources informatiques puissent être utilisées. obtenez une traction élastique, une expansion et une contraction élastiques en quelques secondes.
enfin, tout en améliorant l'efficacité, bytehouse s'efforce également d'aider les utilisateurs à réduire leurs coûts. l'architecture cloud native de bytehouse prend en charge une flexibilité de partage de temps personnalisée, éliminant ainsi le besoin pour les utilisateurs d'acheter à l'avance des ressources en cas de pics d'activité, contribuant ainsi à réduire les coûts de plus de 30 %. dans le même temps, afin d'aider les utilisateurs à simplifier l'architecture, bytehouse fournit des capacités d'analyse de données plus riches et maximise l'efficacité des données en créant une plate-forme unifiée. elle a lancé des moteurs de recherche en texte intégral, des moteurs sig et des moteurs vectoriels, permettant aux utilisateurs d'en profiter. la performance ultime d'olap, vous pouvez utiliser les capacités de récupération de texte, d'analyse géospatiale et de récupération de vecteurs sans introduire d'autres architectures. de plus, en termes de compatibilité écologique, bytehouse prend en charge clickhouse, mysql et d'autres intégrations d'écologie sql et d'entrepôt de lac, permettant de déplacer les applications et les données à un coût nul.
en termes de scénarios d'application, li qun a partagé les meilleures pratiques de bytehouse à partir de trois scénarios : entrepôt de données en temps réel, plate-forme intermédiaire olap au niveau de l'entreprise et marketing publicitaire de précision.
en prenant comme exemple le scénario de marketing de précision de la publicité, à mesure que les dividendes du trafic de l'internet mobile diminuent, le modèle de marketing raffiné est devenu courant. la sélection du public cible le plus potentiel parmi des centaines de millions de personnes est l’essence même du marketing de précision, et c’est également un défi auquel est confrontée la capacité d’entrepôt de données en tant que moteur de base.
à en juger par une société de publicité et de marketing de courts métrages dramatiques que bytehouse a servie, d'une part, l'entreprise doit ajuster sa stratégie commerciale en temps réel, exigeant une analyse des données et une rapidité de mise à jour dans les 3 secondes, et un qps simultané atteignant 2 000 d'autre part ; d'autre part, dans les scénarios marketing, les mises à jour en temps réel de données massives généreront une grande quantité de fragments de données, ce qui réduira les performances des requêtes et gaspillera de l'espace de stockage.
en introduisant la solution commune de bytehouse, lianshan cloud et juju engine, la société de publicité et de marketing a construit un ensemble de solutions universelles pour l'industrie des courts métrages dramatiques avec « une synchronisation en temps réel en un clic, une architecture minimaliste et une technologie à bas seuil ». " pour améliorer l'efficacité du traitement des données publicitaires et le retour sur investissement des investissements.
en effet, grâce à des index multi-niveaux, tels que l'index de clé de tri, l'optimisation des clés de partition, l'index de saut, etc., bytehouse réduit efficacement la quantité de données analysées lors des requêtes publicitaires et marketing. même avec des dizaines de millions de requêtes par jour, le la rapidité de retour des données peut également être améliorée. la garantie est au deuxième niveau, qui est 5 fois plus élevée qu'auparavant. dans la stratégie d'isolation des groupes informatiques, bytehouse crée des ressources informatiques indépendantes pour la lecture et l'écriture de données dans des scénarios de publicité et de marketing. grâce au mécanisme de distribution sql flexible, il peut prendre en charge des requêtes à haute concurrence de plus de 2 000 qps.
selon les rapports, bytehouse a également conclu une coopération approfondie avec de nombreuses entreprises industrielles telles que china seismological network center, lilith games, geeknet technology, etc., en s'appuyant sur une nouvelle génération d'architecture cloud native, des modèles d'exploitation et de maintenance efficaces et pratiques. , et haute performance et plus flexible la capacité de requête en temps réel a établi une base solide permettant aux entreprises de saisir les opportunités numériques et de promouvoir la transformation numérique et la mise à niveau des entreprises.