noticias

para ayudar a reducir costos y aumentar la eficiencia, bytehouse crea una nueva generación de almacén de datos nativo de la nube

2024-09-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

con el crecimiento explosivo del volumen de datos, la aceleración de la migración de las empresas a la nube y la creciente demanda de datos en tiempo real, el mercado de almacenes de datos nativos de la nube ha marcado el comienzo de rápidas oportunidades de desarrollo.
según datos de las instituciones de investigación idc y gartner, para 2025, se espera que el 50% de los datos empresariales se almacenen en la nube, el 75% de las bases de datos se ejecutarán en la nube y se espera que el 30% del procesamiento de datos global sea procesamiento de datos en tiempo real. , y se espera que el 80% de los datos se almacenen fuera de la nube. los datos estructurados harán que los almacenes de datos nativos de la nube se vuelvan cada vez más populares entre las empresas.
recientemente, li qun, gerente de producto del almacén de datos nativo en la nube volcano engine bytehouse, fue invitado a asistir a la "cumbre csdi cumbre de tecnología e innovación en investigación y desarrollo de software de china", centrándose en el tema "tecnologías clave y mejores prácticas de la nube nativa de nueva generación". data warehouse bytehouse", desde el almacén de datos en la nube a partir de la historia y la vanguardia, presentamos la arquitectura general de bytehouse, los aspectos más destacados, los avances en el rendimiento, los diseños clave de almacenamiento y separación de cálculo, y las prácticas comerciales de bytehouse en diversos escenarios dentro y fuera del grupo douyin. .
basándose en el resumen de la experiencia de bytehouse en finanzas, juegos, internet y otras industrias, li qun presentó por primera vez las dificultades y desafíos que enfrentan actualmente los almacenes de datos nativos de la nube. el alto rendimiento, la alta concurrencia y la escritura de alto rendimiento ya son las necesidades básicas de las empresas actuales para los almacenes de datos en la nube. a medida que internet continúa desarrollándose, los datos crecen rápidamente, especialmente los datos de registro. algunas de las aplicaciones más activas tienen datos que alcanzan decenas o incluso cientos de miles de millones cada día, y las aplicaciones asesinas a gran escala generan cientos de miles de millones de eventos cada día. esto requiere que la plataforma de datos no solo admita escritura de alto rendimiento y deduplicación en tiempo real, sino que también logre una respuesta a nivel de milisegundos a las solicitudes comerciales.
además, las empresas también enfrentan problemas como una arquitectura de datos compleja, falta de flexibilidad y dificultad para controlar los costos. por ejemplo, para implementar una función de análisis de datos, una empresa puede necesitar introducir tres, cuatro o incluso más componentes para construirla, lo que genera dificultades en la expansión de la capacidad, una alta presión de operación y mantenimiento y altos costos de mano de obra de mantenimiento.
para resolver los problemas anteriores, bytehouse primero logró un gran avance en el rendimiento. para consultas complejas, bytehouse ha lanzado un optimizador de desarrollo propio en términos de rbo (capacidad de optimización basada en reglas), cbo (capacidad de optimización basada en costos) y generación de planes distribuidos, que puede calcular con precisión la ruta de ejecución para maximizar la eficiencia, de manera significativa. mejorando reducir el tiempo de consulta del usuario. además, bytehouse también se ha optimizado en los aspectos de exchange, runtime filter y reconstrucción paralela. para seis escenarios principales: rendimiento lento en tiempo real, informes de bi lentos, análisis complejo lento fuera de línea/en línea, análisis lento de lago + almacén federado, selección colectiva lenta y búsqueda de imágenes lenta, bytehouse ha lanzado soluciones personalizadas y las ha implementado en escenarios de clientes reales. . producir resultados reales.
en segundo lugar, la elasticidad es también una de las capacidades principales de bytehouse. con base en las capacidades de escalamiento elástico de bytehouse, los usuarios pueden realizar configuraciones de expansión y contracción basadas únicamente en el tiempo, la carga de recursos y otras condiciones, lo que reduce la carga de la gestión manual y mejora la utilización de los recursos. a nivel de almacenamiento, bytehouse adopta una arquitectura serverless, que tiene bajo costo y capacidades de expansión ilimitadas. a nivel informático, bytehouse se basa en el modelo paas e implementa estados débiles o sin estado a través de la contenedorización. empaqueta todo el grupo informático en inquilinos y aplicaciones y los presenta a los usuarios, lo que garantiza que no habrá conflictos de solicitud de recursos ni degradación del rendimiento entre ellos. inquilinos, para que se puedan utilizar los recursos informáticos. logre un pull-up elástico y una expansión y contracción elástica en segundos.
finalmente, mientras mejora la eficiencia, bytehouse también se enfoca en ayudar a los usuarios a ahorrar costos. la arquitectura nativa de la nube de bytehouse admite flexibilidad personalizada de tiempo compartido, lo que elimina la necesidad de que los usuarios compren recursos por adelantado para los picos comerciales, lo que ayuda a reducir los costos en más de un 30 %. al mismo tiempo, para ayudar a los usuarios a simplificar la arquitectura, bytehouse proporciona capacidades de análisis de datos más completas y maximiza la eficiencia de los datos mediante la construcción de una plataforma unificada. ha lanzado motores de búsqueda de texto completo, motores gis y motores vectoriales, lo que permite a los usuarios disfrutar. con el máximo rendimiento de olap, puede utilizar capacidades de recuperación de texto, análisis geoespacial y recuperación de vectores sin introducir otras arquitecturas. además, en términos de compatibilidad ecológica, bytehouse admite clickhouse, mysql y otras ecologías sql y la integración de almacenes de lagos, lo que permite reubicar aplicaciones y datos sin costo alguno.
en términos de escenarios de aplicación, li qun compartió las mejores prácticas de bytehouse en tres escenarios: almacén de datos en tiempo real, plataforma intermedia olap de nivel empresarial y marketing publicitario de precisión.
tomando como ejemplo el escenario del marketing de precisión de la publicidad, a medida que disminuye el dividendo del tráfico de internet móvil, el modelo de marketing refinado se ha vuelto común. seleccionar el público objetivo más potencial entre cientos de millones de personas es la esencia del marketing de precisión y también es un desafío que enfrenta la capacidad del almacén de datos como motor básico.
a juzgar por una breve empresa de publicidad y marketing a la que bytehouse ha prestado servicios, por un lado, la empresa necesita ajustar su estrategia comercial en tiempo real, lo que requiere análisis de datos y actualización oportuna en 3 segundos, y un qps simultáneo que alcance 2000; por otro lado, en escenarios de marketing, las actualizaciones en tiempo real de datos masivos generarán una gran cantidad de fragmentos de datos, lo que reducirá el rendimiento de las consultas y desperdiciará espacio de almacenamiento.
al presentar la solución conjunta de bytehouse, lianshan cloud y juju engine, la empresa de publicidad y marketing ha creado un conjunto de soluciones universales para la industria de los dramas cortos con "sincronización en tiempo real con un solo clic, arquitectura minimalista y tecnología de bajo umbral". "para mejorar la eficiencia del procesamiento de datos publicitarios y el retorno de la inversión.
de hecho, a través de índices multinivel, como índice de clave de clasificación, optimización de clave de partición, índice de salto, etc., bytehouse reduce efectivamente la cantidad de datos escaneados durante consultas de publicidad y marketing, incluso con decenas de millones de consultas por día. la puntualidad de la devolución de datos también se puede mejorar. la garantía está en el segundo nivel, que es 5 veces mayor que antes. en la estrategia de aislamiento del grupo informático, bytehouse crea recursos informáticos independientes para lectura y escritura de datos en escenarios de publicidad y marketing. a través del mecanismo de distribución sql flexible, puede admitir consultas de alta concurrencia de más de 2000 qps.
según los informes, bytehouse también ha alcanzado una cooperación profunda con muchas empresas de la industria, como china sismological network center, lilith games, geeknet technology, etc., basándose en una nueva generación de arquitectura nativa de la nube y modelos de operación y mantenimiento eficientes y convenientes. , y de alto rendimiento y más flexible la capacidad de consulta en tiempo real ha establecido una base sólida para que las empresas aprovechen las oportunidades digitales y promuevan la transformación digital y la actualización de las empresas.
informe/comentarios