noticias

NetEase Cloud Music, WPS y DingTalk "colapsaron" uno tras otro. ¿Qué importancia tiene la construcción de recuperación ante desastres de la plataforma?

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Justo cuando el tema "NetEase Cloud Music falló" estaba en la lista de búsqueda candente y provocó una discusión generalizada entre los internautas, WPS y DingTalk Documents también experimentaron "fallos" y "tiempos de inactividad" de las aplicaciones uno tras otro. En los últimos días, la aplicación de la plataforma ha estado "fallando" repetidamente. Afortunadamente, el uso normal se restableció en un corto período de tiempo y los usuarios recibieron cierta "compensación de membresía" además de una disculpa pública. Sin embargo, después de volver a la normalidad y ofrecer una disculpa y una compensación, ¿habrá otro "caída" o "tiempo de inactividad"? Esto es algo sobre lo que debemos reflexionar profundamente.
Después de que ocurrió el "caída", el Weibo oficial de NetEase Cloud Music hizo un anuncio.
¿Qué viene primero, el "tiempo de inactividad" o el "mañana"?
En la tarde del 19 de agosto, muchos internautas publicaron que se produjo un error "502 Bad Gateway" en la página web de NetEase Cloud Music y que la aplicación no se podía utilizar. No volvió a la normalidad hasta dos horas después. NetEase Cloud Music declaró oficialmente que se debía a una "falla de infraestructura".
En la mañana del 21 de agosto, los internautas informaron que los documentos de Kingsoft tampoco se podían utilizar y que los documentos compartidos de WPS no se podían abrir. WPS emitió oficialmente un comunicado diciendo que después de las reparaciones de emergencia realizadas por ingenieros, los servicios de WPS han sido restablecidos.
Casualmente, por la tarde, algunos internautas informaron que los documentos de DingTalk también se estaban utilizando de manera anormal. La respuesta oficial de DingTalk fue: "Un aumento repentino en el tráfico de uso provocó que algunos usuarios accedieran a documentos DingTalk anormales".
¿Quién hubiera pensado que el colapso de la aplicación se convertiría en una "nueva postura" para las "búsquedas calientes" y la "lucha por la exposición"? Algunos internautas bromearon: "No sé cuál vendrá primero, mañana o el 'tiempo de inactividad'". Esto también refleja desde el lado que las aplicaciones de Internet están integradas en las necesidades diarias de las personas y que la vida digital de los usuarios de Internet también depende profundamente de ellas.
"En los últimos años, de vez en cuando se han producido incidentes de caída de aplicaciones a gran escala, incluidas Alibaba, Tencent, Baidu, Didi, Douyin, Bilibili y otras plataformas importantes", dijo Liu Juan, director general de CCID Consulting Network e Data Security Research. Centro, una vez que falla una plataforma a gran escala, provocará el colapso de todo el sistema y el trabajo de reparación implicará la coordinación de múltiples enlaces y sistemas.
Según Zhang Yi, fundador de Security 419, el incidente de seguridad cibernética de NetEase Cloud Music ha resurgido los dilemas y amenazas existentes sobre la protección de datos. Fallas similares ya son un fenómeno común en las plataformas de servicios en línea impulsadas por la tecnología y cualquier interrupción del servicio causada por la infraestructura. El fallo afectará la experiencia del usuario.
Además, en el nivel de infraestructura crítica, en los últimos años se han producido frecuentemente fallos de software que han provocado "colapsos". Yang Guang, analista jefe de Omdia, una organización global de investigación de la industria de TI y comunicaciones, dijo que no hace mucho, la empresa de seguridad de red Crowd Strike se actualizó, lo que provocó un "tiempo de inactividad" de la pantalla azul a gran escala de Windows en todo el mundo, lo que provocó que muchos países ' Los sistemas de aviación, ferrocarriles, médicos y financieros caerán en el caos. Estos colapsos que ya han ocurrido o que se están experimentando actualmente están agregando "notas a pie de página" de advertencia a la seguridad de la red.
Respuesta del Weibo oficial de WPS
Detrás del código hay más "problemas de personas"
Al clasificar las causas de fallas de aplicaciones a gran escala en el pasado, podemos encontrar que cada aspecto del sistema empresarial de Internet puede tener problemas en el sistema o en la aplicación causados ​​por el estado operativo del equipo, el código del software, los mecanismos de procesamiento del personal, etc.
"La mayoría de ellos son fallas en el hardware subyacente, los sistemas de software y otras infraestructuras". Liu Juan dio ejemplos, por ejemplo, hay fallas en la sala de computadoras o en la programación, errores lógicos o excepciones no controladas durante la actualización del sistema; proceso de actualización; la potencia de procesamiento general insuficiente del sistema provoca el agotamiento de la CPU, la memoria, el espacio en disco y otros recursos, lo que provoca fallos, etc.
Por lo tanto, en su opinión, para plataformas similares de gran tamaño, es crucial garantizar la estabilidad de la infraestructura. Esto involucra cuestiones relacionadas con la construcción interna de infraestructura de software y hardware, la estandarización de la operación y el mantenimiento diario, así como la protección de la red y las capacidades de respuesta a emergencias.
Yang Guang también cree que los frecuentes fallos de software en los últimos años están estrechamente relacionados con "la creciente complejidad de los sistemas actuales". "El software móvil falla con frecuencia. Puede haber varias razones específicas, pero debe haber algunos problemas comunes, es decir, no hay un buen control de calidad interno y hay ciertos problemas con el proceso interno".
"Para las empresas de Internet, la aparición de estas cosas es, en última instancia, un problema humano. Si la empresa puede controlar bien el proceso, crear una buena atmósfera corporativa para los ingenieros y tener una buena relación entre desarrollo y seguridad, se espera que sea un gran éxito Evite que sucedan cosas similares", dijo Yang Guang.
Zhang Yi también mencionó que, además de la interrupción del servicio, la estrategia de migración del servidor y los problemas de estabilidad a largo plazo detrás de ella han desencadenado el pensamiento de la industria, y también alertaron a más plataformas sobre la necesidad de estar completamente preparadas en términos de mantenimiento técnico y planes de emergencia, constantemente. optimizar la arquitectura técnica y mejorar las capacidades de gestión de operación y mantenimiento para reducir el riesgo de interrupción del servicio y garantizar la continuidad y estabilidad de la experiencia del usuario.
El 19 de julio, en el Aeropuerto Internacional Benito Juárez de la Ciudad de México, la capital de México, muchos vuelos fueron retrasados ​​o cancelados y una gran cantidad de pasajeros esperaban en el aeropuerto. Publicado por la Agencia de Noticias Xinhua (foto de Francisco Cañedo)
Los servicios de recuperación ante desastres deberían convertirse en una característica estándar importante
La repetida ocurrencia de incidentes de "tiempo de inactividad del sistema" nos recuerda que la seguridad y estabilidad de la red no pueden verse comprometidas. Cómo compensar las deficiencias en materia de seguridad se ha convertido en un problema difícil que tenemos ante nosotros.
"En términos de construcción de infraestructura, las empresas de Internet deben planificar sus capacidades de servicio con anticipación, garantizar la alta disponibilidad de equipos de software y hardware a través del diseño y fortalecer la inversión en la estabilidad del sistema para garantizar la continuidad de los servicios del sistema", sugirió Liu Juan. Las empresas deben considerar de manera integral la construcción de seguridad de dichos productos. No solo deben cumplir con los riesgos legales y de cumplimiento, sino también partir del negocio real, tener en cuenta la seguridad de los datos, la seguridad comercial, la seguridad básica, la seguridad del personal y otros aspectos, y fortalecer los aspectos múltiples. Nivel de seguridad integral. Escenario de construcción de seguridad de red.
Respuesta oficial de Weibo de DingTalk
También mencionó que es necesario reducir al máximo la ocurrencia de incidentes de seguridad en aspectos como fuga de datos sensibles, interrupción del negocio, estabilidad y disponibilidad del sistema, y ​​hacer de las operaciones de seguridad un trabajo normalizado y práctico para mejorar el monitoreo, alerta temprana. y capacidades de respuesta a emergencias, para responder, controlar y recuperarse rápidamente de incidentes repentinos de seguridad de la red para garantizar la continuidad del negocio y la seguridad de los datos.
Zhang Yi sugirió que, basándose en el cumplimiento de la seguridad y las amenazas reales, los servicios de recuperación ante desastres deberían convertirse en una configuración estándar para las empresas para garantizar la continuidad del negocio y la capacidad de recuperación de datos clave frente a riesgos incontrolables. "Como medida clave, la construcción de recuperación ante desastres reducirá efectivamente el impacto de los incidentes de seguridad en las operaciones corporativas y construirá la última línea de defensa para la seguridad de los datos".
A juzgar por los recientes incidentes de "caídas" y "tiempos de inactividad", las empresas pertinentes han proporcionado a los usuarios compensaciones de membresía a corto plazo, pero es obvio que esta no es una "solución a largo plazo".
"Para los usuarios, una compensación relevante es muy necesaria, pero no puede quedarse simplemente en el ciclo de 'disculpas y compensación después de que ocurre una falla, y luego la falla continúa'". "Yang Guang dijo que el software a gran escala relacionado con la economía nacional y el sustento de las personas debe equilibrar el desarrollo y la seguridad. Primero es necesario tomar precauciones, implementar aún más las principales responsabilidades y también tomar prestado poder de la tecnología para garantizar de manera integral la estabilidad y la seguridad. Además, las organizaciones industriales también deberían tomar medidas activas para promover el desarrollo saludable de la industria (reportero Li Zhengwei, Lei Miaoxin, Li Fei, pasante Liu Xinkun).
Fuente: Guangming.com
Informe/Comentarios