新闻

网易云音乐、WPS、钉钉接连“崩溃”,平台灾备建设有多重要!

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

就在“网易云音乐崩了”话题登上热搜榜,并引发网友广泛讨论时,WPS、钉钉文档也相继出现应用“崩溃”“宕机”的情况。这几天,平台应用“崩溃”连番上演,好在短时间内恢复正常使用,公开致歉之余给用户一定“会员补偿”。然而,恢复正常和致歉补偿之后,是否还会再次出现“崩溃”“宕机”?这是我们需要深刻反思的。
“崩溃”发生后,网易云音乐官方微博发布的公告。
“宕机”和“明天”哪个先来?
8月19日下午,多位网友发帖表示,网易云音乐网页端出现“502 Bad Gateway”报错,App无法使用。直到两小时后恢复正常,对此网易云音乐官方称是因为“基础设施故障”。
8月21日上午,网友反映金山文档也出现了无法使用的状况,WPS共享文档无法打开。WPS官方发文回应,经工程师紧急修复,WPS服务已恢复。
无独有偶,当天下午部分网友称钉钉文档也出现了使用异常。钉钉官方的回应是:“使用流量突增导致钉钉文档出现部分用户访问异常”。
谁能想到,App的崩溃竟成了一种“上热搜”、“拼曝光”的“新姿势”,有网友调侃:“明天和‘宕机’不知道哪个先来临”。这也从侧面体现了互联网应用融入人们衣食住行,网民数字生活也对其深度依赖。
“近些年,大型App崩溃事件时有发生,包括阿里、腾讯、百度、滴滴、抖音、B站等各大平台均发生过。”赛迪顾问网络与数据安全研究中心总经理刘娟表示,类似大型平台一旦出现故障,会导致全线系统崩溃,并且修复工作要涉及多个环节和系统的协调。
在安全419创始人张毅看来,从网易云音乐这起网络安全事件来看,它使得数据保护的现有困境与威胁再次显现,类似故障在技术驱动的在线服务平台中已是普遍现象,任何基础设施故障造成的服务中断都会影响用户体验。
此外,在关键基础设施层面,近些年也时常发生软件故障导致“崩溃”。全球通信与IT行业研究机构Omdia首席分析师杨光介绍,不久前,网络安全企业Crowd Strike更新,就引发了全球Windows大面积蓝屏“宕机”,导致多国航空、铁路、医疗、金融系统陷入混乱。这些已然发生或正在遭遇的崩溃,都在为网络安全添上警示的“注脚”。
WPS官方微博的回应
代码背后更多是“人的问题”
梳理过往大型App崩溃事件的原因可以发现,互联网业务系统每个环节都可能存在因设备运行状态、软件代码、人员处理机制等原因造成的系统或App问题。
“大部分都是底层的硬件、软件系统等基础设施发生故障。”刘娟举例,比如,机房或服务器出现了故障;系统更新升级过程中出现了编程、逻辑错误或未处理的异常情况;系统总体处理能力不足导致CPU、内存、磁盘空间等资源耗尽引发崩溃等。
因此,在她看来,对于类似大型平台,保障基础设施的稳定性至关重要。这就涉及到内部软硬件基础设施建设、日常运维规范性,以及网络防护和应急处理能力相关的问题。
杨光也认为,近些年软件的频繁崩溃,与“现在的系统越来越复杂”密切相关。“移动端软件频繁出现崩溃,或许存在各种各样的具体原因,但一定有些共性问题,即没有做好内部的质量把控,内部流程存在一定问题。”
“对于互联网企业而言,这些事情的出现,归根结底主要是人的问题。如果企业可以做好流程把控,为工程师营造良好的企业氛围,做好发展与安全的关系,则有望很大程度上避免类似事情的发生。”杨光说。
张毅还提到,除了服务中断,背后的服务器迁移策略和长期稳定性问题更引发了行业思考,也警醒更多平台在技术维护和应急预案上都需要做足准备,不断优化技术架构,提升运维管理能力,以减少服务中断的风险,并确保用户体验的连续性和稳定性。
7月19日,在墨西哥首都墨西哥城的贝尼托·华雷斯国际机场,许多航班被延误或取消,大量旅客在机场等待。新华社发(弗朗西斯科·卡涅多摄)
灾备服务应该成为重要标配
“系统宕机”事件一再发生警示我们——网络安全稳定不容有失。如何补齐安全短板,成了一道摆在我们面前的难题。
“在基础设施建设方面,互联网企业要对自己的服务能力提前规划,通过设计保证软硬件设备的高可用性,并且加强系统的稳定性投入,从而保障系统服务的连续性。”刘娟建议,互联网企业更应该全面地考虑这类产品的安全建设,不但要满足合规和法律风险,而且要从实际业务出发,考虑到数据安全、业务安全、基础安全、人员安全等各层面,加强多层次全场景的网络安全建设。
钉钉官方微博的回应
她还提到,要尽可能地减少敏感数据泄露、业务中断、系统稳定性和可用性等方面的安全事件发生,并且要把安全运营作为常态化、实战化的工作,提升监测预警及应急处置能力,以快速响应、控制、恢复突发的网络安全事件,确保业务连续性和数据安全。
张毅建议,从安全合规和现实威胁出发,要让灾备服务成为企业标准配置,确保业务连续性并保障在面临不可控制风险时关键数据的恢复能力。“灾备建设作为一项关键措施,将有效降低安全事件对企业运营的影响,为数据安全构筑起最后一道防线。”
从最近几次“崩溃”“宕机”事件来看,相关企业均对用户进行了短期的会员补偿,但很显然,这并非“长久之计”。
“对于用户来讲,相关赔偿是很有必要的,但不能只停留在‘发生故障后道歉赔偿,之后继续发生故障’”的循环之中。”杨光表示,涉及国计民生的大型软件应平衡好发展与安全,既要防字当头,进一步落实主体责任,也要向技术借力,全面保障服务的稳定性、安全性。除此之外,行业机构也应该积极行动,推动行业健康发展。(记者 李政葳 雷渺鑫 李飞 实习生 刘鑫坤)
来源:光明网
举报/反馈