소식

NetEase Cloud Music, WPS, DingTalk가 차례로 "붕괴"되었습니다. 플랫폼 재해복구 구축이 얼마나 중요한가요?

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

"NetEase Cloud Music 충돌"이라는 주제가 인기 검색 목록에 오르고 네티즌들 사이에서 폭넓은 논의가 촉발된 바로 그 순간, WPS와 DingTalk Documents 역시 애플리케이션 "충돌"과 "다운타임"을 차례로 경험했습니다. 지난 며칠 동안 플랫폼 애플리케이션이 반복적으로 '다운'되는 현상이 발생했습니다. 다행히 짧은 시간 내에 정상적인 사용이 복원되었으며, 이용자들은 공개 사과와 함께 일정한 '회원 보상'을 받았습니다. 그런데 정상으로 돌아와 사과와 보상을 한 뒤에 또다시 '충돌'이나 '다운타임'이 발생할까요? 우리가 깊이 반성해야 할 점입니다.
'충돌'이 발생한 후 NetEase Cloud Music의 공식 Weibo는 발표를 발표했습니다.
"다운타임"과 "내일" 중 어느 것이 먼저 오나요?
8월 19일 오후 많은 네티즌들은 넷이즈 클라우드 뮤직 홈페이지에서 '502 Bad Gateway' 오류가 발생해 앱을 사용할 수 없다는 글을 올렸다. 2시간이 지나도 정상으로 돌아오지 않았습니다. NetEase Cloud Music은 "인프라 오류"로 인한 것이라고 공식적으로 밝혔습니다.
8월 21일 오전 네티즌들은 킹소프트 문서도 사용할 수 없으며, WPS 공유 문서도 열 수 없다고 보도했다. WPS는 공식적으로 엔지니어의 긴급 수리 후 WPS 서비스가 복원되었다는 성명을 발표했습니다.
공교롭게도 오후 일부 네티즌들은 딩톡 문서도 비정상적으로 사용되고 있다는 제보를 내놨다. 딩톡 측 공식 답변은 “갑작스러운 사용 트래픽 증가로 인해 일부 사용자가 비정상적인 딩톡 문서에 접속하게 됐다”는 것이다.
앱의 충돌이 '핫 검색'과 '노출 싸움'을 위한 '새로운 자세'가 될 것이라고 누가 생각이나 했을까. 일부 네티즌들은 "내일이나 '다운타임' 중 어느 것이 먼저 나올지 모르겠다"고 농담했다. 이는 인터넷 애플리케이션이 사람들의 일상 필수품에 통합되고 인터넷 사용자의 디지털 생활도 이에 크게 의존하고 있다는 측면에서도 반영됩니다.
CCID 컨설팅 네트워크 및 데이터 보안 연구 총괄 관리자인 Liu Juan은 "최근 몇 년 동안 Alibaba, Tencent, Baidu, Didi, Douyin, Bilibili 및 기타 주요 플랫폼을 포함하여 대규모 앱 충돌 사고가 수시로 발생했습니다."라고 말했습니다. 센터, 대규모 플랫폼에 장애가 발생하면 전체 시스템이 붕괴되고 수리 작업에는 여러 링크와 시스템의 조정이 필요합니다.
Security 419의 창립자인 Zhang Yi에 따르면 NetEase Cloud Music 사이버 보안 사고는 데이터 보호의 기존 딜레마와 위협을 다시 드러냈습니다. 유사한 실패는 이미 기술 기반 온라인 서비스 플랫폼에서 일반적인 현상입니다. 실패는 사용자 경험에 영향을 미칩니다.
또한 최근 몇 년 동안 중요한 인프라 수준에서 소프트웨어 오류가 자주 발생하여 "붕괴"가 발생했습니다. 글로벌 통신 및 IT 산업 연구 기관인 Omdia의 수석 분석가인 Yang Guang은 얼마 전 네트워크 보안 회사인 Crowd Strike의 업데이트로 인해 전 세계적으로 Windows에 대규모 블루 스크린 '다운타임'이 발생하여 많은 국가에서 '다운타임'이 발생했다고 말했습니다. 항공, 철도, 의료, 금융 시스템이 혼란에 빠진다. 이미 발생했거나 현재 겪고 있는 이러한 붕괴는 네트워크 보안에 경고 "각주"를 추가하고 있습니다.
WPS 공식 Weibo의 답변
코드 뒤에는 더 많은 "사람 문제"가 있습니다.
과거 대규모 앱 충돌 사건의 원인을 정리해보면, 인터넷 비즈니스 시스템의 모든 측면에서 장비 운영 상태, 소프트웨어 코드, 인사 처리 메커니즘 등으로 인해 시스템 또는 앱 문제가 발생할 수 있음을 알 수 있습니다.
"대부분은 기본 하드웨어, 소프트웨어 시스템 및 기타 인프라의 오류입니다." Liu Juan은 예를 들어 컴퓨터실이나 서버의 오류, 시스템 업데이트 중에 발생한 논리 오류 또는 처리되지 않은 예외가 있습니다. 시스템 전체 처리 능력이 부족하면 CPU, 메모리, 디스크 공간 및 기타 리소스가 고갈되어 충돌 등이 발생합니다.
따라서 그녀는 유사한 대규모 플랫폼의 경우 인프라의 안정성을 보장하는 것이 중요하다고 생각합니다. 여기에는 내부 소프트웨어 및 하드웨어 인프라 구축, 일일 운영 및 유지 관리 표준화, 네트워크 보호 및 비상 대응 기능과 관련된 문제가 포함됩니다.
Yang Guang은 또한 최근 몇 년간 빈번한 소프트웨어 충돌이 "오늘날 시스템의 복잡성 증가"와 밀접한 관련이 있다고 믿습니다. "모바일 소프트웨어가 자주 충돌합니다. 다양한 구체적인 이유가 있을 수 있지만 몇 가지 일반적인 문제가 있을 것입니다. 즉, 내부 품질 관리가 제대로 이루어지지 않고 내부 프로세스에 특정 문제가 있는 것입니다."
“인터넷 기업들에게 이런 것의 출현은 결국 인간의 문제다. 기업이 프로세스를 잘 통제하고, 엔지니어들에게는 좋은 기업 분위기를 조성하고, 개발과 보안 사이의 좋은 관계를 유지할 수 있다면 대단한 일이 될 것으로 예상된다. 성공 비슷한 일이 일어나지 않도록 하세요.”라고 Yang Guang은 말했습니다.
Zhang Yi는 또한 서비스 중단 외에도 서버 마이그레이션 전략과 그 뒤에 있는 장기적인 안정성 문제가 업계의 사고를 촉발했다고 언급했으며, 기술 유지 관리 및 비상 계획 측면에서 완전히 준비되도록 더 많은 플랫폼에 경고하고 지속적으로 기술을 최적화하고 있다고 말했습니다. 서비스 중단 위험을 줄이고 사용자 경험의 연속성과 안정성을 보장하기 위해 아키텍처를 개선하고 운영 및 유지 관리 기능을 개선합니다.
7월 19일 멕시코 수도 멕시코시티 베니토후아레스 국제공항에는 많은 항공편이 지연되거나 결항되는 사태가 발생해 수많은 승객들이 공항에서 기다리고 있었다. 발행: 신화통신(사진: Francisco Cañedo)
재해 복구 서비스는 중요한 표준 기능이 되어야 합니다.
반복적으로 발생하는 "시스템 다운타임" 사고는 네트워크 보안과 안정성이 훼손될 수 없음을 상기시켜 줍니다. 안전의 단점을 어떻게 보완할 것인가가 우리 앞에 어려운 문제가 되었습니다.
"인프라 구축 측면에서 인터넷 기업은 서비스 역량을 사전에 계획하고, 설계를 통해 소프트웨어 및 하드웨어 장비의 고가용성을 보장하며, 시스템 서비스의 연속성을 보장하기 위해 시스템 안정성에 대한 투자를 강화해야 합니다."라고 Liu Juan은 인터넷에서 제안했습니다. 기업은 규정 준수 및 법적 위험을 충족할 뿐만 아니라 실제 비즈니스를 진행하기 위해 데이터 보안, 비즈니스 보안, 기본 보안, 개인 보안 및 기타 측면을 고려하여 해당 제품의 보안 구성을 종합적으로 고려하고 다중 보안을 강화해야 합니다. 수준의 포괄적인 보안 시나리오 네트워크 보안 구축.
딩톡 공식 웨이보 답변
또한, 민감한 데이터 유출, 업무 중단, 시스템 안정성 및 가용성 등의 측면에서 보안 사고 발생을 최대한 줄이고, 보안 운영을 정상화하고 실용적인 작업으로 만들어 모니터링, 조기 경보를 개선해야 한다고 언급했습니다. 긴급 대응 기능, 갑작스러운 네트워크 보안 사고에 신속하게 대응, 제어 및 복구하여 비즈니스 연속성과 데이터 보안을 보장합니다.
Zhang Yi는 보안 규정 준수와 실제 위협의 관점에서 재해 복구 서비스가 기업이 통제할 수 없는 위험에 직면하여 비즈니스 연속성과 핵심 데이터의 복구 능력을 보장할 수 있도록 표준 구성이 되어야 한다고 제안했습니다. "핵심 조치로서 재해 복구 구축은 보안 사고가 기업 운영에 미치는 영향을 효과적으로 줄이고 데이터 보안을 위한 최후의 방어선을 구축할 것입니다."
최근 발생한 '충돌', '다운타임' 사건으로 볼 때, 관련 업체들은 이용자에게 단기적인 회원 보상을 제공했지만, 이것이 '장기적인 해결책'이 아닌 것은 분명하다.
"이용자 입장에서는 관련 보상이 매우 필요하지만, '실패 발생 후 사과와 보상, 그리고 계속 실패'라는 악순환에 머물 수는 없습니다." "Yang Guang은 국민 경제와 인민 생활과 관련된 대규모 소프트웨어는 발전과 보안의 균형을 맞춰야 한다고 말했습니다. 먼저 예방 조치를 취하고 주요 책임을 추가로 이행하며 기술의 힘을 빌려 안정성과 보안을 종합적으로 보장해야 합니다. 또한 업계 조직도 업계의 건전한 발전을 촉진하기 위해 적극적인 조치를 취해야 합니다(기자 Li Zhengwei, Lei Miaoxin, Li Fei, 인턴 Liu Xinkun).
출처: Guangming.com
보고/피드백