ニュース

NetEase Cloud Music、WPS、DingTalkが相次いで「崩壊」 プラットフォームの災害復旧構築はどれほど重要か?

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

「NetEase Cloud Music がクラッシュした」というトピックがホットな検索リストに載ってネチズンの間で広範な議論を引き起こしたちょうどそのとき、WPS と DingTalk ドキュメントでもアプリケーションの「クラッシュ」と「ダウンタイム」が相次いで発生しました。ここ数日間、プラットフォームアプリケーションは繰り返し「クラッシュ」していましたが、幸いなことに短期間で通常の使用が回復し、ユーザーには公開の謝罪に加えて一定の「メンバーシップ補償」が与えられました。しかし、正常に戻り、謝罪と補償を発表した後、再び「クラッシュ」または「ダウンタイム」が発生するのでしょうか?これは私たちが深く反省する必要があることです。
「クラッシュ」発生後、NetEase Cloud Musicの公式Weiboが発表を発表した。
「ダウンタイム」と「明日」はどちらが先ですか?
8月19日午後、多くのネチズンがNetEase Cloud Musicウェブページで「502 Bad Gateway」エラーが発生し、アプリが使用できないと投稿した。 NetEase Cloud Music は 2 時間後まで正常に戻りませんでしたが、原因は「インフラストラクチャ障害」だったと発表しました。
8月21日朝、ネチズンはKingsoftドキュメントも使用できず、WPS共有ドキュメントを開けないと報告した。 WPSは正式に声明を発表し、エンジニアによる緊急修理の後、WPSサービスは復旧したと発表した。
偶然にも、午後、一部のネチズンはDingTalk文書も異常に使用されていると報告した。 DingTalk の公式回答は、「使用トラフィックの突然の増加により、一部のユーザーが異常な DingTalk ドキュメントにアクセスするようになりました。」です。
アプリのクラッシュが「ホット検索」と「露出をめぐる争い」の「新たな姿勢」になるとは誰が予想しただろうか、一部のネチズンは「明日と『ダウンタイム』のどちらが先になるか分からない」と冗談を言った。これは、インターネット アプリケーションが人々の日用品に組み込まれており、インターネット ユーザーのデジタル ライフもインターネット アプリケーションに深く依存していることを側面から反映しています。
「近年、アリババ、テンセント、バイドゥ、滴滴出行、Douyin、Bilibili、その他の主要プラットフォームを含め、大規模なアプリクラッシュ事件が時折発生しています。」とCCIDコンサルティングネットワークおよびデータセキュリティリサーチのゼネラルマネージャーであるLiu Juan氏は述べています。センターでは、大規模なプラットフォームに障害が発生するとシステム全体が崩壊し、修復作業には複数のリンクとシステムの調整が必要になります。
Security 419 の創設者である Zhang Yi 氏によると、NetEase Cloud Music のサイバー セキュリティ インシデントは、データ保護の既存のジレンマと脅威を再浮上させました。同様の障害は、インフラストラクチャによって引き起こされるサービスの中断としてすでに一般的な現象です。失敗するとユーザーエクスペリエンスに影響します。
また、重要インフラレベルでは、近年ソフトウェア障害が多発し、「崩壊」が発生しています。世界的な通信・IT業界調査機関であるオムディアの首席アナリスト、ヤン・グアン氏は、つい最近、ネットワークセキュリティ会社クラウドストライクによるアップデートにより世界中でWindowsの大規模なブルースクリーン「ダウンタイム」が発生し、多くの国で被害が発生したと述べた。航空、鉄道、医療、金融システムが混乱に陥る。すでに発生したか、現在発生しているこれらの崩壊により、ネットワーク セキュリティに警告の「脚注」が追加されています。
WPS公式Weiboからの返信
コードの背後にはさらに「人の問題」がある
過去の大規模アプリクラッシュの原因を整理すると、インターネットビジネスシステムのあらゆる側面で、機器の稼働状況やソフトウェアコード、人員処理の仕組みなどに起因するシステムやアプリの不具合が存在する可能性があることがわかります。
「そのほとんどは、基盤となるハードウェア、ソフトウェア システム、その他のインフラストラクチャの障害です。たとえば、コンピュータ ルームやサーバーのプログラミング、システムの更新中に発生したロジック エラーや未処理の例外などが挙げられます。」アップグレードプロセス; システム全体の処理能力が不十分であると、CPU、メモリ、ディスク容量、その他のリソースが枯渇し、クラッシュなどが発生します。
したがって、同様の大規模プラットフォームでは、インフラストラクチャの安定性を確保することが重要であると彼女は考えています。これには、内部のソフトウェアおよびハードウェアのインフラストラクチャの構築、日常の運用と保守の標準化、ネットワーク保護と緊急対応能力に関連する問題が含まれます。
また、Yang Guang 氏は、近年頻繁に発生するソフトウェアのクラッシュは「今日のシステムの複雑さの増大」と密接に関係していると考えています。 「モバイル ソフトウェアは頻繁にクラッシュします。具体的な理由はさまざまですが、共通の問題がいくつかあるはずです。つまり、適切な内部品質管理が行われておらず、内部プロセスに特定の問題があるということです。」
「インターネット企業にとって、こうしたものの出現は最終的には人的問題です。企業がプロセスをうまく制御し、エンジニアにとって良い社内雰囲気を作り、開発とセキュリティの良好な関係を維持できれば、素晴らしい成果が期待されます」成功 同じようなことが起こらないようにしてください」と楊光氏は語った。
Zhang Yi 氏はまた、サービスの中断に加えて、サーバー移行戦略とその背後にある長期的な安定性の問題が業界の考え方を引き起こしていると述べ、より多くのプラットフォームが技術的なメンテナンスと緊急計画の面で十分な準備を整え、常に技術的な最適化を行うよう警告しました。アーキテクチャを改善し、運用および保守管理機能を改善して、サービス中断のリスクを軽減し、ユーザー エクスペリエンスの継続性と安定性を確保します。
メキシコの首都メキシコシティのベニート・フアレス国際空港では7月19日、多くの便が遅延または欠航し、空港には多数の乗客が待機した。新華社発行(写真提供:フランシスコ・カニェド)
災害復旧サービスは重要な標準機能になるはずです
「システムダウンタイム」インシデントの度重なる発生は、ネットワークのセキュリティと安定性が損なわれないことを思い出させます。安全上の欠点をどう補うかが、私たちの目の前にある難しい問題となっています。
「インフラストラクチャの構築に関して、インターネット企業は事前にサービス機能を計画し、設計を通じてソフトウェアとハ​​ードウェア機器の高可用性を確保し、システムサービスの継続性を確保するためにシステムの安定性への投資を強化する必要があるとLiu Juan氏は提案しました。」企業は、こうした製品のセキュリティ構築について、コンプライアンスや法的リスクへの対応だけでなく、実際のビジネスを進める上で、データセキュリティ、ビジネスセキュリティ、基本セキュリティ、人材セキュリティなどを考慮し、総合的に検討し、多面的なセキュリティを強化する必要があります。レベルの包括的なセキュリティの構築。
DingTalk の公式 Weibo の反応
同氏はまた、機密データの漏洩、業務の中断、システムの安定性と可用性などの側面におけるセキュリティインシデントの発生を可能な限り削減し、監視と早期警告を改善するためにセキュリティ運用を標準化された実践的な作業にする必要があると述べた。緊急対応機能。突然のネットワーク セキュリティ インシデントに迅速に対応し、制御し、復旧して、ビジネスの継続性とデータ セキュリティを確保します。
Zhang Yi氏は、セキュリティコンプライアンスと現実の脅威の観点から、制御不能なリスクに直面した場合でも事業継続と重要データの回復能力を確保するために、災害復旧サービスが企業の標準構成となるべきだと提案した。 「重要な対策として、災害復旧工事は企業運営に対するセキュリティインシデントの影響を効果的に軽減し、データセキュリティの最後の防御線を構築します。」
最近の「クラッシュ」や「ダウンタイム」事件から判断すると、関連企業はユーザーに短期的な会員補償を提供しているが、これが「長期的な解決策」ではないことは明らかである。
「ユーザーにとって、適切な補償は非常に必要ですが、『障害が発生してから謝罪と補償をし、その後障害が続く』というサイクルに留まるわけにはいきません。」 「楊光氏は、国民経済と民生に関わる大規模なソフトウェアは発展と安全保障のバランスをとる必要があると述べた。まず予防策を講じ、主要な責務をさらに実行し、安定性と安全性を総合的に確保するためにテクノロジーの力も借りる必要がある」さらに、業界団体も業界の健全な発展を促進するために積極的な行動をとるべきである(記者の李正偉、雷妙新、李飛、インターンの劉新君)。
出典: Guangming.com
レポート/フィードバック