berita

NetEase Cloud Music, WPS, dan DingTalk "runtuh" ​​satu demi satu. Seberapa pentingkah konstruksi pemulihan bencana platform?

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Tepat ketika topik "NetEase Cloud Music crash" berada di daftar pencarian terpopuler dan memicu diskusi luas di kalangan netizen, WPS dan Dokumen DingTalk juga mengalami aplikasi "crash" dan "downtime" satu demi satu. Dalam beberapa hari terakhir, aplikasi platform telah "rusak" berulang kali. Untungnya, penggunaan normal dapat dipulihkan dalam waktu singkat, dan pengguna diberikan "kompensasi keanggotaan" tertentu selain permintaan maaf publik. Namun, setelah kembali normal dan mengeluarkan permintaan maaf serta kompensasi, apakah akan ada “crash” atau “downtime” lagi? Hal ini perlu kita renungkan secara mendalam.
Setelah "kerusakan" terjadi, akun resmi NetEase Cloud Music, Weibo, mengumumkan sebuah pengumuman.
Mana yang lebih dulu, "waktu henti" atau "besok"?
Pada sore hari tanggal 19 Agustus, banyak netizen memposting bahwa kesalahan "502 Bad Gateway" terjadi di halaman web NetEase Cloud Music dan Aplikasi tidak dapat digunakan. Itu tidak kembali normal sampai dua jam kemudian. NetEase Cloud Music secara resmi menyatakan bahwa hal itu disebabkan oleh "kegagalan infrastruktur".
Pada pagi hari tanggal 21 Agustus, netizen melaporkan bahwa dokumen Kingsoft juga tidak dapat digunakan dan dokumen bersama WPS tidak dapat dibuka. WPS secara resmi mengeluarkan pernyataan yang mengatakan bahwa setelah perbaikan darurat oleh para insinyur, layanan WPS telah dipulihkan.
Secara kebetulan, pada sore harinya, beberapa netizen mengabarkan bahwa dokumen DingTalk juga digunakan secara tidak normal. Tanggapan resmi DingTalk adalah: “Peningkatan lalu lintas penggunaan secara tiba-tiba menyebabkan beberapa pengguna mengakses dokumen DingTalk yang tidak normal.”
Siapa yang mengira bahwa runtuhnya aplikasi akan menjadi "postur baru" untuk "pencarian panas" dan "berjuang untuk mendapatkan eksposur". Beberapa netizen bercanda: "Saya tidak tahu mana yang akan datang lebih dulu, besok atau 'waktu henti'." Hal ini juga mencerminkan bahwa aplikasi Internet terintegrasi dengan kebutuhan sehari-hari masyarakat, dan kehidupan digital pengguna Internet juga sangat bergantung padanya.
"Dalam beberapa tahun terakhir, insiden kerusakan Aplikasi berskala besar telah terjadi dari waktu ke waktu, termasuk Alibaba, Tencent, Baidu, Didi, Douyin, Bilibili, dan platform besar lainnya." kata Liu Juan, manajer umum CCID Consulting Network dan Riset Keamanan Data Pusatnya, jika platform berskala besar gagal, hal itu akan menyebabkan seluruh sistem runtuh, dan pekerjaan perbaikan akan melibatkan koordinasi berbagai tautan dan sistem.
Menurut Zhang Yi, pendiri Security 419, insiden keamanan siber NetEase Cloud Music telah memunculkan kembali dilema dan ancaman terhadap perlindungan data. Kegagalan serupa sudah menjadi fenomena umum dalam platform layanan online berbasis teknologi kegagalan akan mempengaruhi pengalaman pengguna.
Selain itu, pada tingkat infrastruktur kritis, kegagalan perangkat lunak sering terjadi dalam beberapa tahun terakhir, yang menyebabkan “runtuhnya”. Yang Guang, kepala analis Omdia, sebuah organisasi riset industri komunikasi dan TI global, mengatakan bahwa belum lama ini, perusahaan keamanan jaringan Crowd Strike memperbarui, menyebabkan "downtime" layar biru skala besar pada Windows di seluruh dunia, menyebabkan banyak negara ' sistem penerbangan, kereta api, medis, dan keuangan jatuh ke dalam kekacauan. Keruntuhan yang telah terjadi atau sedang dialami ini menambah "catatan kaki" peringatan pada keamanan jaringan.
Tanggapan dari resmi WPS, Weibo
Di balik kode tersebut terdapat lebih banyak "masalah manusia"
Dengan memilah penyebab peristiwa kerusakan Aplikasi berskala besar di masa lalu, kita dapat menemukan bahwa setiap aspek sistem bisnis Internet mungkin memiliki masalah sistem atau Aplikasi yang disebabkan oleh status pengoperasian peralatan, kode perangkat lunak, mekanisme pemrosesan personel, dll.
“Sebagian besar adalah kegagalan pada perangkat keras, sistem perangkat lunak, dan infrastruktur lainnya.” Liu Juan memberi contoh, ada kegagalan di ruang komputer atau server, kesalahan logika atau pengecualian yang tidak tertangani terjadi selama pembaruan sistem dan proses peningkatan; sistem Daya pemrosesan keseluruhan yang tidak mencukupi menyebabkan habisnya CPU, memori, ruang disk, dan sumber daya lainnya, yang menyebabkan kerusakan, dll.
Oleh karena itu, menurutnya, untuk platform besar serupa, sangat penting untuk memastikan stabilitas infrastruktur. Hal ini melibatkan masalah yang berkaitan dengan konstruksi infrastruktur perangkat lunak dan perangkat keras internal, standarisasi operasi dan pemeliharaan harian, serta perlindungan jaringan dan kemampuan tanggap darurat.
Yang Guang juga percaya bahwa seringnya kerusakan perangkat lunak dalam beberapa tahun terakhir berkaitan erat dengan "meningkatnya kompleksitas sistem saat ini." "Perangkat lunak seluler sering kali mogok. Mungkin ada berbagai alasan spesifik, tetapi pasti ada beberapa masalah umum, yaitu tidak ada kontrol kualitas internal yang baik dan ada masalah tertentu dengan proses internal."
“Bagi perusahaan Internet, munculnya hal-hal ini pada akhirnya merupakan masalah kemanusiaan. Jika perusahaan dapat mengontrol proses dengan baik, menciptakan suasana perusahaan yang baik bagi para insinyur, dan memiliki hubungan yang baik antara pengembangan dan keamanan, hal ini diharapkan menjadi hal yang hebat. sukses Hindari hal serupa terjadi," kata Yang Guang.
Zhang Yi juga menyebutkan bahwa selain gangguan layanan, strategi migrasi server dan masalah stabilitas jangka panjang di baliknya telah memicu pemikiran industri, dan juga mengingatkan lebih banyak platform akan perlunya persiapan penuh dalam hal pemeliharaan teknis dan rencana darurat, terus-menerus. mengoptimalkan arsitektur teknis, dan meningkatkan kemampuan manajemen Operasi dan pemeliharaan untuk mengurangi risiko gangguan layanan dan memastikan kelangsungan dan stabilitas pengalaman pengguna.
Pada tanggal 19 Juli, di Bandara Internasional Benito Juarez di Mexico City, ibu kota Meksiko, banyak penerbangan ditunda atau dibatalkan, dan banyak penumpang menunggu di bandara. Diterbitkan oleh Kantor Berita Xinhua (foto oleh Francisco Cañedo)
Layanan pemulihan bencana harus menjadi fitur standar yang penting
Terjadinya insiden “waktu henti sistem” yang berulang mengingatkan kita bahwa keamanan dan stabilitas jaringan tidak dapat dikompromikan. Bagaimana cara mengatasi kekurangan keselamatan telah menjadi masalah yang sulit di hadapan kita.
"Dalam hal pembangunan infrastruktur, perusahaan Internet harus merencanakan kemampuan layanan mereka terlebih dahulu, memastikan ketersediaan perangkat lunak dan perangkat keras yang tinggi melalui desain, dan memperkuat investasi dalam stabilitas sistem untuk menjamin kelangsungan layanan sistem." Perusahaan harus secara komprehensif mempertimbangkan konstruksi keamanan produk tersebut. Mereka tidak hanya harus memenuhi risiko kepatuhan dan hukum, tetapi juga melanjutkan dari bisnis aktual, mempertimbangkan keamanan data, keamanan bisnis, keamanan dasar, keamanan personel dan aspek lainnya, dan memperkuat multi-aspek. tingkat keamanan komprehensif. Skenario konstruksi keamanan jaringan.
Tanggapan resmi Weibo dari DingTalk
Dia juga menyebutkan bahwa kejadian insiden keamanan dalam aspek-aspek seperti kebocoran data sensitif, gangguan bisnis, stabilitas dan ketersediaan sistem perlu dikurangi sebanyak mungkin, dan menjadikan operasi keamanan sebagai pekerjaan yang normal dan praktis untuk meningkatkan pemantauan, peringatan dini. dan kemampuan tanggap darurat, untuk merespons, mengendalikan, dan memulihkan dengan cepat dari insiden keamanan jaringan yang tiba-tiba untuk memastikan kelangsungan bisnis dan keamanan data.
Zhang Yi menyarankan bahwa berdasarkan kepatuhan keamanan dan ancaman nyata, layanan pemulihan bencana harus menjadi konfigurasi standar bagi perusahaan untuk memastikan kelangsungan bisnis dan kemampuan pemulihan data penting dalam menghadapi risiko yang tidak terkendali. “Sebagai langkah utama, konstruksi pemulihan bencana akan secara efektif mengurangi dampak insiden keamanan terhadap operasional perusahaan dan membangun garis pertahanan terakhir untuk keamanan data.”
Dilihat dari insiden "kerusakan" dan "waktu henti" baru-baru ini, perusahaan terkait telah memberikan kompensasi keanggotaan jangka pendek kepada pengguna, namun jelas bahwa ini bukanlah "solusi jangka panjang".
“Bagi pengguna, kompensasi yang relevan sangat diperlukan, namun tidak bisa hanya bertahan dalam siklus 'permintaan maaf dan kompensasi setelah terjadi kegagalan, lalu kegagalan berlanjut.'” Yang Guang mengatakan bahwa perangkat lunak berskala besar yang terkait dengan perekonomian nasional dan penghidupan masyarakat harus menyeimbangkan pembangunan dan keamanan. Penting untuk mengambil tindakan pencegahan terlebih dahulu, menerapkan lebih lanjut tanggung jawab utama, dan juga meminjam kekuatan dari teknologi untuk memastikan stabilitas dan keamanan secara komprehensif. Selain itu, organisasi Industri juga harus mengambil tindakan aktif untuk mendorong perkembangan industri yang sehat (reporter Li Zhengwei, Lei Miaoxin, Li Fei, pekerja magang Liu Xinkun).
Sumber: Guangming.com
Laporan/Umpan Balik