nouvelles

NetEase Cloud Music, WPS et DingTalk se sont « effondrés » les uns après les autres. Quelle est l'importance de la construction de la reprise après sinistre de la plateforme ?

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Juste au moment où le sujet « Crash de NetEase Cloud Music » figurait sur la liste de recherche chaude et déclenchait de larges discussions parmi les internautes, WPS et DingTalk Documents ont également connu des « crashs » et des « temps d'arrêt » d'applications les uns après les autres. Au cours des derniers jours, l'application de la plateforme a « planté » à plusieurs reprises. Heureusement, l'utilisation normale a été rétablie en peu de temps et les utilisateurs ont reçu une certaine « compensation d'adhésion » en plus des excuses publiques. Cependant, après le retour à la normale et la présentation d'excuses et d'une compensation, y aura-t-il un autre « crash » ou « temps d'arrêt » ? C’est une chose à laquelle nous devons réfléchir profondément.
Après le "crash", le Weibo officiel de NetEase Cloud Music a annoncé une annonce.
Qu'est-ce qui vient en premier : « temps d'arrêt » ou « demain » ?
Dans l'après-midi du 19 août, de nombreux internautes ont signalé qu'une erreur « 502 Bad Gateway » s'était produite sur la page Web NetEase Cloud Music et que l'application ne pouvait pas être utilisée. Ce n'est que deux heures plus tard que NetEase Cloud Music a officiellement déclaré que cela était dû à une "panne d'infrastructure".
Le matin du 21 août, les internautes ont signalé que les documents Kingsoft étaient également inutilisables et que les documents partagés WPS ne pouvaient pas être ouverts. WPS a officiellement publié une déclaration indiquant qu'après des réparations d'urgence effectuées par des ingénieurs, les services WPS ont été rétablis.
Par coïncidence, dans l'après-midi, certains internautes ont signalé que les documents DingTalk étaient également utilisés de manière anormale. La réponse officielle de DingTalk a été : « Une augmentation soudaine du trafic d’utilisation a amené certains utilisateurs à accéder à des documents DingTalk anormaux. »
Qui aurait pensé que l'effondrement de l'application deviendrait une « nouvelle posture » pour les « recherches à chaud » et la « lutte pour l'exposition ». Certains internautes ont plaisanté : « Je ne sais pas lequel viendra en premier, demain ou « temps d'arrêt ». Cela reflète également le fait que les applications Internet sont intégrées aux nécessités quotidiennes des gens et que la vie numérique des internautes en dépend également profondément.
"Ces dernières années, des incidents de crash d'applications à grande échelle se sont produits de temps à autre, notamment sur Alibaba, Tencent, Baidu, Didi, Douyin, Bilibili et d'autres plates-formes majeures, a déclaré Liu Juan, directeur général de CCID Consulting Network et Data Security Research." Center , une fois qu'une plate-forme à grande échelle tombe en panne, cela entraînera l'effondrement de l'ensemble du système et les travaux de réparation impliqueront la coordination de plusieurs liens et systèmes.
Selon Zhang Yi, fondateur de Security 419, l'incident de cybersécurité de NetEase Cloud Music a fait resurgir les dilemmes et les menaces existants en matière de protection des données. Des pannes similaires sont déjà un phénomène courant sur les plateformes de services en ligne axées sur la technologie. Toute interruption de service causée par l'infrastructure. l’échec affectera l’expérience utilisateur.
De plus, au niveau des infrastructures critiques, des pannes logicielles se sont souvent produites ces dernières années, entraînant des « effondrements ». Yang Guang, analyste en chef d'Omdia, une organisation mondiale de recherche sur l'industrie des communications et de l'informatique, a déclaré qu'il n'y a pas si longtemps, la société de sécurité réseau Crowd Strike a été mise à jour, provoquant un « temps d'arrêt » d'écran bleu à grande échelle de Windows dans le monde, provoquant de nombreux pays. « Les systèmes aériens, ferroviaires, médicaux et financiers sombrent dans le chaos. Ces effondrements déjà survenus ou actuellement en cours ajoutent des « notes de bas de page » d’avertissement à la sécurité du réseau.
Réponse de Weibo, responsable du WPS
Derrière le code se cachent davantage de « problèmes de personnes »
En triant les causes des crashs d'applications passés à grande échelle, nous pouvons constater que chaque aspect du système commercial Internet peut présenter des problèmes de système ou d'application causés par l'état de fonctionnement de l'équipement, le code logiciel, les mécanismes de traitement du personnel, etc.
"La plupart d'entre eux sont des pannes du matériel sous-jacent, des systèmes logiciels et d'autres infrastructures." Liu Juan a donné des exemples, par exemple, une panne dans la salle informatique ou dans la programmation du serveur, des erreurs logiques ou des exceptions non gérées se sont produites lors de la mise à jour du système. processus de mise à niveau ; une puissance de traitement globale insuffisante du système entraîne un épuisement du processeur, de la mémoire, de l'espace disque et d'autres ressources, entraînant des pannes, etc.
Par conséquent, selon elle, pour des plates-formes de grande taille similaires, il est crucial d’assurer la stabilité de l’infrastructure. Cela implique des problèmes liés à la construction de l'infrastructure logicielle et matérielle interne, à la normalisation quotidienne de l'exploitation et de la maintenance, ainsi qu'à la protection du réseau et aux capacités d'intervention d'urgence.
Yang Guang estime également que les pannes logicielles fréquentes ces dernières années sont étroitement liées à « la complexité croissante des systèmes actuels ». "Les logiciels mobiles tombent fréquemment en panne. Il peut y avoir diverses raisons spécifiques, mais il doit y avoir des problèmes courants, c'est-à-dire qu'il n'y a pas de bon contrôle de qualité interne et qu'il existe certains problèmes avec le processus interne."
"Pour les sociétés Internet, l'émergence de ces choses est en fin de compte un problème humain. Si l'entreprise peut bien contrôler le processus, créer une bonne atmosphère d'entreprise pour les ingénieurs et avoir de bonnes relations entre le développement et la sécurité, cela devrait être une grande succès Évitez que des choses similaires ne se produisent », a déclaré Yang Guang.
Zhang Yi a également mentionné qu'en plus de l'interruption de service, la stratégie de migration des serveurs et les problèmes de stabilité à long terme qui la sous-tendent ont déclenché une réflexion dans l'industrie et ont également alerté davantage de plates-formes sur la nécessité d'être pleinement préparées en termes de maintenance technique et de plans d'urgence, en permanence. optimiser l'architecture technique et améliorer les capacités de gestion de l'exploitation et de la maintenance pour réduire le risque d'interruption de service et assurer la continuité et la stabilité de l'expérience utilisateur.
Le 19 juillet, à l'aéroport international Benito Juarez de Mexico, la capitale du Mexique, de nombreux vols ont été retardés ou annulés et un grand nombre de passagers attendaient à l'aéroport. Publié par l'agence de presse Xinhua (photo de Francisco Cañedo)
Les services de reprise après sinistre devraient devenir une fonctionnalité standard importante
L’apparition répétée d’incidents de « temps d’arrêt du système » nous rappelle que la sécurité et la stabilité du réseau ne peuvent être compromises. Comment combler les lacunes en matière de sécurité est devenu un problème difficile à résoudre.
« En termes de construction d'infrastructures, les sociétés Internet doivent planifier leurs capacités de service à l'avance, assurer la haute disponibilité des équipements logiciels et matériels grâce à la conception et renforcer les investissements dans la stabilité du système pour assurer la continuité des services du système, a suggéré Liu Juan. Les entreprises doivent envisager de manière globale la conception de la sécurité de ces produits. Elles doivent non seulement faire face aux risques de conformité et aux risques juridiques, mais également partir de l'activité réelle, prendre en compte la sécurité des données, la sécurité de l'entreprise, la sécurité de base, la sécurité du personnel, etc., et renforcer la multiplicité des risques. niveau de sécurité complet. Construction de sécurité du réseau de scénario.
Réponse officielle de DingTalk sur Weibo
Elle a également mentionné qu'il est nécessaire de réduire autant que possible l'apparition d'incidents de sécurité dans des domaines tels que les fuites de données sensibles, les interruptions d'activité, la stabilité et la disponibilité du système, et de faire des opérations de sécurité un travail normalisé et pratique pour améliorer la surveillance, l'alerte précoce. et des capacités de réponse d'urgence, pour réagir, contrôler et récupérer rapidement en cas d'incidents soudains de sécurité du réseau afin de garantir la continuité des activités et la sécurité des données.
Zhang Yi a suggéré que, sur la base de la conformité en matière de sécurité et des menaces réelles, les services de reprise après sinistre devraient devenir une configuration standard pour les entreprises afin d'assurer la continuité des activités et la capacité de récupération des données clés face à des risques incontrôlables. "En tant que mesure clé, la construction de reprise après sinistre réduira efficacement l'impact des incidents de sécurité sur les opérations de l'entreprise et constituera la dernière ligne de défense pour la sécurité des données."
À en juger par les récents incidents de « crash » et de « temps d'arrêt », les sociétés concernées ont fourni aux utilisateurs une compensation d'adhésion à court terme, mais il est évident qu'il ne s'agit pas d'une « solution à long terme ».
« Pour les utilisateurs, une compensation pertinente est très nécessaire, mais elle ne peut pas simplement rester dans le cycle « d'excuses et de compensation après qu'un échec se soit produit, puis l'échec continue ». « Yang Guang a déclaré que les logiciels à grande échelle liés à l'économie nationale et aux moyens de subsistance de la population devraient équilibrer le développement et la sécurité. Il est nécessaire de prendre des précautions d'abord, de mettre en œuvre davantage les principales responsabilités, et également d'emprunter la puissance de la technologie pour assurer globalement la stabilité et la sécurité. des services. En outre, les organisations industrielles devraient également prendre des mesures actives pour promouvoir le développement sain de l'industrie (journaliste Li Zhengwei, Lei Miaoxin, Li Fei, stagiaire Liu Xinkun).
Source : Guangming.com
Rapport/Commentaires