notizia

NetEase Cloud Music, WPS e DingTalk sono "crollati" uno dopo l'altro. Quanto è importante la costruzione del ripristino di emergenza della piattaforma?

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Proprio quando l'argomento "NetEase Cloud Music si è bloccato" era nell'elenco delle ricerche più frequenti e ha innescato un'ampia discussione tra i netizen, anche WPS e DingTalk Documents hanno sperimentato uno dopo l'altro "crash" e "tempi di inattività" delle applicazioni. Negli ultimi giorni l'applicazione della piattaforma è andata "in crash" ripetutamente. Fortunatamente, il normale utilizzo è stato ripristinato in un breve periodo di tempo e agli utenti è stato concesso un certo "compenso per l'iscrizione" oltre alle scuse pubbliche. Tuttavia, dopo il ritorno alla normalità e le scuse e il risarcimento, ci sarà un altro "incidente" o "tempo di inattività"? Questo è qualcosa su cui dobbiamo riflettere profondamente.
Dopo che si è verificato il "crash", Weibo ufficiale di NetEase Cloud Music ha annunciato un annuncio.
Cosa viene prima, il "tempo morto" o il "domani"?
Nel pomeriggio del 19 agosto, molti netizen hanno segnalato che si è verificato un errore "502 Bad Gateway" sulla pagina web di NetEase Cloud Music e che non è stato possibile utilizzare l'app. La situazione è tornata alla normalità solo due ore dopo. NetEase Cloud Music ha dichiarato ufficialmente che era dovuto a un "guasto dell'infrastruttura".
La mattina del 21 agosto, i netizen hanno riferito che anche i documenti Kingsoft erano inutilizzabili e che i documenti condivisi WPS non potevano essere aperti. WPS ha rilasciato ufficialmente una dichiarazione affermando che dopo le riparazioni di emergenza da parte degli ingegneri, i servizi WPS sono stati ripristinati.
Per coincidenza, nel pomeriggio, alcuni netizen hanno riferito che anche i documenti DingTalk venivano utilizzati in modo anomalo. La risposta ufficiale di DingTalk è stata: "Un improvviso aumento del traffico di utilizzo ha causato ad alcuni utenti l'accesso a documenti DingTalk anomali".
Chi avrebbe mai pensato che il crollo dell'app sarebbe diventato una "nuova postura" per le "ricerche calde" e la "lotta per l'esposizione". Alcuni utenti della rete hanno scherzato: "Non so cosa verrà prima, domani o il "tempo di inattività". Ciò si riflette anche dal fatto che le applicazioni Internet sono integrate nelle necessità quotidiane delle persone e anche la vita digitale degli utenti di Internet dipende profondamente da esse.
"Negli ultimi anni si sono verificati di tanto in tanto incidenti su larga scala di app, tra cui Alibaba, Tencent, Baidu, Didi, Douyin, Bilibili e altre importanti piattaforme", ha affermato Liu Juan, direttore generale di CCID Consulting Network e Data Security Research Center, una volta che una piattaforma su larga scala fallisce, causerà il collasso dell'intero sistema e il lavoro di riparazione comporterà il coordinamento di più collegamenti e sistemi.
Secondo Zhang Yi, il fondatore di Security 419, l'incidente di sicurezza informatica di NetEase Cloud Music ha fatto riemergere i dilemmi esistenti e le minacce alla protezione dei dati. Fallimenti simili sono già un fenomeno comune nelle piattaforme di servizi online basate sulla tecnologia. Qualsiasi interruzione del servizio causata dall'infrastruttura il fallimento influenzerà l'esperienza dell'utente.
Inoltre, a livello delle infrastrutture critiche, negli ultimi anni si sono spesso verificati guasti software che hanno portato a “crolli”. Yang Guang, analista capo di Omdia, un'organizzazione di ricerca nel settore delle comunicazioni globali e dell'IT, ha affermato che non molto tempo fa, la società di sicurezza di rete Crowd Strike si è aggiornata, causando "tempi di inattività" su larga scala di Windows in tutto il mondo, provocando molti paesi ' i sistemi aeronautici, ferroviari, sanitari e finanziari cadranno nel caos. Questi crolli già avvenuti o in corso stanno aggiungendo "note a piè di pagina" di avvertimento alla sicurezza della rete.
Risposta dal Weibo ufficiale del WPS
Dietro il codice ci sono più "problemi umani"
Analizzando le cause dei passati eventi di crash delle app su larga scala, possiamo scoprire che ogni aspetto del sistema aziendale Internet può presentare problemi di sistema o di app causati dallo stato operativo delle apparecchiature, dal codice software, dai meccanismi di elaborazione del personale, ecc.
"La maggior parte di essi sono guasti nell'hardware sottostante, nei sistemi software e in altre infrastrutture." Liu Juan ha fornito esempi, ad esempio, si è verificato un guasto nella sala computer o nel server; si sono verificati errori logici o eccezioni non gestite durante l'aggiornamento del sistema processo di aggiornamento; il sistema Una potenza di elaborazione complessiva insufficiente porta all'esaurimento della CPU, della memoria, dello spazio su disco e di altre risorse, con conseguenti arresti anomali, ecc.
Pertanto, a suo avviso, per piattaforme simili di grandi dimensioni è fondamentale garantire la stabilità dell’infrastruttura. Ciò comporta questioni relative alla costruzione di infrastrutture software e hardware interne, alla standardizzazione del funzionamento quotidiano e della manutenzione, nonché alla protezione della rete e alle capacità di risposta alle emergenze.
Yang Guang ritiene inoltre che i frequenti arresti anomali del software negli ultimi anni siano strettamente correlati alla "crescente complessità dei sistemi odierni". "Il software mobile si blocca spesso. Potrebbero esserci vari motivi specifici, ma devono esserci alcuni problemi comuni, ovvero non esiste un buon controllo di qualità interno e ci sono alcuni problemi con il processo interno."
"Per le aziende Internet, l'emergere di queste cose è in definitiva un problema umano. Se l'azienda può controllare bene il processo, creare una buona atmosfera aziendale per gli ingegneri e avere un buon rapporto tra sviluppo e sicurezza, si prevede che sarà un grande successo." successo Evitare che succedano cose simili", ha detto Yang Guang.
Zhang Yi ha inoltre affermato che, oltre all'interruzione del servizio, la strategia di migrazione dei server e i problemi di stabilità a lungo termine che ne stanno alla base hanno stimolato la riflessione del settore e hanno anche allertato più piattaforme sulla necessità di essere pienamente preparate in termini di manutenzione tecnica e piani di emergenza, costantemente ottimizzare l'architettura tecnica e migliorare le capacità di gestione del funzionamento e della manutenzione per ridurre il rischio di interruzione del servizio e garantire la continuità e la stabilità dell'esperienza dell'utente.
Il 19 luglio, all'aeroporto internazionale Benito Juarez di Città del Messico, capitale del Messico, molti voli sono stati ritardati o cancellati e un gran numero di passeggeri aspettava all'aeroporto. Pubblicato da Xinhua News Agency (foto di Francisco Cañedo)
I servizi di ripristino di emergenza dovrebbero diventare una caratteristica standard importante
Il ripetuto verificarsi di incidenti di “inattività del sistema” ci ricorda che la sicurezza e la stabilità della rete non possono essere compromesse. Come compensare le carenze in termini di sicurezza è diventato un problema difficile davanti a noi.
"In termini di costruzione dell'infrastruttura, le società Internet devono pianificare in anticipo le proprie capacità di servizio, garantire l'elevata disponibilità delle apparecchiature software e hardware attraverso la progettazione e rafforzare gli investimenti nella stabilità del sistema per garantire la continuità dei servizi di sistema suggeriti da Internet." Le imprese dovrebbero considerare in modo completo la struttura della sicurezza di tali prodotti. Non devono solo soddisfare la conformità e i rischi legali, ma anche partire dal business reale, tenere conto della sicurezza dei dati, della sicurezza aziendale, della sicurezza di base, della sicurezza del personale e di altri aspetti e rafforzare la multi-sicurezza. livello di sicurezza globale. Costruzione della sicurezza di rete dello scenario.
La risposta ufficiale Weibo di DingTalk
Ha inoltre affermato che è necessario ridurre il più possibile il verificarsi di incidenti di sicurezza in aspetti quali la perdita di dati sensibili, l'interruzione dell'attività, la stabilità e la disponibilità del sistema e rendere le operazioni di sicurezza un lavoro normalizzato e pratico per migliorare il monitoraggio, l'allarme rapido e funzionalità di risposta alle emergenze, per rispondere, controllare e ripristinare rapidamente da improvvisi incidenti di sicurezza della rete per garantire la continuità aziendale e la sicurezza dei dati.
Zhang Yi ha suggerito che, sulla base della conformità alla sicurezza e delle minacce reali, i servizi di ripristino di emergenza dovrebbero diventare una configurazione standard per le aziende per garantire la continuità aziendale e la capacità di ripristino dei dati chiave a fronte di rischi incontrollabili. "Come misura chiave, la realizzazione del disaster recovery ridurrà efficacemente l'impatto degli incidenti di sicurezza sulle operazioni aziendali e costruirà l'ultima linea di difesa per la sicurezza dei dati."
A giudicare dai recenti incidenti di "crash" e "tempi di inattività", le società interessate hanno fornito agli utenti un risarcimento per l'abbonamento a breve termine, ma è ovvio che questa non è una "soluzione a lungo termine".
"Per gli utenti, un risarcimento adeguato è assolutamente necessario, ma non può restare semplicemente nel ciclo di 'scuse e risarcimento dopo che si è verificato un fallimento, e poi il fallimento continua.'" "Yang Guang ha affermato che il software su larga scala relativo all'economia nazionale e al sostentamento delle persone dovrebbe bilanciare sviluppo e sicurezza. È necessario prima prendere precauzioni, implementare ulteriormente le responsabilità principali e anche prendere in prestito potere dalla tecnologia per garantire in modo completo la stabilità e la sicurezza di servizi Inoltre, le organizzazioni industriali dovrebbero anche intraprendere azioni attive per promuovere il sano sviluppo del settore (reporter Li Zhengwei, Lei Miaoxin, Li Fei, stagista Liu Xinkun).
Fonte: Guangming.com
Segnalazione/feedback