notícias

NetEase Cloud Music, WPS e DingTalk "colapsaram" um após o outro Qual a importância da construção da plataforma de recuperação de desastres?

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Justamente quando o tópico "NetEase Cloud Music travou" estava na lista de pesquisas populares e gerou ampla discussão entre os internautas, WPS e DingTalk Documents também experimentaram "travamentos" e "tempo de inatividade" de aplicativos, um após o outro. Nos últimos dias, o aplicativo da plataforma "travou" repetidamente, felizmente, o uso normal foi restaurado em um curto período de tempo e os usuários receberam certas "compensações de adesão", além de um pedido público de desculpas. Porém, após voltar à normalidade e emitir um pedido de desculpas e indenização, haverá outro “crash” ou “downtime”? Isso é algo sobre o qual precisamos refletir profundamente.
Depois que o “crash” ocorreu, o Weibo oficial da NetEase Cloud Music anunciou um anúncio.
O que vem primeiro, “tempo de inatividade” ou “amanhã”?
Na tarde de 19 de agosto, muitos internautas postaram que ocorreu um erro “502 Bad Gateway” na página da NetEase Cloud Music e o aplicativo não pôde ser usado. Só voltou ao normal duas horas depois. A NetEase Cloud Music declarou oficialmente que era devido a uma “falha de infraestrutura”.
Na manhã de 21 de agosto, internautas relataram que os documentos da Kingsoft também estavam inutilizáveis ​​e os documentos compartilhados do WPS não podiam ser abertos. A WPS emitiu oficialmente um comunicado dizendo que após reparos de emergência realizados pelos engenheiros, os serviços WPS foram restaurados.
Coincidentemente, à tarde, alguns internautas relataram que documentos DingTalk também estavam sendo usados ​​de forma anormal. A resposta oficial do DingTalk foi: “Um aumento repentino no tráfego de uso fez com que alguns usuários acessassem documentos anormais do DingTalk”.
Quem diria que o colapso do aplicativo se tornaria uma “nova postura” para “pesquisas quentes” e “luta pela exposição”. Alguns internautas brincaram: “Não sei o que virá primeiro, amanhã ou ‘tempo de inatividade’”. Isto também se reflecte no facto de as aplicações da Internet estarem integradas nas necessidades diárias das pessoas e de as vidas digitais dos utilizadores da Internet também dependerem profundamente delas.
"Nos últimos anos, ocorreram incidentes de travamento de aplicativos em grande escala de tempos em tempos, incluindo Alibaba, Tencent, Baidu, Didi, Douyin, Bilibili e outras plataformas importantes, disse Liu Juan, gerente geral da CCID Consulting Network and Data Security Research." Centro , uma vez que uma plataforma em grande escala falhe, causará o colapso de todo o sistema e o trabalho de reparo envolverá a coordenação de vários links e sistemas.
De acordo com Zhang Yi, fundador da Security 419, o incidente de segurança cibernética da NetEase Cloud Music trouxe à tona os dilemas e ameaças existentes de proteção de dados. Falhas semelhantes já são um fenômeno comum em plataformas de serviços online baseadas em tecnologia. a falha afetará a experiência do usuário.
Além disso, no nível da infraestrutura crítica, ocorreram frequentemente falhas de software nos últimos anos, levando a “colapsos”. Yang Guang, analista-chefe da Omdia, uma organização global de pesquisa do setor de comunicações e TI, disse que não muito tempo atrás, a empresa de segurança de rede Crowd Strike foi atualizada, causando um "tempo de inatividade" da tela azul em grande escala do Windows em todo o mundo, causando muitos países 'os sistemas aéreo, ferroviário, médico e financeiro cairão no caos. Esses colapsos que já ocorreram ou estão ocorrendo atualmente estão adicionando “notas de rodapé” de alerta à segurança da rede.
Resposta do Weibo oficial da WPS
Por trás do código estão mais "problemas pessoais"
Ao resolver as causas de eventos anteriores de travamentos de aplicativos em grande escala, podemos descobrir que todos os aspectos do sistema de negócios da Internet podem ter problemas de sistema ou aplicativos causados ​​​​pelo status operacional do equipamento, código de software, mecanismos de processamento de pessoal, etc.
"A maioria deles são falhas no hardware subjacente, sistemas de software e outras infraestruturas." Liu Juan deu exemplos. Por exemplo, há uma falha na sala de computadores ou na programação do servidor, erros lógicos ou exceções não tratadas ocorridas durante a atualização do sistema; processo de atualização; o poder de processamento geral insuficiente do sistema leva ao esgotamento da CPU, memória, espaço em disco e outros recursos, levando a travamentos, etc.
Portanto, na sua opinião, para grandes plataformas semelhantes, é crucial garantir a estabilidade da infraestrutura. Isso envolve questões relacionadas à construção interna de infraestrutura de software e hardware, à padronização diária da operação e manutenção, bem como à proteção da rede e à capacidade de resposta a emergências.
Yang Guang também acredita que as frequentes falhas de software nos últimos anos estão intimamente relacionadas à “crescente complexidade dos sistemas atuais”. “O software móvel trava com frequência. Pode haver vários motivos específicos, mas deve haver alguns problemas comuns, ou seja, não há um bom controle de qualidade interno e há alguns problemas com o processo interno.”
“Para as empresas de Internet, o surgimento dessas coisas é, em última análise, um problema humano. Se a empresa conseguir controlar bem o processo, criar um bom ambiente corporativo para os engenheiros e ter um bom relacionamento entre desenvolvimento e segurança, espera-se que seja um grande sucesso Evite que coisas semelhantes aconteçam", disse Yang Guang.
Zhang Yi também mencionou que, além da interrupção do serviço, a estratégia de migração de servidores e os problemas de estabilidade de longo prazo por trás dela desencadearam o pensamento da indústria, e também alertaram mais plataformas para a necessidade de estarem totalmente preparadas em termos de manutenção técnica e planos de emergência, constantemente otimizar a arquitetura técnica e melhorar as capacidades de gerenciamento de operação e manutenção para reduzir o risco de interrupção do serviço e garantir a continuidade e estabilidade da experiência do usuário.
No dia 19 de julho, no Aeroporto Internacional Benito Juarez, na Cidade do México, capital do México, muitos voos foram atrasados ​​ou cancelados e um grande número de passageiros aguardava no aeroporto. Publicado pela Agência de Notícias Xinhua (foto de Francisco Cañedo)
Os serviços de recuperação de desastres devem se tornar um importante recurso padrão
A ocorrência repetida de incidentes de “tempo de inatividade do sistema” nos lembra que a segurança e a estabilidade da rede não podem ser comprometidas. Como compensar as deficiências de segurança tornou-se um problema difícil diante de nós.
"Em termos de construção de infraestrutura, as empresas de Internet devem planejar suas capacidades de serviço com antecedência, garantir a alta disponibilidade de equipamentos de software e hardware por meio do design e fortalecer o investimento na estabilidade do sistema para garantir a continuidade dos serviços do sistema." As empresas devem considerar de forma abrangente a construção de segurança de tais produtos. Eles não devem apenas atender aos riscos legais e de conformidade, mas também proceder aos negócios reais, levar em consideração a segurança dos dados, a segurança dos negócios, a segurança básica, a segurança do pessoal e outros aspectos, e fortalecer o multi-. nível de segurança abrangente. Construção de segurança de rede de cenário.
Resposta oficial do Weibo do DingTalk
Ela também mencionou que é necessário reduzir ao máximo a ocorrência de incidentes de segurança em aspectos como vazamento de dados sensíveis, interrupção de negócios, estabilidade e disponibilidade do sistema, e tornar as operações de segurança um trabalho normalizado e prático para melhorar o monitoramento, alerta precoce e recursos de resposta a emergências, para responder, controlar e se recuperar rapidamente de incidentes repentinos de segurança de rede para garantir a continuidade dos negócios e a segurança dos dados.
Zhang Yi sugeriu que, com base na conformidade de segurança e nas ameaças reais, os serviços de recuperação de desastres deveriam se tornar uma configuração padrão para as empresas, a fim de garantir a continuidade dos negócios e a capacidade de recuperação de dados importantes diante de riscos incontroláveis. “Como medida fundamental, a construção da recuperação de desastres reduzirá efetivamente o impacto dos incidentes de segurança nas operações corporativas e construirá a última linha de defesa para a segurança dos dados”.
A julgar pelos recentes incidentes de "travamento" e "tempo de inatividade", as empresas relevantes forneceram aos usuários compensações de adesão de curto prazo, mas é óbvio que esta não é uma "solução de longo prazo".
“Para os usuários, a compensação relevante é muito necessária, mas não pode simplesmente permanecer no ciclo de ‘pedido de desculpas e compensação após a ocorrência de uma falha, e então a falha continua’”. "Yang Guang disse que o software de grande escala relacionado à economia nacional e à subsistência das pessoas deve equilibrar o desenvolvimento e a segurança. É necessário primeiro tomar precauções, implementar ainda mais as principais responsabilidades e também tomar emprestado o poder da tecnologia para garantir de forma abrangente a estabilidade e segurança Além disso, as organizações industriais também devem tomar ações ativas para promover o desenvolvimento saudável da indústria (repórter Li Zhengwei, Lei Miaoxin, Li Fei, estagiário Liu Xinkun).
Fonte: Guangming.com
Relatório/Comentários