notícias

Zhang Zhonglin: Por que o “Incidente da Tela Azul” não teve impacto na indústria de aviação civil da China?

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[Texto/Colunista do Observer.com Zhang Zhonglin]

Em 19 de julho, horário local, inúmeros trabalhadores em todo o mundo descobriram repentinamente que as telas de seus computadores tinham uma tela azul ou não conseguiam se conectar ao servidor do sistema. O "método de reinicialização" geralmente muito eficaz também perdeu o efeito. Depois de reiniciar, você ainda terá que enfrentar a enorme tela azul.

Desta vez, a paralisia do sistema causada pela tela azul da Microsoft se espalhou por todo o mundo, mas é particularmente grave na América do Norte. Teve um sério impacto nas operações sociais: os voos estão suspensos, as linhas diretas 911 não podem ser alcançadas, os hotéis não podem ser alcançados. check-in, hospitais cancelam cirurgias e lojas não podem abrir. Tudo isso Tudo começou com a CrowdStrike, uma empresa de segurança cibernética pouco conhecida que, é claro, se tornou um nome familiar.

Para ser franco, a razão pela qual ocorreu este “incidente de tela azul” global não é tão surpreendente. Como uma das principais empresas do mundo na área de segurança de rede e proteção de endpoint de computação em nuvem, um grande número de empresas e servidores em nuvem usam a plataforma Falcon da CrowdStrike e rodam na plataforma Windows.

Este incidente foi causado por um sério problema de compatibilidade entre a atualização de software mais recente da CrowdStrike e a plataforma Windows, que resultou na ampla “tela azul da morte” e “loops infinitos”. Seria bom se fosse limitado a computadores pessoais, mas a atualização problemática também foi aplicada a servidores em nuvem (como o serviço de nuvem Azure da própria Microsoft) e também causou sérios problemas. domínio público e a indústria da aviação está novamente a suportar o peso.

American Airlines na “tela azul”

Dado que as soluções de sistemas de informação adoptadas pelas companhias aéreas em vários países são diferentes, o impacto no “incidente de ecrã azul” também é diferente: alguns sistemas de check-in de autoatendimento não podem ser utilizados e só podem ser processados ​​no balcão, e outros não podem utilizar o cartão de embarque A impressão só pode ser feita à mão e, em alguns casos, o sistema fica totalmente inutilizável desde o check-in até a estiva, perdendo completamente a capacidade de funcionamento.

Os sistemas de informação das companhias aéreas que envolvem serviços em nuvem Microsoft Azure e terminais baseados em sistemas Windows são as áreas mais atingidas. As mais críticas são os servidores de sistemas de informação que funcionam em serviços em nuvem.


Naquele dia, as pessoas finalmente se lembraram do medo de serem dominadas pela tela azul e da humilhação de ficarem indefesas diante do sistema Windows.

Devido à "vantagem geográfica" de estar nos Estados Unidos, a American Airlines tornou-se a área mais atingida por esta rodada de "incidentes de tela azul". As três principais companhias aéreas americanas (Delta, American e United Airlines) sofreram, e todos os voos foram emitidos De acordo com a ordem terrestre, a FAA exige que os controladores de tráfego aéreo informem os pilotos de que as companhias aéreas estão atualmente enfrentando problemas de comunicação. Além disso, companhias aéreas de pequeno e médio porte, como JetBlue Airways, Frontier Airlines e Spirit Airlines, também foram gravemente afetadas, com sistemas essenciais indisponíveis e resultando em um grande número de cancelamentos de voos.


Percebe-se que devido à falha do sistema, o número de voos realizados nos Estados Unidos no dia 19 de julho foi significativamente reduzido em relação ao dia anterior.

Como principais vítimas desta série de incidentes de tela azul, um grande número de voos da Delta, American Airlines e United Airlines foram cancelados, e o mais afetado foi o Aeroporto de Atlanta, o aeroporto com maior tráfego de passageiros nos Estados Unidos. Sendo o maior aeroporto central dos Estados Unidos e aeroporto base da Delta Air Lines, mais de 500 voos foram cancelados durante esta rodada de "incidentes de tela azul", a maioria dos quais eram voos da Delta Air Lines. Seguiu-se o cancelamento de quase 200 voos no Aeroporto O'Hare de Chicago e o cancelamento de um terço dos voos no Aeroporto LaGuardia de Nova Iorque. Os voos nos aeroportos europeus fora dos Estados Unidos também foram fortemente afetados. 40% dos voos de entrada e saída no Aeroporto de Amesterdão foram atrasados ​​e um terço dos voos no Aeroporto de Berlim foram cancelados.

Curiosamente, esta série de falhas de sistema em grande escala não afetou a Southwest Airlines e a Alaska Airlines, bem como a UPS e a FEDEX, duas empresas de carga aérea. A razão por trás disso pode ser chamada de “humor negro”.

O sistema de controle de operação de voo atualmente utilizado pela Southwest Airlines é baseado no sistema Windows 3.1 de 1992, e seu sistema de implantação de tripulação é baseado em chamadas telefônicas. Portanto, esta rodada de interrupções em grande escala dos sistemas Windows e serviços em nuvem causadas por pacotes de atualização incorretos realmente significa que “o sistema está muito atrasado, por isso não tem impacto” para a Southwest Airlines.

A UPS e a FEDEX estão numa situação semelhante. Ainda utilizam o Windows 95 ou o Windows 3.1 para executar os seus principais sistemas operativos, pelo que conseguiram escapar a este desastre.

A maioria das outras companhias aéreas dos EUA que não foram afetadas são companhias aéreas regionais. Essas pequenas companhias aéreas têm informações e sistemas operacionais relativamente primitivos e não podem pagar serviços de nuvem caros, por isso escaparam e podem operar normalmente. Uma reminiscência dos atrasos generalizados causados ​​​​pela nevasca na América do Norte no dia de Natal de 2022, o sudoeste dos Estados Unidos não conseguiu retomar as operações de voo devido ao seu sistema atrasado. Este incidente pode ser considerado uma "virada da sorte" e é uma prova. as capacidades de um “sistema maduro” A vantagem da “alta estabilidade”.


O sistema Windows de 32 anos impede que o sudoeste consiga executar o Yahoo News

Falta de resposta de emergência

Entre os "incidentes de tela azul" que causaram falhas de sistema em grande escala nesta rodada de atualizações, o mais chocante foi que, após a falha do sistema, as três principais companhias aéreas dos EUA simplesmente levantaram a bandeira branca e suspenderam todos os voos. Na minha opinião, isto é sem dúvida incrível, porque estes sistemas de controlo operacional são sistemas importantes, não só relacionados com o controlo operacional diário da própria companhia aérea, mas também parte do principal sistema de transporte do país.

Tais sistemas de operação e controlo da aviação têm frequentemente requisitos extremamente elevados em termos de fiabilidade e resistência, para garantir que as operações da aviação não serão seriamente afetadas pelo colapso. A Organização da Aviação Civil Internacional (ICAO) apresentou requisitos específicos para o backup e a redundância dos sistemas de operação e controlo da aviação numa série de documentos para evitar consequências graves causadas pelo colapso de um único sistema, incluindo:

Exigir backup regular de dados operacionais críticos. A redundância deve ser implementada em hardware e software, incluindo servidores de backup, dispositivos de armazenamento, etc. Um plano detalhado de recuperação de desastres deve ser desenvolvido para cobrir vários cenários catastróficos. Os principais sistemas (como sistemas de controle aéreo) precisam ter funções de failover automático e dados operacionais sincronizados. Quando o sistema principal falha, ele pode mudar imediatamente para a operação no modo de backup.

Se olharmos para este “incidente de ecrã azul”, descobriremos que essas companhias aéreas dos EUA não tinham (ou não implementaram) um plano de recuperação de desastres, nem implementaram a mudança automática para backup após uma falha crítica do sistema. Claro, existe a possibilidade de eles terem um backup, mas o backup também encontrou uma tela azul (por exemplo, também estava rodando em um sistema Windows e foi afetado por uma atualização incorreta), o que dá às pessoas a sensação de " para evitar colocar todos os ovos na mesma cesta, eles compraram vários sistemas de gestão financeira A P2P para evitar a sensação de tempestades.

Como pessoa com vasta experiência no terreno, também estou bastante intrigado com o desempenho dos meus homólogos americanos desta vez, porque as companhias aéreas devem ter planos de contingência para tais situações, a fim de garantir o nível mínimo em caso de degradação do sistema ou indisponibilidade total. Com base na minha experiência no trabalho de linha de frente, embora a estiva das aeronaves seja agora realizada através de sistemas de informação, todo pessoal de estiva ainda mantém a habilidade de elaborar manualmente a lista de estiva. Quando o sistema de carregamento falhar e não puder ser usado, retire o documento PDF da tabela de carregamento de acordo com o número do modelo da aeronave, imprima a tabela de carregamento e calcule manualmente o carregamento para obter os dados de decolagem da aeronave. Este tipo de operação manual é uma habilidade empresarial extremamente básica e é praticada ano após ano, todos os meses e todas as semanas, apenas para garantir que os momentos-chave em que os cálculos manuais são necessários não serão perdidos.


A operação manual é a habilidade básica desta indústria

Outros elos e departamentos relevantes também têm requisitos quase paranóicos para exercícios de emergência. Por ser um departamento que se sobrepõe ao de check-in, recebemos ligações do check-in quase todos os meses solicitando a marcação de um voo virtual para realização de simulados de emergência. O conteúdo do exercício de check-in de emergência é que quando o sistema TravelSky (o sistema de operação da aviação civil usado na China) está inoperante, o check-in e os cartões de embarque dos passageiros são processados ​​com base no modo local, e o embarque manuscrito é até fornecido para passageiros quando a impressão não for possível. Os passageiros estão autorizados a embarcar no avião.

Portanto, quando vi o sistema de check-in, sistema de estiva e muitos outros sistemas dos meus colegas americanos travando devido ao “incidente da tela azul”, fazendo com que as operações de voo ficassem completamente paralisadas, fiquei intrigado: você não costuma praticar trabalho manual ? Você não tem um plano de emergência? Você não detalha seus planos de emergência? Você não tem um sistema de backup?

Por que a China não é afetada

Este "incidente de tela azul" que afetou o mundo quase não teve impacto nas operações da aviação civil da China. Apenas alguns voos de companhias aéreas estrangeiras (como American Airlines e United Airlines) foram atrasados ​​devido à influência estrangeira. complicado.

Em primeiro lugar, para computadores terminais, que utilizam sistemas Windows e envolvem a instalação do software de segurança CrowdStrike, o problema de infinitas “reinicializações de tela azul” só ocorrerá após a atualização dos patches de erro. software de segurança. Além disso, eles costumam ser cautelosos com as atualizações do sistema e não atualizarão se nada acontecer. As versões do Windows usadas são principalmente versões mais antigas, mais maduras e estáveis.

Em segundo lugar, a maioria das companhias aéreas nacionais utiliza o sistema TravelSky, cujo ambiente operacional é baseado em Linux, e não utiliza o serviço de nuvem Azure da Microsoft ou AWS da Amazon. Isto evitou, até certo ponto, um colapso total causado por actualizações erradas dos principais sistemas básicos de aviação civil do meu país.

Sendo um importante sistema relacionado com a operação da aviação civil da China, os sistemas e redes informáticas operados pela TravelSky são um "sistema de informação básico crítico" e estão listados como um dos oito sistemas principais supervisionados pelo Conselho de Estado. Exceto algumas companhias aéreas, como a Spring Airlines, todas as outras companhias aéreas usam o sistema TravelSky. A segurança e estabilidade do sistema TravelSky também receberam grande atenção e supervisão rigorosa do estado, garantindo a estabilidade e confiabilidade do sistema.

Claro, isso não significa que não haverá problemas com o sistema TravelSky. Em 25 de agosto de 2020, ocorreu um uso anormal do sistema de embarque TravelSky, resultando na impossibilidade de check-in em alguns aeroportos. Segundo o relatório, uma anormalidade ocorreu às 10h32 daquele dia, resultando na impossibilidade de check-in em alguns aeroportos, e tudo voltou ao normal às 11h07. Embora tenha causado um certo impacto, não causou grande impacto porque durou apenas meia hora e o funcionamento geral foi tranquilo.

Embora a interface de operação de comando do sistema TravelSky, que não mudou durante décadas, tenha sido criticada, para os principais sistemas de informação básicos, a operação estável é fundamental. Com base num sistema de informação e num ambiente operacional completamente autónomos, também podemos evitar sofrer o desastre do "incidente de ecrã azul" e evitar fazer uma grande piada como os nossos homólogos americanos.

Através deste incidente, tomámos mais consciência de que numa altura em que os sistemas de informação críticos se tornaram infraestruturas importantes, é extremamente importante alcançar total autonomia e controlo. E isto inclui não apenas sistemas de informação, mas também sistemas operacionais. À medida que a situação de segurança das redes se torna cada vez mais grave, não há necessidade de questionar a sua necessidade. Esta não é apenas uma escolha técnica, mas também uma necessidade estratégica para a segurança nacional e o desenvolvimento industrial.

Este artigo é um manuscrito exclusivo do Observer.com. O conteúdo do artigo é puramente a opinião pessoal do autor e não representa a opinião da plataforma. Não pode ser reproduzido sem autorização, caso contrário, será responsabilizada legalmente. Siga Observer.com no WeChat guanchacn e leia artigos interessantes todos os dias.