¿Por qué el "incidente de la pantalla azul" no tuvo impacto en la industria de la aviación civil de China?

2024-07-21

[Zhang Zhonglin, columnista de Text/Observer.com]

El 19 de julio, hora local, innumerables trabajadores de todo el mundo descubrieron repentinamente que las pantallas de sus computadoras tenían una pantalla azul o no podían conectarse al servidor del sistema. El "método de reinicio", que suele ser muy eficaz, también ha perdido su efecto. Después de reiniciar, todavía tienes que enfrentarte a la enorme pantalla azul.

Esta vez, la parálisis del sistema causada por la pantalla azul de Microsoft se ha extendido por todo el mundo, pero es particularmente grave en América del Norte. Ha tenido un grave impacto en las operaciones sociales: los vuelos están suspendidos, no se puede contactar con las líneas directas del 911, no se puede acceder a los hoteles. registrados, los hospitales cancelan cirugías y las tiendas no pueden abrir. Todo esto comenzó con CrowdStrike, una empresa de ciberseguridad poco conocida que, por supuesto, se ha convertido en un nombre muy conocido.

Para decirlo sin rodeos, la razón por la que ocurrió este "incidente de pantalla azul" global no es tan sorprendente. Como una de las principales empresas del mundo en el campo de la seguridad de redes y la protección de terminales de computación en la nube, una gran cantidad de empresas y servidores en la nube utilizan la plataforma Falcon de CrowdStrike y se ejecutan en la plataforma Windows.

Este incidente fue causado por un grave problema de compatibilidad entre la última actualización de software de CrowdStrike y la plataforma Windows, lo que resultó en una "pantalla azul de la muerte" generalizada y "bucles infinitos". Estaría bien si se limitara a las computadoras personales, pero la actualización problemática también se aplicó a los servidores en la nube (como el servicio en la nube Azure de Microsoft) y también causó problemas graves. Esto hizo que el "incidente de la pantalla azul" tuviera un amplio impacto. el dominio público, y la industria de la aviación vuelve a ser la más afectada.

American Airlines en la “Pantalla Azul”

Dado que las soluciones de sistemas de información adoptadas por las aerolíneas en distintos países son diferentes, el impacto en el "incidente de pantalla azul" también es diferente: algunos sistemas de autofacturación no se pueden utilizar y solo se pueden procesar en el mostrador, y otros no utilizar la tarjeta de embarque. La impresión sólo se puede realizar a mano y, en algunos casos, el sistema queda completamente inutilizable desde el check-in hasta el almacenamiento, perdiendo por completo su capacidad de funcionamiento.

Los sistemas de información de las aerolíneas que incluyen servicios en la nube de Microsoft Azure y terminales basados en sistemas Windows son las áreas más afectadas. Los más críticos son los servidores de sistemas de información que se ejecutan en servicios en la nube.

Ese día, la gente finalmente recordó el miedo a ser dominado por la pantalla azul y la humillación de estar indefenso ante el sistema Windows.

Debido a la "ventaja geográfica" de estar en los Estados Unidos, American Airlines se ha convertido en la zona más afectada por esta ronda de "incidentes de pantalla azul". Las tres principales aerolíneas estadounidenses (Delta, American y United Airlines) han sufrido. y todos los vuelos han sido emitidos. Según la orden de tierra, la FAA exige que los controladores de tráfico aéreo informen a los pilotos que las aerolíneas están experimentando problemas de comunicación actualmente. Además, las aerolíneas pequeñas y medianas como JetBlue Airways, Frontier Airlines y Spirit Airlines también se han visto gravemente afectadas, con sistemas clave no disponibles y lo que ha provocado una gran cantidad de cancelaciones de vuelos.

Se puede ver que debido al fallo del sistema, el número de vuelos que volaron a Estados Unidos el 19 de julio se redujo significativamente en comparación con el día anterior.

Como principales víctimas de esta ronda de incidentes de pantalla azul, una gran cantidad de vuelos de Delta, American Airlines y United Airlines fueron cancelados, y el más afectado fue el aeropuerto de Atlanta, el aeropuerto con mayor tráfico de pasajeros de Estados Unidos. Como aeropuerto central más grande de los Estados Unidos y aeropuerto base de Delta Air Lines, más de 500 vuelos han sido cancelados durante esta ronda de "incidentes de pantalla azul", la mayoría de los cuales fueron vuelos de Delta Air Lines. A esto le siguió la cancelación de casi 200 vuelos en el aeropuerto O'Hare de Chicago y la cancelación de un tercio de los vuelos en el aeropuerto LaGuardia de Nueva York. Los vuelos en aeropuertos europeos fuera de Estados Unidos también se han visto muy afectados: el 40% de los vuelos entrantes y salientes del aeropuerto de Ámsterdam se retrasaron y un tercio de los vuelos del aeropuerto de Berlín fueron cancelados.

Curiosamente, esta ronda de fallas del sistema a gran escala no afectó a Southwest Airlines y Alaska Airlines, ni a UPS y FEDEX, dos compañías de carga aérea. La razón detrás de esto se puede llamar "humor negro".

El sistema de control de operaciones de vuelo que utiliza actualmente Southwest Airlines está basado en el sistema Windows 3.1 de 1992, y su sistema de despliegue de tripulaciones se basa en llamadas telefónicas. Por lo tanto, esta ronda de interrupciones del sistema a gran escala de los sistemas Windows y servicios en la nube causadas por paquetes de actualización incorrectos realmente significa que "el sistema está demasiado atrasado, por lo que no tiene ningún impacto" para Southwest Airlines.

UPS y FEDEX se encuentran en una situación similar. Todavía utilizan Windows 95 o Windows 3.1 para ejecutar sus sistemas operativos clave, por lo que han podido escapar de este desastre.

La mayoría de las otras aerolíneas estadounidenses que no se han visto afectadas son aerolíneas regionales. Estas pequeñas aerolíneas tienen sistemas operativos e información relativamente primitivos y no pueden permitirse costosos servicios en la nube, por lo que han escapado y pueden operar con normalidad. Con reminiscencias de los retrasos generalizados causados por la tormenta de nieve en América del Norte el día de Navidad de 2022, el suroeste de los Estados Unidos no ha podido reanudar las operaciones de vuelo debido a su sistema atrasado. Este incidente puede considerarse como un "cambio de suerte" y lo demuestra. las capacidades de un "sistema maduro" La ventaja de la "alta estabilidad".

El sistema Windows de 32 años impide que el suroeste pueda ejecutar Yahoo News

Falta respuesta de emergencia

Entre los "incidentes de pantalla azul" que provocaron fallas del sistema a gran escala en esta ronda de actualizaciones, lo más impactante fue que después de la falla del sistema, las tres principales aerolíneas estadounidenses simplemente izaron la bandera blanca y suspendieron todos los vuelos. En mi opinión, esto es sin duda muy increíble, porque estos sistemas de control de operaciones son sistemas importantes, no solo relacionados con el control de operaciones diario de la propia aerolínea, sino también parte del sistema de transporte clave del país.

Estos sistemas de operación y control de la aviación a menudo tienen requisitos extremadamente altos en cuanto a su confiabilidad y resistencia para garantizar que las operaciones de la aviación no se vean gravemente afectadas por el colapso. La Organización de Aviación Civil Internacional (OACI) ha presentado requisitos específicos para el respaldo y la redundancia de los sistemas de operación y control de la aviación en una serie de documentos para evitar las graves consecuencias causadas por el colapso de un solo sistema, que incluyen:

Requerir copias de seguridad periódicas de los datos operativos críticos. Se debe implementar redundancia en hardware y software, incluidos servidores de respaldo, dispositivos de almacenamiento, etc. Se debe desarrollar un plan detallado de recuperación de desastres para cubrir varios escenarios catastróficos. Los sistemas clave (como los sistemas de control de aire) deben tener funciones de conmutación por error automáticas y datos operativos sincronizados. Una vez que el sistema principal falla, puede cambiar inmediatamente al modo de operación de respaldo.

Si observamos este "incidente de pantalla azul", encontraremos que esas aerolíneas estadounidenses no tenían (o no implementaron) un plan de recuperación ante desastres, ni implementaron el cambio automático a respaldo después de una falla crítica del sistema. Por supuesto, existe la posibilidad de que tengan una copia de seguridad, pero la copia de seguridad también encontró una pantalla azul (por ejemplo, también se estaba ejecutando en un sistema Windows y se vio afectada por una actualización incorrecta), lo que da a las personas la sensación de " Para evitar poner todos los huevos en una sola canasta, compraron múltiples gestión financiera A P2P para evitar la sensación de tormenta.

Como persona con amplia experiencia en el campo, también estoy bastante desconcertado por el desempeño de mis homólogos estadounidenses esta vez, porque las aerolíneas deben tener planes de contingencia para tales situaciones para garantizar el nivel mínimo en caso de degradación del sistema o indisponibilidad total. Según mi experiencia en el trabajo de primera línea, aunque la estiba de los aviones ahora se realiza a través de sistemas de información, cada personal de estiba todavía conserva la habilidad de elaborar manualmente la lista de estiba. Una vez que el sistema de carga falla y no se puede utilizar, extraiga el documento PDF de la tabla de carga según el número de modelo de la aeronave, imprima la tabla de carga y luego calcule manualmente la carga para obtener los datos de despegue de la aeronave. Este tipo de operación manual es una habilidad empresarial extremadamente básica que se practica año tras año, todos los meses y todas las semanas, solo para garantizar que no se pierdan los momentos clave en los que se requieren cálculos manuales.

La operación manual es la habilidad básica de esta industria.

Otros enlaces y departamentos relevantes también tienen necesidades casi paranoicas en materia de simulacros de emergencia. Como departamento que se superpone con el departamento de check-in, recibimos llamadas del check-in casi todos los meses, solicitando configurar un vuelo virtual para realizar simulacros de emergencia. El contenido del simulacro de emergencia de check-in es que cuando el sistema TravelSky (el sistema operativo de aviación civil utilizado en China) no funciona, el check-in de los pasajeros y las tarjetas de embarque se procesan según el modo local, e incluso se entrega el embarque escrito a mano. pasajeros cuando la impresión no sea posible. Los pasajeros pueden abordar el avión.

Por lo tanto, cuando vi que el sistema de facturación, el sistema de almacenamiento y muchos otros sistemas de mis colegas estadounidenses se estrellaban debido al “incidente de la pantalla azul”, lo que provocó que las operaciones de vuelo quedaran completamente paralizadas, me quedé perplejo: ¿no practicas habitualmente el trabajo manual? ? ¿No tienes un plan de emergencia? ¿No practicas tus planes de emergencia? ¿No tienes un sistema de respaldo?

Por qué China no se ve afectada

Este "incidente de pantalla azul" que afectó al mundo casi no tuvo impacto en las operaciones de la aviación civil de China y es completamente normal. Sólo algunos vuelos de aerolíneas extranjeras (como American Airlines y United Airlines) se retrasaron debido a la influencia extranjera. complicado. .

En primer lugar, para las computadoras terminales, que usan sistemas Windows e implican la instalación del software de seguridad de CrowdStrike, el problema de los "reinicios de pantalla azul" infinitos solo ocurrirá después de actualizar los parches de error. Sin embargo, las terminales informáticas de las aerolíneas nacionales a menudo no utilizan los de la compañía. software de seguridad. Además, suelen ser cautelosos con las actualizaciones del sistema y no actualizan si no sucede nada. Las versiones de Windows utilizadas son principalmente versiones más antiguas, maduras y estables.

En segundo lugar, la mayoría de las aerolíneas nacionales utilizan el sistema TravelSky, cuyo entorno operativo está basado en Linux, y no utiliza el servicio en la nube Azure de Microsoft ni AWS de Amazon. Esto ha evitado, hasta cierto punto, un colapso total causado por actualizaciones erróneas de los principales sistemas básicos de aviación civil de mi país.

Como sistema importante relacionado con la operación de la aviación civil de China, los sistemas y redes informáticos operados por TravelSky son un "sistema de información básica crítica" y están catalogados como uno de los ocho sistemas clave supervisados por el Consejo de Estado. A excepción de algunas aerolíneas como Spring Airlines, todas las demás aerolíneas utilizan el sistema TravelSky. La seguridad y estabilidad del sistema TravelSky también han recibido gran atención y estricta supervisión por parte del Estado, garantizando la estabilidad y confiabilidad del sistema.

Por supuesto, esto no significa que no habrá problemas con el sistema TravelSky. El 25 de agosto de 2020 se produjo un uso anormal del sistema de salidas TravelSky, lo que provocó la imposibilidad de realizar el check-in en algunos aeropuertos. Según el informe, a las 10:32 horas de ese día se produjo una anomalía que impidió realizar el check-in en algunos aeropuertos, y todo volvió a la normalidad a las 11:07 horas. Aunque causó cierto impacto, no causó mayor impacto porque solo duró media hora y el funcionamiento general fue fluido.

Aunque la interfaz de operación de comando del sistema TravelSky, que no ha cambiado durante décadas, ha sido criticada, para los sistemas de información básicos clave, el funcionamiento estable es primordial. Basándonos en un sistema de información y un entorno operativo completamente autónomos, también podemos evitar sufrir el desastre del "incidente de la pantalla azul" y evitar hacer una gran broma como nuestros homólogos estadounidenses.

A través de este incidente, nos hemos vuelto más conscientes de que en un momento en que los sistemas de información críticos se han convertido en una infraestructura importante, es extremadamente importante lograr total autonomía y control. Y esto incluye no sólo los sistemas de información, sino también los sistemas operativos. A medida que la situación de seguridad de la red se vuelve cada vez más grave, no hay necesidad de cuestionar su necesidad. Esta no es sólo una opción técnica, sino también una necesidad estratégica para la seguridad nacional y el desarrollo industrial.

Este artículo es un manuscrito exclusivo de Observer.com. El contenido del artículo es puramente la opinión personal del autor y no representa la opinión de la plataforma. No puede reproducirse sin autorización, de lo contrario se perseguirá la responsabilidad legal. Siga Observer.com en WeChat guanchacn y lea artículos interesantes todos los días.

noticias

¿Por qué el "incidente de la pantalla azul" no tuvo impacto en la industria de la aviación civil de China?

Introducción

Mi informacion de contacto