nouvelles

Pourquoi « l'incident de l'écran bleu » n'a-t-il pas eu d'impact sur l'industrie de l'aviation civile chinoise ?

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[Zhang Zhonglin, chroniqueur de Text/Observer.com]

Le 19 juillet, heure locale, d'innombrables travailleurs du monde entier ont soudainement découvert que leurs écrans d'ordinateur étaient soit bleus, soit incapables de se connecter au serveur du système. La « méthode de redémarrage », habituellement très efficace, a également perdu son effet. Après le redémarrage, vous devez toujours faire face à l'immense écran bleu.

Cette fois, la paralysie du système provoquée par l'écran bleu de Microsoft s'est répandue dans le monde entier, mais elle est particulièrement grave en Amérique du Nord. Elle a eu de graves conséquences sur les opérations sociales : les vols sont cloués au sol, les lignes d'assistance téléphonique 911 ne sont pas joignables, les hôtels ne peuvent pas être contactés. enregistrés, les hôpitaux annulent les opérations chirurgicales et les magasins ne peuvent pas ouvrir. Tout a commencé avec CrowdStrike, une société de cybersécurité peu connue qui est, bien sûr, devenue un nom bien connu.

Pour parler franchement, la raison pour laquelle cet « incident mondial sur écran bleu » s’est produit n’est pas si surprenante. En tant que l'une des plus grandes entreprises mondiales dans le domaine de la sécurité des réseaux et de la protection des points de terminaison du cloud computing, un grand nombre d'entreprises et de serveurs cloud utilisent la plateforme Falcon de CrowdStrike et fonctionnent sur la plateforme Windows.

Cet incident a été provoqué par un grave problème de compatibilité entre la dernière mise à jour logicielle de CrowdStrike et la plate-forme Windows, qui a entraîné un « écran bleu de la mort » et des « boucles infinies » généralisées. Ce serait bien si elle se limitait aux ordinateurs personnels, mais la mise à jour problématique a également été appliquée aux serveurs cloud (tels que le propre service cloud Azure de Microsoft) et a également causé de graves problèmes. Cela a eu un impact important sur "l'incident de l'écran bleu". le domaine public, et l’industrie aéronautique en fait à nouveau les frais.

American Airlines dans « l’écran bleu »

Étant donné que les solutions de systèmes d'information adoptées par les compagnies aériennes dans les différents pays sont différentes, l'impact de « l'incident de l'écran bleu » est également différent : certains systèmes d'enregistrement en libre-service ne peuvent pas être utilisés et ne peuvent être traités qu'au comptoir, et d'autres ne peuvent pas utiliser la carte d'embarquement. L'impression ne peut se faire que par écriture manuscrite et, dans certains cas, le système est totalement inutilisable de l'enregistrement à l'arrimage, perdant complètement sa capacité de fonctionnement.

Les systèmes d'information des compagnies aériennes impliquant les services cloud Microsoft Azure et les terminaux basés sur les systèmes Windows sont les domaines les plus touchés. Les plus critiques sont les serveurs de systèmes d'information fonctionnant sur des services cloud.


Ce jour-là, les gens se sont enfin souvenus de la peur d’être dominés par l’écran bleu et de l’humiliation d’être impuissant face au système Windows.

En raison de « l'avantage géographique » d'être aux États-Unis, American Airlines est devenue la zone la plus durement touchée par cette série d'« incidents d'écran bleu ». Les trois grandes compagnies aériennes américaines (Delta, American et United Airlines) ont toutes souffert, et tous les vols ont été émis. En vertu de l'ordre au sol, la FAA exige que les contrôleurs aériens informent les pilotes que les compagnies aériennes rencontrent actuellement des problèmes de communication. En outre, les petites et moyennes compagnies aériennes telles que JetBlue Airways, Frontier Airlines et Spirit Airlines ont également été gravement touchées, avec des systèmes clés indisponibles, ce qui a entraîné un grand nombre d'annulations de vols.


On peut constater qu'en raison du crash du système, le nombre de vols effectuant des vols aux États-Unis le 19 juillet a été considérablement réduit par rapport à la veille.

En tant que principales victimes de cette série d'incidents sur écran bleu, un grand nombre de vols de Delta, American Airlines et United Airlines ont été annulés, et le plus touché a été l'aéroport d'Atlanta, l'aéroport avec le plus grand trafic de passagers aux États-Unis. En tant que plus grand aéroport pivot des États-Unis et aéroport de base de Delta Air Lines, plus de 500 vols ont été annulés au cours de cette série d'« incidents sur écran bleu », dont la plupart étaient des vols de Delta Air Lines. Cela a été suivi par l'annulation de près de 200 vols à l'aéroport O'Hare de Chicago et par l'annulation d'un tiers des vols à l'aéroport LaGuardia de New York. Les vols dans les aéroports européens en dehors des États-Unis ont également été fortement affectés. 40 % des vols entrants et sortants à l'aéroport d'Amsterdam ont été retardés et un tiers des vols à l'aéroport de Berlin ont été annulés.

Il est intéressant de noter que cette série de pannes de systèmes à grande échelle n'a pas affecté Southwest Airlines et Alaska Airlines, ni UPS et FEDEX, deux compagnies de fret aérien. La raison derrière cela peut être qualifiée d'« humour noir ».

Le système de contrôle des opérations aériennes actuellement utilisé par Southwest Airlines est basé sur le système Windows 3.1 de 1992, et son système de déploiement d'équipage est basé sur les appels téléphoniques. Par conséquent, cette série de pannes à grande échelle des systèmes Windows et des services cloud causées par des packages de mise à jour incorrects signifie en réalité que « le système est trop en retard, il n'a donc aucun impact » pour Southwest Airlines.

UPS et FEDEX se trouvent dans une situation similaire. Ils utilisent toujours Windows 95 ou Windows 3.1 pour exécuter leurs principaux systèmes d'exploitation et ont donc pu échapper à ce désastre.

La plupart des autres compagnies aériennes américaines qui n'ont pas été touchées sont des compagnies aériennes régionales. Ces petites compagnies aériennes disposent de systèmes d'information et d'exploitation relativement primitifs et ne peuvent pas se permettre des services cloud coûteux, elles se sont donc échappées et peuvent fonctionner normalement. Rappelant les retards généralisés causés par le blizzard en Amérique du Nord le jour de Noël 2022, le sud-ouest des États-Unis n'a pas pu reprendre les opérations aériennes en raison de son système retardé. Cet incident peut être considéré comme un « coup de chance » et s'avère. les capacités d'un « système mature ». L'avantage « haute stabilité ».


Un système Windows vieux de 32 ans empêche Southwest de pouvoir exécuter Yahoo News

Réponse d'urgence manquante

Parmi les « incidents d'écran bleu » qui ont provoqué des crashs à grande échelle du système au cours de cette série de mises à jour, le plus choquant a été qu'après le crash du système, les trois principales compagnies aériennes américaines ont simplement levé le drapeau blanc et ont cloué au sol tous leurs vols. À mon avis, c'est sans aucun doute très incroyable, car ces systèmes de contrôle des opérations sont des systèmes importants, non seulement liés au contrôle des opérations quotidiennes de la compagnie aérienne elle-même, mais également au système de transport clé du pays.

De tels systèmes d'exploitation et de contrôle de l'aviation ont souvent des exigences extrêmement élevées en matière de fiabilité et de robustesse afin de garantir que les opérations aéronautiques ne seront pas sérieusement affectées par un effondrement. L'Organisation de l'aviation civile internationale (OACI) a présenté des exigences spécifiques pour la sauvegarde et la redondance des systèmes d'exploitation et de contrôle de l'aviation dans une série de documents afin d'éviter les conséquences graves causées par l'effondrement d'un système unique, notamment :

Exiger une sauvegarde régulière des données opérationnelles critiques. La redondance doit être mise en œuvre au niveau matériel et logiciel, y compris les serveurs de sauvegarde, les périphériques de stockage, etc. Un plan détaillé de reprise après sinistre doit être élaboré pour couvrir divers scénarios catastrophiques. Les systèmes clés (tels que les systèmes de contrôle aérien) doivent disposer de fonctions de basculement automatique et de données de fonctionnement synchronisées. Une fois que le système principal tombe en panne, il peut immédiatement passer en mode de fonctionnement de secours.


Si nous examinons cet « incident d'écran bleu », nous constaterons que ces compagnies aériennes américaines n'avaient pas (ou n'ont pas mis en œuvre) de plan de reprise après sinistre, et n'ont pas non plus mis en œuvre le passage automatique à la sauvegarde après une panne critique du système. Bien sûr, il est possible qu'ils disposent d'une sauvegarde, mais la sauvegarde a également rencontré un écran bleu (par exemple, elle fonctionnait également sur un système Windows et a été affectée par une mise à jour incorrecte), ce qui donne aux gens le sentiment de " afin d'éviter de mettre tous les œufs dans le même panier, ils ont acheté plusieurs "sentiment de gestion financière P2P pour éviter les orages".

En tant que personne possédant une vaste expérience de terrain, je suis également assez perplexe face à la performance de mes homologues américains cette fois-ci, car les compagnies aériennes doivent disposer de plans d'urgence pour de telles situations afin d'assurer le niveau minimum en cas de dégradation du système ou d'indisponibilité totale. D'après mon expérience de travail en première ligne, bien que l'arrimage des avions soit désormais effectué via des systèmes d'information, chaque personnel d'arrimage conserve toujours l'art de dresser manuellement la liste d'arrimage. Une fois que le système de chargement tombe en panne et ne peut pas être utilisé, extrayez le document PDF de la table de chargement en fonction du numéro de modèle de l'avion, imprimez la table de chargement, puis calculez manuellement la charge pour obtenir les données de décollage de l'avion. Ce type d'opération manuelle est une compétence commerciale extrêmement basique. Elle est pratiquée année après année, chaque mois et chaque semaine, juste pour s'assurer que les moments clés où des calculs manuels sont nécessaires ne seront pas manqués.


Le fonctionnement manuel est la compétence de base de cette industrie

D’autres liens et départements concernés ont également des exigences presque paranoïaques en matière d’exercices d’urgence. En tant que service qui chevauche le service d'enregistrement, nous recevons des appels du service d'enregistrement presque tous les mois, nous demandant d'établir un vol virtuel pour qu'ils puissent effectuer des exercices d'urgence. Le contenu de l'exercice d'enregistrement d'urgence est que lorsque le système TravelSky (le système d'exploitation de l'aviation civile utilisé en Chine) est en panne, l'enregistrement des passagers et les cartes d'embarquement sont traités en fonction du mode local, et l'embarquement manuscrit est même donné à passagers lorsque l’impression n’est pas possible. Les passagers sont autorisés à monter à bord de l’avion.

Par conséquent, lorsque j'ai vu le système d'enregistrement, le système de rangement et de nombreux autres systèmes de mes collègues américains s'écraser à cause de « l'incident de l'écran bleu », provoquant la paralysie complète des opérations aériennes, j'ai été perplexe : ne pratiquez-vous pas habituellement le travail manuel ? ? Vous n'avez pas de plan d'urgence ? Vous n’examinez pas vos plans d’urgence ? Vous n'avez pas de système de sauvegarde ?

Pourquoi la Chine n'est pas affectée

Cet « incident sur écran bleu » qui a affecté le monde n'a presque eu aucun impact sur les opérations de l'aviation civile chinoise. Seuls certains vols de compagnies aériennes étrangères (comme American Airlines et United Airlines) ont été retardés en raison d'une influence étrangère. compliqué. .

Tout d'abord, pour les ordinateurs des terminaux, qui utilisent des systèmes Windows et impliquent l'installation du logiciel de sécurité de CrowdStrike, le problème des « redémarrages d'écran bleu » infinis ne se produira qu'après la mise à jour des correctifs d'erreur. Cependant, les terminaux informatiques des compagnies aériennes nationales n'utilisent souvent pas ceux de la compagnie. logiciel de sécurité. De plus, ils sont souvent prudents quant aux mises à jour du système et ne se mettront pas à jour si rien ne se passe. Les versions de Windows utilisées sont principalement des versions plus anciennes, plus matures et plus stables.

Deuxièmement, la plupart des compagnies aériennes nationales utilisent le système TravelSky, dont l'environnement d'exploitation est basé sur Linux, et n'utilisent pas le service cloud Azure de Microsoft ni AWS d'Amazon. Cela a permis d’éviter, dans une certaine mesure, un effondrement complet causé par des mises à jour erronées des principaux systèmes de base de l’aviation civile de mon pays.

En tant que système important lié au fonctionnement de l'aviation civile chinoise, les systèmes et réseaux informatiques exploités par TravelSky constituent un « système d'information de base critique » et sont répertoriés comme l'un des huit systèmes clés supervisés par le Conseil d'État. À l'exception de quelques compagnies aériennes comme Spring Airlines, toutes les autres compagnies aériennes utilisent le système TravelSky. La sécurité et la stabilité du système TravelSky ont également fait l'objet d'une grande attention et d'une surveillance stricte de la part de l'État, garantissant la stabilité et la fiabilité du système.

Bien entendu, cela ne signifie pas qu'il n'y aura pas de problèmes avec le système TravelSky. Le 25 août 2020, une utilisation anormale du système de départ TravelSky s'est produite, entraînant l'impossibilité de s'enregistrer dans certains aéroports. Selon le rapport, une anomalie s'est produite à 10h32 ce jour-là, entraînant l'impossibilité de s'enregistrer dans certains aéroports, et tout est revenu à la normale à 11h07. Bien que cela ait provoqué un certain impact, cela n'a pas causé d'impact majeur car cela n'a duré qu'une demi-heure et l'opération globale s'est déroulée sans problème.

Bien que l'interface de commande et d'opération du système TravelSky, qui n'a pas changé depuis des décennies, ait été critiquée, pour les systèmes d'information de base clés, un fonctionnement stable est primordial. En s'appuyant sur un système d'information et un environnement opérationnel totalement autonomes, nous pouvons également éviter de souffrir du désastre de « l'incident de l'écran bleu » et éviter de faire une grosse plaisanterie comme nos homologues américains.

Grâce à cet incident, nous avons pris conscience qu'à une époque où les systèmes d'information critiques sont devenus des infrastructures importantes, il est extrêmement important d'atteindre une autonomie et un contrôle complets. Et cela inclut non seulement les systèmes d’information, mais aussi les systèmes d’exploitation. Alors que la situation en matière de sécurité des réseaux devient de plus en plus grave, il n’est pas nécessaire de remettre en question sa nécessité. Il s’agit non seulement d’un choix technique, mais également d’une nécessité stratégique pour la sécurité nationale et le développement industriel.


Cet article est un manuscrit exclusif d'Observer.com. Le contenu de l'article est purement l'opinion personnelle de l'auteur et ne représente pas l'opinion de la plateforme. Il ne peut pas être reproduit sans autorisation, sous peine de poursuites judiciaires. Suivez Observer.com sur WeChat guanchacn et lisez des articles intéressants chaque jour.