Nachricht

Zhang Zhonglin: Warum hatte der „Blue Screen Incident“ keine Auswirkungen auf Chinas Zivilluftfahrtindustrie?

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[Text/Observer.com-Kolumnist Zhang Zhonglin]

Am 19. Juli Ortszeit stellten unzählige Arbeiter auf der ganzen Welt plötzlich fest, dass ihre Computerbildschirme entweder einen Bluescreen hatten oder keine Verbindung zum Systemserver herstellen konnten. Auch die sonst sehr effektive „Neustart-Methode“ hat ihre Wirkung verloren. Nach dem Neustart muss man sich immer noch mit dem riesigen Bluescreen auseinandersetzen.

Diesmal hat sich die durch den Bluescreen von Microsoft verursachte Systemlähmung auf der ganzen Welt ausgebreitet, ist jedoch in Nordamerika besonders gravierend. Sie hatte schwerwiegende Auswirkungen auf den sozialen Betrieb: Flüge sind eingestellt, 911-Hotlines sind nicht erreichbar, Hotels sind nicht erreichbar eingecheckt, Krankenhäuser sagen Operationen ab und Geschäfte können nicht öffnen. All das begann mit CrowdStrike, einem wenig bekannten Cybersicherheitsunternehmen, das natürlich zu einem bekannten Namen geworden ist.

Um es ganz klar auszudrücken: Der Grund, warum es zu diesem weltweiten „Bluescreen-Vorfall“ kam, ist nicht so überraschend. Als eines der weltweit führenden Unternehmen im Bereich Netzwerksicherheit und Cloud-Computing-Endpunktschutz nutzen zahlreiche Unternehmen und Cloud-Server die Falcon-Plattform von CrowdStrike und laufen auf der Windows-Plattform.

Dieser Vorfall wurde durch ein schwerwiegendes Kompatibilitätsproblem zwischen dem neuesten Software-Update von CrowdStrike und der Windows-Plattform verursacht, das zu einem weitverbreiteten „Blue Screen of Death“ und „Endlosschleifen“ führte. Es wäre in Ordnung, wenn es auf Privatcomputer beschränkt wäre, aber das problematische Update wurde auch auf Cloud-Server (wie Microsofts eigenen Cloud-Dienst Azure) angewendet und verursachte ebenfalls schwerwiegende Probleme. Dadurch hatte der „Bluescreen-Vorfall“ weitreichende Auswirkungen Die Luftfahrtindustrie trägt erneut die Hauptlast.

American Airlines im „Blue Screen“

Da die Informationssystemlösungen der Fluggesellschaften in den verschiedenen Ländern unterschiedlich sind, sind auch die Auswirkungen des „Bluescreen-Vorfalls“ unterschiedlich: Einige Self-Service-Check-in-Systeme sind nicht nutzbar und können nur am Schalter abgewickelt werden, andere nicht Das Drucken der Bordkarte kann nur handschriftlich erfolgen, und in einigen Fällen ist das System vom Check-in bis zum Verstauen völlig unbrauchbar und verliert seine Funktionsfähigkeit vollständig.

Die Informationssysteme der Fluggesellschaften, die Microsoft Azure-Cloud-Dienste und Terminals auf Basis von Windows-Systemen umfassen, sind die am stärksten betroffenen Bereiche. Am kritischsten sind die Informationssystemserver, die auf Cloud-Diensten laufen.


An diesem Tag erinnerten sich die Menschen endlich an die Angst, vom Bluescreen dominiert zu werden, und an die Demütigung, angesichts des Windows-Systems hilflos zu sein.

Aufgrund des „geografischen Vorteils“ der USA ist American Airlines das am stärksten betroffene Gebiet dieser „Blue-Screen-Vorfälle“. Die drei großen amerikanischen Fluggesellschaften (Delta, American und United Airlines) haben alle gelitten. und alle Flüge wurden erteilt. Gemäß der Bodenverfügung verlangt die FAA von den Fluglotsen, die Piloten darüber zu informieren, dass die Fluggesellschaften derzeit Kommunikationsprobleme haben. Darüber hinaus waren auch kleine und mittlere Fluggesellschaften wie JetBlue Airways, Frontier Airlines und Spirit Airlines stark betroffen, da wichtige Systeme nicht verfügbar waren und es zu zahlreichen Flugausfällen kam.


Es ist zu erkennen, dass aufgrund des Systemabsturzes die Anzahl der Flüge in den USA am 19. Juli im Vergleich zum Vortag deutlich zurückgegangen ist.

Als Hauptopfer dieser Blue-Screen-Vorfälle wurden zahlreiche Flüge von Delta, American Airlines und United Airlines gestrichen. Am stärksten betroffen war der Flughafen Atlanta, der Flughafen mit dem größten Passagieraufkommen in den Vereinigten Staaten. Da es sich um den größten Drehkreuzflughafen der Vereinigten Staaten und Basisflughafen von Delta Air Lines handelt, wurden während dieser „Blue-Screen-Vorfälle“ mehr als 500 Flüge gestrichen, bei denen es sich größtenteils um Flüge von Delta Air Lines handelte. Es folgte die Annullierung von fast 200 Flügen am O'Hare Airport in Chicago und die Annullierung von einem Drittel der Flüge am LaGuardia Airport in New York. Auch Flüge an europäischen Flughäfen außerhalb der USA waren stark betroffen. 40 % der ein- und ausgehenden Flüge am Flughafen Amsterdam waren verspätet und ein Drittel der Flüge am Flughafen Berlin wurde gestrichen.

Interessanterweise waren Southwest Airlines und Alaska Airlines sowie die beiden Luftfrachtunternehmen UPS und FEDEX von dieser Runde großer Systemausfälle nicht betroffen. Der Grund dafür kann als „schwarzer Humor“ bezeichnet werden.

Das derzeit von Southwest Airlines verwendete Flugbetriebsleitsystem basiert auf dem Windows 3.1-System von 1992, das Crew-Einsatzsystem auf Telefonanrufen. Daher bedeutet diese Runde groß angelegter Systemausfälle von Windows-Systemen und Cloud-Diensten, die durch falsche Update-Pakete verursacht werden, tatsächlich, dass „das System zu rückständig ist, sodass es keine Auswirkungen hat“ für Southwest Airlines.

UPS und FEDEX befinden sich in einer ähnlichen Situation. Sie verwenden immer noch Windows 95 oder Windows 3.1, um ihre wichtigsten Betriebssysteme auszuführen, sodass sie dieser Katastrophe entkommen konnten.

Die meisten anderen US-Fluggesellschaften, die nicht betroffen sind, sind regionale Regionalfluggesellschaften. Diese kleinen Fluggesellschaften verfügen über relativ primitive Informations- und Betriebssysteme und können sich teure Cloud-Dienste nicht leisten, sodass sie davongekommen sind und normal arbeiten können. In Anlehnung an die weit verbreiteten Verzögerungen, die durch das Schneesturmwetter in Nordamerika am Weihnachtstag 2022 verursacht wurden, konnte der Südwesten der USA aufgrund seines rückständigen Systems den Flugbetrieb nicht wieder aufnehmen. Dieser Vorfall kann als „Glückswende“ angesehen werden die Fähigkeiten eines „ausgereiften Systems“ Der Vorteil „hohe Stabilität“.


Ein 32 Jahre altes Windows-System verhindert, dass der Südwesten Yahoo News ausführen kann

Fehlende Notfallreaktion

Unter den „Bluescreen-Vorfällen“, die in dieser Aktualisierungsrunde zu großflächigen Systemabstürzen führten, war das Schockierendste, dass die drei großen US-Fluggesellschaften nach dem Systemabsturz einfach die weiße Flagge hissten und alle Flüge eingestellt haben. Meiner Meinung nach ist das zweifellos sehr unglaublich, denn diese Betriebskontrollsysteme sind wichtige Systeme, die nicht nur mit der täglichen Betriebskontrolle der Fluggesellschaft selbst zusammenhängen, sondern auch Teil des wichtigsten Transportsystems des Landes.

An solche Flugbetriebs- und Kontrollsysteme werden häufig äußerst hohe Anforderungen an ihre Zuverlässigkeit und Robustheit gestellt, um sicherzustellen, dass der Flugbetrieb durch einen Zusammenbruch nicht ernsthaft beeinträchtigt wird. Die Internationale Zivilluftfahrt-Organisation (ICAO) hat in einer Reihe von Dokumenten spezifische Anforderungen für die Sicherung und Redundanz von Flugbetriebs- und Kontrollsystemen aufgestellt, um schwerwiegende Folgen durch den Zusammenbruch eines einzelnen Systems zu vermeiden, darunter:

Erfordern eine regelmäßige Sicherung kritischer Betriebsdaten. Redundanz muss in Hardware und Software implementiert werden, einschließlich Backup-Servern, Speichergeräten usw. Um verschiedene Katastrophenszenarien abzudecken, muss ein detaillierter Notfallwiederherstellungsplan entwickelt werden. Wichtige Systeme (z. B. Luftkontrollsysteme) müssen über automatische Failover-Funktionen und synchronisierte Betriebsdaten verfügen. Sobald das Hauptsystem ausfällt, kann es sofort in den Backup-Modus wechseln.

Wenn wir uns diesen „Bluescreen-Vorfall“ ansehen, werden wir feststellen, dass diese US-Fluggesellschaften weder über einen Disaster-Recovery-Plan verfügten (oder diesen nicht umgesetzt haben) noch eine automatische Umschaltung auf Backup nach einem kritischen Systemausfall implementiert haben. Natürlich besteht die Möglichkeit, dass sie über ein Backup verfügen, aber das Backup ist auch auf einen Bluescreen gestoßen (z. B. lief es auch auf einem Windows-System und war von einem falschen Update betroffen), was den Leuten das Gefühl gibt: „ Um nicht alle Eier in einen Korb zu legen, kauften sie mehrere P2P-Finanzverwaltungen, um das Gefühl von „Gewittern“ zu verhindern.

Als Person mit umfangreicher Erfahrung vor Ort bin ich auch ziemlich verwirrt über die Leistung meiner amerikanischen Kollegen, da die Fluggesellschaften für solche Situationen Notfallpläne haben müssen, um im Falle einer Systemverschlechterung oder einer völligen Nichtverfügbarkeit das Mindestniveau sicherzustellen. Meiner Erfahrung im Fronteinsatz zufolge wird die Stauung von Flugzeugen zwar mittlerweile über Informationssysteme durchgeführt, aber jedes Staupersonal behält immer noch das Handwerk, die Stauliste manuell zu erstellen. Sobald das Ladesystem ausfällt und nicht verwendet werden kann, ziehen Sie das PDF-Dokument der Ladetabelle entsprechend der Flugzeugmodellnummer heraus, drucken Sie die Ladetabelle aus und berechnen Sie dann manuell die Belastung, um die Startdaten des Flugzeugs zu erhalten. Diese Art der manuellen Bedienung ist eine äußerst grundlegende Geschäftsfähigkeit. Sie wird Jahr für Jahr, jeden Monat und jede Woche geübt, nur um sicherzustellen, dass die Schlüsselmomente, in denen manuelle Berechnungen erforderlich sind, nicht verpasst werden.


Manuelle Bedienung ist die Grundkompetenz dieser Branche

Auch andere relevante Verbindungen und Abteilungen haben nahezu paranoide Anforderungen an Notfallübungen. Als Abteilung, die sich mit der Check-in-Abteilung überschneidet, erhalten wir fast jeden Monat Anrufe vom Check-in mit der Bitte, einen virtuellen Flug für die Durchführung von Notfallübungen einzurichten. Der Inhalt der Check-in-Notfallübung besteht darin, dass bei einem Ausfall des TravelSky-Systems (das in China verwendete Betriebssystem für die Zivilluftfahrt) der Check-in und die Bordkarten der Passagiere auf der Grundlage des lokalen Modus verarbeitet werden und sogar handschriftliche Bordkarten ausgegeben werden Passagiere, wenn das Drucken nicht möglich ist, dürfen das Flugzeug besteigen.

Als ich daher sah, wie das Check-in-System, das Stausystem und viele andere Systeme meiner amerikanischen Kollegen aufgrund des „Blue-Screen-Vorfalls“ abstürzten und der Flugbetrieb völlig lahmgelegt wurde, war ich verwirrt: Üben Sie sich normalerweise nicht in Handarbeit aus? ? Haben Sie keinen Notfallplan? Üben Sie Ihre Notfallpläne nicht durch? Haben Sie kein Backup-System?

Warum China nicht betroffen ist

Dieser „Bluescreen-Vorfall“, der die Welt betraf, hatte fast keine Auswirkungen auf Chinas Zivilluftfahrtbetrieb. Lediglich einige ausländische Fluggesellschaften (wie American Airlines und United Airlines) waren aufgrund ausländischer Einflüsse verspätet kompliziert. .

Erstens tritt bei Terminalcomputern, die Windows-Systeme verwenden und die Installation der Sicherheitssoftware von CrowdStrike erfordern, das Problem endloser „Bluescreen-Neustarts“ erst nach der Aktualisierung von Fehlerpatches auf. Computerterminals von inländischen Fluggesellschaften verwenden diese jedoch häufig nicht Sicherheitssoftware. Darüber hinaus sind sie bei Systemaktualisierungen oft vorsichtig und führen keine Updates durch. Bei den verwendeten Windows-Versionen handelt es sich überwiegend um ältere, ausgereiftere und stabilere Versionen.

Zweitens nutzen die meisten inländischen Fluggesellschaften das TravelSky-System, dessen Betriebsumgebung auf Linux basiert, und nutzen nicht den Cloud-Dienst Azure von Microsoft oder AWS von Amazon. Dadurch konnte bis zu einem gewissen Grad ein vollständiger Zusammenbruch vermieden werden, der durch fehlerhafte Aktualisierungen der wichtigsten grundlegenden Zivilluftfahrtsysteme meines Landes verursacht wurde.

Als wichtiges System im Zusammenhang mit dem Betrieb der chinesischen Zivilluftfahrt sind die von TravelSky betriebenen Computersysteme und Netzwerke ein „kritisches Basisinformationssystem“ und werden als eines der acht vom Staatsrat überwachten Schlüsselsysteme aufgeführt. Bis auf einige Fluggesellschaften wie Spring Airlines nutzen alle anderen Fluggesellschaften das TravelSky-System. Der Sicherheit und Stabilität des TravelSky-Systems wurde ebenfalls große Aufmerksamkeit und strenge Überwachung durch den Staat gewidmet, um die Stabilität und Zuverlässigkeit des Systems zu gewährleisten.

Dies bedeutet natürlich nicht, dass es keine Probleme mit dem TravelSky-System geben wird. Am 25. August 2020 kam es zu einer abnormalen Nutzung des TravelSky-Abflugsystems, die dazu führte, dass an einigen Flughäfen kein Check-in möglich war. Dem Bericht zufolge kam es an diesem Tag um 10:32 Uhr zu einer Unregelmäßigkeit, die dazu führte, dass an einigen Flughäfen kein Check-in möglich war, und um 11:07 Uhr normalisierte sich alles wieder. Obwohl es gewisse Auswirkungen hatte, verursachte es keine großen Auswirkungen, da es nur eine halbe Stunde dauerte und der gesamte Betrieb reibungslos verlief.

Obwohl die seit Jahrzehnten unveränderte Befehlsschnittstelle des TravelSky-Systems kritisiert wird, ist für wichtige Basisinformationssysteme ein stabiler Betrieb von größter Bedeutung. Basierend auf einem vollständig autonomen Informationssystem und Betriebsumfeld können wir auch die Katastrophe eines „Bluescreen-Vorfalls“ vermeiden und vermeiden, wie unsere amerikanischen Kollegen große Witze zu machen.

Durch diesen Vorfall ist uns bewusster geworden, dass es in einer Zeit, in der kritische Informationssysteme zu wichtigen Infrastrukturen geworden sind, äußerst wichtig ist, vollständige Autonomie und Kontrolle zu erreichen. Und dazu zählen nicht nur Informationssysteme, sondern auch Betriebssysteme. Da die Netzwerksicherheitslage immer schwieriger wird, besteht kein Grund, ihre Notwendigkeit in Frage zu stellen. Dies ist nicht nur eine technische Entscheidung, sondern auch eine strategische Notwendigkeit für die nationale Sicherheit und die industrielle Entwicklung.

Dieser Artikel ist ein exklusives Manuskript von Observer.com. Der Inhalt des Artikels stellt ausschließlich die persönliche Meinung des Autors dar und stellt nicht die Meinung der Plattform dar. Er darf nicht ohne Genehmigung reproduziert werden, andernfalls wird eine rechtliche Haftung übernommen. Folgen Sie Observer.com auf WeChat guanchacn und lesen Sie jeden Tag interessante Artikel.