notizia

Perché l'"incidente della schermata blu" non ha avuto alcun impatto sull'industria dell'aviazione civile cinese?

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[L'editorialista di Text/Observer.com Zhang Zhonglin]

Il 19 luglio, ora locale, innumerevoli lavoratori in tutto il mondo hanno scoperto improvvisamente che gli schermi dei loro computer avevano una schermata blu o non riuscivano a connettersi al server di sistema. Anche il "metodo di riavvio", solitamente molto efficace, ha perso il suo effetto. Dopo il riavvio, dovete ancora affrontare l'enorme schermata blu.

Questa volta la paralisi del sistema causata dalla schermata blu di Microsoft si è diffusa in tutto il mondo, ma è particolarmente grave in Nord America e ha avuto gravi ripercussioni sulle operazioni sociali: i voli sono bloccati, i numeri di emergenza 911 non sono raggiungibili, gli hotel non possono essere raggiunti. si registrano, gli ospedali annullano gli interventi chirurgici e i negozi non possono aprire. Tutto questo è iniziato con CrowdStrike, una società di sicurezza informatica poco conosciuta che, ovviamente, è diventata un nome familiare.

Per dirla senza mezzi termini, il motivo per cui si è verificato questo "incidente con schermata blu" globale non è così sorprendente. Essendo una delle principali aziende al mondo nel campo della sicurezza di rete e della protezione degli endpoint del cloud computing, un gran numero di aziende e server cloud utilizzano la piattaforma Falcon di CrowdStrike e funzionano sulla piattaforma Windows.

Questo incidente è stato causato da un grave problema di compatibilità tra l'ultimo aggiornamento software di CrowdStrike e la piattaforma Windows, che ha provocato una diffusa "schermata blu della morte" e "loop infiniti". Andrebbe bene se fosse limitato ai personal computer, ma l'aggiornamento problematico è stato applicato anche ai server cloud (come il servizio cloud Azure di Microsoft) e ha causato seri problemi. Ciò ha fatto sì che l'"incidente della schermata blu" abbia avuto un ampio impatto di pubblico dominio, e l’industria aeronautica ne sta ancora pagando le conseguenze.

American Airlines nella “schermata blu”

Poiché le soluzioni dei sistemi informativi adottate dalle compagnie aeree nei vari paesi sono diverse, anche l'impatto nell'incidente della "schermata blu" è diverso: alcuni sistemi di check-in self-service non possono essere utilizzati e possono essere elaborati solo allo sportello, mentre altri non possono utilizzare la carta d'imbarco La stampa può essere effettuata solo tramite scrittura a mano e, in alcuni casi, il sistema è completamente inutilizzabile dal check-in allo stivaggio, perdendo completamente la sua funzionalità.

I sistemi informativi delle compagnie aeree che coinvolgono i servizi cloud di Microsoft Azure e i terminali basati su sistemi Windows sono le aree più colpite. I più critici sono i server dei sistemi informativi che funzionano su servizi cloud.


Quel giorno, la gente si ricordò finalmente della paura di essere dominata dallo schermo blu e dell'umiliazione di essere impotenti di fronte al sistema Windows.

A causa del "vantaggio geografico" di trovarsi negli Stati Uniti, American Airlines è diventata la zona più colpita da questa serie di "incidenti con schermata blu". Le tre principali compagnie aeree americane (Delta, American e United Airlines) hanno tutte sofferto, e tutti i voli sono stati emessi In base all'ordine di terra, la FAA richiede ai controllori del traffico aereo di informare i piloti che le compagnie aeree stanno attualmente riscontrando problemi di comunicazione. Inoltre, anche le compagnie aeree di piccole e medie dimensioni come JetBlue Airways, Frontier Airlines e Spirit Airlines sono state gravemente colpite, con i sistemi chiave non disponibili e con conseguente gran numero di cancellazioni di voli.


Si può vedere che a causa del crash del sistema, il numero di voli negli Stati Uniti il ​​19 luglio è stato notevolmente ridotto rispetto al giorno precedente.

Principali vittime di questa serie di incidenti con schermata blu, un gran numero di voli di Delta, American Airlines e United Airlines sono stati cancellati, e il più colpito è stato l'aeroporto di Atlanta, l'aeroporto con il maggior traffico passeggeri negli Stati Uniti. Essendo il più grande aeroporto hub degli Stati Uniti e aeroporto base di Delta Air Lines, più di 500 voli sono stati cancellati durante questa serie di "incidenti con schermata blu", la maggior parte dei quali erano voli Delta Air Lines. Ciò è stato seguito dalla cancellazione di quasi 200 voli all'aeroporto O'Hare di Chicago e dalla cancellazione di un terzo dei voli all'aeroporto LaGuardia di New York. Anche i voli negli aeroporti europei al di fuori degli Stati Uniti sono stati fortemente colpiti. Il 40% dei voli in entrata e in uscita all’aeroporto di Amsterdam sono stati ritardati e un terzo dei voli all’aeroporto di Berlino è stato cancellato.

È interessante notare che questa serie di fallimenti di sistema su larga scala non ha influenzato la Southwest Airlines e l'Alaska Airlines, così come UPS e FEDEX, due compagnie di trasporto aereo di merci. La ragione di ciò può essere definita "umorismo nero".

Il sistema di controllo delle operazioni di volo attualmente utilizzato dalla Southwest Airlines si basa sul sistema Windows 3.1 del 1992, mentre il sistema di distribuzione dell'equipaggio si basa sulle chiamate telefoniche. Pertanto, questa serie di interruzioni di sistema su larga scala dei sistemi Windows e dei servizi cloud causate da pacchetti di aggiornamento errati significa in realtà che "il sistema è troppo arretrato, quindi non ha alcun impatto" per Southwest Airlines.

UPS e FEDEX si trovano in una situazione simile. Utilizzano ancora Windows 95 o Windows 3.1 per eseguire i loro principali sistemi operativi, quindi sono riusciti a sfuggire a questo disastro.

La maggior parte delle altre compagnie aeree statunitensi che non sono state colpite sono compagnie aeree regionali. Queste piccole compagnie aeree hanno informazioni e sistemi operativi relativamente primitivi e non possono permettersi costosi servizi cloud, quindi sono fuggite e possono operare normalmente. Ricordando i diffusi ritardi causati dalla bufera di neve che ha colpito il Nord America il giorno di Natale del 2022, gli Stati Uniti sudoccidentali non sono stati in grado di riprendere le operazioni di volo a causa del loro sistema arretrato. Questo incidente può essere considerato un "giro di fortuna" e lo dimostra le capacità di un "sistema maturo" Il vantaggio dell'"elevata stabilità".


Il sistema Windows vecchio di trentadue anni impedisce al sud-ovest di essere in grado di eseguire Yahoo News

Mancata risposta all'emergenza

Tra gli "incidenti con schermata blu" che hanno causato arresti anomali del sistema su larga scala in questa serie di aggiornamenti, la cosa più scioccante è stata che dopo l'incidente del sistema, le tre principali compagnie aeree statunitensi hanno semplicemente alzato bandiera bianca e messo a terra tutti i voli. A mio parere, questo è senza dubbio molto incredibile, perché questi sistemi di controllo operativo sono sistemi importanti, non solo legati al controllo operativo quotidiano della compagnia aerea stessa, ma anche parte del sistema di trasporto chiave del paese.

Tali sistemi operativi e di controllo dell'aviazione spesso hanno requisiti estremamente elevati in termini di affidabilità e robustezza per garantire che le operazioni aeronautiche non siano seriamente compromesse dal collasso. L'Organizzazione per l'aviazione civile internazionale (ICAO) ha presentato requisiti specifici per il backup e la ridondanza dei sistemi operativi e di controllo dell'aviazione in una serie di documenti per evitare gravi conseguenze causate dal collasso di un unico sistema, tra cui:

Richiedere il backup regolare dei dati operativi critici. La ridondanza deve essere implementata nell'hardware e nel software, inclusi server di backup, dispositivi di archiviazione, ecc. È necessario sviluppare un piano dettagliato di ripristino di emergenza per coprire vari scenari catastrofici. I sistemi chiave (come i sistemi di controllo aereo) devono disporre di funzioni di failover automatico e dati operativi sincronizzati. Una volta che il sistema principale si guasta, può passare immediatamente al funzionamento in modalità backup.


Se osserviamo questo "incidente con schermata blu", scopriremo che le compagnie aeree statunitensi non avevano (o non hanno implementato) un piano di ripristino di emergenza, né hanno implementato il passaggio automatico al backup dopo un guasto critico del sistema. Naturalmente, esiste la possibilità che abbiano un backup, ma anche il backup ha riscontrato una schermata blu (ad esempio, era in esecuzione anche su un sistema Windows ed era interessato da un aggiornamento errato), il che dà alle persone la sensazione di " per evitare di mettere tutte le uova nello stesso paniere, hanno acquistato più sistemi di gestione finanziaria P2P per prevenire la sensazione di temporali.

Come persona con una vasta esperienza sul campo, questa volta sono anche piuttosto perplesso dalla prestazione dei miei colleghi americani, perché le compagnie aeree devono disporre di piani di emergenza per tali situazioni per garantire il livello minimo in caso di degrado del sistema o completa indisponibilità. Sulla base della mia esperienza nel lavoro in prima linea, sebbene lo stivaggio degli aeromobili venga ora effettuato tramite sistemi informativi, ogni personale addetto allo stivaggio conserva ancora la capacità di redigere manualmente la lista di stivaggio. Una volta che il sistema di caricamento fallisce e non può essere utilizzato, estrarre il documento PDF della tabella di carico in base al numero del modello dell'aeromobile, stampare la tabella di carico e quindi calcolare manualmente il carico per ottenere i dati di decollo dell'aeromobile. Questo tipo di operazione manuale è un'abilità aziendale estremamente basilare. Viene praticata anno dopo anno, ogni mese e ogni settimana, solo per garantire che i momenti chiave in cui sono richiesti i calcoli manuali non vengano persi.


Il funzionamento manuale è l'abilità di base di questo settore

Anche altri collegamenti e dipartimenti rilevanti hanno requisiti quasi paranoici per le esercitazioni di emergenza. Essendo un dipartimento che si sovrappone al reparto check-in, riceviamo chiamate dal check-in quasi ogni mese, chiedendo di organizzare un volo virtuale per condurre esercitazioni di emergenza. Il contenuto dell'esercitazione di emergenza del check-in è che quando il sistema TravelSky (il sistema operativo dell'aviazione civile utilizzato in Cina) non funziona, il check-in dei passeggeri e le carte d'imbarco vengono elaborati in base alla modalità locale e viene persino fornito l'imbarco scritto a mano passeggeri quando la stampa non è possibile I passeggeri possono salire a bordo dell'aereo.

Pertanto, quando ho visto il sistema di check-in, il sistema di stivaggio e molti altri sistemi dei miei colleghi americani bloccarsi a causa dell'“incidente schermata blu”, causando la completa paralisi delle operazioni di volo, sono rimasto perplesso: di solito non pratichi il lavoro manuale? ? Non hai un piano di emergenza? Non approfondisci i tuoi piani di emergenza? Non hai un sistema di backup?

Perché la Cina non è interessata

Questo "incidente schermata blu" che ha colpito il mondo non ha avuto quasi alcun impatto sulle operazioni dell'aviazione civile cinese. Solo alcuni voli di compagnie aeree straniere (come American Airlines e United Airlines) sono stati ritardati a causa dell'influenza straniera complicato.

Innanzitutto, per i computer terminali che utilizzano sistemi Windows e comportano l'installazione del software di sicurezza CrowdStrike, il problema degli infiniti "riavvii con schermata blu" si verificherà solo dopo l'aggiornamento delle patch di errore. Tuttavia, i terminali dei computer delle compagnie aeree nazionali spesso non utilizzano quelli dell'azienda software di sicurezza. Inoltre, sono spesso cauti riguardo agli aggiornamenti di sistema e non si aggiornano se non succede nulla. Le versioni di Windows utilizzate sono principalmente versioni più vecchie, mature e stabili.

In secondo luogo, la maggior parte delle compagnie aeree nazionali utilizza il sistema TravelSky, il cui ambiente operativo è basato su Linux, e non utilizza il servizio cloud Azure di Microsoft o AWS di Amazon. Ciò ha evitato, in una certa misura, un collasso completo causato da aggiornamenti errati dei principali sistemi di base dell’aviazione civile del mio Paese.

Essendo un sistema importante legato al funzionamento dell'aviazione civile cinese, i sistemi informatici e le reti gestiti da TravelSky sono un "sistema informativo di base critico" e sono elencati come uno degli otto sistemi chiave supervisionati dal Consiglio di Stato. Ad eccezione di alcune compagnie aeree come Spring Airlines, tutte le altre compagnie aeree utilizzano il sistema TravelSky. Anche la sicurezza e la stabilità del sistema TravelSky hanno ricevuto grande attenzione e una rigorosa supervisione da parte dello Stato, garantendo la stabilità e l'affidabilità del sistema.

Naturalmente questo non significa che non ci saranno problemi con il sistema TravelSky. Il 25 agosto 2020 si è verificato un utilizzo anomalo del sistema delle partenze TravelSky, con conseguente impossibilità di effettuare il check-in in alcuni aeroporti. Secondo il rapporto, quel giorno si è verificata un'anomalia alle 10:32, che ha comportato l'impossibilità di effettuare il check-in in alcuni aeroporti, e tutto è tornato alla normalità alle 11:07. Anche se ha causato un certo impatto, non ha causato un impatto grave perché è durato solo mezz'ora e l'operazione complessiva è andata bene.

Sebbene l'interfaccia operativa del sistema TravelSky, rimasta immutata per decenni, sia stata criticata, per i principali sistemi informativi di base il funzionamento stabile è fondamentale. Basandoci su un sistema informativo e un ambiente operativo completamente autonomi, possiamo anche evitare di soffrire il disastro dell'"incidente con schermata blu" ed evitare di fare un grande scherzo come i nostri colleghi americani.

Grazie a questo incidente, siamo diventati più consapevoli che in un momento in cui i sistemi informativi critici sono diventati infrastrutture importanti, è estremamente importante raggiungere una completa autonomia e controllo. E questo include non solo i sistemi informativi, ma anche i sistemi operativi. Poiché la situazione della sicurezza della rete diventa sempre più grave, non è necessario metterne in discussione la necessità. Questa non è solo una scelta tecnica, ma anche un’esigenza strategica per la sicurezza nazionale e lo sviluppo industriale.


Questo articolo è un manoscritto esclusivo di Observer.com. Il contenuto dell'articolo è puramente l'opinione personale dell'autore e non rappresenta l'opinione della piattaforma. Non può essere riprodotto senza autorizzazione, altrimenti verrà perseguita la responsabilità legale. Segui Observer.com su WeChat guanchacn e leggi articoli interessanti ogni giorno.