Новости

Чжан Чжунлинь: Почему «инцидент с синим экраном» не оказал влияния на гражданскую авиационную отрасль Китая?

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

[Колумнист Text/Observer.com Чжан Чжунлинь]

19 июля по местному времени бесчисленное количество работников по всему миру внезапно обнаружили, что экраны их компьютеров либо имеют синий экран, либо не могут подключиться к системному серверу. Обычно очень эффективный «метод перезапуска» также потерял свой эффект. После перезапуска вам все равно придется столкнуться с огромным синим экраном.

На этот раз системный паралич, вызванный синим экраном Microsoft, распространился по всему миру, но особенно серьезно он сказался в Северной Америке. Он оказал серьезное влияние на социальную деятельность: полеты приостановлены, горячие линии 911 недоступны, отели недоступны. зарегистрировались, больницы отменяют операции, а магазины не могут открыться. Все это Все началось с CrowdStrike, малоизвестной компании по кибербезопасности, имя которой, конечно же, стало нарицательным.

Грубо говоря, причина, по которой произошел этот глобальный «инцидент с синим экраном», не так уж и удивительна. Являясь одной из ведущих мировых компаний в области сетевой безопасности и защиты конечных точек облачных вычислений, большое количество компаний и облачных серверов используют платформу CrowdStrike Falcon и работают на платформе Windows.

Этот инцидент был вызван серьезной проблемой совместимости между последним обновлением программного обеспечения CrowdStrike и платформой Windows, что привело к широко распространенному «синему экрану смерти» и «бесконечным циклам». Было бы хорошо, если бы оно ограничивалось персональными компьютерами, но проблемное обновление было также применено к облачным серверам (например, к собственному облачному сервису Microsoft Azure) и также вызвало серьезные проблемы. Это привело к тому, что «инцидент с синим экраном» оказал широкое влияние. общественное достояние, и авиационная промышленность снова несет на себе основной удар.

American Airlines в «голубом экране»

Поскольку решения информационных систем, принятые авиакомпаниями в разных странах, различны, последствия «инцидента с синим экраном» также различны: некоторые системы самостоятельной регистрации не могут быть использованы и могут быть обработаны только на стойке, а некоторые не могут быть использованы. Распечатать посадочный талон можно только почерком, а в некоторых случаях система становится полностью непригодной для использования от момента регистрации до укладки, полностью теряя работоспособность.

Информационные системы авиакомпаний с использованием облачных сервисов Microsoft Azure и терминалов на базе систем Windows являются наиболее пострадавшими областями. Наиболее критическими являются серверы информационных систем, работающие на облачных сервисах.


В тот день люди наконец вспомнили о страхе оказаться во власти синего экрана и об унижении от беспомощности перед лицом системы Windows.

Благодаря «географическому преимуществу» нахождения в Соединенных Штатах, компания American Airlines стала наиболее пострадавшей от этой серии «инцидентов синего экрана». Пострадали все три основные американские авиакомпании (Delta, American и United Airlines). и все рейсы были оформлены. В соответствии с наземным приказом ФАУ требует от авиадиспетчеров информировать пилотов о том, что авиакомпании в настоящее время испытывают проблемы со связью. Кроме того, серьезно пострадали малые и средние авиакомпании, такие как JetBlue Airways, Frontier Airlines и Spirit Airlines: ключевые системы оказались недоступны, что привело к большому количеству отмен рейсов.


Видно, что из-за сбоя системы количество рейсов, летающих в США 19 июля, значительно сократилось по сравнению с предыдущим днем.

Основными жертвами этого раунда инцидентов «синего экрана» стали многие рейсы авиакомпаний Delta, American Airlines и United Airlines, причем больше всего пострадал аэропорт Атланты, аэропорт с крупнейшим пассажиропотоком в Соединенных Штатах. Поскольку это крупнейший узловой аэропорт в США и базовый аэропорт Delta Air Lines, во время этого раунда «синих экранных инцидентов» было отменено более 500 рейсов, большинство из которых были рейсами Delta Air Lines. За этим последовала отмена почти 200 рейсов в аэропорту О'Хара в Чикаго и отмена одной трети рейсов в аэропорту Ла-Гуардия в Нью-Йорке. Серьезное влияние также оказали полеты в европейских аэропортах за пределами США: 40% прибывающих и исходящих рейсов в аэропорту Амстердама были задержаны, а одна треть рейсов в аэропорту Берлина была отменена.

Интересно, что этот раунд масштабных системных сбоев не затронул Southwest Airlines и Alaska Airlines, а также UPS и FEDEX, две грузовые авиакомпании. Причину этого можно назвать «черным юмором».

Система управления полетами, используемая в настоящее время Southwest Airlines, основана на системе Windows 3.1 1992 года, а система управления экипажем основана на телефонных звонках. Таким образом, этот раунд масштабных сбоев в работе систем Windows и облачных сервисов, вызванных неправильными пакетами обновлений, на самом деле означает, что «система слишком отсталая, поэтому она не оказывает никакого влияния» на Southwest Airlines.

UPS и FEDEX находятся в аналогичной ситуации. Они по-прежнему используют Windows 95 или Windows 3.1 для запуска своих ключевых операционных систем, поэтому им удалось избежать этой катастрофы.

Большинство других авиакомпаний США, которые не пострадали, являются региональными региональными авиакомпаниями. Эти небольшие авиакомпании имеют относительно примитивную информацию и операционные системы и не могут позволить себе дорогие облачные сервисы, поэтому им удалось избежать кризиса и начать работать в обычном режиме. Напоминая массовые задержки, вызванные снежной погодой в Северной Америке на Рождество 2022 года, юго-запад США не смог возобновить полеты из-за своей отсталой системы. Этот инцидент можно рассматривать как «поворот судьбы» и доказывает это. возможности «зрелой системы». Преимущество «высокой стабильности».


Тридцатидвухлетняя система Windows не позволяет Southwest управлять Yahoo News

Отсутствует экстренное реагирование

Среди «инцидентов с синим экраном», вызвавших крупномасштабные сбои системы в этом раунде обновлений, самым шокирующим было то, что после сбоя системы три крупнейшие авиакомпании США просто подняли белый флаг и приостановили все полеты. На мой взгляд, это, несомненно, очень невероятно, потому что эти системы управления операциями являются важными системами, связанными не только с ежедневным контролем работы самой авиакомпании, но и частью ключевой транспортной системы страны.

К таким системам эксплуатации и управления авиацией часто предъявляются чрезвычайно высокие требования к их надежности и стойкости, чтобы гарантировать, что разрушение не повлияет на работу авиации серьезно. Международная организация гражданской авиации (ИКАО) в ряде документов выдвинула конкретные требования к резервированию и резервированию систем эксплуатации и управления авиацией во избежание серьезных последствий, вызванных разрушением единой системы, в том числе:

Требуйте регулярного резервного копирования критически важных эксплуатационных данных. Резервирование должно быть реализовано в аппаратном и программном обеспечении, включая серверы резервного копирования, устройства хранения данных и т. д. Необходимо разработать подробный план аварийного восстановления, охватывающий различные катастрофические сценарии. Ключевые системы (например, системы управления воздухом) должны иметь функции автоматического переключения при отказе и синхронизацию рабочих данных. При выходе из строя основной системы она может немедленно перейти в резервный режим работы.

Если мы посмотрим на этот «инцидент синего экрана», мы обнаружим, что у этих американских авиакомпаний не было (или не удалось реализовать) плана аварийного восстановления, а также они не реализовали автоматическое переключение на резервное копирование после критического сбоя системы. Конечно, существует вероятность того, что у них есть резервная копия, но резервная копия также обнаружила синий экран (например, она также работала в системе Windows и на нее повлияло неправильное обновление), что дает людям ощущение « Чтобы не класть все яйца в одну корзину, они купили несколько P2P-финансовых систем управления, чтобы предотвратить ощущение грозы.

Как человек с большим опытом работы на местах, я также весьма озадачен действиями моих американских коллег на этот раз, поскольку авиакомпании должны иметь планы действий на случай таких ситуаций, чтобы обеспечить минимальный уровень в случае деградации системы или полной неработоспособности. По моему опыту фронтовой работы, хотя укладка самолетов сейчас осуществляется через информационные системы, каждый укладчик все еще сохраняет умение составлять список укладки вручную. Если система загрузки выйдет из строя и ее невозможно будет использовать, извлеките PDF-документ с таблицей загрузки в соответствии с номером модели самолета, распечатайте таблицу загрузки, а затем вручную рассчитайте загрузку, чтобы получить данные о взлете самолета. Этот вид ручных операций является чрезвычайно базовым деловым навыком. Он практикуется каждый год, каждый месяц и каждую неделю, просто чтобы гарантировать, что ключевые моменты, когда требуются ручные расчеты, не упадут.


Ручное управление является основным навыком в этой отрасли.

Другие соответствующие подразделения и отделы также предъявляют почти параноидальные требования к учениям по чрезвычайным ситуациям. Поскольку мы являемся отделом, который дублирует отдел регистрации, мы получаем звонки от отдела регистрации почти каждый месяц с просьбой организовать для них виртуальный рейс для проведения учений по чрезвычайным ситуациям. Содержание тренировки по экстренной регистрации заключается в том, что когда система TravelSky (система управления гражданской авиацией, используемая в Китае) не работает, регистрация пассажиров и посадочные талоны обрабатываются в местном режиме, а посадочные талоны даже выдаются вручную. пассажиров, когда печать невозможна. Пассажиры допускаются на борт самолета.

Поэтому, когда я увидел, как система регистрации, система хранения и многие другие системы моих американских коллег вышли из строя из-за «инцидента с синим экраном», в результате чего выполнение полетов было полностью парализовано, я был озадачен: разве вы обычно не занимаетесь ручной работой? ? У вас нет плана действий на случай чрезвычайной ситуации? Разве вы не тренируете свои планы на случай чрезвычайной ситуации? У вас нет резервной системы?

Почему Китай не пострадал

Этот «инцидент синего экрана», затронувший мир, почти не повлиял на деятельность гражданской авиации Китая, это совершенно нормально. Только рейсы некоторых иностранных авиакомпаний (таких как American Airlines и United Airlines) были задержаны из-за иностранного влияния. сложный. .

Прежде всего, для терминальных компьютеров, использующих системы Windows и предполагающих установку программного обеспечения безопасности CrowdStrike, проблема бесконечных «синих экранов» возникает только после обновления исправлений ошибок. Однако компьютерные терминалы внутренних авиалиний часто не используют программное обеспечение компании. программное обеспечение безопасности. Более того, они часто осторожно относятся к обновлениям системы и не будут обновляться, если ничего не произойдет. Используемые версии Windows в основном являются более старыми, более зрелыми и стабильными.

Во-вторых, большинство внутренних авиакомпаний используют систему TravelSky, операционная среда которой основана на Linux, и не используют облачный сервис Microsoft Azure или Amazon AWS. Это в определенной степени позволило избежать полного коллапса, вызванного ошибочными обновлениями ключевых базовых систем гражданской авиации моей страны.

Являясь важной системой, связанной с работой гражданской авиации Китая, компьютерные системы и сети, которыми управляет TravelSky, представляют собой «критическую базовую информационную систему» ​​и входят в число восьми ключевых систем, контролируемых Госсоветом. За исключением нескольких авиакомпаний, таких как Spring Airlines, все остальные авиакомпании используют систему TravelSky. Безопасность и стабильность системы TravelSky также получили большое внимание и строгий контроль со стороны государства, что обеспечивает стабильность и надежность системы.

Конечно, это не означает, что с системой TravelSky не будет проблем. 25 августа 2020 года произошло нештатное использование системы вылета TravelSky, в результате чего в некоторых аэропортах невозможно пройти регистрацию. Согласно сообщению, в 10:32 того дня произошла аномалия, повлекшая за собой невозможность регистрации в некоторых аэропортах, а в 11:07 все вернулось на круги своя. Хотя это и вызвало определенное воздействие, оно не оказало серьезного воздействия, поскольку длилось всего полчаса, и в целом работа прошла гладко.

Хотя интерфейс командной работы системы TravelSky, не менявшийся десятилетиями, подвергался критике, для критически важных базовых информационных систем стабильная работа имеет первостепенное значение. Благодаря полностью автономной информационной системе и операционной среде мы также можем избежать «инцидента с синим экраном» и не пошутить, как наши американские коллеги.

Благодаря этому инциденту мы стали лучше осознавать, что в то время, когда критически важные информационные системы стали важной инфраструктурой, чрезвычайно важно достичь полной автономии и контроля. И это касается не только информационных систем, но и операционных систем. Поскольку ситуация с сетевой безопасностью становится все более серьезной, нет необходимости подвергать сомнению ее необходимость. Это не только технический выбор, но и стратегическая необходимость для национальной безопасности и промышленного развития.

Эта статья является эксклюзивной рукописью Observer.com. Содержание статьи является исключительно личным мнением автора и не отражает мнение платформы. Ее нельзя воспроизводить без разрешения, в противном случае будет наложена юридическая ответственность. Следите за новостями WeChat Observer.com и читайте интересные статьи каждый день.