новости

NetEase Cloud Music, WPS и DingTalk «разрушились» один за другим. Насколько важна конструкция аварийного восстановления платформы?

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Как раз в тот момент, когда тема «Сбой NetEase Cloud Music» оказалась в горячем списке поиска и вызвала широкое обсуждение среди пользователей сети, WPS и DingTalk Documents также столкнулись с «сбоями» и «простоями» приложений один за другим. В последние несколько дней приложение платформы неоднократно «зависало». К счастью, нормальное использование было восстановлено за короткий период времени, и пользователям были предоставлены определенные «компенсации за членство» в дополнение к публичным извинениям. Однако после возвращения к нормальной жизни, принесения извинений и компенсации, произойдет ли еще один «сбой» или «простой»? Это то, над чем нам нужно глубоко задуматься.
После того, как произошел «сбой», официальный Weibo NetEase Cloud Music объявил об этом.
Что наступит раньше: «простой» или «завтра»?
Днем 19 августа многие пользователи сети сообщили, что на веб-странице NetEase Cloud Music произошла ошибка «502 Bad Gateway», и приложение невозможно использовать. Ситуация не вернулась в нормальное состояние только через два часа. NetEase Cloud Music официально заявила, что это произошло из-за «сбоя инфраструктуры».
Утром 21 августа пользователи сети сообщили, что документы Kingsoft также непригодны для использования, а общие документы WPS невозможно открыть. WPS официально опубликовала заявление, в котором говорится, что после аварийного ремонта, проведенного инженерами, сервисы WPS были восстановлены.
По совпадению, во второй половине дня некоторые пользователи сети сообщили, что документы DingTalk также используются ненормально. Официальный ответ DingTalk был следующим: «Внезапное увеличение трафика привело к тому, что некоторые пользователи получили доступ к ненормальным документам DingTalk».
Кто бы мог подумать, что сбой приложения станет «новой позой» для «горячих поисков» и «борьбы за известность». Некоторые пользователи сети пошутили: «Я не знаю, что будет первым завтра или «простой». Это также отражает то, что интернет-приложения интегрированы в повседневные потребности людей, и цифровая жизнь интернет-пользователей также глубоко зависит от них.
«В последние годы время от времени происходили крупномасштабные сбои в работе приложений, включая Alibaba, Tencent, Baidu, Didi, Douyin, Bilibili и другие крупные платформы», — сказал Лю Цзюань, генеральный менеджер CCID Consulting Network и Data Security Research. Центр, если крупномасштабная платформа выйдет из строя, это приведет к обрушению всей системы, а ремонтные работы будут включать координацию множества звеньев и систем.
По словам Чжан И, основателя Security 419, инцидент с кибербезопасностью NetEase Cloud Music вновь выявил существующие дилеммы и угрозы защиты данных. Подобные сбои уже являются обычным явлением на платформах онлайн-сервисов, основанных на технологиях. Любое прерывание обслуживания, вызванное инфраструктурой. сбой повлияет на пользовательский опыт.
Кроме того, на уровне критической инфраструктуры в последние годы часто происходили программные сбои, приводившие к «коллапсам». Ян Гуан, главный аналитик Omdia, глобальной исследовательской организации в области коммуникаций и ИТ-индустрии, сказал, что не так давно обновление компании сетевой безопасности Crowd Strike вызвало масштабный «синий экран» «простоя» Windows во всем мире, вызвав во многих странах авиационная, железнодорожная, медицинская и финансовая системы впадут в хаос. Эти сбои, которые уже произошли или происходят в настоящее время, добавляют предупреждающие «сноски» к сетевой безопасности.
Ответ официального представителя WPS Weibo
За кодом скрывается больше «проблем с людьми».
Разбирая причины прошлых крупномасштабных сбоев приложений, мы можем обнаружить, что каждый аспект бизнес-системы Интернета может иметь проблемы с системой или приложением, вызванные рабочим состоянием оборудования, программным кодом, механизмами обработки персонала и т. д.
«Большинство из них — это сбои в базовом оборудовании, программных системах и другой инфраструктуре», — Лю Цзюань привел примеры. Например, произошел сбой в компьютерном зале или на сервере, во время обновления системы произошли логические ошибки или необработанные исключения. процесс обновления системы. Недостаточная общая вычислительная мощность приводит к исчерпанию ресурсов ЦП, памяти, дискового пространства и других ресурсов, что приводит к сбоям и т. д.
Поэтому, по ее мнению, для подобных крупных платформ крайне важно обеспечить стабильность инфраструктуры. Это включает в себя вопросы, связанные с созданием внутренней инфраструктуры программного и аппаратного обеспечения, стандартизацией повседневной эксплуатации и обслуживания, а также возможностями защиты сети и реагирования на чрезвычайные ситуации.
Ян Гуан также считает, что частые сбои программного обеспечения в последние годы тесно связаны с «растущей сложностью современных систем». «Мобильное программное обеспечение часто дает сбой. Могут быть разные конкретные причины, но должны быть какие-то общие проблемы, то есть нет хорошего внутреннего контроля качества и есть определенные проблемы с внутренним процессом».
«Для интернет-компаний появление подобных вещей в конечном итоге является человеческой проблемой. Если компания сможет хорошо контролировать процесс, создать хорошую корпоративную атмосферу для инженеров и поддерживать хорошие отношения между разработкой и безопасностью, ожидается, что это станет отличным достижением». успеха. Не допускайте подобных вещей», — сказал Ян Гуан.
Чжан И также отметил, что, помимо перебоев в обслуживании, стратегия миграции серверов и стоящие за ней проблемы долгосрочной стабильности заставили задуматься отрасль, а также призвал больше платформ быть полностью подготовленными с точки зрения технического обслуживания и планов действий в чрезвычайных ситуациях, постоянно оптимизируя технические архитектуру и улучшение возможностей управления эксплуатацией и техническим обслуживанием, чтобы снизить риск прерывания обслуживания и обеспечить непрерывность и стабильность работы пользователей.
19 июля в международном аэропорту Бенито Хуарес в Мехико, столице Мексики, многие рейсы были задержаны или отменены, а в аэропорту ожидало большое количество пассажиров. Опубликовано информационным агентством Синьхуа (фото Франсиско Каньедо)
Службы аварийного восстановления должны стать важной стандартной функцией.
Неоднократные случаи простоя системы напоминают нам о том, что безопасность и стабильность сети не могут быть поставлены под угрозу. Как компенсировать недостатки безопасности, стало для нас сложной проблемой.
«Что касается строительства инфраструктуры, интернет-компании должны заранее планировать свои сервисные возможности, обеспечивать высокую доступность программного и аппаратного оборудования посредством проектирования и увеличивать инвестиции в стабильность системы, чтобы обеспечить непрерывность системных услуг», — предположил Лю Цзюань. Предприятия должны всесторонне рассмотреть построение безопасности таких продуктов, не только для соответствия нормативным требованиям и юридическим рискам, но и исходить из реального бизнеса, принимая во внимание безопасность данных, безопасность бизнеса, базовую безопасность, безопасность персонала и другие аспекты, а также укреплять многостороннюю безопасность. Уровень комплексной безопасности. Сценарий построения сетевой безопасности.
Официальный ответ DingTalk на Weibo
Она также упомянула, что необходимо максимально сократить количество инцидентов безопасности в таких аспектах, как утечка конфиденциальных данных, прерывание бизнеса, стабильность и доступность системы, а также сделать операции по обеспечению безопасности нормализованной и практической работой для улучшения мониторинга, раннего предупреждения. и возможности реагирования на чрезвычайные ситуации для быстрого реагирования, контроля и восстановления после внезапных инцидентов сетевой безопасности для обеспечения непрерывности бизнеса и безопасности данных.
Чжан И предположил, что с точки зрения соответствия требованиям безопасности и реальных угроз услуги аварийного восстановления должны стать стандартной конфигурацией для предприятий, чтобы обеспечить непрерывность бизнеса и возможность восстановления ключевых данных в условиях неконтролируемых рисков. «В качестве ключевой меры аварийное восстановление позволит эффективно снизить влияние инцидентов безопасности на корпоративные операции и создать последнюю линию защиты для безопасности данных».
Судя по недавним инцидентам «сбоев» и «простоев», соответствующие компании предоставили пользователям краткосрочные членские компенсации, но очевидно, что это не «долгосрочное решение».
«Для пользователей соответствующая компенсация очень необходима, но она не может просто оставаться в цикле «извинений и компенсации после того, как произошел сбой, а затем сбой продолжается». «Ян Гуан сказал, что крупномасштабное программное обеспечение, связанное с национальной экономикой и жизнеобеспечением людей, должно сбалансировать развитие и безопасность. Сначала необходимо принять меры предосторожности, в дальнейшем выполнять основные обязанности, а также заимствовать силу у технологий, чтобы всесторонне обеспечить стабильность и безопасность. Кроме того, отраслевые организации также должны предпринимать активные действия по содействию здоровому развитию отрасли (репортер Ли Чжэнвэй, Лэй Мяосинь, Ли Фэй, стажер Лю Синькунь).
Источник: Гуанмин.com
Отчет/Отзыв