NetEase Cloud Music, WPS und DingTalk „brachen“ nacheinander zusammen. Wie wichtig ist der Aufbau der Plattform zur Notfallwiederherstellung?

2024-08-24

Gerade als das Thema „NetEase Cloud Music abgestürzt“ auf der heißen Suchliste stand und eine breite Diskussion unter Internetnutzern auslöste, kam es auch bei WPS und DingTalk Documents nacheinander zu „Abstürzen“ und „Ausfallzeiten“ der Anwendung. In den letzten Tagen kam es immer wieder zu „Abstürzen“ der Plattformanwendung. Glücklicherweise konnte die normale Nutzung in kurzer Zeit wiederhergestellt werden und den Nutzern wurde neben einer öffentlichen Entschuldigung auch eine gewisse „Mitgliedschaftsentschädigung“ ausgezahlt. Wird es jedoch nach der Rückkehr zur Normalität und einer Entschuldigung und Entschädigung zu einem weiteren „Absturz“ oder einer „Ausfallzeit“ kommen? Darüber müssen wir gründlich nachdenken.

Nach dem „Absturz“ kündigte das offizielle Weibo von NetEase Cloud Music eine Ankündigung an.

Was kommt zuerst: „Ausfallzeit“ oder „morgen“?

Am Nachmittag des 19. August posteten viele Internetnutzer, dass auf der NetEase Cloud Music-Webseite ein „502 Bad Gateway“-Fehler aufgetreten sei und die App nicht verwendet werden könne. Erst zwei Stunden später normalisierte sich der Zustand wieder. NetEase Cloud Music gab offiziell an, dass dies auf einen „Infrastrukturausfall“ zurückzuführen sei.

Am Morgen des 21. August berichteten Internetnutzer, dass Kingsoft-Dokumente ebenfalls unbrauchbar seien und von WPS freigegebene Dokumente nicht geöffnet werden könnten. WPS gab offiziell eine Erklärung heraus, dass die WPS-Dienste nach Notfallreparaturen durch Techniker wiederhergestellt wurden.

Zufälligerweise berichteten einige Internetnutzer am Nachmittag, dass auch DingTalk-Dokumente auf ungewöhnliche Weise verwendet würden. Die offizielle Antwort von DingTalk lautete: „Ein plötzlicher Anstieg des Nutzungsverkehrs führte dazu, dass einige Benutzer auf abnormale DingTalk-Dokumente zugegriffen haben.“

Wer hätte gedacht, dass der Zusammenbruch der App zu einer „neuen Haltung“ für „Hot Searches“ und „Kampf um Bekanntheit“ werden würde? Einige Internetnutzer scherzten: „Ich weiß nicht, was zuerst kommen wird, morgen oder ‚Ausfallzeit‘.“ Dies spiegelt auch die Tatsache wider, dass Internetanwendungen in den täglichen Bedarf der Menschen integriert sind und auch das digitale Leben der Internetnutzer stark von ihnen abhängig ist.

„In den letzten Jahren kam es immer wieder zu groß angelegten App-Abstürzen, darunter Alibaba, Tencent, Baidu, Didi, Douyin, Bilibili und andere große Plattformen“, sagte Liu Juan, General Manager von CCID Consulting Network und Data Security Research Center: Sobald eine große Plattform ausfällt, bricht das gesamte System zusammen, und die Reparaturarbeiten erfordern die Koordination mehrerer Verbindungen und Systeme.

Laut Zhang Yi, dem Gründer von Security 419, hat der Cyber-Sicherheitsvorfall bei NetEase Cloud Music die bestehenden Dilemmata und Bedrohungen des Datenschutzes erneut zum Vorschein gebracht. Ähnliche Ausfälle sind bereits ein häufiges Phänomen bei technologiegesteuerten Online-Dienstplattformen Ein Fehler beeinträchtigt die Benutzererfahrung.

Darüber hinaus kam es in den letzten Jahren auf der Ebene der kritischen Infrastruktur häufig zu Softwareausfällen, die zu „Zusammenbrüchen“ führten. Yang Guang, Chefanalyst von Omdia, einer globalen Forschungsorganisation für die Kommunikations- und IT-Branche, sagte, dass das Netzwerksicherheitsunternehmen Crowd Strike vor nicht allzu langer Zeit ein Update durchgeführt habe, das weltweit zu großflächigen Bluescreen-„Ausfallzeiten“ von Windows geführt habe, die in vielen Ländern zu Problemen geführt hätten ' Luftfahrt-, Eisenbahn-, Medizin- und Finanzsysteme geraten ins Chaos. Diese Zusammenbrüche, die bereits eingetreten sind oder derzeit erlebt werden, fügen der Netzwerksicherheit alarmierende „Fußnoten“ hinzu.

Antwort vom WPS-Beamten Weibo

Hinter dem Kodex stehen weitere „Menschenthemen“

Indem wir die Ursachen früherer groß angelegter App-Abstürze herausfinden, können wir feststellen, dass in jedem Aspekt des Internet-Geschäftssystems System- oder App-Probleme auftreten können, die durch den Betriebsstatus der Geräte, Softwarecode, Personalverarbeitungsmechanismen usw. verursacht werden.

„Bei den meisten davon handelt es sich um Ausfälle in der zugrunde liegenden Hardware, den Softwaresystemen und anderen Infrastrukturen.“ Beispiele hierfür seien ein Fehler im Computerraum oder ein Server, bei dem es zu einem Fehler in der Logik oder zu unbehandelten Ausnahmen gekommen sei Aktualisierungsprozess; eine unzureichende Gesamtverarbeitungsleistung des Systems führt zur Erschöpfung von CPU, Arbeitsspeicher, Festplattenspeicher und anderen Ressourcen, was zu Abstürzen usw. führt.

Daher ist es ihrer Ansicht nach bei ähnlich großen Plattformen von entscheidender Bedeutung, die Stabilität der Infrastruktur sicherzustellen. Dabei geht es um Fragen im Zusammenhang mit dem Aufbau der internen Software- und Hardware-Infrastruktur, der täglichen Betriebs- und Wartungsstandardisierung sowie dem Netzwerkschutz und den Notfallreaktionsfähigkeiten.

Yang Guang glaubt auch, dass die häufigen Softwareabstürze der letzten Jahre eng mit „der zunehmenden Komplexität heutiger Systeme“ zusammenhängen. „Mobile Software stürzt häufig ab. Dafür kann es verschiedene spezifische Gründe geben, aber es muss einige allgemeine Probleme geben, das heißt, es gibt keine gute interne Qualitätskontrolle und es gibt bestimmte Probleme mit dem internen Prozess.“

„Für Internetunternehmen ist die Entstehung dieser Dinge letztendlich ein menschliches Problem. Wenn das Unternehmen den Prozess gut kontrollieren, eine gute Unternehmensatmosphäre für Ingenieure schaffen und ein gutes Verhältnis zwischen Entwicklung und Sicherheit haben kann, wird erwartet, dass es großartig wird.“ „Erfolg vermeiden, dass ähnliche Dinge passieren“, sagte Yang Guang.

Zhang Yi erwähnte außerdem, dass neben der Dienstunterbrechung auch die Servermigrationsstrategie und die dahinter stehenden langfristigen Stabilitätsprobleme das Denken der Branche angeregt und immer mehr Plattformen auf die Notwendigkeit aufmerksam gemacht haben, in Bezug auf technische Wartung und Notfallpläne ständig umfassend vorbereitet zu sein Optimierung der technischen Architektur und Verbesserung der Betriebs- und Wartungsmanagementfunktionen, um das Risiko von Dienstunterbrechungen zu verringern und die Kontinuität und Stabilität des Benutzererlebnisses sicherzustellen.

Am 19. Juli kam es am internationalen Flughafen Benito Juárez in Mexiko-Stadt, der Hauptstadt Mexikos, zu Verspätungen oder Annullierungen zahlreicher Flüge und eine große Anzahl von Passagieren wartete am Flughafen. Veröffentlicht von der Nachrichtenagentur Xinhua (Foto von Francisco Cañedo)

Disaster-Recovery-Dienste sollten zu einer wichtigen Standardfunktion werden

Das wiederholte Auftreten von „Systemausfällen“ erinnert uns daran, dass die Sicherheit und Stabilität des Netzwerks nicht gefährdet werden darf. Wie Sicherheitsmängel behoben werden können, ist für uns zu einem schwierigen Problem geworden.

„Im Hinblick auf den Aufbau der Infrastruktur müssen Internetunternehmen ihre Servicekapazitäten im Voraus planen, die hohe Verfügbarkeit von Software- und Hardwaregeräten durch Design sicherstellen und die Investitionen in die Systemstabilität verstärken, um die Kontinuität der Systemdienste sicherzustellen.“ Unternehmen sollten den Sicherheitsaufbau solcher Produkte umfassend berücksichtigen. Sie müssen nicht nur Compliance- und rechtlichen Risiken gerecht werden, sondern auch vom eigentlichen Geschäft ausgehen, Datensicherheit, Geschäftssicherheit, Grundsicherheit, Personalsicherheit und andere Aspekte berücksichtigen und Multi-Sicherheit stärken. Ebene umfassender Sicherheitsaufbau.

DingTalks offizielle Weibo-Antwort

Sie erwähnte auch, dass es notwendig sei, das Auftreten von Sicherheitsvorfällen in Bereichen wie Verlust sensibler Daten, Betriebsunterbrechung, Systemstabilität und -verfügbarkeit so weit wie möglich zu reduzieren und Sicherheitsvorgänge zu einer normalisierten und praktischen Arbeit zu machen, um die Überwachung und Frühwarnung zu verbessern und Notfallreaktionsfunktionen, um plötzliche Netzwerksicherheitsvorfälle schnell zu reagieren, zu kontrollieren und wiederherzustellen, um Geschäftskontinuität und Datensicherheit zu gewährleisten.

Zhang Yi schlug vor, dass Disaster-Recovery-Dienste auf der Grundlage von Sicherheitsvorschriften und realen Bedrohungen zur Standardkonfiguration für Unternehmen werden sollten, um die Geschäftskontinuität und die Wiederherstellungsfähigkeit wichtiger Daten angesichts unkontrollierbarer Risiken sicherzustellen. „Als Schlüsselmaßnahme wird der Disaster-Recovery-Aufbau die Auswirkungen von Sicherheitsvorfällen auf den Unternehmensbetrieb wirksam reduzieren und die letzte Verteidigungslinie für die Datensicherheit bilden.“

Den jüngsten „Absturz“- und „Ausfall“-Vorfällen nach zu urteilen, haben relevante Unternehmen ihren Nutzern eine kurzfristige Mitgliedsentschädigung gewährt, aber es ist offensichtlich, dass dies keine „langfristige Lösung“ ist.

„Für Benutzer ist eine angemessene Entschädigung sehr wichtig, aber sie kann nicht einfach im Kreislauf von ‚Entschuldigung und Entschädigung, nachdem ein Fehler aufgetreten ist und der Fehler dann weitergeht‘ bleiben.“ „Yang Guang sagte, dass groß angelegte Software im Zusammenhang mit der Volkswirtschaft und dem Lebensunterhalt der Menschen ein Gleichgewicht zwischen Entwicklung und Sicherheit herstellen sollte. Es ist notwendig, zunächst Vorsichtsmaßnahmen zu treffen, die Hauptverantwortung weiter umzusetzen und auch die Kraft der Technologie zu nutzen, um Stabilität und Sicherheit umfassend zu gewährleisten.“ Darüber hinaus sollten Branchenorganisationen auch aktive Maßnahmen ergreifen, um die gesunde Entwicklung der Branche zu fördern (Reporter Li Zhengwei, Lei Miaoxin, Li Fei, Praktikant Liu Xinkun).

Quelle: Guangming.com

Bericht/Feedback

Nachricht

NetEase Cloud Music, WPS und DingTalk „brachen“ nacheinander zusammen. Wie wichtig ist der Aufbau der Plattform zur Notfallwiederherstellung?

Einführung

Meine Kontaktdaten