Backupy, plany „disaster recovery”, strategie zachowania ciągłości biznesowej – o wszystkich tych rzeczach słyszeliśmy po wybuchu wojny w Ukrainie. Lipcowa awaria CrowdStrike pokazuje, że o nich trzeba myśleć również w czasach pokoju.
19 lipca 2024 roku doszło do poważnej awarii oprogramowania CrowdStrike, co spowodowało zakłócenia w działaniu systemów komputerowych na całym świecie. Awaria była wynikiem błędnej aktualizacji czujek Falcon dla systemów Windows. CrowdStrike przeprowadził aktualizację czujek, znanych jako „Channel Files„, której celem było zapewnienie ochrony cybernetycznej przed nowo odkrywanymi zagrożeniami. Niestety, aktualizacja ta zawierała błąd logiczny, który powodował cykliczną awarię systemów operacyjnych (BSOD). W efekcie ok. 8,5 miliona urządzeń na całym świecie przestało przetwarzać dane. Przestojów doświadczono w lotnictwie, bankowości, administracji publicznej czy prywatnych biurach.
Koszty awarii CrowdStrike szacuje się na ponad miliard dolarów na całym świecie, wliczając w to roboczogodziny inżynierów naprawiających stacje robocze, konieczność wstrzymania pracy w wielu sektorach na całym świecie czy nawet powrót do lat sprzed czasów powszechnej komputeryzacji – na przykład w formie ręcznie wypisywanych kart pokładowych.
Sytuacja wpłynęła także na działalność firm, które opierają swoje systemy na platformach chmurowych. To pierwszy taki przypadek, który w takiej skali zweryfikował stabilność rozwiązań oferowanych przez największych graczy. Część klientów Axians straciła czasowo dostęp do swoich systemów, ale w przypadku systemów typu multi-tenant dostawcy bardzo szybko przywrócili ich sprawność. Ten typ architektury umożliwił m.in. automatyczne skalowanie nowych serwerów i zastępowanie uszkodzonych instancji. W przypadku rozwiązań single-tenant klienci również mogli liczyć na wsparcie. Przykładowo, zespoły ds. automatyzacji firmy Infor skorzystały z rozwiązań do przywracania serwerów do trybu online, co pozwoliło na uruchomienie usług zaledwie w kilka godzin.
Czy można zabezpieczyć się przed awarią tego rodzaju w przyszłości i co zrobić, aby minimalizować ryzyko wystąpienia takich zdarzeń?
Więcej o zapewnieniu ciągłości działania infrastruktury IT i ofercie Axians w tym zakresie przeczytasz tutaj.