
Awarie AWS, Microsoft Azure i Cloudflare. Wyjaśniamy, co się stało
Jesienny ciąg awarii u największych dostawców chmury pokazał coś, co u wielu osób może powodować lekkie zdziwienie. Mianowicie, to nie ataki DDoS ani brak przepustowości, a drobne błędy konfiguracji i metadanych potrafią dziś sparaliżować usługi na całym świecie. W ciągu kilku ostatnich tygodni mogliśmy zaobserwować, jak pojawiają się problemy w kluczowych usługach infrastruktury internetowej.
Co się stało? Przypominamy
Ostatnie awarie miały różne mechanizmy, ale wspólny mianownik. Problem leżał po stronie wewnętrznych systemów dostawców.
- Cloudflare doświadczył problemów przez plik konfiguracyjny związany z zarządzaniem ruchem bezpieczeństwa. Przekroczył on oczekiwane rozmiary i doprowadził do awarii oprogramowania obsługującego krytyczne usługi. W efekcie w tym tygodniu, a dokładniej we wtorek 18 listopada, padły serwisy, takie jak X, ChatGPT, IKEA i Canva.
- AWS (Amazon Web Services) doświadczył poważnego incydentu 20 października w regionie US-EAST-1 związanym z wewnętrznymi problemami DNS. System zaczął działać nieprawidłowo, co spowodowało, że usługi w tym regionie nie mogły się wzajemnie odnaleźć. Na skutek czego aplikacje i serwery przestały działać lub działały niestabilnie. W efekcie ucierpiały m.in. popularne na całym świecie Snapchat, Fortnite, Perplexity, Slack, Shutterstock, Roblox czy aplikacje McDonald’s. Więcej o tym pisaliśmy TUTAJ.
- Microsoft Azure miał masowy przestój 29 października. Przyczyną był błąd konfiguracji w usłudze Azure Front Door (AFD), odpowiedzialnej za zarządzanie ruchem internetowym i dostępnością usług, co z kolei wpłynęło na DNS. Uderzyło to w usługi firmy, takie jak 365 Copilot, a także klientów platformy Azure, w tym Minecraft, kilka stanowisk odprawy linii lotniczych, systemy płatności itd.
Żaden z tych przypadków nie był klasycznym atakiem DDoS. To raczej efekt wzajemnych zależności nowoczesnych systemów chmurowych.
Dlaczego to coraz częstsze zjawisko?
Cóż, z jednej strony, skrajna automatyzacja procesów przyspiesza rozwój, ale z drugiej jednak zwiększa ryzyko eskalacji, gdy przy jednym błędnym poleceniu jest ono rozsyłane do setek systemów. Dodatkowo, coraz więcej usług korzysta z tych samych wspólnych usług pośrednich, takich jak DNS, CDN czy systemy logowania. Gdy zawiedzie jedna warstwa, efekt domina dotyka setki serwisów. A czy ruch generowany przez maszyny i AI, również może być powodem problemów? Choć nie powoduje to awarii wprost, to zwiększone obciążenie może stanowić test wytrzymałościowy. Niewielki błąd, który przy niskim ruchu byłby nieistotny, przy wzroście obciążeń może stać się krytyczny.
Kto traci najwięcej?
Ofiarami są przede wszystkim dwie grupy: użytkownicy końcowi, którzy nagle tracą dostęp do usług (aplikacje, gry, bankowość, itd.) oraz firmy zależne od chmury. W praktyce sklepy online, systemy płatnicze, platformy komunikacyjne, narzędzia biznesowe, a także inne usługi doświadczają przerw, które kosztują wizerunek i pieniądze.
Co dalej?
Sieci chmurowe, jak w ostatnich tygodniach mogliśmy się przekonać są dziś podatne na łańcuchowe reakcje. Żeby uniknąć kolejnych dużych awarii, potrzebna jest współpraca obu stron. Dostawcy muszą lepiej sprawdzać zmiany i jasno informować o problemach. Z kolei firmy korzystające z chmury powinny być przygotowane na to, że czasem coś przestanie działać – i mieć zapasowe rozwiązania, które utrzymają usługę przy życiu.
W erze hiperautomatyzacji nie wystarczy już dbać tylko o przepustowość oraz zabezpieczenia przed atakami z zewnątrz. Trzeba pilnować też metadanych, plików konfiguracyjnych, a także sposobu, w jaki zmiany są wprowadzane do systemu. Jedna linia kodu, jedna nieprzemyślana zmiana, jeden przeoczony limit – i globalna usługa może przestać działać na kilka godzin.
Śledź najnowsze doniesienia ze świata bezpieczeństwa oraz informacje o zagrożeniach – sprawdzaj regularnie naszego bloga i nie daj się zaskoczyć!