Cloudflare tłumaczy się z globalnej awarii. Co zawiodło 14 lipca?

1 miesiąc temu

Zdjęcie: Cloudflare

14 lipca wieczorem Internet na całym świecie na moment przestał działać — winna była błędna konfiguracja usług DNS w Cloudflare. Przez 62 minuty użytkownicy doświadczyli niedostępności tysięcy stron i usług. Choć awaria trwała krótko, jej zasięg podkreślił skalę zależności globalnych usług od pojedynczych punktów infrastruktury.

Błąd powstał na skutek niezamierzonej zmiany w konfiguracji nieprodukcyjnej jeszcze usługi Cloudflare, która zawierała prefiksy związane z popularnym resolverem 1.1.1.1. Druga zmiana — już w lipcu — sprawiła, iż te prefiksy zostały nieświadomie wycofane z centrów danych, co uczyniło resolver niedostępnym. Ponieważ wiele systemów opiera się na zapytaniach DNS do Cloudflare, efekt był natychmiastowy i dotkliwy.

Co ciekawe, ruch DNS przez HTTPS (DoH) był w dużej mierze odporny na awarię. To pokazuje, iż alternatywne protokoły, choć wciąż niszowe, mogą działać jako bezpiecznik w krytycznych sytuacjach. Niemniej jednak, dla większości użytkowników awaria oznaczała przerwę w dostępie do usług — od komunikatorów po systemy płatności.

Cloudflare oficjalnie przyznało się do winy i zapowiedziało zmiany: odejście od przestarzałych systemów i większą ostrożność przy wdrożeniach. To klasyczny przykład, iż choćby giganci Internetu nie są odporni na własne błędy. Dla firm i dostawców usług IT to przypomnienie, iż nadmiarowość i rozproszenie punktów krytycznych nie są luksusem, a koniecznością.

Idź do oryginalnego materiału