Poważna awaria Cloudflare we wtorek, 28 lutego 2024 r., spowodowała przerwy lub spowolnienia w dostępie do szerokiej gamy popularnych stron internetowych i usług, w tym OpenAI, Spotify, X (dawniej Twitter) i Grindr. Incydent, najpoważniejszy, jaki spotkał firmę od 2019 r., pokazuje, jak niewielu dostawców infrastruktury obsługuje nowoczesny internet i jak bardzo system ten pozostaje podatny na zagrożenia.
Co się stało?
Awaria rozpoczęła się około 3:30 czasu polskiego i trwała ponad trzy godziny, a pełne przywrócenie działania zostało potwierdzone pod koniec dnia. Dyrektor generalny Cloudflare, Matthew Prince, potwierdził, że problem nie wynika z cyberataku, ale raczej z wewnętrznego błędu oprogramowania. W szczególności zmiana w bazie danych wygenerowała niezwykle duży plik konfiguracyjny, którego system nie był w stanie przetworzyć, co spowodowało kaskadowe awarie w całej sieci.
Cloudflare szybko zidentyfikował i przywrócił poprzednią wersję pliku, przywracając ruch przed godziną 6:30 czasu pacyficznego. Prince wydał publiczne przeprosiny, potwierdzając powagę przestępstwa. „Biorąc pod uwagę znaczenie Cloudflare w ekosystemie internetowym, jakiekolwiek zakłócenia w którymkolwiek z naszych systemów są niedopuszczalne” – powiedział.
Zakres wpływu
Około 20% wszystkich stron internetowych korzysta z usług Cloudflare, co powoduje, że awarie są powszechne. Downdetector, usługa śledzenia przestojów (należąca do tej samej spółki-matki co CNET), zarejestrowała podczas incydentu ponad 2,1 miliona raportów, przy czym najbardziej ucierpiały Stany Zjednoczone, Wielka Brytania, Japonia i Niemcy.
Oprócz samego Cloudflare użytkownicy zgłaszali problemy z X (320 549 raportów), League of Legends (130 260 raportów), OpenAI (81 077 raportów), Spotify (93 377 raportów) i Grindr (25 031 raportów). Awaria uwypukliła, jak bardzo wiele usług cyfrowych jest zależnych od kilku kluczowych graczy infrastrukturalnych.
Czy problem się powtarza?
Awaria Cloudflare jest następstwem podobnych incydentów w Amazon Web Services (AWS) i Microsoft Azure, które miały miejsce w ostatnich miesiącach. Awarie te stawiają pod znakiem zapytania ryzyko koncentracji w nowoczesnej infrastrukturze internetowej. Analityk Forrester Research, Brent Ellis, szacuje, że sama awaria Cloudflare mogła spowodować bezpośrednie i pośrednie straty w wysokości od 250 do 300 milionów dolarów.
Incydent uwydatnia również kruchość infrastruktury sztucznej inteligencji. Porażka OpenAI, wiodącej platformy sztucznej inteligencji, pokazuje, że nawet zaawansowane technologie zależą od stabilnych systemów bazowych. Jak zauważyła Sarah Kreps z Cornell University: „Ten problem obnaża rzeczywistość, w której wielomiliardowe, a nawet biliardowe inwestycje w sztuczną inteligencję są tak niezawodne, jak najmniej dokładnie sprawdzona infrastruktura strony trzeciej”.
Zależność od scentralizowanych usług powoduje powstawanie luk w zabezpieczeniach systemu. Tego typu awarie pokazują, że nawet najbardziej zaawansowane narzędzia cyfrowe są podatne na awarie, jeśli fundamenty są niestabilne.
Awaria Cloudflare stanowi wyraźne przypomnienie, że Internet pomimo swojej wszechobecności pozostaje złożonym i delikatnym systemem. Chociaż firma przeprosiła i podjęła kroki, aby zapobiec ponownemu wystąpieniu, incydent uwypuklił potrzebę poprawy odporności i dywersyfikacji infrastruktury krytycznej.
