Durch einen größeren Ausfall bei Cloudflare am Dienstag, den 28. Februar 2024, wurde der Zugriff auf eine Vielzahl beliebter Websites und Dienste unterbrochen oder verlangsamt, darunter OpenAI, Spotify, X (ehemals Twitter) und Grindr. Der Vorfall, der schlimmste des Unternehmens seit 2019, verdeutlicht, wie wenige Infrastrukturanbieter das moderne Internet unterstützen – und wie anfällig dieses System nach wie vor ist.
Was ist passiert?
Der Ausfall begann gegen 3:30 Uhr PT und dauerte über drei Stunden. Bis zum Ende des Tages wurde eine vollständige Wiederherstellung gemeldet. Matthew Prince, CEO von Cloudflare, bestätigte, dass das Problem nicht auf einen Cyberangriff, sondern auf einen internen Softwarefehler zurückzuführen sei. Konkret führte eine Datenbankänderung zu einer ungewöhnlich großen Konfigurationsdatei, die das System nicht verarbeiten konnte, was zu kaskadierenden Fehlern im gesamten Netzwerk führte.
Cloudflare erkannte schnell eine frühere Version der Datei, stellte sie wieder her und stellte den Verkehrsfluss bis 6:30 Uhr PT wieder her. Prince entschuldigte sich öffentlich und erkannte die Schwere der Störung an. „Angesichts der Bedeutung von Cloudflare im Internet-Ökosystem ist jeder Ausfall eines unserer Systeme inakzeptabel“, erklärte er.
Das Ausmaß der Auswirkungen
Ungefähr 20 % aller Websites verlassen sich auf die Dienste von Cloudflare, was zu weitreichenden Ausfällen führt. Downdetector, ein Dienst zur Meldung von Ausfällen (im Besitz derselben Muttergesellschaft wie CNET), protokollierte während der Veranstaltung über 2,1 Millionen Meldungen, wobei die USA, Großbritannien, Japan und Deutschland am stärksten betroffen waren.
Über Cloudflare selbst hinaus meldeten Benutzer Probleme mit X (320.549 Berichte), League of Legends (130.260 Berichte), OpenAI (81.077 Berichte), Spotify (93.377 Berichte) und Grindr (25.031 Berichte). Der Ausfall zeigte, wie stark viele digitale Dienste von einigen wenigen wichtigen Infrastrukturakteuren abhängen.
Ein wiederkehrendes Problem?
Die Cloudflare-Störung folgt auf ähnliche Vorfälle bei Amazon Web Services (AWS) und Microsoft Azure in den letzten Monaten. Diese Ausfälle werfen Fragen zum Konzentrationsrisiko in der modernen Internet-Infrastruktur auf. Brent Ellis, Analyst bei Forrester Research, schätzt, dass allein der Cloudflare-Ausfall direkte und indirekte Verluste in Höhe von 250 bis 300 Millionen US-Dollar verursacht hat.
Der Vorfall unterstreicht auch die Fragilität der Infrastruktur für künstliche Intelligenz. Die Unterbrechung von OpenAI, einer führenden KI-Plattform, macht deutlich, dass selbst Spitzentechnologien auf stabile zugrunde liegende Systeme angewiesen sind. Sarah Kreps von der Cornell University bemerkte: „Das Problem offenbart die Realität, dass diese milliardenschwere oder sogar Billionen-Dollar-Investition in KI nur so zuverlässig ist wie die am wenigsten geprüfte Infrastruktur Dritter.“
Die Abhängigkeit von zentralisierten Diensten führt zu systemischen Schwachstellen. Ausfälle wie dieser zeigen, dass selbst die fortschrittlichsten digitalen Tools anfällig für Ausfälle sind, wenn das Fundament instabil ist.
Der Ausfall von Cloudflare ist eine deutliche Erinnerung daran, dass das Internet trotz seiner Allgegenwart ein komplexes und fragiles System bleibt. Das Unternehmen hat sich zwar entschuldigt und Maßnahmen ergriffen, um ein erneutes Auftreten zu verhindern, der Vorfall unterstreicht jedoch die Notwendigkeit einer größeren Widerstandsfähigkeit und Diversifizierung der kritischen Infrastruktur.































