Une panne majeure chez Cloudflare le mardi 28 février 2024 a interrompu ou ralenti l’accès à un large éventail de sites Web et de services populaires, notamment OpenAI, Spotify, X (anciennement Twitter) et Grindr. L’incident, le pire que l’entreprise ait connu depuis 2019, met en évidence à quel point un petit nombre de fournisseurs d’infrastructures soutiennent l’Internet moderne et à quel point ce système reste vulnérable.
Ce qui s’est passé?
La panne a commencé vers 3 h 30 (heure du Pacifique) et a duré plus de trois heures, avec un rétablissement complet signalé en fin de journée. Le PDG de Cloudflare, Matthew Prince, a confirmé que le problème n’était pas dû à une cyberattaque, mais plutôt à une panne logicielle interne. Plus précisément, une modification de la base de données a généré un fichier de configuration inhabituellement volumineux que le système n’a pas pu traiter, provoquant des pannes en cascade sur le réseau.
Cloudflare a rapidement identifié et est revenu à une version précédente du fichier, rétablissant le flux de trafic à 6h30 (heure du Pacifique). Prince a présenté des excuses publiques, reconnaissant la gravité de la perturbation. « Compte tenu de l’importance de Cloudflare dans l’écosystème Internet, toute panne de l’un de nos systèmes est inacceptable », a-t-il déclaré.
L’ampleur de l’impact
Environ 20 % de tous les sites Web dépendent des services de Cloudflare, ce qui rend la panne de grande ampleur. Downdetector, un service de signalement des pannes (appartenant à la même société mère que CNET), a enregistré plus de 2,1 millions de rapports au cours de l’événement, les États-Unis, le Royaume-Uni, le Japon et l’Allemagne étant les plus touchés.
Au-delà de Cloudflare lui-même, les utilisateurs ont signalé des problèmes avec X (320 549 rapports), League of Legends (130 260 rapports), OpenAI (81 077 rapports), Spotify (93 377 rapports) et Grindr (25 031 rapports). La panne a révélé à quel point de nombreux services numériques dépendent de quelques acteurs clés de l’infrastructure.
Un problème récurrent ?
La perturbation de Cloudflare fait suite à des incidents similaires survenus sur Amazon Web Services (AWS) et Microsoft Azure ces derniers mois. Ces échecs soulèvent des questions sur le risque de concentration dans les infrastructures Internet modernes. Brent Ellis, analyste chez Forrester Research, estime que la panne de Cloudflare à elle seule pourrait avoir causé entre 250 et 300 millions de dollars de pertes directes et indirectes.
L’incident souligne également la fragilité des infrastructures d’intelligence artificielle. La perturbation d’OpenAI, une plateforme d’IA de premier plan, met en évidence à quel point même les technologies de pointe dépendent de systèmes sous-jacents stables. Comme l’a noté Sarah Kreps de l’Université Cornell, « ce problème révèle la réalité selon laquelle cet investissement de plusieurs milliards, voire de milliers de milliards de dollars dans l’IA, est aussi fiable que son infrastructure tierce la moins scrutée. »
Le recours à des services centralisés crée des vulnérabilités systémiques. Des pannes comme celle-ci démontrent que même les outils numériques les plus avancés sont susceptibles de tomber en panne si les fondations sont instables.
La panne de Cloudflare nous rappelle brutalement qu’Internet, malgré son omniprésence, reste un système complexe et fragile. Bien que l’entreprise ait présenté ses excuses et pris des mesures pour éviter que cela ne se reproduise, l’incident souligne la nécessité d’une plus grande résilience et d’une plus grande diversification des infrastructures critiques.
































