Una interrupción importante en Cloudflare el martes 28 de febrero de 2024 interrumpió o ralentizó el acceso a una amplia gama de sitios web y servicios populares, incluidos OpenAI, Spotify, X (anteriormente Twitter) y Grindr. El incidente, el peor de la empresa desde 2019, pone de relieve cómo un pequeño número de proveedores de infraestructura sustentan la Internet moderna y cuán vulnerable sigue siendo ese sistema.
¿Qué pasó?
La interrupción comenzó alrededor de las 3:30 a. m. PT y duró más de tres horas, y se informó una recuperación total al final del día. El director ejecutivo de Cloudflare, Matthew Prince, confirmó que el problema no se debió a un ciberataque, sino a una falla interna del software. Específicamente, un cambio en la base de datos generó un archivo de configuración inusualmente grande que el sistema no pudo procesar, lo que provocó fallas en cascada en toda la red.
Cloudflare identificó rápidamente y volvió a una versión anterior del archivo, restaurando el flujo de tráfico a las 6:30 a. m. PT. Prince se disculpó públicamente, reconociendo la gravedad de la interrupción. “Dada la importancia de Cloudflare en el ecosistema de Internet, cualquier interrupción de cualquiera de nuestros sistemas es inaceptable”, afirmó.
La escala del impacto
Aproximadamente el 20% de todos los sitios web dependen de los servicios de Cloudflare, lo que hace que la interrupción sea de gran alcance. Downdetector, un servicio para informar interrupciones (propiedad de la misma empresa matriz que CNET), registró más de 2,1 millones de informes durante el evento, siendo Estados Unidos, Reino Unido, Japón y Alemania los más afectados.
Más allá del propio Cloudflare, los usuarios informaron problemas con X (320,549 informes), League of Legends (130,260 informes), OpenAI (81,077 informes), Spotify (93,377 informes) y Grindr (25,031 informes). La interrupción expuso en qué medida muchos servicios digitales dependen de unos pocos actores clave de infraestructura.
¿Un problema recurrente?
La interrupción de Cloudflare sigue a incidentes similares en Amazon Web Services (AWS) y Microsoft Azure en los últimos meses. Estos fallos plantean dudas sobre el riesgo de concentración en la infraestructura moderna de Internet. El analista de Forrester Research, Brent Ellis, estima que solo la interrupción de Cloudflare puede haber causado entre 250 y 300 millones de dólares en pérdidas directas e indirectas.
El incidente también subraya la fragilidad de la infraestructura de inteligencia artificial. La disrupción de OpenAI, una plataforma líder en inteligencia artificial, pone de relieve cómo incluso las tecnologías de vanguardia dependen de sistemas subyacentes estables. Como señaló Sarah Kreps de la Universidad de Cornell: “El problema expone la realidad de que esta inversión multimillonaria, incluso billón de dólares, en IA es tan confiable como su infraestructura de terceros menos analizada”.
La dependencia de servicios centralizados crea vulnerabilidades sistémicas. Interrupciones como esta demuestran que incluso las herramientas digitales más avanzadas son susceptibles de fallar si la base es inestable.
La interrupción de Cloudflare sirve como claro recordatorio de que Internet, a pesar de su ubicuidad, sigue siendo un sistema complejo y frágil. Si bien la empresa se disculpó y tomó medidas para evitar que se repita, el incidente subraya la necesidad de una mayor resiliencia y diversificación en la infraestructura crítica.
































