Крупный сбой в работе Cloudflare во вторник, 28 февраля 2024 года, привёл к отключению или замедлению доступа к широкому спектру популярных веб-сайтов и сервисов, включая OpenAI, Spotify, X (ранее Twitter) и Grindr. Этот инцидент, самый серьёзный для компании с 2019 года, подчёркивает, как небольшое число поставщиков инфраструктуры поддерживают современный интернет, и насколько уязвима эта система остаётся.
Что Произошло?
Сбой начался примерно в 3:30 по тихоокеанскому времени и продолжался более трёх часов, полное восстановление было подтверждено к концу дня. Генеральный директор Cloudflare Мэтью Принс подтвердил, что проблема не связана с кибератакой, а скорее с внутренней программной ошибкой. В частности, изменение в базе данных сгенерировало необычайно большой конфигурационный файл, который система не смогла обработать, вызвав каскадные сбои по всей сети.
Cloudflare быстро выявил и вернулся к предыдущей версии файла, восстановив трафик к 6:30 по тихоокеанскому времени. Принс опубликовал публичные извинения, признав серьёзность нарушения. «Учитывая важность Cloudflare в интернет-экосистеме, любой сбой любой из наших систем недопустим», — заявил он.
Масштаб Воздействия
Приблизительно 20% всех веб-сайтов полагаются на услуги Cloudflare, что делает сбой масштабным. Downdetector, сервис для отслеживания сбоев (принадлежащий той же материнской компании, что и CNET), зарегистрировал более 2,1 миллиона сообщений во время инцидента, при этом больше всего пострадали США, Великобритания, Япония и Германия.
Помимо самой Cloudflare, пользователи сообщали о проблемах с X (320 549 отчётов), League of Legends (130 260 отчётов), OpenAI (81 077 отчётов), Spotify (93 377 отчётов) и Grindr (25 031 отчёт). Сбой показал, насколько сильно многие цифровые сервисы зависят от нескольких ключевых игроков инфраструктуры.
Проблема Повторяется?
Сбой Cloudflare последовал за аналогичными инцидентами в Amazon Web Services (AWS) и Microsoft Azure в последние месяцы. Эти сбои ставят под вопрос риск концентрации в современной интернет-инфраструктуре. Аналитик Forrester Research Брент Эллис оценивает, что только сбой Cloudflare мог привести к прямым и косвенным потерям в размере 250–300 миллионов долларов.
Инцидент также подчёркивает хрупкость инфраструктуры искусственного интеллекта. Сбой OpenAI, ведущей платформы искусственного интеллекта, показывает, что даже передовые технологии зависят от стабильных базовых систем. Как отметила Сара Крепс из Корнелльского университета: «Эта проблема обнажает реальность, что многомиллиардные, даже триллионные инвестиции в ИИ настолько же надёжны, насколько и наименее тщательно проверенная инфраструктура третьих сторон».
Зависимость от централизованных сервисов создаёт системные уязвимости. Сбои, подобные этому, демонстрируют, что даже самые передовые цифровые инструменты подвержены сбоям, если фундамент нестабилен.
Сбой Cloudflare служит суровым напоминанием о том, что интернет, несмотря на его повсеместность, остаётся сложной и хрупкой системой. Хотя компания принесла извинения и предприняла шаги для предотвращения повторения, инцидент подчёркивает необходимость повышения устойчивости и диверсификации критической инфраструктуры.
