2026年01月19日/ 浏览 10
2025 年 12 月 5 日,大约 08:47 UTC 开始故障,至 ~ 09:12 UTC 修复结束。 

影响约 28% 的 Cloudflare HTTP 流量。 
根本原因:为应对公开、严重的 CVE-2025-55182(“React2Shell”/React Server Components 漏洞),对 WAF(Web Application Firewall)逻辑进行紧急配置变更时,引入 legacy (旧版) 代理 (FL1) 中的一段 “killswitch + execute-rule” bug —— 导致对部分流量返回 500 错误。 
为何要变更 WAF / 应对 React 漏洞
CVE-2025-55182 是一个影响广泛的远程代码执行 (RCE) 漏洞 —— 影响使用 React / Next.js 等框架中 “React Server Components (RSC)” 的应用。 
为保护依赖 React/Next.js 的客户 (包括大量网站与服务),Cloudflare 决定通过其 WAF 部署新的防护规则 (managed rulesets),以检测并拦截潜在恶意请求。 
作为防护的一部分,Cloudflare 将 HTTP 请求 body 缓冲区 (buffer) 从 128 KB 扩大到 1 MB,以便 WAF 拦截体积较大的恶意 payload。 
事发经过 & 根因分析
根据 Cloudflare 官方 post-mortem 以及外部复盘/报道,故障机制大致如下: 
1、Cloudflare 的规则系统 (rulesets system) 中,每条规则 (rule) 包含一个 filter (判断请求是否匹配) 和一个 action (对匹配流量执行何种操作)—— 典型 action 为 "block"、"log"、"skip",还有一种 "execute",用于触发对另一个子-ruleset 的评估 (即嵌套 ruleset)。 
2、为快速禁用 (disable) 内部用于测试 (test) 的 WAF 规则 (shadow / managed-ruleset testing rule),Cloudflare 使用了其 “global configuration + killswitch” 系统。该系统允许对指定规则发出 “skip/disable” 指令,并立即下发到全球所有节点。 
3、问题在于,这次是首次对一条 action="execute" 的规则使用 killswitch。跳过该规则时,其对应的 rule_result.execute 对象未被创建 (nil),但后续代码仍假设其存在,并尝试访问其字段 (如 rule_result.execute.results):
if rule_result.action == "execute" then
rule_result.execute.results = ruleset_results[...]
end
由于 rule_result.execute 为 nil,Lua 报错 “attempt to index field ‘execute’ (a nil value)” —— 导致代理 (FL1) 崩溃/无法正确处理请求,因而对受影响流量返回 HTTP 500。
4、由于 Cloudflare 的旧代理 (FL1) 使用的是 “fail-closed” (fail-hard) 错误处理逻辑 —— 一旦遇到代码异常 (nil pointer / Lua error) 就拒绝 (drop) 请求,而不是降级 (fail-open) 或回退到安全默认状态 —— 导致大范围服务中断。
5、此问题对于使用 FL1 代理 + 启用 Managed Ruleset 并使用到该 test-rule 的客户生效。虽然不是所有客户都受到影响,但因为启用了 global config killswitch,影响在全球范围内传播 — 最终影响了约 28% 的 HTTP 流量。
Cloudflare 在 post-mortem 中也指出:这段 Lua 代码错误 “存在多年,但未曾因为相应配置组合被触发过 (never before applied a killswitch to a rule with action ‘execute’)”。这是首次触发该 edge-case,暴露出多年未被发现的技术债 (legacy code bug) 与部署模型风险。
故障影响与后果
多个使用 Cloudflare CDN / WAF /代理服务的网站与应用在数分钟内出现 “500 Internal Server Error”。包括大型网站、服务、游戏、内容平台等。
部分主流服务 (例如加密货币交易所 Coinbase、AI 服务 Claude AI 等) 确认受影响。
这至少是 Cloudflare 在不到一个月内第二次重大 outage —— 连续出现两次安全相关配置更新导致全球中断,严重冲击对其作为互联网基础设施供应商的信任。
对整个互联网生态敲响警钟:当少数基础设施供应商 (CDN、WAF、代理) 承载全球大量流量时,一次 bug / 配置错误 / 代码缺陷,就可能引发规模巨大、跨服务 / 跨行业的大面积崩溃。
云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。