Skip to content
Go back

Cloudflare打个喷嚏,全球互联网都感冒了,互联网基础设施的脆弱和反思

| 阅读时间 8 分钟

Cloudflare打个喷嚏,全球互联网都感冒了,互联网基础设施的脆弱和反思

Table of contents

Open Table of contents

发生了什么

2025年11月18日晚上,也就是昨天晚上,我突然发现我的博客网站无法访问了,Cloudflare Error 500 错误,刷新几次,依然是500错误。

我以为是我的cloudflare的配置出了问题,所以立刻打开后台,准备登录看看啥情况,结果发现竟然登录不了,人机验证按钮消失了,登录按钮变成了不可点击的灰色。

微信截图_20251118223543.png

我又打开其他几个部署在Cloudflare上的网站,发现也都无法访问。

难道是我的账号被冻结了?

紧接着,我打开ChatGPT,准备问问这是啥情况,结果,ChatGPT也无法访问。切换到Claude,同样无法访问。

这下好了,看来Cloudflare又出问题了。

早上一醒来,就看到了 Cloudflare CTO Dane Knecht 在 X 上发布声明,解释问题已解决。

他表示:

这次故障不是攻击导致的,但它造成的影响以及解决时间都是不可接受的。

image.png

查了一下,这次故障从UTC时间11:20(北京时间19:20)开始,一直持续到14:42才修复,影响时长约3小时。对于互联网服务来说,3小时已经是一个相当漫长的时间了。

根据Cloudflare官方的说明,故障原因是一个自动生成的配置文件出了问题。这个文件用于管理威胁流量,但条目增长超出了预期大小,触发了系统崩溃。官方确认这不是攻击,就是一次普通的配置错误。

其他的先不谈,Cloudflare的CTO能在X上的公开道歉安抚人心,至少比AWS那种”能遮就遮”的态度要好得多,与中国的云服厂商那种“死猪不怕开水烫”的作风相比,那简直是天差地别。@阿里云 @腾讯云

如果说技术问题不可避免,那么态度问题就是不可原谅,这一波Cloudflare的态度,我算是比较满意。

但无论如何,当 ChatGPT 以及 X 这种级别的服务同时宕机时,你会突然意识到:我们的数字世界建立在一个何等脆弱的地基之上。

这不是个例:全球云服务故障正在加剧

由于上一次阿里云的全线故障,我还记忆犹新。

我开始查阅资料,看看近些年,这些大型云服务厂商,到底都出了哪些故障。

结果一看,让人瞠目结舌,**2024年关键云服务故障比2023年增加18%,持续时间延长19%,**且故障发生的频率一直在增加!

以下是我整理的近三年主要云服务商的重大故障记录:

国际云厂商故障统计

厂商故障时间时长影响范围原因经济损失
Cloudflare2025-11-18~3小时全球,影响ChatGPT、Claude、Discord等配置文件错误待评估
AWS2025-10-20全天全球,影响Snapchat、McDonald’s、Fortnite核心数据库问题待评估
Azure2025-10-29~8小时全球,影响Microsoft 365、Xbox配置错误待评估
Azure2025-11-05~9小时西欧地区冷却系统故障待评估
Google Cloud2025-06-12~7小时全球54个产品,影响Spotify、Discord代码缺陷股价下跌1%
Google Cloud2025-01-07~18小时多区域,影响AI服务认证故障未披露
Google Cloud2024-10-24~12.5小时德国法兰克福电源+冷却故障未披露
Azure2024-07-30~3小时全球DDoS+响应错误未披露
Azure2024-07-18~14.5小时美国中部配置更新错误未披露
CrowdStrike2024-07-19数天~数周850万Windows设备内核驱动更新错误$1000亿+
Cloudflare2024-03~2小时中国25+城市性能故障未披露

中国云厂商故障统计

厂商故障时间时长影响范围原因备注
阿里云2023-11-12~3.5小时全球所有26个区域底层鉴权组件故障影响淘宝、钉钉、语雀等全线产品
阿里云2022-12-1810+小时香港机房制冷故障+消防喷淋影响澳门政府、银行、媒体
腾讯云2024-04-0874分钟全球17个区域未明确披露疑似裁员导致人手不足
腾讯云2023-03-29~7小时中国地区冷却系统故障定义为公司一级事故
腾讯云2018-08-05永久性单个企业硬盘固件bug数据永久丢失

从这些数据中,你可以看到:

  1. 故障频率在上升:不仅仅是次数增多,影响范围也越来越大
  2. 原因高度相似:配置错误、代码缺陷、基础设施故障(冷却、电源)反复出现
  3. 影响越来越严重:从几万用户到数百万、数千万用户
  4. CrowdStrike事件是个警钟:单次故障造成1000亿美元损失,影响850万设备,这在IT历史上前所未有

特别值得注意的是,阿里云2023年11月的故障影响了全球所有26个区域,持续3.5小时,这意味着全球范围内使用阿里云的服务全部瘫痪。无用论是阿里系自己的产品和服务,还是接入阿里云的第三方公司的业务,全部停摆。

更深层的问题是什么?

这些年,大规模的业务上云,企业上云,口号喊得是震天响。但问题频发也让我们看到了这种极度中心化的脆弱性。

为什么一家公司的故障能够同时影响全球这么多服务?不就是因为我们已经把整个互联网的大部分,建立在了少数几家公司的基础设施之上了。

这会面临一个非常大的问题

在传统互联网时代,如果一个黑客想要破坏1000个网站,他需要逐个攻击这1000个网站。这需要大量的时间、资源和技巧,而且很容易被发现和阻止。

但在云时代,游戏规则完全变了:

这就是”擒贼先擒王”的极致体现。攻击效率提升了几个数量级。

但我认为,更可怕的还不是来自于外部攻击,而是内部问题。

从这次Cloudflare事件可以看出,一个简单的配置错误就能造成如此规模的全球性影响。那么一个蓄意破坏、一个内部人员的恶意操作会造成多大的破坏?

人为错误无法完全避免

从上面的统计表格可以看出,大多数故障的原因要么是配置错误,代码bug,要么是硬件问题。这纯粹是认为因素导致的,或者是硬件冗余不够导致的。

然而,人永远会犯错,这就意味着无论有多高超的技术,故障也永远无法避免。

但问题在于:当错误发生在一个极度中心化的系统中时,影响会被放大数千倍。

如果一个小网站的管理员配置错了防火墙,影响的只是这一个网站。但当Cloudflare的工程师配置错了一个文件,影响的是全球数百万网站。

这种放大效应是极度危险且不估测的。

监管的缺失

更让人担忧的是,这些云服务巨头并不会收到什么法律约束。

首先,他们并没有法定义务确保服务连续性,其次,即使问题发生了,也不需要强制性为系统性损害承担责任。如果有补偿行为,那也是纯粹的市场行为。

他们的市值都高达数万亿美元,却不受有效监管,出了问题,用户除了等待也几乎是无能为力。

例如,AWS去年收入1260亿美元,当2000多家公司受其故障影响时,AWS全身而退。

再例如上面提到的阿里云,2023年的重大事故之后,他们时至今日,似乎都还没能给出正式的事后故障复盘报告。

谁来给他们定责呢?用户也是无可奈何,只能是说吃一堑长一智,依靠单一云服务商,风险就是不可控的。

我们应该思考什么?

大规模云服务是把双刃剑

这次Cloudflare故障持续了3小时就恢复了,但其实它留给我们的思考应该持续得更久。

云服务确实带来了便利:弹性扩展、成本优化、全球部署。但我们似乎走得太快了,在追求便利、效率、规模的过程中,忽视了稳定性、可靠性和该有的韧性。

当所有的鸡蛋都放在同一个篮子里时,这个篮子的安全性就成为了生死攸关的问题。

去中心化理念要落实还有很长的路要走

Web3的分布式理念很先进,Web3社区也一直在高喊”去中心化”。

但讽刺的是,大多数DApp、钱包、节点仍然运行在AWS、Google Cloud、Azure上。当这些云服务宕机时,“去中心化”的承诺瞬间破灭。

真正的分布式不应该只是应用层的分布,而应该是基础设施层的分布。

否则,所谓的去中心化只是建立在中心化基础上的幻觉。

安全问题让人担忧

另外,最让我担心的,还不是仅仅业务层面的危险和经济上面的损失,而是基础安全层面的危险。

现如今,AI技术的迅猛发展,让AI正在成为各行各业的”操作系统。很快我们就会发现用AI代替人类工作,决策甚至是思考,都是一本万利的事情。

如果没有强力的政策监管,任由这种集中化的趋势发展下去,当资本垄断到一定程度时,这些大型公司的内部就会变成黑盒,没人知道他们在做什么。

今天,Cloudflare打一个喷嚏,只是让全世界数以万计的互联网服务同时下线而已。

而明天,当AI越来越深入地参与到这些基础设施的运维和决策中时:

一个被攻击者控制的AI系统、一个存在严重偏见的AI算法、或者一个因为数据投毒而做出错误判断的AI决策——会造成什么样的后果?

我们甚至不需要科幻电影里的”天网觉醒”,只需要一个精心设计的攻击,就足以让这些高度集中、AI深度参与的基础设施变成现实版的多米诺骨牌。


最后我想说的是,互联网已经成为人类现代文明的基础设施,我认为现在,它们需要的不是速度和规模,而是稳定、可靠和必要的监管。

希望下一次故障到来时,我们已经做好了准备。


分享这篇文章:

Previous Post
时隔三年,UiBot 终于更新了!一个老用户的心路历程
Next Post
从 Notion 到 Astro:构建自动化的博客发布流程