
2025年10月20日,一场始于凌晨的云服务中断,像一场无声的地震,震醒了整个互联网。从银行交易到社交媒体,从在线游戏到政府系统,无数依赖AWS的企业和服务突然陷入停滞。问题出在哪儿?答案又一次指向了那个老对手——DNS。但这一次,人们不再只是摇头叹息“又是DNS”,而是开始问:为什么AWS连这个都搞不定?
事情的脉络并不复杂。凌晨,美国东部弗吉尼亚的US-EAST-1区域开始出现异常,错误率飙升,延迟拉高。一小时后,DynamoDB——这个被无数服务依赖的核心数据库——的端点请求大面积失败。再过半小时,工程师终于意识到,问题出在DNS解析上。可就是这短短几十分钟,已经足够让整个区域的生态链崩塌。更让人无奈的是,当用户焦急地刷新AWS状态页面时,看到的依然是“一切正常”。这种滞后,与其说是系统反应慢,不如说是一种深深的无力感在蔓延:他们自己,也没能第一时间搞清楚发生了什么。
这背后,藏着一个更沉重的问题。AWS的技术实力毋庸置疑,全球38个区域中,一个出问题就能引发全球关注,本身就说明它的系统足够稳定。可正因如此,当这种基础性故障反复出现,人们不得不怀疑:那些真正懂系统、知道“角落里那个老毛病”的人,去哪儿了?
过去几年,亚马逊的裁员潮席卷了超过2.7万名员工。虽然公司从未公开AWS内部的具体数据,但高层离职的消息却频频传来。2023年底,资深工程师贾斯汀·加里森离开AWS时,直言不讳地警告:大型故障正在变多,2024年恐怕会有大问题。他或许低估了事态的延续性——到了2025年,这样的中断依然在发生。而更令人担忧的是,那些曾亲手搭建系统、经历过无数次故障修复的“老将”,正在一个个离开。他们带走的,不只是简历上的头衔,更是几十年积累下来的“隐性知识”——比如,某个看似无关的模块,其实曾在十年前引发过类似问题。
新团队或许聪明、高效,但经验无法速成。你可以教一个人DNS的原理,但你没法让他立刻拥有那种“直觉”——在系统崩溃的瞬间,知道该往哪儿查。当这些“部落知识”随离职潮流失,每一次故障排查都变成了一场重新学习的过程。而与此同时,亚马逊内部对“重返办公室”的强硬要求,以及高达69%到81%的“后悔离职率”,都在说明一件事:那些公司最不想失去的人,正在主动选择离开。
AWS的底气,曾经来自于它庞大的冗余设计和经验丰富的工程师团队。但如今,当“节俭”被曲解为不断压缩人力,当稳定性让位于短期成本控制,再坚固的系统也会开始松动。这次中断,不是技术过时的结果,而是人才流失的代价。市场或许还会给AWS一次机会,但惯性总有尽头。下一次故障不会等太久,问题只在于,当某个被削弱的团队面对一个从未见过的边缘情况时,谁还能站出来,说一句“我见过类似的”?那一天,可能比我们想象的更近。