六家公司 CTO 讲述曾经历的“宕机噩梦”

微信扫一扫,分享到朋友圈

六家公司 CTO 讲述曾经历的“宕机噩梦”

你已沉沉睡去,却突然被闹钟的铃声惊醒。揉揉眼睛,你点亮手机,发现是凌晨三点。好吧,又出问题了。

网站已经关闭,应用程序已经损坏,房间里唯一的光亮来自你的电脑屏幕。系统中的“小幽灵”可能藏在任何地方,你的职责就是带领团队把它们找出来。

之后,修复一切,越快越好。

作为负责帮助各类 DevOps 初创企业打理公关事务的角色,这样的状况在我眼前不断重演。即使是经验最丰富的工程师,也很有可能因为一次重大事故而留下伴随终身的心理阴影。

但不可否认,每一家企业都会遭遇系统故障。而且,我们距离让在线系统像电力等即开即用的传统设施一样触手可及还有很长的路要走。因此,整个行业开始积极分享故障问题与真实故事(包括建立起透明且非指责性事后取证),这也让每位从业者逐渐摆脱了宕机事件带来的恐惧感与孤独感。

这里我们不会粗暴援引冷冰冰的数字,毕竟 Amazon 每小时可能遇到的上百万个问题,而小型企业只是引发糟糕客户体验。但无论规模如何,企业最终总会蒙受金钱损失、声誉损失、工程资源浪费,并导致市场地位下降。

下面,我们就单从分享经验与加以预防的思路,听听 CTO 们自己讲述的六个恐怖宕机事件。

Charity Majors,Honeycomb 公司 CTO

“通知推送失败!”

微信扫一扫,分享到朋友圈

六家公司 CTO 讲述曾经历的“宕机噩梦”

疫情下人类实现多项突破 腾讯科学WE大会揭秘粒子物理、器官复刻和脑机接口等最新发现

上一篇

《NBA 2K21》Xbox Series X版容量超过120GB

下一篇

你也可能喜欢

六家公司 CTO 讲述曾经历的“宕机噩梦”

长按储存图像,分享给朋友