语雀崩了、阿里云崩,阿里崩完、滴滴崩......

滴滴影响实在是太大了,整个飞机上人数少了有一半。

所以,像阿里云、滴滴这样的大平台,一旦出现大的质量事故,造成的经济损失非常巨大。最近事件频发,的确是给各个互联网大厂敲响了质量警钟。

  1. 滴滴平台事故

这次故障影响相当之大,持续非常之久。从昨晚10点一直影响到今天早上9点。


昨晚 22:27 有网友反馈,滴滴打车车子未到,司机电话说到了。22:50 尝试访问,依然502,搜索失败,之后不断尝试…… 依旧是502错误。从全线产品线出问题来看,可能是数据库批量挂掉,恢复数据完成时间不可控。当然,也有可能是系统升级导致基础架构崩溃,比如云平台崩溃,问题难定位。

  1. 阿里云崩溃

回到半个月前(11月12日)双十一刚过,阿里就迎来了一次P0级事故,阿里云直接崩溃,影响范围极大,阿里系的钉钉,淘宝,闲鱼,语雀,高德地图等重磅应用全线崩溃,并且还影响到数以万计的客户,那些使用了阿里云OSS服务的公司,也难以幸免。

这次事故被定级为P0事故了,最严重的那种,而距离上一次阿里云发生P0事故,还不到一年的时间,在去年的12月,阿里云香港地区就发生了严重的故障,导致服务中断了超过12小时,而现在一年时间都不到,又发生了类似事件。

  1. 语雀严重故障

一个月前(10 月 23 日)下午两点左右,语雀(在线文档编辑与协同工具)发生服务器故障,在线文档和官网目前均无法打开。当日 15 时,语雀发布官方声明称,“目前因网络故障,出现无法访问的情况。此故障不会影响用户在语雀存储的数据,不会引起数据丢失,我们正在紧急恢复中,再次抱歉给你带来的损失。”

据语雀公告,这次事故是由于新的运维升级工具 bug导致的:导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。为了尽快恢复服务,语雀和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。从下午2:15开始联系硬件团队尝试将下线机器重新上线,但是因存储系统使用的机器类别较老,无法直接操作上线,重新调整恢复方案,中间经过新建存储系统、数据恢复、数据校验、团队联调等过程,最终在 22 点恢复语雀全部服务,历时近8个小时。

这次故障教训是深刻的,技术风险保障和高可用架构设计非常重要,确保数据备份、系统容错能力,如增加存储系统的异地灾备,实现快速恢复,并进行定期的容灾应急演练,缩小运维动作灰度范围。今后,我们也要加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生。

  1. 更早:唯品会大事故

6 月 5 日,唯品会发布关于 329 机房宕机故障处理公告。官方在公告中称,南沙机房重大故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万。公司让对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职处理。

质量无小事,事事系成败。

质量就是生命,是企业赖以生存的基石。