语雀崩了、阿里云崩，阿里崩完、滴滴崩......

2023-11-27 资讯字数统计: 1k(字) 阅读时长: 3(分)

滴滴影响实在是太大了，整个飞机上人数少了有一半。

所以，像阿里云、滴滴这样的大平台，一旦出现大的质量事故，造成的经济损失非常巨大。最近事件频发，的确是给各个互联网大厂敲响了质量警钟。

滴滴平台事故

这次故障影响相当之大，持续非常之久。从昨晚10点一直影响到今天早上9点。

昨晚 22:27 有网友反馈，滴滴打车车子未到，司机电话说到了。22:50 尝试访问，依然502，搜索失败，之后不断尝试…… 依旧是502错误。从全线产品线出问题来看，可能是数据库批量挂掉，恢复数据完成时间不可控。当然，也有可能是系统升级导致基础架构崩溃，比如云平台崩溃，问题难定位。

阿里云崩溃

回到半个月前（11月12日）双十一刚过，阿里就迎来了一次P0级事故，阿里云直接崩溃，影响范围极大，阿里系的钉钉，淘宝，闲鱼，语雀，高德地图等重磅应用全线崩溃，并且还影响到数以万计的客户，那些使用了阿里云OSS服务的公司，也难以幸免。

这次事故被定级为P0事故了，最严重的那种，而距离上一次阿里云发生P0事故，还不到一年的时间，在去年的12月，阿里云香港地区就发生了严重的故障，导致服务中断了超过12小时，而现在一年时间都不到，又发生了类似事件。

语雀严重故障

一个月前（10 月 23 日）下午两点左右，语雀（在线文档编辑与协同工具）发生服务器故障，在线文档和官网目前均无法打开。当日 15 时，语雀发布官方声明称，“目前因网络故障，出现无法访问的情况。此故障不会影响用户在语雀存储的数据，不会引起数据丢失，我们正在紧急恢复中，再次抱歉给你带来的损失。”

据语雀公告，这次事故是由于新的运维升级工具 bug导致的：导致华东地区生产环境存储服务器被误下线。受其影响，语雀数据服务发生严重故障，造成大面积的服务中断。为了尽快恢复服务，语雀和数据存储运维团队全力进行数据恢复工作，但受限于恢复方案、数据量级等因素，整体用时较长。从下午2:15开始联系硬件团队尝试将下线机器重新上线，但是因存储系统使用的机器类别较老，无法直接操作上线，重新调整恢复方案，中间经过新建存储系统、数据恢复、数据校验、团队联调等过程，最终在 22 点恢复语雀全部服务，历时近8个小时。

这次故障教训是深刻的，技术风险保障和高可用架构设计非常重要，确保数据备份、系统容错能力，如增加存储系统的异地灾备，实现快速恢复，并进行定期的容灾应急演练，缩小运维动作灰度范围。今后，我们也要加强运维工具的质量保障与测试，杜绝此类运维 bug 再次发生。

更早：唯品会大事故

6 月 5 日，唯品会发布关于 329 机房宕机故障处理公告。官方在公告中称，南沙机房重大故障影响时间持续 12 个小时，导致公司业绩损失超亿元，影响客户达 800 多万。公司让对应部门的直接管理者承担此次事故责任，基础平台部负责人予以免职处理。

质量无小事，事事系成败。

质量就是生命，是企业赖以生存的基石。

本文链接： https://www.nirvana.net.cn/2023/112766LS5uZZ66.html

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

涅槃快乐

热爱生活，追求技术

语雀崩了、阿里云崩，阿里崩完、滴滴崩......

涅槃快乐热爱生活，追求技术