加入收藏 | 设为首页 | 会员中心 | 我要投稿 常州站长网 (https://www.0519zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 移动互联 > 评测 > 正文

如何做好一次故障演练?

发布时间:2019-04-19 02:22:36 所属栏目:评测 来源:猿奋
导读:副标题#e# 本文转载自微信公众号「随猿记」,转载本文请联系随猿记公众号。 为什么要进行故障演练? 伴随着海量请求、节假日峰值流量和与日俱增的系统复杂度一起出现的,很有可能是预料之中以及意料之外的各种故障。在很多情况下,由于事故处理预案的缺失或

3.启动应用的故障应对预案

  • 观察故障影响有无按预期消除或减小影响范围
  • 观察各项业务指标
  • 观察机器负载指标
  • 验证业务流程按预期运转(比如:取消展示XX模块、不再请求YY接口)

故障演练后

1.现场清理

  • 流量关闭、流量隔离任务关闭
  • 故障模拟开关关闭、预案关闭
  • 清理演练期间写入的数据、缓存、日志等(可选)
  • 演练期间操作改动的业务配置开关复位
  • 重启应用
  • 通知相关人员演练结束

演练报告与总结

  • 是否达到预期目标

预案有无生效

业务流程是否按预期运转

机器负载是否正常

  • 是否有预期之外的现象发生
  • 关键指标(业务指标、机器负载指标)收集整理
  • 整理后续改进点

故障演练什么时候做?

需要把故障以场景化的方式沉淀,以可控成本在线上模拟故障,让系统和开发人员平时有更多实战机会,加速系统、工具、流程、人员的进步。

<常态化,制定演练周期>

故障演练后续规划

故障演练的后续工作主要会关注在以下方向:演练常态化、故障标类化、演练智能化。

用常态化的演练驱动稳定性进步,丰富更多的故障场景,定义好最小故障场景和处理手段;基于架构和业务分析的智能化演练,沉淀行业故障演练解决方案。

【编辑推荐】

  1. 劫持百度流量案,搜狗被罚50万,互联网的流量江湖从未断过
  2. GitHub 发布 10 月 21 日系统故障分析报告
  3. 超级流量来了!第一批开发者已从百度小程序获益
  4. 云服务出现宕机故障,会赔多少钱?
  5. 腾讯云详解宕机故障:光纤挖断后的150秒
【责任编辑:武晓燕 TEL:(010)68476606】
点赞 0

(编辑:常州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读