1. 背景
2. 目标
通过混沌演练验证链路中部分系统发生故障时候的整体链路的表现,对链路保持正常运作的能力进行校验和评估,提前识别未知隐患并进行修复,进而保障整个链路更好地抵御生产环境中的失控条件,提升整体场景功能的稳定性。
3. 演练链路
4. 演练计划
混沌演练之前,一定要好可行性评估,评估可以演练的服务部署环境、演练工具的成熟度、演练场景的爆炸半径等,然后决策演练场景,进行实践操作。
5. 内容加载演练实践
5.1 链路梳理
5.2 接口梳理
5.3 制定演练计划
演练攻击人员:孙X英、陈X然; 演练防守人员:张X雷、付X军、刘X、韩X
本次链路故障场景设计如下:
5.4 演练执行
目前借助天权自动化运维平台进行混沌攻防演练,进入工具市场—演练类,选择不同的故障方案,点击“立即执行”;
演练示例,根据演练的场景配置好故障参数,如下图为精准触达系统-消息触达方法延迟增加30ms参数设定:
5.5 演练监控
场景一:精准触达系统-消息触达方法延迟增加30ms
监控平台实时观测系统的CPU使用率:
5.6 演练反馈
邮件事故告警:
5.7 环境恢复
演练完成后建议需要重启容器,保证服务恢复正常状态。
5.8 演练复盘
6.总结
“居安思危,思则有备,有备无患。”
内容来源:京东云开发者社区