扫码阅读
手机扫码阅读
聊聊混沌工程的企业实践
![](/theme/default/default/images/main/eye-open.png)
混沌工程在大型企业的实践与洞见
本文是鼎叔关于混沌工程实践的原创分析,探讨了该工程的系统方法、原则和步骤,并且适用于软硬件一体的互联系统,如汽车自动驾驶系统,及网络安全。文中详述了企业在混沌工程中的优秀流程、经验教训和人员能力提升,指出了混沌工程对系统可靠性的重要性。
演练前的关键准备
- 设计容错性,保持备用容量在线,确保故障机器自动替换。
- 保证数据持久性,防止数据丢失。
- 高效协作和开放心态,鼓励开放培训资源和透明的交流。
灾难剧场演练流程
演练流程要确立稳态假说,聚集专家和利益相关者,邀请管理层支持,避免计划偏移导致客户意外故障。演练要一步步放大规模,保证可观察性,识别冗余和自动补救机制,明确演练目标并适时发布公告。
演练过程与结束
演练过程中要单一测试假说,区分自动化和人的反应,避免新方法掩盖故障根因。结束时进行即时反思,汇报演练发现,改善系统安全性,考虑自动化的适当性。
常见的灾难测试类型
包括流量峰值、非关键后端服务故障、特定资源丢失、数据损坏恢复、区域性网络故障、告警组件关闭后故障发现、系统重启等场景。
灾难结论与总结
分析已知和未知事件的预期与意外后果,重视自动终止能力,从故障中学习恢复知识,找到系统盲点,确定故障优先级以及故障/指标误差的来源。
人为阻力与应对
允许申请灾难测试豁免,针对长期稳定服务的系统实施长时间故障注入,面对强烈抵制采用主动了解风险的混沌工程。
混沌工程工具支持
大型公司提供灾难测试通用平台,如Netflix的ChAP,支持错误、延迟、超时等故障模式,提供可观测性投资,与DevOps平台融合,提高洞见产生速度。
组织能力提升
混沌工程旨在建立韧性文化,增强人员和组织正向能力,促进团队间交流,提升组织适应性和挑战承载能力。
想要了解更多,点击
查看原文
《无测试组织-测试团队的敏捷转型》主题探讨。从打造测试的组织敏捷,到敏捷测试技术的丰富实践,从一线团队的视角来聊聊我们是怎么做的。面向未来,拥抱敏捷原则,走向高效能组织。
81 篇文章
浏览 26.6K
敏捷测试转型的其他文章
聊聊拒绝忽悠的批判性思维
在朋友圈和短视频时代,自媒体文章满天飞,读着总觉得哪里不对劲。\x0a在职场和行业领域,见到的各种新观点方案也层出不穷,专家的观点就一定对么?\x0a修炼批判性思维,就是锻炼识别出最佳观点的能力和意愿,并尽量避免社会上层出不穷的忽悠大坑
聊聊组织中如何成功导入变革(下)
虽然逻辑和尝试很有用,有时不能解决问题,还有那些应对阻力的技巧?如何持续推动变革的深入?
聊聊需求的价值如何度量
度量需求的数量和时间比较容易,度量需求大小(颗粒度)要麻烦些,那么,度量需求的价值呢?
聊聊Fred Brooks的《人月神话》
Fred P. Brooks于2022年1月18日去世。几个月前刚写了关于Fred Brooks的著作《人月神话》读书心得和启发,大师的风格都是概念极其简单,启发深远
聊聊大模型的幻觉问题
严格的说,大模型幻觉并不是“问题”,而是大模型推理过程中涌现出来的,也体现了大模型的创造性。大模型的所有工作都可以认为是在做梦,只是人类的现实需求比较狭隘
加入社区微信群
与行业大咖零距离交流学习
![](https://cdn.easycorp.cn/rongpm/upload/202312/f_39217d624bb2b42ce8f6322ebd7e573a.png)
![](https://cdn.easycorp.cn/rongpm/upload/202312/f_39217d624bb2b42ce8f6322ebd7e573a.png)
软件研发质量管理体系建设
白皮书上线