扫码阅读
手机扫码阅读

聊聊混沌工程的企业实践

197 2024-01-31
混沌工程实践摘要

混沌工程在大型企业的实践与洞见

本文是鼎叔关于混沌工程实践的原创分析,探讨了该工程的系统方法、原则和步骤,并且适用于软硬件一体的互联系统,如汽车自动驾驶系统,及网络安全。文中详述了企业在混沌工程中的优秀流程、经验教训和人员能力提升,指出了混沌工程对系统可靠性的重要性。

演练前的关键准备

  • 设计容错性,保持备用容量在线,确保故障机器自动替换。
  • 保证数据持久性,防止数据丢失。
  • 高效协作和开放心态,鼓励开放培训资源和透明的交流。

灾难剧场演练流程

演练流程要确立稳态假说,聚集专家和利益相关者,邀请管理层支持,避免计划偏移导致客户意外故障。演练要一步步放大规模,保证可观察性,识别冗余和自动补救机制,明确演练目标并适时发布公告。

演练过程与结束

演练过程中要单一测试假说,区分自动化和人的反应,避免新方法掩盖故障根因。结束时进行即时反思,汇报演练发现,改善系统安全性,考虑自动化的适当性。

常见的灾难测试类型

包括流量峰值、非关键后端服务故障、特定资源丢失、数据损坏恢复、区域性网络故障、告警组件关闭后故障发现、系统重启等场景。

灾难结论与总结

分析已知和未知事件的预期与意外后果,重视自动终止能力,从故障中学习恢复知识,找到系统盲点,确定故障优先级以及故障/指标误差的来源。

人为阻力与应对

允许申请灾难测试豁免,针对长期稳定服务的系统实施长时间故障注入,面对强烈抵制采用主动了解风险的混沌工程。

混沌工程工具支持

大型公司提供灾难测试通用平台,如Netflix的ChAP,支持错误、延迟、超时等故障模式,提供可观测性投资,与DevOps平台融合,提高洞见产生速度。

组织能力提升

混沌工程旨在建立韧性文化,增强人员和组织正向能力,促进团队间交流,提升组织适应性和挑战承载能力。

想要了解更多,点击 查看原文

《无测试组织-测试团队的敏捷转型》主题探讨。从打造测试的组织敏捷,到敏捷测试技术的丰富实践,从一线团队的视角来聊聊我们是怎么做的。面向未来,拥抱敏捷原则,走向高效能组织。

81 篇文章
浏览 26.6K
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设 白皮书上线