聊聊混沌工程的企业实践

混沌工程实验

发布于 2024-01-31

1491

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：聊聊混沌工程的企业实践

文章来源：

敏捷测试转型

扫码关注公众号

扫码阅读

手机扫码阅读

混沌工程实践摘要

混沌工程在大型企业的实践与洞见

本文是鼎叔关于混沌工程实践的原创分析，探讨了该工程的系统方法、原则和步骤，并且适用于软硬件一体的互联系统，如汽车自动驾驶系统，及网络安全。文中详述了企业在混沌工程中的优秀流程、经验教训和人员能力提升，指出了混沌工程对系统可靠性的重要性。

演练前的关键准备

设计容错性，保持备用容量在线，确保故障机器自动替换。
保证数据持久性，防止数据丢失。
高效协作和开放心态，鼓励开放培训资源和透明的交流。

灾难剧场演练流程

演练流程要确立稳态假说，聚集专家和利益相关者，邀请管理层支持，避免计划偏移导致客户意外故障。演练要一步步放大规模，保证可观察性，识别冗余和自动补救机制，明确演练目标并适时发布公告。

演练过程与结束

演练过程中要单一测试假说，区分自动化和人的反应，避免新方法掩盖故障根因。结束时进行即时反思，汇报演练发现，改善系统安全性，考虑自动化的适当性。

常见的灾难测试类型

包括流量峰值、非关键后端服务故障、特定资源丢失、数据损坏恢复、区域性网络故障、告警组件关闭后故障发现、系统重启等场景。

灾难结论与总结

分析已知和未知事件的预期与意外后果，重视自动终止能力，从故障中学习恢复知识，找到系统盲点，确定故障优先级以及故障/指标误差的来源。

人为阻力与应对

允许申请灾难测试豁免，针对长期稳定服务的系统实施长时间故障注入，面对强烈抵制采用主动了解风险的混沌工程。

混沌工程工具支持

大型公司提供灾难测试通用平台，如Netflix的ChAP，支持错误、延迟、超时等故障模式，提供可观测性投资，与DevOps平台融合，提高洞见产生速度。

组织能力提升

混沌工程旨在建立韧性文化，增强人员和组织正向能力，促进团队间交流，提升组织适应性和挑战承载能力。

敏捷测试转型

查看原文：聊聊混沌工程的企业实践

文章来源：

敏捷测试转型

扫码关注公众号

相关推荐

以线上事故驱动混沌工程更能展现价值

1586

混沌工程测试事故

运维部门离线上事故更近，所以可以用线上事故驱动混沌工程，来体现混沌工程的价值。可以优选“严重级别”高且“业务影响时长”长的线上事故，有助于多样化地在混沌工程实验中引入现实世界事件，并能更好度量成效。

聊聊混沌工程

1633

混沌工程实验系统

混沌工程是一门新兴学科，它不仅仅只是个技术活动，还包含如何设计能够持续协作的混沌实验。它由Neflix首先在实践中发现了混沌工程的商业价值，通过构建更有韧性的系统来抵御海量组件系统的意外失效

混沌时代下，硬件企业更应该变敏捷

366

混沌敏捷企业硬件

随着近几年的国际形势和AI技术的发展，我们越来越体会到复杂的世界开始越来越多向混沌的世界倾斜。本文想站在企业的角度，和读者一起探讨如何在“艰难”而“混沌”的外部环境中“留在桌上”！

混沌工程赋能：规模化地应对上云后的未知暗债

1374

服务团队混沌赋能

企业如何规模化地赋能团队，以应对上云后所遭遇的未知暗债？在解决这个复杂问题的过程中，混沌工程诞生了。

大厂在混沌工程领域的实践

1379

混沌工程

大厂在混沌工程领域的最佳实践。

我对混沌工程的理解

1343

工程混沌实践稳定性

重新认识混沌工程。

敏捷测试转型

《无测试组织-测试团队的敏捷转型》主题探讨。从打造测试的组织敏捷，到敏捷测试技术的丰富实践，从一线团队的视角来聊聊我们是怎么做的。面向未来，拥抱敏捷原则，走向高效能组织。

97 篇文章

浏览 154.4K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

敏捷测试转型的其他文章

聊聊用户故事与测试启发

用户故事的概念于1998年被正式提出，在2001年开始逐步成熟，在Scrum流程中配合使用，效果显著。我们先回顾一下用户故事最核心的知识内容，再看看有哪些测试启发

聊聊如何自研200元的电量测试仪

专业电量测试硬件设备非常昂贵，4-10万不等，作为预算有限的小团队，我们萌生了自己研制一套小巧便宜的电量仪的想法

聊聊用户故事地图

主要的用户故事场景，就是测试应优先关注的覆盖场景。本文就聊聊用户故事场景的脑爆梳理方法：用户故事地图

聊聊CMM/CMMI认证的反敏捷

对于传统软件行业的QA（过程改进）人员，CMM/CMMI知识是基本要求，但是在推行敏捷的组织中，CMM/CMMI并不被接受，甚至和敏捷转型理念背道而驰。这篇短文就聊CMM/CMMI认证的反敏捷之处，QA人员可以对比思考

聊聊高效会议

会议占据了研发团队相当大的时间，管理者如何践行高效会议方法，对团队整体提效和满意度都会有正向影响，测试团队更是对频繁参会吐槽颇多。本文前半部分是一些个人反思和行动，后半部分是阅读《贝佐斯如何开会》一书的提炼和感想

随机阅读

当我们讨论“平台”，我们在说什么

08-19

干啥啥不行，被裁第一名的Scrum Master

08-17

给技术管理者的入门书，《门后的秘密：卓越管理者的故事》

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

聊聊混沌工程的企业实践

版权声明

混沌工程在大型企业的实践与洞见

演练前的关键准备

灾难剧场演练流程

演练过程与结束

常见的灾难测试类型

灾难结论与总结

人为阻力与应对

混沌工程工具支持

组织能力提升

新手程序员必学10大技能

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群