崩后的B站,适合执行混沌工程实验
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
吾真本说混沌工程
扫码关注公众号
扫码阅读
手机扫码阅读
前天晚上,B站遭遇服务器机房故障,导致服务暂时不可访问。尽管采用了高可用架构,但这一事件再次证明了分布式系统固有的“暗债”和不可避免的生产故障。故障发生几小时后,服务得以恢复,强调了快速修复能力对增强系统信心的重要性。
对于缺乏对生产环境稳定性信心的团队,可以通过实践混沌工程来提高对系统的信心。混沌工程能够帮助团队持续发现和快速修复潜在的生产故障。
执行混沌工程实验的团队通常具备以下特点:
- 团队负责的软件产品是分布式系统,依赖多个外部系统。
- 团队领导及其他相关人员认可混沌工程价值,愿意投入时间与资源。
- 公司文化鼓励从生产事故中学习,而非相互指责。
- 产品已部署于生产环境并供用户使用,但团队对其稳定运行缺乏信心。
- 产品有“准生产”环境以进行混沌实验,且有可观测性工具记录数据。
- 团队成员理解混沌实验全过程,且有主持人引导。
- 基于分布式系统稳定性设计模式,团队对系统模块进行了设计和评审。
- 已完成混沌实验设计与评审,包括制定安全措施和应对故障的能力。
总结以上,混沌工程是帮助团队增强对产品稳定性信心的实践工具,特别适用于管理复杂的分布式系统。通过混沌实验,团队能够更好地理解系统潜在问题,从而提高系统的可靠性。
(本文摘要感谢Thoughtworks公司同事的建议。)
吾真本说混沌工程
吾真本说混沌工程
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
吾真本说混沌工程的其他文章
用"责任风暴"驱动OOADP和DDD
《领域驱动设计》一书主要讨论如何更好地做OOD。但OOD之前的OOA和需求工作流,甚至包括OOD如何落地,Evans在书中并没有讲。如果仅读这本书,而没有掌握OOAD整套的方法,是无法将DDD落地的。本文试图弥补这个空白。
《Learning Go》中译版推荐序
读书很花时间。由于要运行书中的代码,读编程语言的书就更花时间。对于难以实现时间自由的程序员们来说,只有选择读
K8S下所用的Istio就是检验微服务稳定性的混沌工程开源工具
在K8S上部署的微服务,经常会依赖不受你控制的其他微服务。当两者之间的HTTP交互出现延迟或错误后,你的微服务能否按预期正常工作?应该做一个故障注入实验来检验。如果在K8S上使用了Istio,那么恭喜,你已拥有了简单易用的混沌工程开源工具。
2016版编程操练神器Cyber-dojo的VMDK虚拟机镜像文件下载
经过Cyber-dojo的作者Jon Jagger的同意,我把在我电脑VirtualBox虚拟机中安装完毕的新版Cyber-dojo私有服务器的14GB大小的VMDK文件,切成14份,上传到云盘,供大家下载,能免去翻墙安装的痛苦。
OnD1: 微信朋友圈权限领域建模操练
距离上次我搞编程道场转眼快3年了。难以找到自己满意的操练题目是隔了这么久的主要原因。好在我最近终于找到了更感兴趣的方向和题目。这是改名后的第一次操练道场。欢迎参加!
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线