什么是故障复盘（case study）？

在大厂，出现线上事故，或者重大资产损失之后，组织相关人员复盘事故过程，分析故障原因，判定故障影响等级，制定后续预估防措施。

一些概念

from chatGPT

什么是故障复盘

故障复盘（case study）是指在发生故障或事故后，对事件进行详细的分析和总结，以便更好地理解事件的原因和影响，并提出改进措施，以避免类似事件再次发生。故障复盘通常由相关人员组成的团队进行，包括技术人员、管理人员和其他相关人员。复盘过程通常包括收集数据、分析数据、确定原因、提出改进措施和实施改进措施等步骤。故障复盘是一种重要的学习和改进方法，可以帮助组织提高效率、降低成本、提高质量和安全性。

举一个例子

假设某公司的服务器在某个时间段内出现了故障，导致公司的业务受到了影响。为了避免类似事件再次发生，公司可以进行故障复盘，具体步骤如下：

收集数据：收集与故障相关的数据，包括故障发生的时间、地点、影响范围、故障类型、故障持续时间等。
分析数据：对收集到的数据进行分析，确定故障的原因。可能的原因包括硬件故障、软件故障、网络故障、人为错误等。
确定原因：根据分析结果，确定导致故障的主要原因。例如，可能是服务器硬件老化导致的故障。
提出改进措施：根据确定的原因，提出改进措施，例如更换服务器硬件、加强维护保养等。
实施改进措施：根据提出的改进措施，实施相应的改进措施，以避免类似事件再次发生。

通过故障复盘，公司可以更好地理解故障的原因和影响，并采取相应的措施，以提高业务的稳定性和可靠性。

举一个实际例子

一个实际的例子是2018年3月，Facebook的服务器出现了故障，导致全球用户无法访问Facebook、Instagram和WhatsApp等服务。为了避免类似事件再次发生，Facebook进行了故障复盘，具体步骤如下：

收集数据：收集与故障相关的数据，包括故障发生的时间、地点、影响范围、故障类型、故障持续时间等。
分析数据：对收集到的数据进行分析，确定故障的原因。经过分析，Facebook确定是服务器配置更改时出现了错误，导致服务器无法正常工作。
确定原因：根据分析结果，确定导致故障的主要原因。Facebook确定是人为错误导致的故障。
提出改进措施：根据确定的原因，提出改进措施，例如加强服务器配置更改的审查和测试、建立更完善的备份和恢复机制等。
实施改进措施：根据提出的改进措施，实施相应的改进措施，以避免类似事件再次发生。

通过故障复盘，Facebook更好地理解了故障的原因和影响，并采取了相应的措施，以提高服务的稳定性和可靠性。

故障等级怎么分

故障等级通常根据故障对业务的影响程度和紧急程度来进行分级。不同的公司和行业可能会有不同的故障等级分类标准，以下是一种常见的分类标准：

级别一：严重故障。指故障对业务的影响非常严重，可能导致业务中断或无法正常运行，需要立即采取紧急措施进行修复。
级别二：重要故障。指故障对业务的影响较大，但不会导致业务中断，需要尽快采取措施进行修复。
级别三：一般故障。指故障对业务的影响较小，不会导致业务中断，但需要及时采取措施进行修复。
级别四：轻微故障。指故障对业务的影响非常小，不会影响业务的正常运行，但需要进行修复以保证系统的稳定性。

在实际应用中，故障等级的分类标准可以根据具体情况进行调整和优化，以更好地适应业务需求。

我的实际经验

故障是程序员的家常便饭

没有经历过线上故障的程序员都不是合格的程序。

没有故障有两种可能

没有机会接触核心业务，没法影响用户。
业务比较成熟，只能做微小的改动。

只要有上线，肯定会触发线上故障。

减少故障是优秀程序员的核心技能

权力越大责任越大，避免线上问题是程序员的两个核心职责之一。

很多代码原则、开发流程都是围绕着减少线上故障。

如何能减少线上故障

以下是一些减少线上故障的方法：

监控系统：建立完善的监控系统，及时发现和解决故障，避免故障扩大化。
自动化测试：建立自动化测试流程，确保代码质量和稳定性，减少线上故障的发生。
容灾备份：建立容灾备份机制，确保系统在故障时能够快速切换到备份系统，避免业务中断。
灰度发布：采用灰度发布策略，逐步将新功能或代码上线，避免一次性上线导致的故障。
安全防护：加强安全防护，防止黑客攻击和恶意软件的入侵，避免系统被破坏。
定期维护：定期对系统进行维护和升级，确保系统的稳定性和安全性。
团队协作：建立高效的团队协作机制，及时发现和解决问题，避免故障扩大化。

补充：

自动降级，遇到问题，保留核心功能
第一时间回滚，发布后出现问题。第一时间回滚。不要想着修复问题。

核心是：避免故障扩大。减少影响范围，减少影响时长。