
当 Transwarp ArgoDB 出现以下重大紧急故障时,需要您立即采取应急措施,并通知相关人员进行处理。
-
数据库无法启动或崩溃。
-
数据库性能严重下降或无法响应。
-
重要数据(无备份数据)丢失,数据需支撑日常上层重要应用。
-
数据库中大范围数据不可访问,影响对外核心业务功能无法正常运行。
-
数据库安全漏洞或受到攻击。
应急处理流程如下表所示:

以下向您提供流程图说明,帮助您更加清楚的了解故障应急处理流程的含义及实现方式:
编号 | 步骤 | 步骤描述 |
---|---|---|
步骤 1 |
开始 |
ArgoDB 数据库管理员发现故障,收集故障详细信息。 |
步骤 2 |
故障定位 |
根据故障影响范围及严重程度,定位紧急程度。定位方法请参考故障类型判断。 |
步骤 3 |
紧急故障 |
判断该故障是否为紧急故障。 |
步骤 4 |
一般处理流程 |
如果该故障为紧急故障,则触发故障处理一般流程。 |
步骤 5 |
定位故障所处物理位置 |
如果是紧急故障,则需要数据库管理人员定位该故障影响的业务范围及业务所处位置节点。 |
步骤 6 |
隔离故障 |
对于紧急故障,应该首先将故障节点进行隔离,避免进一步影响其他业务或数据。 |
步骤 7 |
故障发生知否是外部系统原因? |
判断该故障是否是 ArgoDB 以外的因素引起。 |
步骤 8 |
联系外部系统维护人员 |
如果是外部系统导致的数据库故障,请及时联系外部系统维护人员进行处理。 |
步骤 9 |
修复故障 |
如果确定是由 ArgoDB 内部原因导致,则请您按照手册进行故障修复。具体紧急故障的处理方法步骤,请参考应急处理章节。 |
步骤 10 |
故障已清除 |
测试判断故障是否被解决,集群是否正常运行,数据是否完整。 |
步骤 11 |
SLA 流程 Sev0 |
如果故障未被清除,或集群无法正常运行,您可以选择提交星环 Sev0 级的 SLA 流程 申请技术人员支持。具体 SLA 流程提交请参考《SLA 制度及流程》,该层级问题我们将会在 4 小时内为您响应并处理。 |
步骤 12 |
记录处理过程 |
当故障经过测试已经成功清除之后,需要故障处理人员对整个处理过程进行记录归档,方便后续进行复盘及预防。 |
步骤 13 |
结束 |
至此,ArgoDB 重大紧急故障应急处理流程到此结束。 |