|
灾难恢复中IT负责全职责?
尽管我们一再小心谨慎,但是,不可避免会发生各种各样的灾难。在这里,灾难的定义主要是指自然的和人为的灾难,包括系统硬件、网络故障、机房断电甚至火灾地震。
灾难恢复计划属于整个公司,IT参与规划,但不应该完全是IT的职责。
很多人觉得,这不是IT的责任吗?如果有灾难发生,你们需要确保我们能够恢复我们的系统。
“是的,而且我们会这样做。 但是,灾难影响的远不止是我们的系统。我们的系统遇到问题,可以使公司陷入瘫痪的问题的其中一部分,但是我们的灾难恢复计划应该考虑我们企业的所有风险,而不仅仅只是我们的系统风险。”
影响和可能性的风险评估
这样的规划可能导致一连串的长会议,长篇大论,各种分歧,没有任何进展的噩梦。为了避免这种情况发生,我采用了一种风险评估/缓解的方案。它是这样工作的。
首先让团队的每个成员进行头脑风暴 - 而且每一个大胆的想法都是欢迎的 – 所有可能让公司崩溃的灾难。这一列表随业务和地区,而各不相同,包括:心怀不满的员工,水灾,火灾,数据泄露,核心员工的流失,关键技术的流失,以及一切可能破坏区域办公室或办公点的情况 - 停电,等等。对于这些类型的每个风险,我们都通过影响和可能性的组合,对它们进行评估。
对于那些低影响,低可能性的风险,我们将如何缓解它们。对于那些中度影响/高度可能性,或高度影响/中度可能性的风险,我们的灾难恢复计划应覆盖这些风险。
一旦我们评估了风险, 我们就确定缓解计划,如何正确应对风险。灾难恢复可能会很昂贵,也很容易在那些我们也许永远不会使用的恢复选择上进行过度投资。而且,系统,流程和性能的冗余 - 是非常昂贵的,我们应该只在高度影响/高度可能性风险上采用冗余或部分冗余。对于其他风险,我们需要思考的是如何迅速从灾难中恢复, “迅速”则要根据具体情况。
演习
下一步为所有值得缓解的风险,实施计划。但是,这一步要基于风险评估。首先执行高度影响/高度可能性的计划。
这个过程的最后一步是测试这些计划,这就带来了些许的乐趣。用模拟和安全的方式 -- 看着世界土崩瓦解总是有趣的:突然中断某个项目,然后看着恐慌发生。 (请务必告诉那个负责财务报告的人,观察这一过程,而不是参与这一过程。)准备一个远程站点,进行几天的人工事务处理,观察还有没有其他问题发生。
一旦测试结束,评估结果并重新制定你的风险缓解计划。无论是多么优秀的团队,如果没有制定了计划,他们几乎肯定会犯错误。
本文转自 多备份论坛
|
|