2005年4月,重庆市农村信用联社的数据中心直接面临大火的威胁,好在数辆消防车对位于大厦六层的数据中心进行了重点补救,最后在下面几层楼房几乎被烧毁的情况下,数据中心得以幸存。在数据中心幸免被毁之后,重庆市农村信用联社开始思考火灾引出的风险问题。这种思考直接导致了后来《重庆农村信用社信息系统风险管理方案》的制定与出台。
2007年3月的一天,某大银行的客户遭遇噩梦。由于其总行的数据中心网络出现故障,包括北京、上海、广州等城市在内的各营业网点和网上交易业务被迫中断4小时。来银行办理业务的人们为不能及时办理业务而焦虑,更让他们担心的是,这次故障会不会导致他们帐户资金的差错或损失。
金融业信息科技事故表明,如果银行系统中断1小时,将直接影响该行的基本支付业务;中断1天,将对其声誉造成极大伤害;中断2-3天以上不能恢复,将直接危及其他银行乃至整个金融系统的稳定。当中国从IT科技获得越来越多动力的时候,中国的IT风险正在急剧膨胀的过程中。
银行业是中国应用IT科技最早也是最广泛的行业,同时也是关注IT风险最早的行业。早在2002年,中国人民银行就要求“为保障银行业务的持续性,保证银行稳定运行,实现数据集中的银行必须建立相应的灾难备份中心。”2006年,中国银监会又进一步明确要求“实施数据集中的银行业金融机构应同步规划、同步建设、同步运行信息系统灾难恢复系统”。灾难备份中心的规划建设应综合考虑平衡风险与成本、运维管理与灾难恢复力量等因素,可采取自建、联合共建和利用外部企业(组织)的灾难备份设施等方式。倚重专业服务提供商的灾难备份设施,利用高质量的数据中心资源和专业化灾难恢复服务能力,正在成为银行加快、加强灾难恢复系统建设的一条好路子。
中国有句古语,叫做“防患于未然”。这就要求中国行业、企业对IT风险的防范实现主动出击,而主动出击则意味着必须从IT基础设施开始。中国CBCM方面的专家陈天晴先生说,数据中心基础设施作为高度依赖信息系统的组织的运作基础,是风险管理的重点,必须高度重视数据中心基础设施建设。生产数据中心是业务运作之基础,必须保证其高可用性,确保业务持续运行。对于一个业务组织来说,灾备中心只是保证业务持续运作的“最后一道防线”。生产中心才是业务持续运作之本,必须优先考虑生产中心的建设,保证其高可用性,满足业务要求。从数据中心自身的等级而言,从国际上看,数据中心一般分为4级,第一是基本数据中心,第二是有冗余设计数据中心,第三是可并行维护数据中心,第四是容错数据中心。第四级数据中心的可用性可达99.995%。
下面我们分析下主流灾难备份及恢复技术
一 选取灾备技术的依据
灾备的目的是确保灾难发生后业务立即恢复,应用能够尽快投入使用,采用的各种技术不论是数据备份、数据复制还是灾备技术,无非都是围绕着业务连续来进行,这些技术是灾备的关键环节。衡量这些技术标准无非是RPO(Recovery Point Object,恢复点目标)和RTO(Recovery Time Object,恢复时间目标),也就是出现灾难的时候多长时间可以让业务继续运作,同时会丢失多长时间的数据。具体采用哪项技术,完全要根据实际需求,再结合各种技术能够达到的RTO和RPO指标来决定,需要说明的是,追求两个技术指标都是零的做法是不经济的,也是不现实的,任何事情都要考虑投入产出比和回报。
二 主要灾备技术概览
1.系统灾难恢复(BMR)
系统灾难恢复,就是在系统出现崩溃的时候,能够用非常少的步骤,将系统重建,包括上面的系统补丁、应用软件和数据。这样可以提高恢复的准确性、缩短恢复时间、缩短业务中断时间。
目前的主要灾备技术,在恢复的时候有这么几种方式:
采用公用的一张光盘,所有的系统都采用这一张光盘。这个光盘可以启动系统,同时可以启动网络,然后备份服务器将备份在磁带库(或者虚拟带库)中的整个硬盘内容或者第一主分区内容恢复到灾难机。这样不论灾难机原来有多大容量数据,都可以存放在整个备份系统的备份设备中,统一进行管理,而且不需要经常刻光盘,也就是说光盘不需要经常更新。比较典型的代表是BakBone NetVault VaultDR。
需要针对每台计算机单独刻光盘,数据恢复的时候需要利用针对性的光盘来恢复,每台机器都需要自己的光盘,而且需要定期不断更新。这种方式的最大不足是经常要刻光盘,否则灾难出现的时候如果没有光盘或者光盘太久了,都会影响恢复的速度和恢复后的状态。这种技术的典型代表是EMC NetWork Recovery Manager模块.
恢复时需要借助网络启动,也就是需要具备一台相同操作系统的主机作为引导机器,然后利用备份的内容进行恢复。这种技术的典型代表是Symantec NetBackup的Bare Metal Restore模块。
操作系统自己提供的灾备工具。对于大多数Unix小型机,都提供系统备份工具。借助于系统自身提供的磁带机,利用一个简单的命令,HP-UX采用make_recovery就可以把整个root卷备份到服务器自带的4mm磁带上。在恢复的时候,这盘磁带可以自启动系统,采用一个命令就可以将整个root卷恢复到硬盘上。这种方式的好处是简单和经济,尤其对于Unix系统,这样的方式远比目前备份软件提供的BMR模块方便、安全和经济,因为备份软件提供的BMR模块往往需要相同平台的其他服务器来启动。
2.数据远程复制
将数据在另外的地方实时产生一份可用的副本,此副本的使用不需要做数据恢复,可以将副本立即投入使用。数据复制的最大好处是副本数据立即可用,没有数据恢复时间,RTO 非常好,同时因为是实时复制,RPO也非常好,几乎不会丢失数据。缺点是费用远比数据备份要高,不仅仅是数据复制系统价格高,还需要另外的硬盘存储空间和主机系统,甚至建立另外的远程机房,考虑网络布线,这些都将带来成本大大增加,所以数据复制的建设和维护费用远远大于数据备份。
数据复制目前有如下实现方式:
基于主机。基于主机的数据复制技术,可以不考虑存储系统的同构问题,只要保持主机是相同的操作系统即可,而目前也存在支持异构主机之间的数据复制软件,如BakBone NetVault Replicator就可以支持异构服务器之间的数据复制,可以支持跨越广域网的远程实时复制。缺点是需要占用一点主机资源。
基于存储系统。利用存储系统提供的数据复制软件,复制的数据流通过存储系统之间传递,和主机无关。这种方式的优势是数据复制不占用主机资源,不足之处是需要灾备中心的存储系统和生产中心的存储系统有严格的兼容性要求,一般需要来自同一个厂家的存储系统,这样对用户的灾备中心的存储系统的选型带来了限制。
基于光纤交换机。这项技术正在发展中,利用光纤交换机的新功能,或者利用管理软件控制光纤交换机,对存储系统进行虚拟化,然后管理软件对管理的虚拟存储池进行卷管理、卷复制、卷镜像等技术,来实现数据的远程复制。比较典型的有Storag-age,Falcon等。
基于应用的数据复制。这项技术有一定局限性,都是针对具体的应用。主要利用数据库自身提供的复制模块来完成,比如OracleDataGuard,Sybase Replication 等。
3.CDP 连续数据保护技术
CDP 技术是目前最热门的数据保护技术,它可以捕捉到一切文件级或数据块级别的数据写改动,可以对备份对象进行更加细化的粒度的恢复,可以恢复到任意时间点。
CDP技术目前是一个新兴的技术,在很多传统的备份软件中都逐渐融入了CDP的技术。比如BakBone NetVault Backup 8.0 追加了TrueCDP模块,Symantec BackupExec11d等。其他公司包括EMC,Symantec都并购了一些CDP的软件,正在和传统的备份软件进行整合,目前还都在整合中。
CDP技术包括两种:
Near CDP,就是我们说的准CDP,它的最大特点是只能恢复部分指定时间点的数据(FPIT,Fixed Point In Time),有点类似于存储系统的逻辑快照,它无法恢复任意一个时间点。目前Symantec 、CommVault的CDP都属于这种类型。
TrueCDP,我们称之为真正的CDP,它可以恢复指定时间段内的任何一个时间点(APIT,Any Point In Time),目前BakBone TrueCDP属于TrueCDP类型。
三 当前灾备的主要应用情况
目前采用灾备方案的分布在各个行业,不过大家都是按照一定的梯度来使用。
首先采用的是系统灾难备份(BMRBare MetalRecovery),因为这种方案成本最低,只要在建设数据备份系统的时候追加一些模块就可以完成。不需要附加的存储空间,也不需要附加的容灾机房,所以,有条件的用户几乎都可以实施。只不过有的用户采用操作系统提供的备份工具来辅助,有的用户采用备份软件提供的灾难模块来完成。这样的用户数量最大,分布在各个行业。BakBone 的VaultDR在使用BakBone NetVault的备份软件用户中被广泛采用。很多用户非常喜欢BakBone VaultDR不用关心操作系统类型,而且一张标准光盘可以应用到所有Intel x86服务器进行灾难备份和恢复。
其次是建立容灾系统的用户,大数据量的高端企业普遍采用基于存储的数据复制技术,比如电信、金融行业。中低端用户普遍采用基于主机的数据复制软件,成本较低,而且不需要进行严苛的存储系统采购,尤其是BakBone的NetVault Replicator不但可以进行远程数据复制,而且可以支持异构平台,所以在国内外有广泛的用户,一些政府部门、电力公司、证券部门、网站公司等目前都采用这种方式,而且大多运用在Windows、Linux平台。基于存储交换机层的虚拟存储技术虽然也在有了一些用户,但是因为此技术起步时间有限,技术成熟度需要进一步验证,很多用户只是做为试点,没有大范围的展开。对于基于应用的数据复制方式,也有部分高端客户在采用,而且也有大量的用户。
对于CDP技术,才刚刚起步,这种技术满足了很多关心灾备的用户的需求,在RTO 和RPO方面都能得到很高的标准,同时还可以进行任意历史版本的重现,正在被越来越多的用户所关注,相信将来会有非常广泛的用户。BakBone的TrueCDP可以进行任意时间点的恢复,是真正意义上的CDP,将会比其他准CDP产品有更大的优势,会被更多关心灾备的用户所选用。
四 应用误区
灾备系统因为能够带来业务的连续性,正越来被大家所重视,但是在使用过程中也要切记出现一些误区。
没有选择适合自己的。没有仔细分析和明确业务连续要求,对RTO和RPO没有进行仔细研究,要么不做,要做就想追求最全面的,这样可能忽视了最需要的建设,没有切实满足自己的需要。
认为灾备系统是万能的,夸大灾备系统的作用,忽视了备份系统、高可用系统的建设。其实各个系统都有自己的作用,需要根据实际需求进行建设。
没有有步骤分阶段的进行灾备建设,总想等实际成熟的时候全面建设,甚至还没有先进行数据备份系统的建设,就开始着手进行灾备系统建设。不进行备份系统建设,就没有满足数据安全的底线,在关键时刻缺少一份完整的数据,而花费大量的财力进行灾备系统建设,反而得不偿失。
多种灾备技术的选用不合理,比如主机系统的资源可以接受基于主机的复制软件来运行,却选用了基于存储系统的设计,造成必须选用相同类型的存储设备,增加了总体费用。
对BMR系统灾难备份总是希望选用备份软件自带的BMR模块。其实,备份软件自带的BMR模块对于Window和Linux比较方便,但并不是对于所有的Unix系统都合适,在Unix系统备份方面,Unix自带的系统备份工具和自带的磁带机就非常方便,一个命令就可以完成系统备份,还不用依赖于其他服务器,远远胜于一些备份软件自带的BMR模块,不但操作方便,而且减少费用。
五 未来发展方向
未来的技术发展应该是多种技术并存,而且越能满足客户需求的方式更能得到客户的关注。
未来的发展之一应该是基于主机的异构复制技术会有更广泛的市场。因为大多数客户具备异构主机环境,支持异构环境的数据复制技术,就可以利用现有环境,各台主机之间互为复制。对于不支持异构环境的复制软件,就需要购买相同的存储或者购买相同操作系统的主机进行数据复制,增加了灾备的总体费用。
未来的发展之二就是CDP技术。CDP融合了数据备份和数据复制的优点,既可以进行实时数据保护,还可以任意时间点的历史数据恢复,将会具有更加强大的生命力。随着TrueCDP和传统备份软件的无缝衔接,将会有越来越多的用户采用TrueCDP 进行灾备系统建设。 |