谈地理分散并行系统的灾难恢复

80酷酷网    80kuku.com

  恢复

  由于应用的可用性和灾难恢复能力越来越被看重,越来越多的公司开始采用双站点策略。地理分散并行系统(Geographically Dispersed Parallel Sysplex ,GDPS)的多站点应用可用性解决方案技术也发展成熟,这类方案能够提高应用的可用性和灾难恢复能力。

  下文叙述的所有解决方案都假设主站点和恢复站点之间通过企业系统连接(ESCON)一类的宽带连接互连:

  备份和恢复

  在所有的 IT资 源中,数据最重要,但也最不稳定最复杂。其他资源,如处理能力、供应商提供的软件、DASD、存储设备、建筑物等,都是最终可替换的,但大部分数据却是不可替换的。而数据对商业活动来说是最重要的。在这里我们将讨论适用于灾难恢复的不同 IBM 产品,它们能够进行不同类型的数据管理,设置不同的数据备份选项。本部分主要叙述用于灾难恢复的功能,但并没有覆盖这些产品所有的可用功能。

  远程拷贝

  当某一应用站点停机时,IBM 的远程拷贝功能能够进行快速有效的灾难恢复。该功能能够在远程站点实时维护数据的镜像拷贝,并确保以与主站点完全相同的次序在远程站点进行数据写入更新的远程复制。这一解决方案在远程拷贝控制机制下自动对 DASD 卷上的数据进行跟踪。这种跟踪的发生独立于使用这些数据的应用。因此,来自不同应用的独立远程拷贝功能是不需要的。

  应用的性能保护、数据当前值选项和数据独立都是 IBM 远程拷贝设计中的组成部分。远程拷贝方法有以下不同的两种:

  对等远程拷贝(PPRC)

  扩展远程拷贝(XRC)

  PPRC 和 XRC 都试图通过维护 DSAD 卷间的实时拷贝来达到数据保护的目的。远程拷贝超出了狭隘意义上的双重拷贝,因为它允许副卷存储在远地点上。双重拷贝的主要用途是保护数据不受设备失效的损害,而远程拷贝的目的要更加广泛。

  对等远程拷贝 (PPRC)

  PPRC 提供的灾难恢复能够最大限度地保留数据当前值。如果您属于以下的情况,PPRC 将能够很好地适合您的需要:

  避免数据丢失是您最优先的考虑

  您的运行站点和恢复站点之间的距离不超过 103 公里

  您的工作负载和要求能够承受同步拷贝带来的性能损失

  PPRC 提供有助于保留数据当前值和完整性的两类选择。一个选择是将卷标记为"关键",保证在副卷不能更新时,原有的更新也将无效,不论卷是处于同步状态还是非同步状态,甚至是在灾难出现时也如此。这一功能通过 APAR 提供,在写入时被设置为可用。

  第二个选择是使用最近被改进的系统错误恢复程序(Error Recovery Procedure,ERP)。当发生问题时,ERP 在向主机返回完成状态之前记录错误信息,在远程站点上将配置这些记录的一个拷贝,从而即使在灾难过程中也能够连续提供哪些卷处于同步状态和哪些卷没有处于同步状态这样的信息,这一功能通过 APAR 提供。

  扩展远程拷贝 (XRC)

  扩展远程拷贝(XRC)是一种异步拷贝功能,在正常运行期间对大多数应用性能的影响最小。XRC 在远程恢复站点为您的运行数据创建一个副本拷贝。

  如果您属于以下的情况,XRC 对您将是比较适合的:

  应用在正常操作过程中的性能是您最优先考虑的对象

  可以接受副站点数据当前值更新的较小延迟

  如果您的运行站点和恢复站点之间的距离超过 103 公里或出现 "线路" 问题,您可以使用 CNT CopyXpress 或其他信道扩展器使您的 XRC 解决方案通过电信线路得到扩展。由于 XRC 需要 OS/390 的系统数据移动器(System Data Mover, SDM),因此,它只能在 OS/390 环境下工作。

  为确保数据完整性,Data Mover 的设计使其能够以主站点上相同的顺序在远程站点上进行数据的更新。对于远程拷贝数据会在某些存储控制器上展开的情况,这一功能将是特别重要的。

  以上两种解决方案在远程拷贝机制下都能够对 DASD 卷上的数据进行自动跟踪。跟踪的进行与使用数据的应用相互独立。因此,来自不同应用的分散的远程拷贝功能是不需要的。一旦对某一卷建立了远程拷贝,远程拷贝的运行将是透明的。当数据写入主 DSAD 时,无须应用用户的任何干预,这些数据就会被拷贝到远程 DSAD 中。

  PPRC 和 XRC 不同之处在于以下几个方面:对 DSAD I/O 性能的影响、灾难发生时数据当前值的最新程度、系统资源的占用、操作距离和运行控制。

  ESS 支持某些硬件辅助的拷贝功能的目的有两个:为能够提供数据即时拷贝的灾难恢复解决方案和拷贝功能提供镜像操作功能。StorWatch ESS 专家拷贝服务 Web 浏览器接口提供了一种任何环境下建立和管理 PPRC 的方法。它为使用控制面板建立图形视图任务的用户进行操作管理提供了一种有组织的方法。

  并发拷贝功能 (Concurrent Copy)

  并发拷贝是改进后的 DFSMS/MVS 和 IBM S1390 型号 3 以及型号 6 所提供的一种功能。RAMAC 虚拟阵列(RAMAC Virtual Array ,RVA)和企业存储服务器(Enterprise Storage Server ,ESS) 成为 IBM S1390 系列当然的后续产品。

  并发拷贝允许对数据进行 "时间点" 性质的拷贝,而这些数据可同时被更新。只有提出拷贝请求时数据库的更新才必须被停止(停止的时间长度以秒计)。一旦请求被接受,更新可以被恢复,并发拷贝将创建一个拷贝请求发出时的数据拷贝。这一功能大大减少了数据库进行备份拷贝所引致的不可使用时间。在很多情况下,节约的时间要以小时计,而且并发拷贝大大增加了 OS/390 环境下在线操作和批处理的时序安排灵活性。

  在并发拷贝出现之前,物理和逻辑信息转储之间常常需要进行交替换位。在转储过程中,数据对其他应用来说是不可用的。物理转储进行的速度较快,但必须被恢复到一个相似的设备上。因为每天晚上都要进行转储,而恢复并不经常进行,所以总的来说物理转储可以减少停机时间。

  并发拷贝出现后,规则就被改变了。对于并发拷贝转储来说,只有并发拷贝转储请求被接受时,数据才是不可用的。在实际转储过程中,数据都是可用的。在使用并发拷贝的情况下,逻辑转储具有与物理转储一样的数据可用性;不使用并发拷贝时,逻辑转储在数据可用性方面比物理转储要好。

  DFSMSdss 也提供了并发拷贝功能。这一功能由 DFSMSdss 控制语句中嵌入的 CONCURRENT 参数调用。DFSMSdss 可以作为一个正常的任务步骤被调用,也可以被使用 DFSMSdss API 的程序调用。大多数并发拷贝工作并不由 DFSMSdss 执行,而是由作为 DFSMS/MVS 组件的系统数据移动器 (SDM) 执行。

  环境初始化完成后,拷贝开始,数据更新重新恢复。如果正在被拷贝的数据需要被更新,或被更新的数据还没有被拷贝,这些数据就被拷贝到 IBM DASD 控制器高速缓存中的 sidefile 中,更新工作将继续进行直至完成。为使对高速缓存的占用最小,数据将由高速缓存的 sidefile 转移到 MVS 的数据空间 sidefile 中。在拷贝数据时,DFSMSdss 在(存入)磁盘前不断检索sidefile,因此,备份中并不包含拷贝请求被接受以后所发生的任何数据更新。

  ESS 中并发拷贝的工作方式与其在 IBM S1390-6 中的工作方式一样。并发拷贝由 DFDSS 中包含的 CONCURRENT 关键字发起,或由将 DFSMSdss 作为拷贝程序并对其进行内部调用的应用发起。

  快速拷贝 (Flash Copy)

  ESS 提供的快速拷贝功能使计算中心能够在几秒钟内为一个逻辑卷或数据集创建一个拷贝。由于创建数据的快速拷贝仅需要几秒钟的时间,所以您的应用只须中断很短的时间。在此之后,您的应用将继续运行。快速拷贝所拥有的独特功能使计算中心能够随意安排运行数据集的备份,从而在灾难发生时能够提供数据的快速恢复。

  快速拷贝只能用于磁盘卷之间,它要求目标卷与源卷处于同一个逻辑子系统中。当拷贝操作建立时,目标卷与源卷之间将建立一种关联。这一关联建立后,卷拷贝将能够被访问,一个后台作业将复制所有由源卷拷贝到目标卷的磁道。如果 ESS StorWatch 专家拷贝服务建立了一个快速拷贝过程,您可以使用 NOCOPY 选项来禁止这一后台拷贝任务。如果您仅在短时期内需要拷贝功能,那么以上功能就用得上了。

  快速拷贝可以通过 OS/390 拷贝程序 DFSMSdss 来启动,对于 ESS 中设置了卷或 LUN 的系统,则可以通过 StorWatch ESS 专家拷贝服务的 Web 接口来启动。快速拷贝功能还可以与其他硬件辅助的功能如 PPRC 相结合,使您可以在几秒钟内创建 PPRC 副卷的一个快速拷贝。


业务数据恢复由于业务相关数据主要部分的管理是由一个或多个数据库管理系统(DBMS)来完成,本部分将说明主站的恢复过程,并且将着重说明灾难恢复时的不同。

  传统意义上,数据库恢复的基础是利用一个安全的时间点备份(映像拷贝)来进行数据库恢复,并利用 DBMS 历史记录中的一个安全拷贝可以随意执行一个向前恢复。对 DBMS 数据库来说,很有可能执行的是 "实时向前滚动" 和 "实时远程更新" 解决方案。

  在灾难发生时计算中心如果使用历史记录数据进行向前恢复,那么历史记录数据与必要的恢复控制信息一起必须被安全地离站存储。如果 DBMS 运用双历史记录,那么副历史记录数据可以分配到远程附属的 DASD 上。这可能是一个花费稍高的解决方案,但它能够消除历史记录数据丢失带来的风险。否则,您需要通过磁盘镜像来使用远程实时历史记录,例如 IBM 的远程拷贝功能。

企业系统连接 (ESCON)
ESCON 极大地提高了处理器和 I/O 设备之间以及多处理器之间的内部连接能力。利用 ESCON,数据可以以 18.6MB/秒的速率传输。传输的最大距离取决于光纤电缆的类型、内部连接的组成部分以及所使用的控制单元。这些距离规范大多数都不是硬性限制。超出这些限制仅仅会导致性能上的降低。然而,若超出一定的值,系统将会停止工作。

  ESCON XDF 的使用可以使得信道连接的距离足够满足许多灾难恢复解决方案的要求。现在间隔 60km 以外的主站和二级站点之间可以利用大带宽 CTC 连接,直接进行处理器与处理器之间的备份数据传输。DASD 和盒式磁盘设备都可安置在距离主站点 43km 的地方,并允许离站对关键数据直接进行简单有效的拷贝。这意味着关键数据将会快速安全地完成备份过程。这就去除了传统的手工传送备份数据到一个安全站点的操作。



 

分享到
  • 微信分享
  • 新浪微博
  • QQ好友
  • QQ空间
点击: