搜档网
当前位置:搜档网 › 华为OceanStor 18000系列高端存储系统容灾技术白皮书

华为OceanStor 18000系列高端存储系统容灾技术白皮书

华为OceanStor 18000系列高端存储系统

容灾技术白皮书

文档版本

01 发布日期 2013-12-06

华为技术有限公司

版权所有? 华为技术有限公司2013。保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

商标声明

和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为技术有限公司

地址:深圳市龙岗区坂田华为总部办公楼邮编:518129

网址:https://www.sodocs.net/doc/ae14344880.html,

客户服务邮箱:support@https://www.sodocs.net/doc/ae14344880.html,

客户服务电话:4008302118

目录

1 OcenaStor高端存储系统容灾解决方案概述 (1)

1.1 OceanStor高端存储系统产品简介 (1)

1.2 OceanStor高端存储系统容灾解决方案概述 (2)

2 灾难恢复的定义和恢复标准 (3)

2.1 灾难恢复的定义 (3)

2.2 灾难恢复系统的建设标准 (3)

2.3 小结 (6)

3 容灾系统建设方法 (7)

3.1 方法概述 (7)

3.2 业务分析 (8)

3.3 策略制定 (8)

3.4 方案实施和运维管理 (9)

3.5 小结 (10)

4 OceanStor高端存储系统远程复制工作原理 (11)

4.1 同步远程复制(HyperReplication/S) (11)

4.1.1 工作原理 (11)

4.1.2 主要功能 (12)

4.2 异步远程复制(HyperReplication/A) (14)

4.2.1 工作原理 (14)

4.2.2 主要功能 (15)

5 OceanStor高端存储系统容灾解决方案 (18)

5.1 3DC(两地三中心)容灾解决方案(路标规划) (18)

5.2 多分支机构的集中容灾解决方案 (20)

5.3 VMware虚拟化容灾解决方案 (21)

6 OceanStor高端存储系统容灾解决方案优势 (23)

6.1 存储领域超过十年的持续投入和积累 (23)

6.2 多级别的容灾方案 (23)

6.3 提供业务连续性提升全流程专业服务 (23)

6.4 32:1高复制比技术和高中低互通实现集约高效容灾 (24)

6.5 ALL IN ONE容灾统一管理 (24)

7 容灾演练及切换流程 (25)

7.1 本地(同城)容灾演练流程 (25)

7.1.1 本地(同城)灾备站点数据可用性应急演练流程 (25)

7.1.2 本地(同城)灾备应急切换演练流程 (26)

7.2 本地(同城)容灾演练回切流程 (26)

7.2.1 本地(同城)灾备站点数据可用性演练回切流程 (26)

7.2.2 本地(同城)灾备应急切换演练回切流程 (26)

7.3 异地容灾演练流程 (27)

7.3.1 异地灾备站点数据可用性应急演练流程 (27)

7.3.2 异地灾备应急切换演练流程 (28)

7.4 异地容灾演练回切流程 (28)

7.4.1 异地灾备站点数据可用性演练回切流程 (28)

7.4.2 异地灾备应急切换演练回切流程 (28)

8 OceanStor高端存储系统容灾解决方案技术实施要求 (30)

缩略语表/Acronyms and Abbreviations (31)

OceanStor高端存储系统容灾技术白皮书修订记录/Change History

修订记录/Change History

1 OcenaStor高端存储系统容灾解决方案概述

1.1 OceanStor高端存储系统产品简介

OceanStor高端存储系统是华为技术有限公司(以下简称华为)根据存储产品应用现状

和存储技术未来发展趋势,针对企业大中型数据中心,推出的新一代(虚拟化、混合

云、精简IT和低碳等)存储系统,聚焦于大中型企业核心业务(企业级数据中心、虚

拟数据中心以及云数据中心等),能够满足大中型数据中心对海量数据存储、高速数据

存取、高可用性、高利用率、绿色环保和易于使用等需求。

随着社会的进步和业务的发展,不断增加、累积的企业数据对存储系统提出了更高的

要求。但传统的存储系统无法跟上其数据增长的步伐,出现诸如存储性能成瓶颈,维

护、扩容操作导致业务中断,冷热数据无法剥离,同等对待各种业务数据响应时间等

造成存储资源浪费的问题,使存储系统的运维成本占TCO的比例越来越大。为了解决

这些问题,华为推出了企业级高端存储系统。

OceanStor高端存储系统秉承安全可信、弹性高效的设计理念,采用创新的Smart

Matrix智能矩阵架构,该架构采用多引擎(每个引擎包括两个控制器)的横向扩展体

系,可为企业数据中心提供一至八个系统机柜和最多两个硬盘柜,无缝配合企业数据

中心高度整合、高效率和可扩展的特点,能够满足数据中心大型数据库OLTP/OLAP、

高性能计算、数字媒体、因特网运营、集中存储、备份、容灾和数据迁移等不同业务

应用的需求。

图1-1 OceanStor 高端存储系统

1.2 OceanStor高端存储系统容灾解决方案概述

随着国民经济和社会信息化进程的全面加快,企业和政府部门对信息化的依赖程度越

来越高,由此而产生的信息安全问题也日趋严重。任何数据丢失和业务中断都会严重

影响到企业和政府的正常运作,甚至造成巨大的经济和信誉损失。911事件之后,数据

和业务的灾难备份和灾难恢复迅速成为各大企业和政府对信息系统建设的必然要求,

我国也陆续出台了《国家信息化领导小组关于加强信息安全保障工作的意见》(中办发

2003[27]号)、《关于做好国家重要信息系统灾难备份的通知》(国信办[ 2004 ]11号) 、

《重要信息系统灾难恢复指南》、《信息系统灾难恢复规范》(GB/T20988-2007)等文

件,使我国的信息安全和灾备逐步走向规范化。此外,近几年我国各种自然灾害(地

震、泥石流等)频发,也使得各大企业和政府对容灾备份越来越重视。

华为自2002年开始摸索存储技术及产业,并保持长期的技术投入,在容灾方面提供了

丰富程度不逊于任何IT巨头的有竞争力的解决方案。OceanStor高端存储系统借助于

其完备的Hyper和ReplicationDirector (UltraAPM)系列数据保护软件和方案,更是实现

了业界最低的RPO,经济高效地为客户的业务连续性提供了最大程度的保证。

本文将从多分支机构的集中容灾、虚拟化容灾、以及目前比较流行的3DC容灾等几个

方面详细介绍OceanStor高端存储系统容灾解决方案,并介绍所涉及的远程复制技术。

2 灾难恢复的定义和恢复标准

2.1 灾难恢复的定义

目前,对灾难恢复的定义众说纷纭,在业内并没有形成一个统一的说法。通常提法较

多的有“容灾”、“备份”和“灾备”。在业内,通常参照的是国际标准SHARE78和我

国的GB/T 20988-2007 《信息系统灾难恢复规范》。本文引用的是我国《信息系统灾难

恢复规范》中对于部分术语的定义。

灾难(Disaster):由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事

件。通常导致信息系统需要切换到灾难备份中心运行。

灾难恢复(Disaster Recovery):为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可

接受状态,而设计的活动和流程。

数据容灾技术:又称为异地数据复制技术,按照其实现的技术方式来说,主要可以分为同步传输方式和异步传输方式。

2.2 灾难恢复系统的建设标准

《信息系统灾难恢复规范》中规定了信息系统灾难恢复的七大关键要素,分别是:

1)数据备份系统:一般由数据备份的硬件、软件和数据备份介质(以下简称“介

质”)组成,如果是依靠电子传输的数据备份系统,还包括数据备份线路和相应的

通信设备;

2)备用数据处理系统:指备用的计算机、外围设备和软件;

3)备用网络系统:最终用户用来访问备用数据处理系统的网络,包含备用网络通信

设备和备用数据通信线路;

4)备用基础设施:灾难恢复所需的、支持灾难备份系统运行的建筑、设备和组织,

包括介质的场外存放场所、备用的机房及灾难恢复工作辅助设施,以及容许灾难

恢复人员连续停留的生活设施;

5)技术支持能力:对灾难恢复系统的运转提供支撑和综合保障的能力,以实现灾难恢

复系统的预期目标。包括硬件、系统软件和应用软件的问题分析和处理能力、网

络系统安全运行管理能力、沟通协调能力等;

6)运行维护管理能力:包括运行环境管理、系统管理、安全管理和变更管理等;

7)灾难恢复预案:为应对灾难,预先编制并经过测试、培训、演练的应急类文档。

按照上述七大关键要素,可以将灾难恢复划分为六个等级。在实际操作中,需要按照

风险分析与业务影响分析得出的结论,制定恢复策略。一般用户经常采用等级为第2

级、第3级和第5级的备份策略。以下灾备等级介绍中对这三个等级进行了详细说

明。

第1级:基本支持

在第1级中,每周至少做一次完全数据备份,并且备份介质场外存放;同时还需要有

符合介质存放的场地;单位要制定介质存取、验证和转储的管理制度,并按介质的性

质对备份数据进行定期的有效性验证;单位需要制定经过完整测试和演练的灾难恢复

预案。

第2级:备用场地支持

第2级灾难恢复应具有技术和管理支持如下图所示。

第2级除了第1级的备份介质异地保存以外,还须有恢复运作的场地,并配备灾难恢

复所需的部分数据处理设备、网络设备及通信设备。数据传输和保存的技术与第1级

相同,在管理支持上要求更高。

第3级:电子传输和部分设备支持

第3级灾难恢复应具有技术和管理支持如下图所示。

第3级相对于第2级增加了电子传输的要求,要求每天多次利用通信网络将关键数据

定时批量传送至备用场地。且对离线备份的策略提出了更高的要求,每天需做一次完

全备份。

第4级:电子传输及完整设备支持

第4级相对于第3级中的部分数据处理和网络设备而言,须配置灾难恢复所需要的全

部数据处理设备、通信线路和网络设备,并处于就绪状态;备用场地也提出了支持7×

24小时运行的高要求;同时,对技术支持人员的运维管理要求也有相应的提高。

第5级:实时数据传输及完整设备支持

第5级灾难恢复应具有技术和管理支持如下图所示。

在灾难恢复的第5级规范中,明确提出了对应用系统恢复的要求,除了第4级须配置

的灾难恢复所需要的各种设备并处于就绪状态后,还需要将数据实时地复制到备用场

地,且应用系统需要具备自动或集中切换能力。第5级规范的两个关键点是“数据的

实时复制”及“系统自动或集中切换”。相比较而言,第5级的灾难恢复系统满足了

RTO和RPO小的要求,可满足大部分用户的灾难恢复要求。

第6级:数据零丢失和远程集群支持

第6级相对于第5级的实时数据复制而言,要求实现远程数据实时复制,实现零丢

失;备用数据处理系统具备与生产数据处理系统一直的处理能力并完全兼容,应用软

件是集群的,可以实现实时无缝切换,并具备远程集群系统的实时监控和自动切换能

力;对于备用网络系统的要求也加强,要求最终用户可通过网络同时接入主、备中

心;备用场地还要7×24专职操作系统、数据库和应用软件的技术支持人员,具备完

善、严格的运行管理制度。

2.3 小结

从《信息系统灾难恢复规范》中对于灾难恢复的定义和对灾难恢复分级的标准中可以

看出,建设任一级别的灾难恢复系统,关键数据的离线备份和离线介质的场外存放均

是基础,这是灾难恢复系统的最低保障。任何一个完整的灾难恢复系统,不是简单的

数据备份系统,而是包含了包含数据备份系统在内的七个要素,每一个要素在设计灾

难恢复系统时都要有充分的考虑,才能达到灾难恢复系统设计的目标。

3 容灾系统建设方法

3.1 方法概述

容灾系统的建设是一个系统工程,需遵循有效的方法,将各方面因素考虑完整,按严

谨的流程完成每一步的建设,才能真正实现灾难恢复的目标。不论是实现国标《信息

系统灾难恢复规范》中哪一级别的建设,都需要包含下图中的三要素和四个步骤。

人员:容灾系统在分析、设计、实施和维护等过程中涉及的人员及组织形式;

流程:保障灾备系统正常运行及对故障快速响应的必要条件(包括切换流程、回切流程、测试流程和演习流程等);

技术:灾备涉及到的各种技术,包括数据复制技术、应用切换和接口切换技术、业务连续性技术等。

容灾系统的建设流程的四个步骤分别是业务分析、策略制定、方案实施和运维管理。

在建设的前期,重点关注是业务分析和策略制定两个部分,这两步决定了后期方案实

施及运维管理的复杂度和效果。

3.2 业务分析

业务分析主要包含风险分析和业务影响分析两部分工作。

风险分析过程需要确定周边环境因素可能造成机构及其设施瘫痪的灾难,具有负面影

响的事件以及事件可能造成的损失。通过制定相应的对策和改进措施来降低、防止潜

在的影响和损失,以达到消减风险的目的。风险分析的目的是对可能面临的风险作出

质与量的评估,根据风险发生的几率和对机构造成的影响定义风险级别,从风险级别

中选出需要重点关注的风险范围,为后续的策略制定提供依据。

业务影响分析用来确定事故和灾难对用户造成的各方面影响,并定量、定性分析这些

影响,以确定关键业务和部门的恢复优先顺序和策略以及恢复时间目标。其中的核心

要点是根据业务影响分析的结论,确定各业务系统的关键程度,以高代价投入关键业

务,低成本投入次关键业务或非关键业务。业务影响分析最终需要确定每个应用系统

的两项关键指标:RTO和RPO。

RTO(Recovery Time Object),指信息系统从灾难状态恢复到可运行状态所需的时间,用来衡量容灾系统的业务恢复能力;

RPO(Recovery Point Object),指业务系统从灾难状态恢复到可运行状态时的数据丢失量,用来衡量容灾系统的数据冗余备份能力。

3.3 策略制定

策略制定是整个容灾建设过程中最关键的部分,包含了确定灾难恢复层次、站点选

择、确定站点类型、数据复制技术和其他相关技术选择及方案总体成本效益分析等内

容。

首先,用户需要根据业务分析的结果,确定自身的灾备级别,需要达到数据级抑或是

应用级的容灾。目前大部分用户不易明确自身需要的灾备级别,一味地追求容灾的最

高级别-应用级自动切换,而忽略了自身的很多约束条件(现网环境、投资预算、维护人

员等)。因此,在确定灾备级别时,用户需要理智地看待数据级容灾和应用级容灾,结

合自身的实际情况,选择合适的灾备级别作为自己的实现目标。

其次,需要进行灾备中心的选址及确定站点的类型,选址的主要依据是看预防哪一类

灾难。如果是防火灾,则灾备中心距离数据中心只需要几百米就可以了。如果是防水

灾,则要求它们之间的距离在数公里以上。如果要是预防地震的话,则需要保持几百

公里的距离。此外,不同的地域需求也有不同,例如在有些地区不用考虑水灾的风

险,而有些地区不用考虑地震的风险。站点类型主要指是工作模式:冷备、热备、双

中心工作等多种模式。

第三,复制技术选择是整个灾备系统中最核心的部分,因为信息系统的核心是数据,

数据从生产中心到灾备中心必须利用复制技术才可实现。根据复制技术的实现层次不

同,华为公司将复制分为主机层复制、SAN网络层复制和阵列层复制三个物理层次,

将操作系统层、应用程序层和数据库层统称为主机层复制。对于三个层次的复制技

术,相互的优劣势不同,在本文中,对三种复制技术做了如下图的对比。

各用户需要理性判断各种实现层次的优劣势,选择合适的技术作为两地数据传输的手

段。复制技术需要复制链路的支撑,才可实现两地间的数据同步,因此,复制链路的

选择需要做充分的考虑。

采用备份软件技术做远程备份时,必须定期做全备份,即使合成全备份,也只能针对

文件应用合成,对于数据库一般无法合成全备份,且管理复杂,对很多用户不适用。

因此,在低带宽远程电子传输时,一般不会采用备份软件技术来实现,而采用异步复

制或异步镜像技术实现数据的传输。

最后,在应用级容灾系统建设时,需要考虑两站点间的网络切换技术和应用切换技

术。网络切换技术在近几年已经趋向于成熟,通常可采用基于浮动IP地址切换、基于

DNS切换、基于4~7层交换机切换和基于应用切换四种切换技术。而应用切换通过结

合两站点应用系统集群软件,用于容灾远程站点和生产站点应用系统的集群切换,可

实现自动切换或半自动切换的方式。当然,在预算控制严格的工程中,也可降级采用

全手动切换的方式,只要加强整个切换流程设计和切换过程的监管即可。

3.4 方案实施和运维管理

完成整个容灾方案的策略制定后,方案的实施和运维管理的思路也就相对明确。实施

包含了机房建设的实施和IT系统的实施两部分。

机房建设实施包含:土建工程、配套工程、产品选型、供应商选择、项目实施管理、

电力工程实施、空调工程实施、环境工程实施、消防工程实施、机房装修工程实施、

安全监控工程实施和综合布线工程实施等。

IT系统实施包含:产品选型和测试、供应商选择、项目实施管理、外部通信工程实

施、服务器部署实施、IP网络工程实施、存储网络工程实施、网络安全工程实施、运

维平台工程实施、办公系统工程实施、技术平面测试和系统综合联调等。

容灾系统建设完成后,需要完善的运维管理体系支撑,才可达到关键时刻起关键作用

的效果。首先要有组织机构的保障,常见的组织机构如下图所示:

整个运维管理体系的主要内容包括:

1)灾难备份中心运维保障管理,主要包括:系统健康,运行管理和支持、以及系统

维护等;

2)容灾系统运行管理控制,主要包括:变更管理规程和控制,内部稽核以及服务质

量管理;

3)灾难备份中心设施保障管理,主要包括:设施维护及运行监控,设施维护,安全

监控等;

4)灾难备份中心后勤保障管理,主要包括:资料管理,行政人事管理,物业管理等

各方面后勤保障支持工作。

3.5 小结

在GB/T 20988-2007《信息系统灾难恢复规范》的指导下,灾难恢复系统理论上有了统

一的建设方法和流程。

容灾系统的建设流程包含业务分析、策略制定、方案实施和运维管理四个步骤,每个

步骤的工作都是下一个步骤实施的基础。具体到每个用户的系统设计和实施,需要严

格执行全流程的管理,将方法逐点落实到具体步骤和细节,使容灾系统建设不停留于

表面,真正成为用户遇到灾难时的有力保障。

4 OceanStor高端存储系统远程复制工作原理

OceanStor高端存储系统同时支持同步远程复制(HyperReplication/S)和异步远程复制

(HyperReplication/A)两种主流的远程复制技术,以满足用户对数据容灾方式的多重选

择。本章节主要针对同步远程复制和异步远程复制的工作原理进行阐述。

4.1 同步远程复制(HyperReplication/S)

4.1.1 工作原理

OceanStor高端存储系统的同步远程复制利用日志原理实现主、从LUN的数据一致

性,其实现原理如下:

?当主站点的主LUN和远端复制站点的从LUN建立同步远程复制关系以后,会启动一个初始同步,也就是将主LUN数据全量拷贝到从LUN;

?如果在初始同步时主LUN收到生产主机写请求,需要检查同步进度:若要写入位置的数据块尚未拷贝到从LUN,只需要写主LUN即可返回主机成功,稍后利用

同步任务将整个数据块同步到从LUN;若要写入位置的数据块已经拷贝,需要分

别写入主LUN和从LUN;若要写入位置的数据块正在拷贝,需要等待该数据块

拷贝完成后分别写入主LUN和从LUN;

?初始同步完成以后,主、从LUN数据完全一致,如果此时主LUN收到生产主机写请求,按照下面的流程进行I/O处理:

①主站点接收生产主机写请求,记录这个I/O对应数据块的差异日志值为“有差

异”;

②主站点将写请求的数据写入主LUN(LUN A),同时利用配置好的链路将写请

求发送到远端从站点;

③判断写主LUN(LUN A)和写从LUN(LUN B)的执行结果,如果都成功,

则将差异日志改为“无差异”,否则保留“有差异”,在下一次启动同步时重新

拷贝这一个数据块;

④向主机返回写请求完成。

4.1.2 主要功能

零数据丢失(Zero Data Loss)

OceanStor高端存储系统同步远程复制对主、从LUN同时进行数据更新,能够保证

RPO为0。利用同步远程复制建立的容灾系统,能够实现灾难恢复级别较高的数据级

容灾(“第6级:数据零丢失和远程集群支持”)。

支持分裂模式

OceanStor高端存储系统同步远程复制支持分裂模式,在分裂状态下,生产主机的写请

求只会写到主LUN,并通过差异日志来记录主、从LUN数据之间的差异。当用户希

望重新保持主、从LUN数据一致时,可以进行一次手动启动同步操作,同步过程就是

将差异日志中标为“有差异”的数据块从主LUN增量拷贝到从LUN的过程,其I/O

处理原理与初始同步的原理类似。分裂模式可以灵活地满足用户的一些需求:如暂时

性的链路维修、网络带宽扩容、需要从LUN保存某一个时间点的数据等等。

快速响应故障和故障恢复

OceanStor高端存储系统同步远程复制检测到系统故障(包括链路断开、主LUN或从

LUN失效等等)时能够立即进入断开状态。在断开状态下,同步远程复制的I/O处理

原理与分裂时类似,只将I/O写入主LUN并记录差异(注意:若故障为主LUN失

效,那么在故障排除之前主LUN无法接收生产主机的I/O请求)。当这些故障排除

时,同步远程复制可以在极短的时间内根据恢复策略进行相应的操作:如果恢复策略

为自动恢复,同步远程复制会自动进入“同步”状态,将有差异的数据增量同步到从

LUN;如果恢复策略为手动恢复,同步远程复制会进入“待恢复”状态,等待用户手

动启动同步。由于断开后的同步采用的是增量同步,可以大大地减少同步远程复制的

灾难恢复时间。

支持从LUN可写功能

从LUN可写是指从LUN可以接收来自主机的数据。OceanStor高端存储系统同步远程

复制支持从LUN可写,使备用生产主机能够直接读写从LUN数据,该功能主要有两

类应用场景:

?用户需要在不影响主LUN业务的情况下使用从LUN进行数据分析、挖掘;

?当主站点生产阵列故障,从站点的灾备阵列需要接管业务,但无法进行正常的主从切换或无法与生产阵列正常通信。

默认情况下,远程复制从LUN是只读的,如果主LUN出现故障,需要管理员执行

“取消远程复制从LUN写保护”操作,手动设置从LUN为可写,以便从站点灾备阵列

能够接管主机业务,保证业务持续运行。

同步远程复制设置从LUN可写有以下两个条件:

?远程复制处于分裂或异常断开状态;

?远程复制从LUN数据必须是完整的(当从LUN数据不完整时,从LUN数据此时不可用,不能设置为从LUN可写)

OceanStor高端存储系统支持对从LUN的写记录差异,当主站点生产阵列恢复后,可

通过比较主从差异,进行增量同步来使得灾难恢复后业务快速回切。

支持复制的主从切换

主从切换是指远程复制对中LUN的主从关系转换的过程。OceanStor高端存储系统同

步远程复制支持用户进行主从切换操作。

主从切换取决于从LUN数据状态,从LUN数据状态标识了从LUN当前数据的可用情

况,分“完整”和“不完整”两种。

?完整:从LUN上的数据是主LUN之前一个时间点的副本,此时从LUN的数据是可用的,但不一定与当前的主LUN数据完全一致;

?不完整:从LUN上的数据不是主LUN之前一个时间点的副本,从LUN的数据不可用。

如上图所示,主站点的主LUN在切换后变成了新的从LUN,而从站点的从LUN在切

换后变成了新的主LUN。经过一些在主机侧的简单操作以后(主要是将新主LUN映

射给备用生产主机,也可提前映射),从站点的备用生产主机接管业务并对新主LUN

下发读写请求。进行主从切换时,从LUN数据状态必须为“完整”,主从切换完成后

进行的同步为增量同步,即只拷贝差异数据。

同步远程复制进行主从切换的条件如下:

?同步远程复制在正常状态下可以进行主从切换;

?分裂状态下,需要设置从LUN可写才能进行主从切换。

一致性组相关功能

在大中型数据库应用中,数据、日志、修改信息等存储在磁盘阵列的不同LUN中,缺

少其中一个LUN的数据,都将导致其他LUN中的数据失效,无法继续使用。如果需

要同时对这些LUN进行远程容灾,那么就要考虑如何保持多个远程复制对的数据一致

性。OceanStor高端存储系统同步远程复制提供一致性组功能来保证多个远程复制对之

间复制数据的一致性。

一致性组是多个远程复制的集合,可以确保单个存储系统内,主机在跨多个LUN进行

写操作时数据的一致性。主站点生产阵列一致性组内的数据完成写操作后,再通过一

致性组的同步功能将所有组内数据同时复制到从LUN,从而保证容灾备份数据的完整

性和可用性。

用户创建一致性组以后,可以将最多8192个远程复制对添加到一致性组中。一致性组

可以进行分裂、同步、主从切换、设置从LUN可写等操作,在进行这些操作时,一致

性组的所有成员对保持步调一致。当遇到链路故障时,一致性组的所有成员对会一起

进入异常断开状态。当远程复制故障排除后恢复正常状态时再重新进行数据的同步,

从而保证从站点灾备阵列数据的可用性。

OceanStor高端存储系统对同一个一致性组中主LUN和从LUN的工作控制器没有限

制,即:不同的主LUN或从LUN可以处于不同的工作控制器,为用户提供更为灵活

多变的配置方式。

4.2 异步远程复制(HyperReplication/A)

4.2.1 工作原理

OceanStor高端存储系统异步远程复制采用了创新的多时间片缓存技术(专利号:

PCT/CN2013/080203),其实现原理如下:

1)与同步远程复制类似,当主站点的主LUN和远端复制站点的从LUN建立异步远

程复制关系以后,会启动一个初始同步,将主LUN数据全量拷贝到从LUN;

2)初始同步完成后,从LUN数据状态变为完整(即从LUN为主LUN的过去某个时

刻的一致性拷贝),然后开始按照下面的流程进行I/O处理:

①每当间隔一个同步周期(由用户设定,范围为3s~1440min),系统会自动启

动一个将主站点数据增量同步到从站点的同步过程(如果同步类型为手动,则

需要用户来触发同步)。每个复制周期启动时在主LUN(LUN A)和从LUN

(LUN B)的缓存中产生新的时间片(TP N+1和TP X+1);

②主站点接收生产主机写请求;

③主站点将写请求的数据写入Cache时间片TP N+1中,立即响应主机写完成;

④同步数据时,读取前一个周期主LUN(LUN A)Cache时间片TP N的数据,传

输到从站点,写入从LUN(LUN B)Cache时间片TP X+1中;若主站点Cache

写缓存达到高水位时会自动刷盘,此时时间片TP N的数据会在盘上生成快照,

同步时已刷盘的数据从快照中读取并复制到从LUN(LUN B);

⑤同步数据完成后,按照刷盘策略将主LUN(LUN A)和从LUN(LUN B)

Cache中时间片TP N和TP X+1的数据下盘(生成的快照自动删除),等待下一个

同步的到来;。

?时间片:在Cache中管理一段时间内写入数据的逻辑空间(数据大小没有限定)

?在低RPO的应用场景下,异步远程复制周期很短,OceanStor高端存储系统Cache中能缓存多个时间片中的全部数据;如果主机业务带宽或容灾带宽出现异常或故障,造成复制周期变长或

中断,此时Cache中的数据会按照刷盘策略自动刷盘并进行一致性保护,复制时再从盘上进行

读取。

4.2.2 主要功能

秒级RPO

OceanStor高端存储系统异步远程复制采用了创新的多时间片缓存技术,Cache中的数

据和与Cache交互的IO都携带时间信息,在进行复制和同步时,直接从主LUN Cache

中读取相应时间片的数据复制到从LUN,降低了时延,同时降低了传统异步远程复制

快照对性能的影响,因此同步周期可以缩短为秒级。

由于异步远程复制主LUN上的数据更新不是立即同步到从LUN的,所以RPO取决于

用户设置的同步周期,OceanStor高端存储系统异步远程复制可以设置不同的同步周期

(范围是3s~1440min)。

相关主题