OceanStor T 系列存储系统简介
快速系列文档简介
如何获取帮助
本文档帮助您快速了解并掌握存储系统的维护手段、状态检查、故障定位和简单故障处理等工作。更详细的操作指导请查阅《OceanStor S2200T&S2600T&S5500T&S5600T&S5800T&S6800T 存储系统 V100R005 维护
指南》。
开始之前
OceanStor T 系列存储系统是华为技术有限公司根据存储系统应用现状和未来发展趋势,开发的新一代中高端存储产品,旨在满足大中型企业用户对存储系统更高级别的性能、效率、保护、扩展性和管理简便性的要求。
您的意见和建议可以帮助我们继续提高资料的准确性和整体质量。 请访问华为企业业务网站并提交您的意见和建议。
a b 如果您还没有华为支持帐户,请访问https://www.sodocs.net/doc/bf3373620.html, 并设置一个免费帐户,以获取更多的便利,例如下载或浏览更有价值的信息,获取针对您的内容推送等。
您可以通过随设备发货的产品资料光盘,或者访问华为企业业务网站获得文档。
客户意见和建议
c OceanStor
S2200T&S2600T&S5500T&S5600T&S5800T&S6800T 存储系统 V100R005 快速维护指南(SAN 分册)
文档版本:04
发布日期:2013-05-23
如何快速维护存储系统
1 检查存储系统指示灯状态
通过检查存储系统前后面板的指示灯状态,您可以了解设备的运行状态,发现和解决常见的硬件故障。
检查过程中,如果您发现状态为红色常亮或灭的指示灯,请参照附录A“指示灯状态速查表”进行定位和解决。如果处理后故障依然存在,请参见第5章“收集信息并上报故障”。
存储系统指示灯及其状态组合说明如下。
指示灯颜色状态说明
绿色橙色蓝色亮该模块或子系统运行正常。
闪烁该模块或子系统正在执行某项操作且状态正常。
灭
如果该模块或子系统已处于使用状态(线缆已连接),则可能存在故障,请参照附录
A“指示灯状态速查表”进行判断。
例外:
1.以符号标示的控制框、硬盘框、控制器、级联模块的告警指示灯。
2.硬盘告警/定位指示灯。
3.管理网口active指示灯。
红色亮/闪烁该模块或子系统运行异常,可能存在故障。
例外:当硬盘模块被定位时,该硬盘模块的“硬盘告警/定位指示灯”将处于红色闪烁状态,此时不需要记录和处理。
通过下面的流程图,您可以快速了解并掌握存储系统的维护要点、异常状态处理方法与求助途径等信息。
检查系统信息
2a 检查项 异常状态 常见故障 处理建议
设备基本信息 状态:故障或离线
存储系统硬件或业务出现异常
参照ISM “故障列表”页签新增告警的修复建议处理
存储资源统计
块存储池空闲容量
不足(根据业务需求判断)
块存储池中硬盘数量不足
按照《OceanStor
S2200T&S2600T&S5500T&S5600T&S5800T&S 6800T 存储系统 V100R005 基础存储业务指南》
中“扩容存储池”的操作指导扩展块存储池容量 硬件信息统计
显示故障信息,如“1个故障”
硬件故障
请确定故障信息对应的硬件部件,然后根据本文
档附录A “指示灯状态速查表”对应的处理建议进行处理
2 检查存储系统业务状态
当您首次登录ISM 时,请使用出厂默认用户名( admin )和密码(Admin@storage )进行操作。 通过系统信息界面,您可以了解存储系统的设备状态、告警、空闲容量分布和LUN 容量使用状态方面的概貌。 对于处于异常状态的业务信息,请根据“处理建议”进行诊断和解决。 ●如果故障已解决,请继续进行设备其他项目的检查。
●如果故障无法解决,请参见第5章“收集信息并上报故障”。
请参见2a 小节和2b 小节的说明,在ISM 上检查存储系统的业务运行状态。
在维护终端的网页浏览器中输入存储设备的管理网口IP 地址,按“Enter ”键。您可以进入ISM 的登录窗口。
检查业务状态
2b
检查项异常状态常见故障处理建议a
块存储池健康状态:降级或故障RAID组或者精简池降级拔插或者更换硬盘
LUN 健康状态:故障LUN故障
按照第4章“检查并处理告
警信息”的操作指导处理新
增告警RAID组健康状态:降级或故障RAID组或者精简池降级拔插或者更换硬盘
SmartCache池健康状态:故障SmartCache池的硬盘故障更换故障硬盘
资源池健康状态:故障资源池使用率超过阈值为资源池添加资源LUN 快照健康状态:故障快照异常停用
向存储池中添加硬盘,然后
激活快照LUN拷贝健康状态:故障LUN拷贝故障
联系技术支持工程师进行处
理
远程复制复制状态:异常断开远程复制异常断开检查与远端存储系统的线缆
连接是否正常一致性组状态:故障/异常断开一致性组异常断开
分裂镜像主LUN状态:故障分裂镜像不可用重新创建分裂镜像
a:对于需要按照告警修复建议进行处理的常见故障,请按照第4章“查看并处理告警信息”的操作指导,查找并处理该告警。
请逐项检查存储资源下属的业务状态,对于SAN服务中的业务,需要根据License实际情况选择性进行检查。
在S2200T存储系统的存储资源节点中,包含LUN、RAID组和资源池三种业务,该型号不具备SmartCache池业务。
对于处于异常状态的业务信息,请根据“处理建议”进行诊断和解决。
●如果故障已解决,请继续进行设备其他项目的检查。
●如果故障无法解决,请参见第5章“收集信息并上报故障”。
通过
ISM 检查存储系统的运行性能,您可以获知存储系统业务性能的实时和长期状态,并及时发现存储系统的性能问题,便于及时采取措施,避免业务中断或者数据丢失。
检查项a
异常状态
常见故障
处理建议b
吞吐量 吞吐量低或为0
控制器故障 更换控制器
带宽 带宽低于当前单条链路带宽的最小值 主机端口未做绑定 在ISM 中对主机端口进行绑定
内存占用率 剩余内存小于15MB
内存文件过大 联系技术支持进行处理 平均IO 响应时间 应用服务器侧业务运行缓慢
Cache 写策略被设置为“透写”
将Cache 写策略设置为“回写+镜像”
Cache 读利用率 Cache 预取策略设置错误 将Cache 预取策略设置为“智能预取”
Cache 写利用率
Cache 写策略设置错误
将Cache 写策略设置为“回写+镜像”
a. 此处仅列举建议检查项,其他检查项目请根据存储系统运行情况决定是否开启。开启过多的检查项可能会导致存储系统业务处理性能略有下降。
b. 对于需要按照告警修复建议进行处理的常见故障,请按照第4章“检查并处理告警信息”的操作指导,查找并处理该告警。
3 检查存储系统性能
建议按月或按周定期导出存储系统的性能统计数据,以便为存储系统性能问题的定位提供依据。
4 查看并处理告警信息
当存储系统系统异常时,ISM会自动判断异常状态对当前业务的影响严重程度,并以告警形式提示维护人员进行处理,避免业务中断或数据丢失。
通过在ISM的主界面菜单栏中单击“事件 > 事件管理”,在“事件管理”对话框中查看故障列表和事件列表。
按照严重程度递减的顺序可以将告警分为如下三种级别:
紧急:已经造成业务中断或可能引起设备不可用的故障,需要立即采取措施修复。
重要:对设备产生部分影响或对系统性能造成影响,需要采取纠正措施,以防止更严重的故障发生。
警告:对设备没有影响,系统检测到潜在的或即将发生的影响业务的故障,且当前还没有影响业务。
请按照严重程度递减的顺序处理告警。
如果告警不能被清除,请参见第5章“收集信息并上报故障”。
收集系统基本信息和业务状态信息
5b
收集指示灯状态信息
5a
5 收集信息并上报故障
收集网络状态信息
5c
在ISM的主界面菜单栏中,单击“所有设备 > SN_XX > 设备信息”(SN_XX表示需要收集信息的存储系统名称),单击处于使用状态的主机端口,记录应用服务器与存储系统间的网络状态信息,如组网类型、主机端口IP地址、WWN编号等。
从主机端口颜色来看,处于使用状态的主机端口较其他未使用的主机端口颜色更加鲜艳。如下图中,FC主机端口和iSCSI主机端口处于使用状态,由此可以确定应用服务器与存储系统之间同时采用了FC和iSCSI组网两种组网。
请参见5a小节至5d小节的说明,及时收集故障发生后的存储系统日志、设备和业务状态和故障模块的详细信息,然后参见5e小节的说明后联系技术支持。
请将异常的指示灯名称和状态记录到附录C“维护过程记录表”中。
请参见第3页内容记录ISM主界面的基本信息。
请将异常业务状态的名称和状态记录到附录C“维护过程记录表”中。
收集故障部件或模块的详细信息
5d
联系技术支持
5g
在ISM界面左侧导航栏中,单击“所有设备 > SN_XX > 设备信息”(SN_XX表示需要收集信息的存储系统名称),在右侧的信息展示区中单击设备视图中的故障模块(红色框中的模块)获取详细信息。
导出故障和事件列表
5f
在ISM的主界面菜单栏中,单击“事件 > 事件管理”,在“事件管理”对话框中单击“故障列表”页签,在“过滤
查看”中选择需要查看的故障信息的设备,选中所有告警,单击“另存为”将告警信息保存到本地。
事件列表的导出方式与故障列表类似。
导出系统数据
5e
在ISM界面左侧导航栏中,单击“所有设备 > SN_XX > 系统配置”(SN_XX表示需要收集信息的存储系统名称),在右侧的信息展示区中分别选择“导出配置文件”、“导出运行数据”和“导出系统日志”将系统数据导出到本地。
●联系华为技术有限公司客户服务中心。
地址:深圳市龙岗区坂田华为总部办公楼
邮编:518129
网址:https://www.sodocs.net/doc/bf3373620.html,
●联系华为技术有限公司驻当地办事处的技术支持人员。
获取当地办事处联系方式网站:https://www.sodocs.net/doc/bf3373620.html,/enterprise/
4U 控制框 S5600T S5800T S6800T
控制框前面板指示灯状态
a 2U 控制框 S2200T S2600T
2U 控制框 S5500T
当指示灯状态异常时,存储系统一般会伴有告警产生。请按以下方法处理: 1.请参见“指示灯状态速查表”中的“处理建议”处理故障。
2.如果故障无法修复,可以通过ISM 界面定位故障原因,请参见第4章“查看并处理告警信息”。
1
1
1
2 2
3 3
4
4
2 5 6
7
1
2 3
4
指示灯名称
异常状态 说明
常见故障 处理建议
控制框电源指示灯 灭
控制框未上电
控制框电源线脱落或接触不良
重新插入电源线并按下控制框上电源按钮 控制框告警指示灯 红色,亮 控制框运行异常 控制框存在告警 按照第4章“检查并处理
告警信息”的操作指导处理新增告警
硬盘告警/定位指示灯 红色,亮 硬盘出现故障 硬盘出现大量坏道 更换硬盘
硬盘运行指示灯 灭 硬盘未上电或上电异常 硬盘未正确插入 重新插入硬盘并等待上电完成 控制器电源指示灯
灭
控制器未上电
控制器未正确插入
重新插入控制器 控制器告警指示灯 红色,亮 控制器告警 控制器故障 按照第4章“检查并处理
告警信息”的操作指导处理新增告警
BBU 运行/告警指示灯 红色,亮 BBU 发生故障 BBU 模块寿命到期 更换BBU 模块
1 2 3 4 5 6 7 2U 硬盘框
4U 硬盘框
1
1 2 2 3
4
4
3 硬盘框前面板指示灯状态
b
指示灯名称异常状态说明常见故障处理建议
硬盘框电源指示灯灭硬盘框未上电硬盘框电源线脱落
或接触不良
重新插入电源线并等
待硬盘框上电完成
硬盘框告警指示灯红色,亮硬盘框不在服务状态或
硬盘框告警
硬盘框离线拔插或更换级联线缆
硬盘告警/定位指示灯红色,亮硬盘出现故障硬盘出现大量坏道更换硬盘
硬盘运行指示灯灭硬盘未上电或上电异常硬盘未正确插入重新插入硬盘并等待硬盘上电完成
1
2
3
4
控制框后面板指示灯状态c
2U控制框
S2200T
S2600T
2U控制框S5500T 4U控制框S5600T S5800T S6800T
1 2 3 4
5
6
7
8
9
10
9
12
11 3
2 8 4 7 13
1 16 15 4
5
6
7
8
9
OceanStor T系列存储系统的控制框除支持1Gb iSCSI接口模块、8Gb FC接口模块和10Gb TOE接口模块外,还支持10Gb FCoE接口模块。
接口模块
7
14
指示灯名称异常状态说明常见故障处理建议
风扇-BBU 运行/告警指示灯红色,亮风扇-BBU模块发生故障风扇-BBU模块寿命到期更换风扇-BBU模块
灭风扇-BBU模块未上电风扇-BBU模块未正确插入重新插入风扇-BBU模块
管理网口
link指示灯
灭管理网口网线故障管理网口网线脱落重新插入或更换网线管理网口
active指示灯
无
8Gb FC主机端口
link/speed指示灯红色,亮主机端口出现故障接口模块故障更换接口模块
灭主机端口链路无连接主机端口线缆故障或断开重新插入或更换FC线缆
控制器告警指示灯红色,亮
控制器不在服务状态或控
制器告警
控制器存在告警
参照第6页中ISM“故障列
表”页签右侧的修复建议
处理告警
控制器电源
指示灯
灭控制器未上电控制器未正确插入重新插入该控制器
接口模块电源指示灯红色,亮接口模块故障- 更换接口模块
灭接口模块未上电接口模块接触不良重新插入接口模块
mini SAS 级联端口指示灯红色,亮端口出现故障- 更换级联模块或控制器灭级联端口无连接级联端口线缆故障或断开重新插入或更换级联线缆
电源模块运行/告警指示灯红色,亮电源模块故障- 更换电源模块
红色,闪
烁
外部电源输入不符合要求外部电源输入欠压或过压检查外部输入电压
灭无外部电源输入电源线脱落
重新插入电源线并等待上
电完成
风扇运行/告警指示灯红色,亮风扇发生故障- 更换风扇模块
灭风扇未上电风扇未正确插入重新插入风扇模块
1 2 3 4 5 6 7 8 9 10
指示灯名称
异常状态 说明 常见故障 处理建议
1Gb
iSCSI 主机端口speed 指示
灯
灭 端口传输速率低于1Gbit/s
存储系统与应用服务器或交换机间传输速率不匹配
调整应用服务器或交换机上对应端口速率为1Gbit/s
1Gb
iSCSI 主机端口link/active 指示灯
灭 与应用服务器连接异常 主机端口与网线接触不良 重新插入网线
10Gb
TOE/10 Gb FCoE 主机端口指示灯
红色,亮 端口出现故障 接口模块故障
更换接口模块 灭
端口链路无连接
主机端口线缆故障或断开 重新插入或更换线缆 管理网口
speed 指示灯
灭
存储系统与应用服务器的数据传输速率低于1Gbit/s
存储系统与应用服务器间传输速率不匹配
调整应用服务器侧业务端口速率为1Gbit/s
管理网口
link/active 指示灯
灭 与应用服务器连接异常 主机端口与网线接触不良 拔插该网线
11 12 13 14 15 16 2U 硬盘框
4U 硬盘框
硬盘框后面板指示灯状态
d 1 2 3 4 5
指示灯名称异常
状态
说明常见故障处理建议
电源运行/告警指示灯红色,亮电源模块故障- 更换电源模块
红色,闪
烁
外部电源输入不符合
要求
外部电源输入欠压或过压检查外部输入电压
灭无外部电源输入电源线脱落重新插入电源线并等待上电完成
风扇运行/告警指示灯红色,亮风扇发生故障- 更换风扇模块
灭风扇未上电风扇未正确插入重新插入风扇模块
级联模块
电源指示灯
灭级联模块未上电级联模块未正确插入重新插入级联模块级联模块
告警指示灯
红色,亮级联模块告警级联模块故障更换级联模块
mini SAS 级联端口指示灯红色,亮端口出现故障- 更换级联模块或控制器灭级联端口无连接级联端口线缆故障或断开重新插入或更换级联线缆
1
2
3
4
5
通过华为支持帐户,用户可以获取到网站提供的在线文档中心、技术支持库和培训中心等服务支持。
文档中心
访问在线文档中心,可以获取最新的产品文档、版本文档和多媒体资料。
网址:https://www.sodocs.net/doc/bf3373620.html,
附录B 获取更多服务支持
技术知识库
访问在线技术支持库,可以获取更多的案例、技术论文和最佳实践资料。
网址:https://www.sodocs.net/doc/bf3373620.html,
培训中心
访问在线培训中心,可以获取培训体系介绍、培训课程和培训宣传资料。
网址:https://www.sodocs.net/doc/bf3373620.html,/enterprise/cultivate
附录C 维护过程记录表
检查项状态维护时间维护人处理措施/备注(样例)1号硬盘框,10号槽位
红色,亮xxxx-xx-xx 张三更换硬盘
硬盘告警/定位指示灯
(样例)远程复制故障xxxx-xx-xx 张三线缆脱落,重新插入