搜档网
当前位置:搜档网 › IBM P750小型机日常维护手册

IBM P750小型机日常维护手册

IBM P750小型机

日常维护手册

一、服务器硬件运行状态检查

1.当服务器处于启动和正常工作状态时,其前面板上的状态灯(与电源灯并排)和各硬盘的状态灯(一排

小灯,与各硬盘位置一一对应)应显示为绿色。

2.当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查服务器的电源、接线、硬盘等。如果有

硬件故障则需要立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。

3.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,

则绿灯会不规则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁。

如果发现有服务器硬件状态灯不正常的情况,请及时联系我公司工程师,以便及时进行诊断并解决故障。

二、HMC(硬件管理平台)管理与操作

HMC的两种访问途径:

1、在机房直接通过显示器和键盘进行管理维护等相关操作

2、通过web远程访问,登录HMCweb管理界面,访问地址为:https://

1、登录HMC

1.1 浏览器访问连接HMC后,首页界面如下图所示。

1.2 点击下图所示链接,进入HMC验证登录界面。

1.3 输入用户名与口令,登录HMC。

用户名:hscroot

口令:

1.4 成功登录到HMC管理界面如下图所示。

2、注销HMC

在HMC console右上角有(hscroot|help|log off)链接,单击log off,会出现如下图所示注销界面:

选择Log off,系统返回到HMC初始登录界面状态。

3、重启HMC

左边导航栏中选择→HMC Management→shut down or Restart,如下图所示,对HMC进行正常重启及关机操作。

请谨慎对HMC进行关机和重启操作!

4、状态栏功能

状态栏位于HMC左下角位置,如下图所示,负责监控并反映管理系统资源状态和HMC状态。

单击每个图标状态可以列出详细状态,你可以查到更详细的帮助信息:

:非法操作,如果任何被管理的主机执行了非法操作,这个图标将会变亮。

:黄灯警告,如果任何被管理的主机有错误并有黄灯被点亮,这个图标也将会变亮

:报错日志:日志中有报错信息,这个图标将会变亮,此项与

:摘要,摘要中会将有用信息做统计并显示在工作栏中。

5、Service Management

导航栏中Service Management强大的管理功能给用户日常维护提供了更简单直观的界面,如下图所示,

但日平时最常用的子项是Manage Serviceable Events,如下图步骤可以对HMC所管理的设备进行日常错误及时直观的观察,以确保IBM小型机能正常工作,下图就是基本的操作方法图示:

Service Management Manage Serviceable Events

6、Service Plans-分区管理与操作

6.1 如何查看小型机资源配置:

如上图红色标注所示,选中所需查看主机(备注:请不要同时选中多台主机及多个分区),在下拉菜单中选

中“Properties”,打开参数窗口,通过“Properties”可以查看主机运行状态,CPU,内存,I/0等重要硬件系统参数,如下图所示。

同理,在分区区域中先中每分区后的Properties选项,便可以直观方便的掌握分区状态和资源配置信息。

6.2 如何开关机及激活分区:

关机。

开机。

Operation项中主要包含小型机及分区开关机,及消除报警灯这两项功能,如虽要对小型机下电操作,请先将图15中的分区Deactivate(建议:最好在操作系统中按照正常流程将操作系统shutdown),最后再将主机power off。

注意:非特殊情况,无专业人员指导,严禁进行开关机操作!

6.3 手动消除黄灯警告

如下两图所示,Operations中LED status,及Deactivate Attention LED两项中所指,针对不同分区或主机所报出的警告黄灯,进行特定的消除黄灯操作。

6.4 如何打开控制终端(Terminal Window)

在HMC上对分区操作系统进行操作,可以通过分区下拉菜单Console Window- Open Terminal Window 对选中分区进行操作,如图所示,操作界面如同telnet界面。

在HMC中同一分区只允许打开一个Terminal Window,如试图打开第二个窗口,系统提示如图17所示界面。

三、AIX系统日常维护

1、查看系统的错误记录

很重要,应该定期查看,如发现有硬件(H)类型的报错,应该及时关注。

在系统运行时,一些系统错误会记录在errlog 中,其中有些错误还会在终端上显示。

检查错误日志可用以下命令:

#errpt|more 查看系统所有的记录

IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION

E85C5C4C 0426104399 P S CFGLFT SOFTWARE PROGRAM ERROR

2BFA76F6 0426104099 T S SYSPROC SYSTEM SHUTDOWN BY USER 9D4CF6E7 0426104399 T O errdemon ERROR LOGGING TURNED ON 1E2AC07E 0426103999 T O errdemon ERROR LOGGING TURNED OFF 1E5EER4T 0423132999 T O clstrmgr OPERATOR NOTIFICATION

其中

IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。

TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年

T 为Type , 它记录的是错误类型

P :为永久错误,需引起注意

T :为临时错误。

C 为Class, 它记录的是错误种类,如

H : Hardware

S : Software

O : Errloger command messages

U : undetermined

RESOURCE_NAME 为错误来源

DESCRIPTION 为错误描述

#errpt -aj 查看系统详细记录内容

其中IDENTIFIER为错误编号,如#errpt -aj 0426104399

#errpt -dH 查看系统所有的硬件出错记录

2、日常检查服务器状态的项目及其相关命令

2.1 运行lsdev命令配以各种参数,所列各种设备状态都应为Available。#lsdev –C –H –S a 列出系统中可用设备。

#lsdev –Cc processor 列出系统中的所有CPU。

#lsdev –Cc memory 列出系统中的所有内存。

#lsdev –Cc disk 列出系统中的所有硬盘。

#lsdev -Cc adapter | grep ent 列出系统中的所有网卡

#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。

#lsdev -Cc adapter | grep ssa 列出系统中的所有SSA卡。

#lspv 显示系统中可用的PV。

#lspvhdiskn 显示hdiskn的具体信息。

#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息。

2.3 lsattr命令

# lsattr –E –l mem0 列出系统中内存mem0的大小,本项目中内存有4GB。

2.4 lsvg命令

#lsvg 列出系统中所有的vg。

#lsvgrootvg 列出rootvg的详细信息。

#lsvg –o 列出激活的vg

2.5 oslevel命令

#oslevel 显示操作系统版本信息。

2.6 netstat命令

#netstat –in 显示系统中各网卡的配置。可查看网卡的IP配置好了没有。

通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为“No trouble found ”显示各部分工作正常。

2.8lsps查看页面空间

lsps –a 查看PAGING SPACE的使用情况,如果使用率超过70%,就需要采取措施。

2.9查看LV(卷)状态

lsvg –o | lsvg –il | grep –i stale查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施

2.10查看mail

#mail,查看有否发给root用户的错误报告(mail)。

3、检查文件系统

查看有没有“满”的文件系统。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。

如/ (根文件系统)满则会导致用户不能登录。

# df -k (查看AIX的基本文件系统)

Filesystem 1024-blocks Free %Used Iused %Iused Mounted on

/dev/hd4 24576 1452 95% 2599 22% /

/dev/hd2 614400 28068 96% 22967 15% /usr

/dev/hd9var 8192 4540 45% 649 32% /var

/dev/hd3 167936 157968 6% 89 1% /tmp

/dev/hd1 16384 5332 68% 1402 35% /home

除/usr文件系统,其他文件系统都不应太满,一般不超过80%。

4、性能监控与调优

4.1 通过topas来观察

topas能够将系统的全局信息,包括CPU、内存、磁盘、网络、文件系统、事件队列、文件等信息,排列在一个统一的界面上进行展示。

bash-4.3# topas

Topas Monitor for host:localhost EVENTS/QUEUES FILE/TTY

Wed Feb 22 10:42:00 2017 Interval:2 CswitchReadch

SyscallWritech

CPU User% Kern% Wait% Idle% Reads Rawin

Writes Ttyout

Forks Igets

Network BPS I-Pkts O-Pkts B-In B-Out Execs Namei RunqueueDirblk

Waitqueue

Disk Busy% BPS TPS B-Read B-Writ MEMORY

PAGING Real,MB

Faults % Comp

FileSystem BPS TPS B-Read B-Writ Steals % Noncomp

PgspIn % Client

PgspOut

Name PID CPU% PgSp Owner PageIn PAGING SPACE PageOutSize,MB

Sios % Used

% Free

NFS (calls/sec)

SerV2 WPAR Activ

CliV2 WPAR Total

SerV3 Press: "h"-help

CliV3 "q"-quit

SerV4

4.2 通过命令vmstat 1 来观察.

kthr memory page faults cpu

----- ----------- ------------------------ ------------ -----------

r b avmfre re pi pofrsr cy in sycs us sy id wa

命令解析:vmstat 命令的输出可以反映系统整体运行状况,包括cpu、内存、虚拟页面、系统进程和系统调用情况。

检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.

检查MEM是否为瓶颈,分别检查Memory的两项数值和Page 的六项数值.

4.3 通过命令sar –mu –P ALL 来观察。

命令解析:sar可以用来收集反映系统运行状况,在这里主要是查看CPU的运行状况,CPU是否负载均衡,是否存在分配不均的情况。

4.4 通过命令psgv | more来观察。

PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND

0 - A 4:20 7 12 14516 xx 0 14504 0.0 5.0 swapper

1 - A 1:33 103 7895

2 79044 32768 25 36 0.0 29.0 /etc/init

命令解析:ps可以用来查看进程的当前状态。在这里通过参数的配搭,可以观察目前正在运行的进程所耗的时间,CPU和memory 量.其中,%CPU表示进程所占用的CPU资源情况,%MEM表示进程所占用的内存情况。主要检查是否有标示为的僵尸进程耗用系统资源,以及informix 数据库的oninit进程的系统消耗情况。

4.5 通过命令iostat 1 –d hdiskX观察磁盘

在机器上用dd命令进行磁盘阵列的写操作校验,与此同时用iostat 1 –d hdiskX观察磁盘。

Disks: % tm_act Kbps tpsKb_readKb_wrtn

命令解析: iostat可以用来查看系统的I/O的输入输出情况,在这里主要查看阵列上的硬盘的每秒读写量,同时估算磁盘阵列读写速度。

4.6 通过命令netstat –a 进行查看。

Active Internet connections (including servers)

Proto Recv-Q Send-Q Local Address Foreign Address (state)

命令解析: netstat可以用来查看系统的网络情况,在这里主要是查看网络客户端连接的情况和开销,检查参

数为state,如有死连接,state状态为fin_wait, 这样耗用系统网络资源,从而导致网络性能下降构成瓶颈。以上所有命令及参数的相关含义和详细信息,请参考AIX命令大全。

IBMPower740小型机+11G数据库维护教程

露露Power740小型机+11G数据库维护教程 硬件环境: 1、Power740小型机+AIX6.1操作系统 2、数据库版本:oracle 11.2.0.4 3、数据库安装模式:Oracle11R2+ASM+RAC(集群负载) 一、开机步骤 1、打开Power740小型机1和2开关机开关 两台服务器都要开机,在确定小型机电源处于关闭情况下开机,如果小型机处于开机状态跳过此步骤。 2、开启集群和数据库 小机开机后集群和数据库自动启动,一般不需要手工启动。 Ping 192.168.0.31\32\33\34\35 -t ping通后查询数据库状态。 通过实际IP登录小机1 登录方式1:windows开始菜单-运行 telnet 192.168.0.31 登录方式2:远程连接小机工具 登录方式3:直接在小机操作 用户名:root 密码:root #su – grid 切换到grid网格用户 $crs_stat –t 查询集群状态

ORACLE正常工作状态:3个gsd进程是OFFLINE 其他进程都是ONLINE。 此时完成开机和数据库启动操作,应用程序可以正常使用。 如果等待30分钟还没有正常启动,启动出现异常,可执行以下操作: #su – grid $srvctl start nodeapps -n dbserver1 $srvctl start nodeapps -n dbserver2 $srvctl start asm -n dbserver2 $srvctl start asm -n dbserver1 $srvctl start database -d lolo 单独启动监听 srvctl start listener -n dbserver1 srvctl start listener -n dbserver2 3、启动客户管理系统接口 远程桌面192.168.1.24->露露运营绩效管理系统->业务查询->WEB定时任务->【启动任务】4、启动EM 说明:EM为ORACLE数据库WEB管理,可以不启动,不启动不影响应用程序使用。 1)通过服务IP登录小机1 登录方式1:windows开始菜单-运行 telnet 192.168.0.33 登录方式2:远程连接小机工具 登录方式3:直接在小机操作 以下以登录方式1说明。 用户名:root 密码:root

IBM P750小型机日常维护手册

IBM P750小型机 日常维护手册 一、服务器硬件运行状态检查 1.当服务器处于启动和正常工作状态时,其前面板上的状态灯(与电源灯并排)和各硬盘的状态灯(一排 小灯,与各硬盘位置一一对应)应显示为绿色。 2.当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查服务器的电源、接线、硬盘等。如果有 硬件故障则需要立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。 3.当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作, 则绿灯会不规则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁。 如果发现有服务器硬件状态灯不正常的情况,请及时联系我公司工程师,以便及时进行诊断并解决故障。 二、HMC(硬件管理平台)管理与操作 HMC的两种访问途径: 1、在机房直接通过显示器和键盘进行管理维护等相关操作 2、通过web远程访问,登录HMCweb管理界面,访问地址为:https://

1、登录HMC 1.1 浏览器访问连接HMC后,首页界面如下图所示。 1.2 点击下图所示链接,进入HMC验证登录界面。 1.3 输入用户名与口令,登录HMC。 用户名:hscroot 口令:

1.4 成功登录到HMC管理界面如下图所示。 2、注销HMC 在HMC console右上角有(hscroot|help|log off)链接,单击log off,会出现如下图所示注销界面:

选择Log off,系统返回到HMC初始登录界面状态。 3、重启HMC 左边导航栏中选择→HMC Management→shut down or Restart,如下图所示,对HMC进行正常重启及关机操作。 请谨慎对HMC进行关机和重启操作!

(完整版)小型机及存储维保服务方案

XXXX小型机和存储维保服务 技 术 方 案 XXXX 2015年5月15日

目录 一、专业化第三方服务的需求 _________________________________________________ 2 二、技术服务方案 __________________________________________________________ 4 1.服务对象和目标____________________________________________________________ 4 2.服务内容要点 _____________________________________________________________ 6 3.服务内容要点说明__________________________________________________________ 7 3.1保修期内服务范围_______________________________________________________ 7 3.2服务响应_______________________________________________________________ 8 3.3维护间隔与维护情况汇报_________________________________________________ 8 3.4定期巡检与预防性维护___________________________________________________ 8 3.5免费备件保证___________________________________________________________ 9 3.6免费技术服务___________________________________________________________ 9 3.7免费远程诊断___________________________________________________________10 3.8技术人员保障___________________________________________________________10 3.9保修期终止_____________________________________________________________11 4.服务质量保证______________________________________________________________11 4.1技术服务流程___________________________________________________________11 4.2服务的监督_____________________________________________________________13 4.3紧急事件升级机制_______________________________________________________14 4.4客户满意度调查_________________________________________________________15 4.5备件管理监督___________________________________________________________15 4.6项目组织监督___________________________________________________________15 4.7服务文档管理___________________________________________________________15 4.8服务质量评估___________________________________________________________15 4.9违约赔偿_______________________________________________________________15 4.10保修终止______________________________________________________________16 5.技术服务组织方案___________________________________________________________16 6.备件管理___________________________________________________________________16 6.1备件渠道_______________________________________________________________16 6.2备件管理流程___________________________________________________________16 6.3本项目的备件准备_______________________________________________________17 7.技术培训方案 _____________________________________________________________17 7.1专业培训内容___________________________________________________________17 8.免费的技术增值服务________________________________________________________17 8.1提供系统及应用整合方案_________________________________________________18 8.2出保期后技术支持服务___________________________________________________18

IBM小型机维护指导书

江西建行IBM小型机日常维护第一篇:日常维护部分 第二篇:故障处理部分 第三篇:安图特公司技术支持电话

第一篇日常维护部分 目录 第1章AIX系统管理日常工作(检查篇) (1) 1.1 常用的命令 (1) 1.2 语法介绍 (1) 1.2.1 vmstat:检查内存、CPU、进程状态 (1) 1.2.2 .................................... sar:检查CPU、IO 3 1.2.3 PS:检查进程状态命令 (3) 1.2.4 .............................. s vmon:显示进程占用内存 4 1.2.5 .................................. iostat:显示磁盘IO 4 1.2.6 ....................... n etstat, entstat:显示网卡信息 5 1.2.7 ............................... n o:显示tcpip参数设置 6 1.2.8 其它命令 (6) 第2章AIX系统管理日常工作(LV篇) (7) 2.1 IBM AIX系统管理的日常工作 (7) 2.1.1 开关机步骤 (7) 2.1.2 用户组及用户管理 (7) 2.1.3 文件系统维护 (7) 2.1.4 系统日常管理 (8) 2.1.5 系统备份 (8)

2.1.6 定时清洗磁带机 (8) 2.1.7 定时检查设备指示灯状态 (9) 2.1.8 简单故障的判断 (9) 2.1.9 熟悉ibm aix操作系统 (9) 2.2 关于IBM AIX的逻辑卷管理 (9) 2.3 LVM命令 (10) 第3章AIX系统管理日常工作(关键参数检查篇) (13) 3.1 AIO参数检查 (13) 3.2 磁盘阵列QUEUE_DEPTH参数检查 (14) 3.3 用户参数检查 (14) 3.4 激活SSA F AST-W RITE C ACHE (15) 3.5 IO参数设置 (15) 3.6 SYNCD DAEMON的数据刷新频率 (15) 3.7 检查系统硬盘的镜像 (15) 第4章AIX系统管理日常工作(性能分析篇) (17) 4.1 性能瓶颈定义 (17) 4.2 性能范围 (17) 第5章AIX系统管理日常工作(SHUTDOWN篇) (18) 5.1 概念 (18) 5.2 关机命令 (18) 第6章AIX系统管理日常工作(备份与恢复篇) (18) 6.1 用SMIT备份 (18) 6.2 手工备份 (18) 6.3 恢复系统 (19) 第7章HACMP的双机系统的管理和维护 (19) 7.1 HACMP双机系统的启动 (19) 7.2 HACMP双机系统的关闭 (20)

小型机日常检查流程

1、查看小型机前面板上的警告灯,如果有黄色显示,表示该系统出现问题,继续检查 2、检查硬件,外观观看硬件,是否出现问题(查看两台服务器的灯是否一致)。 3、检查文件系统 df –g Filesystem GB blocks Free %Used Iused %Iused Mounted on /dev/hd4 5.00 4.98 1% 2479 1% / /dev/hd2 20.00 17.96 11% 49315 2% /usr /dev/hd9var 5.00 4.95 2% 722 1% /var /dev/hd3 10.00 9.97 1% 165 1% /tmp /dev/fwdump 1.00 1.00 1% 4 1% /var/adm/ras/platform /dev/hd1 5.00 5.00 1% 7 1% /home /proc - - - - - /proc /dev/hd10opt 5.00 4.92 2% 1706 1% /opt /dev/fslv00 20.00 13.01 35% 16600 1% /oracle /dev/sg186lv 597.50 596.25 1% 16 1% /sg186 查看%Used的使用率有无大于85%的,如果有大于85%的,则相应的进行增大空间。 以上面得/home为例增大空间: chfs -a size='10G' /home 将/home增大到10G chfs -a size=+ 10G /home 将/home增大10G 4、检查系统出错日志 使用errpt|more命令检查 IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。 TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年 T:为Type,它记录的是错误类型 P:为永久错误,需引起注意 T:为临时错误。 C:为Class,它记录的是错误种类,如 H:Hardware S:Software O:Errloger command messages U:undetermined 其中引起关注的主要有P和H的错误 # errpt IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION 51E537B5 0112162310 P H sysplanar0 platform_dump saved to file 291D64C3 0112162310 I H sysplanar0 Platform dump data BFE4C025 0112162310 P H sysplanar0 UNDETERMINED ERROR 51E537B5 0112162210 P H sysplanar0 platform_dump saved to file 291D64C3 0112162210 I H sysplanar0 Platform dump data BFE4C025 0112162210 P H sysplanar0 UNDETERMINED ERROR 38A8D4BB 0112161110 I H ent3 HEA PORT DOWN AFA89905 0112160810 I O grpsvcs Group Services daemon started 97419D60 0112160810 I O topsvcs Topology Services daemon started 6D19271E 0112155910 I O topsvcs Topology Services daemon stopped 28854E81 0112155910 I O grpsvcs Group Services daemon stopped 使用errpt -aj 查看错误详细信息; # errpt -aj BFE4C025 主要看一下 Description 查看一下描述,了解是哪出了问题 例如: Description: Power/Cooling subsystem Unrecovered Error, bypassed with loss of redundancy. Refer to the system service

小型机系统维护方案

系统维护方案 1.1. 数据库维护 数据库系统维护服务由五部分构成 监控服务 数据备份 安全管理 性能调整 故障排除 1.1.1. 24小时监测服务 可进行紧急情况监测的服务包括: 1、网络连接监控 2、数据库应用是否正常运行 3、数据完整性 1.1. 2. 数据库备份和恢复 1、系统备份 2、数据库的备份 3、数据库的恢复 1.1.3. 安全管理 1、数据库系统漏洞的修补 2、服务漏洞的修补 3、系统访问管理 4、服务访问管理 1.1.4. 性能调整 1.针对数据库系统:主要包括CPU/内存使用状况、优化数据库设计、优化数据库管理、以及进程/线程状态、、硬盘剩余空间、日志文件大小等 2.针对应用系统:主要包括应用系统的可用性、响应时间、并发用户数,以及特定应用的系统资源占用等 1.1.5. 故障排除 对数据库发生的故障(如数据库不能正常运行,备份与恢复不能进行,数据文件一致性破坏等)在第一时间进行排除并提交故障报告。 1.2. 应用系统维护 1.2.1. 例行检查服务 例行检查时间间隔: 本公司负责对应用系统进行例行检查,从系统验收完毕起每月检查一次。 1.2.2. 检查内容 检查数据库服务器:检查数据库的运行状况; 核实原系统配置:核实系统软件配置及版本;

检查各监控终端软件:检查各计算机监控系统用户端软件使用情况; 检查软件系统运行环境:检查网络操作系统软件、操作系统软件稳定性等; 1.2.3. 检查方式 制定例行检查计划:根据软件系统的检查时间,本公司制定相应的检查计划,其中包括每 次例行检查时间、例行检查小组成员、例行检查内容; 核实例行检查方案:例行检查前,由客户提前三天通知本公司具体检查时间. 对于客户每次的服务请求,维护小组设有专人负责实施、跟踪、并以客户监控系统最后确认为准。 1.2.4. 检查结果处理 例检记录:每次检查完成后,均作标准的检查报告。包括检查发现的问题、系统现状评价、改进建议; 对于例检发现的问题,若属于负责维护的软件系统,均作及时的解决。 对于每次维护,都作规范的维护记录。包括故障原因、实施工程师、解决办法、实施过程、维护结果。服务记录应于每次服务完成后均将作为系统资料保存。 1.2.5. 系统运行维护服务 当应用系统出现软件改进、模块更换、故障确认、系统错误等问题时,本公司在24小时内将派工程师前往现场响应。 1.3. 系统软件和其它软件系统维护 正版系统软件的技术支持和维护工作主要由软件提供商的维护服务商来提供,在此基础上金旅雅途将提供一下服务: 1.3.1. 例行检查服务 例行检查时间间隔: 本公司负责对应用系统进行例行检查,从系统验收完毕起每月至少检查一次,安装相关的最新系统补丁和升级文件,并对有关问题进行处理。 1.3. 2. 系统运行维护服务 当系统软件出现系统错误等问题时,本公司在24小时内将派工程师前往现场响应。 1.3.3. 维护范围 ? 包括各服务器使用的操作系统:Windows 2000 Advance Server ,Windows 2000 Server ? 台式机操作系统:Windows XP,Windows 2000 Professor ? 邮件系统 ? 其它有关服务器上的系统。 1.4. 服务系统维护 服务系统维护内容包括: ◆系统运作检测 ◆以保证系统无病毒污染的病毒检查服务 ◆优化服务器与客户机的设置 ◆系统管理文件的打印与归档 ◆服务器的硬件配置及软件的更换服务 ◆工作站的硬件配置及软件的更换服务

IBM小型机维护手册资料

精品文档 IBM小型机维护手册 网友:xcw0605 发布于:2008.07.15 16:09(共有条评论) 查看评论| 我要评论 IBM小型机维护手册 一、AIX操作系统简介 AIX操作系统是有IBM公司研发的Unix操作系统,在技术、功能上又有许多增强:模块化的内核; 动态调整内核; 多线索内核; 高效率的输入/输出; 实时处理; 安全性能; 日志文件系统; 存储管理(包括镜像技术和条块化技术); 系统管理; 在线帮助查询。 二、设备管理 2.1块设备(Block Device): 采用结构化的随机访问方式的具有缓冲的设备。块设备通常为磁盘文件系统(Disk File System)。 2.2字符设备(Character Device): 裸设备(Raw Device),是无缓冲的连续、定向流设备。字符设备通常为系统周边设备,如终端、打印机等。 2.3主设备号(Major Number): 标识系统内核中的设备驱动号。 2.4次设备号(Minor Number): 精品文档. 精品文档 标识特殊的设备类型。 ODM数据库由预定义数据库(Predefined Database)和定制数据库(Customized Database)组成。用于存储系统中所有逻辑设备的信息及其属性。其中: 预定义数据库:包含所有基于系统配置的系统可支持的设备(Supported Devices)的配置数据。 定制数据库: 包含当前系统中所有定义的(Defined Devices)和可用的(Available Devices)设备配置数据。 设备的类(Class):标识设备

设备的子类(Subclass):标识设备如何连接至系统 设备的类型(Type):标识设备的类型 设备的名字(Name):标识逻辑设备名 # lsdev 设备列表 # lsattr 设备属性列表 # chdev 更改设备属性 # lscfg 显示当前系统中设备的配置信息 2.5设备的配置: # mkdev –c Class –s Subclass –t Type –p Parent_Adapter –w Connection_Location –a Attribute=value -c Class:指定设备所属的类(如:tape) -s Subclass:指定设备所属的子类(如:scsi) -t Type:指定设备所属的类型(如:150mb) -p Parent_Adapter:指定设备的父卡号(如:scsi0) -w Connection_Location:指定设备连接在父卡上的位置或地址(如:5,0) -a Attribute=value:指定设备的属性(如:ret=no) 2.6设备的状态: 精品文档. 精品文档 Undefined:系统中没有此设备的存在记录(设备信息存储于预定义数据库中)(Supported)Defined:系统已为此设备分配了逻辑设备名和端口,但系统当前不能访问此设备(设备信息存储于定制数据库中)(Defined) Available:设备在系统中已经定义了并且可以使用(设备信息存储于定制数据库中)(Available)# cfgmgr自动配置系统中的自适应设备(Self-Configuring Devices) 三、存储管理 3.1AIX中逻辑存储的限制 卷组(VG)255个/每个系统 物理卷(PV)32个/每个卷组 物理分区(PP)1016个/每个物理卷 逻辑卷(LV)256个/每个卷组 逻辑分区(LP)32512个/每个逻辑卷 AIX系统逻辑卷: Paging Space:/dev/hd6,用于存储虚拟内存中信息的固定的磁盘空间 Journal Log:/dev/hd8,用于记录系统中文件系统结构的改变 Boot LV:/dev/hd5,用于系统启动映象的物理上连续的磁盘空间 AIX系统文件系统: /(root):系统启动进程所需的重要的系统设备信息及应用程序的存储空间 /usr:/dev/hd2,系统命令、信息库以及应用程序的存储空间 /var:/dev/hd9var,系统的日志文件和打印数据文件的存储空间 /home:/dev/hd1,系统中用户数据的存储空间 /tmp:/dev/hd3,系统临时文件和用户工作的存储空间 3.2LVM操作命令:

小机常用维护命令

小机常用维护命令 tail -f hacmp.out (查看双机启动期间的日志信息) rm (删除目录) rmfs(删除全部) vi /var/hacmp/log/hacmp.out(打开hacmp.out文件,查看信息) diag---选第三项----...(去掉硬件设备的!报警信息) fuser /app (显示当前用户) fuser -uckx /app (停掉所有用户) varyonvg appvg (手动启动卷组,相当于启动ha的命令:smitty clstart) varyoffvg appvg (手动停止卷组,相当于启动ha的命令:smitty clstop) ls -l /dev/appvg (查看appvg卷组的详细信息,硬盘号,序号) exportvg appvg (在一台小机上设置appvg卷组后,在另一台上要做一次同步,同步的方法是:用此命令导出,再用importvg appvg 命令导出) smitty vg (可用此命令分别选择export 、import来导出、导入卷组) cat /etc/hosts (查看小机配置信息) fget_config -Av 该命令执行后产生如下代码: # fget_config -Av df -g 显示硬盘空间使用信息。 机房断电前,机柜内设备关停、开启顺序: 1、停止应用服务器; 2、停止oracle数据库; 3、停止双机(smitty clstop); 4、关闭小机(shutdown -F)

5、关闭另一台小机(shutdown -F) 6、关闭盘柜(后面2个电源按钮,分别关闭) 7、关闭windows服务器 8、关闭磁带机。 供电设备开启顺序: 1、打开盘柜; 2、打开磁带机 3、打开60小机 4、打开70小机 5、打开windows服务器 6、启动双机服务、数据库服务、应用服务。 启停双机:smitty clstart smitty clstop 关闭小机:shutdown -F 重启小机:shutdown -Fr 查看活动卷组和硬盘:lspv 查看机器上的硬盘:lsdev -Ccdisk 查看卷组中的文件系统和逻辑卷LV: lsvg -l oravg 查看文件系统的占用情况: df -m 查看小型机是否有错误: errpt |more 查看小型机错误的详细信息: errpt -a 查看Oracle日志: more /ora/app/admin/orcl/bdump/alert_orcl.log 小机去除黄灯报警方法: (一) # diag

LINUX小型机日常维护手册

Linux系统日常维护手册

变更记录

目录 第一章Linux常用命令 (4) 第二章Linux系统检查 (6) 第三章Linux卷管理 (16) 第四章Linux Cluster双机配置 (16) 第五章Linux参数调整 (20) 第六章Linux故障处理 (40)

第一章Linux常用命令 1.1常规查询命令 1.1.1查看修改主机IP地址命令 查看IP方法一: [root@ahdx-yqzl~]#ifconfig 查看IP方法二: [root@ahdx-yqzl ~]# cat /etc/sysconfig/network-scripts/ifcfg-eth0 修改主机IP [root@ahdx-yqzl ~]#vi /etc/sysconfig/network-scripts/ifcfg-eth0 修改IPADDR,NETMASK,GATEW AY的值 [root@ahdx-yqzl ~]#service network restart 重启network服务来使IP生效 在一块网卡上生成多个IP [root@ahdx-yqzl ~]ifconfig eth0:1 134.64.101.98 netmks 255.255.255.224 注:用ifconfig新增的IP保存在内存中,重启network或者重启主机以后,地址就失效了,如果长期使用建议采用新增网卡配置文件的方法 在/etc/sysconfig/network-scripts目录里面创建一个名为ifcfg-eth0:1的文件 内容样例为:

DEVICE=eth0:1 IPADDR=172.16.170.2 BROADCAST=172.16.170.254 NETMASK=255.255.255.0 ONBOOT=yes 保存退出后,重启network后生效 1.1. 2.查看主机网卡速率和全半双工设置[root@ahdx-yqzl ~]# ethtool eth0 1.1.3.查看修改主机路由表 查看路由表方法一: [root@ahdx-yqzl ~]# netstat -rn 查看路由表方法二: [root@ahdx-yqzl ~]# route –n 增加路由:

B小型机日常维护手册

IBM P750小型机 日常维护手册服务器硬件运行状态检查 1. 当服务器处于启动和正常工作状态时,其前面板上的状态灯(与电源灯并排)和各 硬盘的状态灯(一排小灯,与各硬盘位置一一对应)应显示为绿色。 2. 当服务器的状态灯出现橙黄色时,说明有硬件告警,此时要检查服务器的电源、接线、硬盘 等。如果有硬件故障则需要立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。 3. 当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮, 如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1?3秒的频率有规律地、不停地闪烁。 如果发现有服务器硬件状态灯不正常的情况,请及时联系我公司工程师,以便及时进行诊断并解决故障。 HM Q硬件管理平台)管理与操作 HMC勺两种访问途径: 1、在机房直接通过显示器和键盘进行管理维护等相关操作 2、通过web远程访问,登录HMC we管理界面,访问地址为: 1、登录HMC 浏览器访问连接HM(后,首页界面如下图所示。 点击下图所示链接,进入HMC佥证登录界面。 输入用户名与口令,登录HMC 用户名:hscroot 口令: 成功登录到HM(管理界面如下图所示。 2、注销HMC 在HMC con sole 右上角有(hscroot | help | log off )链接,单击log off ,会出现如下图所示注销界面: 选择Log off,系统返回到HMC初始登录界面状态。 3、重启HMC 左边导航栏中选择? HMC Management ? shut down or Restart ,如下图所示,对HM(进行正常重启及关机操作。 请谨慎对HM(进行关机和重启操作! 4、状态栏功能 状态栏位于HMC左下角位置,如下图所示,负责监控并反映管理系统资源状态和HMC 状态。 单击每个图标状态可以列出详细状态,你可以查到更详细的帮助信息: :非法操作,如果任何被管理的主机执行了非法操作,这个图标将会变亮

IBM小型机日常操作维护手册

附件六 IBM小型机日常操作维护手册

目录 一、报修 (3) 二、开关机 (3) 1 开机 (3) A 无分区: (3) B 有分区: (3) 2 关机 (4) A 无分区 (4) B有分区 (4) 三、日常维护 (4) 四、系统备份(仅rootvg备份) (6)

一、报修 如果碰到硬件或者软件故障,请打IBM 800免费报修电话 IBM硬件报修电话8008106677 IBM软件报修电话8008101818-5004 报修前需要准备: 1)机器序列号(如9117-570 06348DA) 2)客户单位 3)客户联系人及电话 4)机器所在城市 5)问题描述 6)相关日志 二、开关机 1 开机 A 无分区: 1)检查电源是否插好 2)液晶面板出现“OK”字样,指示灯2秒钟闪烁一次,表示机器此时处在关机状态。 3)按下前面板上白色按钮后,主机会进入硬件自检和引导阶段;液晶面板会显示开机 过程码,每一代码表示自检或引导的不同阶段,引导结束时,液晶面板代码消失,终端上有显示,进入AIX操作系统初始化,最后会出现登录提示。 4)如果主机长时间停留在某一代码上(大于20分钟),说明主机或操作系统有故障,请 打IBM硬件保修电话8008106677,并提供相关代码。 B 有分区: 5)检查电源是否插好 6)在HMC中看Service Management里面对应服务器的状态,应为Power off状态

7)选中对应的服务器,选中Power On, 选项为Partition to Standby,点击OK 8)主机开始硬件自检,启动结束后,在HMC中看到对应的服务器为Standby状态 9)选中该主机的对应分区,点击“Active”,启动分区 2 关机 A 无分区 1)停应用 2)shutdown -F停操作系统,如果机器全分区,液晶面板会显示停机过程码,最后出 现“OK”字样,指示灯2秒钟闪烁一次。表示停机过程结束。 如果只是需要重新启动,用“shutdown -Fr”命令。 B有分区 1)停相关分区应用 2)shutdown -F停相关分区 3)在HMC中选中对应的服务器,选中Power Off,点击OK 4)对应服务器的状态最终应为Power off状态 三、日常维护 首先对于机器的日常维护来说,要先观察机器的黄色报警灯是否亮起,如果报警灯亮起则登入操作系统使用以下的步骤进行查看: 1)#errpt –dH(查看硬件错误日志,一般关心P、H类型的错误) ERROR_IDENTIFIER TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 0E017ED1 0405131090 P H mem2 Memory failure 其中,TIMESTAMP代表日期,以MMDDhhmmYY格式;如0319131008表示2008年3月19日13时10分 T(Type)一栏中,P表示永久性错误,T 表示零时性错误,U 表示不能决定是什么错误 ,I 表示信息而非错误。 C(Class)一栏中,H表示硬件错误,S 表示软件错误,O 表示通知操作员。 如果 T(Type)一栏中是P且 C(Class)一栏中是H,请打8008106677进行硬件报修并发送根据工程师提示收集并发送snap文件。

最新IBM小型机维护手册资料

IBM小型机维护手册 网友:xcw0605 发布于:2008.07.15 16:09(共有条评论) 查看评论| 我要评论 IBM小型机维护手册 一、AIX操作系统简介 AIX操作系统是有IBM公司研发的Unix操作系统,在技术、功能上又有许多增强:模块化的内核; 动态调整内核; 多线索内核; 高效率的输入/输出; 实时处理; 安全性能; 日志文件系统; 存储管理(包括镜像技术和条块化技术); 系统管理; 在线帮助查询。 二、设备管理 2.1块设备(Block Device): 采用结构化的随机访问方式的具有缓冲的设备。块设备通常为磁盘文件系统(Disk File System)。2.2字符设备(Character Device): 裸设备(Raw Device),是无缓冲的连续、定向流设备。字符设备通常为系统周边设备,如终端、打印机等。 2.3主设备号(Major Number): 标识系统内核中的设备驱动号。 2.4次设备号(Minor Number):

标识特殊的设备类型。 ODM数据库由预定义数据库(Predefined Database)和定制数据库(Customized Database)组成。用于存储系统中所有逻辑设备的信息及其属性。其中: 预定义数据库:包含所有基于系统配置的系统可支持的设备(Supported Devices)的配置数据。 定制数据库: 包含当前系统中所有定义的(Defined Devices)和可用的(Available Devices)设备配置数据。 设备的类(Class):标识设备 设备的子类(Subclass):标识设备如何连接至系统 设备的类型(Type):标识设备的类型 设备的名字(Name):标识逻辑设备名 # lsdev 设备列表 # lsattr 设备属性列表 # chdev 更改设备属性 # lscfg 显示当前系统中设备的配置信息 2.5设备的配置: # mkdev –c Class –s Subclass –t Type –p Parent_Adapter –w Connection_Location –a Attribute=value -c Class:指定设备所属的类(如:tape) -s Subclass:指定设备所属的子类(如:scsi) -t Type:指定设备所属的类型(如:150mb) -p Parent_Adapter:指定设备的父卡号(如:scsi0) -w Connection_Location:指定设备连接在父卡上的位置或地址(如:5,0) -a Attribute=value:指定设备的属性(如:ret=no) 2.6设备的状态:

IBMP系列小型机维护环境日常维护流程

第一章、机房环境及物理检查 一、机房内环境要求 1.温度与湿度: 最佳工作温度:20-25摄氏度 极限工作温度:10-40摄氏度 湿度: 8-80%(在23摄氏度条件下) 如果不是工作在最佳温度,请注意改善机房环境 2.同时机房要保证清洁. 机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘 或读写磁头毁损。 二、电源要求 电压: 要求电压稳定, 尖峰电压会损坏设备 电压范围: 220V +/- 10%, 即200-240V, 50-60Hz 电源功率: 视机器类型和系统配置而定 电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V. 电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入, 建议采用两路单独输入. 三、硬件检查 检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。 服务器状态检查: 1.当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显 示。 2.当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询 相关机型的Service Guide查到相应告警原因,情况严重的,则要立即通知 IBM技术专家进行问题排查。 7133状态检查: 磁阵前面板上有7133机柜的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位置一一对应)。 1.当机柜的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬盘等。如果有硬件故障则立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。

pureflex powerlinux小型机存储等日常维护手册

服务器存储日常维护手册

一、PureFlex及PowerLinux系统启停顺序 备注:P260操作系统使用Telnet协议登陆,PowerLinux系统启动 在正常情况下,请按照以下顺序停止各项应用: 1)、停止Websphere Application Server应用、节点服务、DM服务等。 2)、停止应用服务器操作系统。 3)、停止应用服务器 4)、停止数据库及其操作系统 5)、停止P260服务器 6)、停止FSM管理服务器 7)、停止CMM管理控制台 8)、至少5分钟后,停止DS5020存储。 三、在正常情况下,请按照以下顺序启动各项应用: 1)启动存储DS5020 2)加电启动CMM 3)启动FSM管理器 4)启动P260服务器 5)启动P260分区以及数据库 6)启动应用服务器PowerLinux 7R1 7)启动应用服务器分区 8)启动Websphere AS的的节点服务器,DM服务。在DM管理控制台中启动各项应用。 9)在P260的第二个分区,分别启动HA

二、在正常情况下,请按照以下顺序停止各项应用: 1、停止Websphere Application Server应用、节点服务、DM服务等。 1)、停止应用服务,在DM控制台上http://10.41.104.45:9060/ibm/console,选择服务器,然后停止,如下: 2)、停止各个websphere的节点服务 在以下操作系统中10.41.104.2、10.41.104.4、10.41.104.45、10.41.104.46、10.41.104.41、10.41.104.42 执行: /opt/IBM/WebSphere/AppServer/profiles/AppSrv01/bin/stopNode.sh 3)、停止DM服务 在操作系统中10.41.104.45中(使用SSH登陆),执行 /opt/IBM/WebSphere/AppServer/profiles/Dmgr01/bin//stopManager.sh

P550小型机日常维护文档

P550小型机日常维护文档 1、检查系统硬件情况:设备故障灯是否有亮 主机故障灯,面板上不能有数字显示,如果有的话,说明系统有故障;DS4700磁盘阵列故障灯,告警灯为黄色表示有故障;磁带机故障灯,告警灯为黄色说明有故障或磁带机太脏,须清洗。 2、系统错误报告(errlog) 系统错误报告(Error Log)的检查: 硬件故障检测命令:#errpt -a 3、主机的文件系统使用率不大于80% # df -k 4、逻辑卷有否stale # lsvg –-l rootvg (或者其它vg) 5、内存交换区使用率是否超过70% #lsps–-a 6、检查备份情况(有否系统备份、用户数据备份、磁带机是否需要清洗) 每季度清洗磁带机一次,把清洗磁带放入磁带机,待磁带自动退出后完成,填写。 7、通信(网卡、IP、路由表、ping、/etc/hosts、DNS设置等)(1)#ifconfig –-a 网卡配置信息 (2)# lsattr –-El en0/en1/en2/en3 网卡硬件状态 (3)# netstat –-rn 路由配置信息

(4)# netstat –-an 所有网络连接信息 (5)# ping 远程服务器地址或网关 8、机房环境(电压、湿度),密切观察机房温湿度的变化 温度(摄氏℃) 18℃-25℃ 湿度(%) 20%-45% 电压:220V 9、系统性能:有否性能瓶颈(topas,vmstat) 10、机器清洁,机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。 11、严格保护root用户口令,每季度修改一次,密码必需含有数字、大写字母、小写字母、特殊字符,密码长度为八位。 12、HMC控制台管理用户/口令: hscroot/abc123 13、SMIS应用切换命令 (1)应用包(实际生产系统)运行在yzksvr1(1号机)上,当1号机需要进行停机维护时,将应用包手动切换到yzksvr2(2号机)上。用root用户执行命令: # sh /hacmp/app1move-to-svr2.sh。(2)当1号机维护工作完成后需要将应用包(实际生产系统)从2号机切回1号机运行。 用root用户执行命令: # sh /hacmp/app1back-to-svr1.sh。 14、开关机管理及注意事项,由于服务器使用集中管理控制台,所有开关机操作均在HMC控制台上完成。 (1)打开显示器电源;

相关主题