软件系统运维指导手册 WEIHUA system office room 【WEIHUA 16H-WEIHUA
系统日常维护指导手册
目录
1、目的
网e通宽带网络运营支撑系统使用的服务器中,服务器均采用red hat linux as 4操作系统,数据库版本为:oracle 10g,随着业务的开展,oracle 数据库中存储的数据量也不断增大,这样操作系统和数据库的日常维护就显得十分重要。
本手册详细描述了程序模块,linux操作系统,DHCP双机热备、负载平衡及oracle数据库等日常检查的主要步骤,指导现场工程师对其进行监控和维护。
2、适用范围
使用者为网e通宽带网络运营支撑系统维护工程师
3、服务器及数据库概述
服务器概述
服务器数量:4台,基本信息如下:
数据库概述
数据库软件分别安装在主服务器上。
/dev/mapper/VolGroup00-LogVol00 逻辑卷上ORACLE_BASE=/opt/oracle
ORACLE_HOME=/opt/oracle/product/ 10.2.0
ORACLE_SID=oracmts
4、系统服务程序的详细说明系统服务程序的构成
DHCP主程序:
DHCP从程序:
系统服务程序的启动、关闭及维护管理4.2.1 dhcp主服务
4.2.1.1 dhcp主服务说明
4.2.1.2 dhcp启动、关闭及进程查看方法
1、启动方法:
输入:cd /opt/dpcp
./dhcpd即可
注意:请首先确认数据库服务正常,数据库监听正常。
输出:
[root@localhost dhcp]$ ./dhcpd
Internet Systems Consortium DHCP Server V3.0.4
Copyright 2004-2006 Internet Systems Consortium.
All rights reserved.
For info, please visit 1 leases to leases file.
Listening on LPF/eth0/00:0c:29:fb:d4:32/ on LPF/eth0/00:0c:29:fb:d4:32/ on Socket/fallback/fallback-net
说明:dhcp启动时,会启动1个进程,正常情况下,dhcp启动的进程数为1个。
2、关闭方法
输入:kill pid
说明:pid为进程号,可使用进程查看获得。如|-dhcpd(4665),则进程id为4665,则kill 4665就可关闭dhcp。
3、进程查看
输入:[root@localhost dhcp]# pstree -p | grep dhcp
输出:
|-dhcpd(4665)
4.2.1.3 配置说明
启动配置文件:etc/
可使用more 或者 tail 命令查看
配置服务配置,更改后需要重新启动才能生效,该配置文件的设置需要与从服务器的配置文件吻合。配置文件全文如下:
#
# DHCP Server Configuration file.
# see /usr/share/doc/dhcp*/
#
ddns-update-style none;
failover peer "buptdhcp"
{
primary;
address port 519;
peer address peer port 520;
max-response-delay 60;
max-unacked-updates 10;
mclt 600;
split 128;
load balance max seconds 3;
}
subnet netmask
}
#---------------cisico1_cm---------------------------
subnet netmask option routers filename "";
next-server default-lease-time 3600;
pool
{
failover peer "buptdhcp";
deny dynamic bootp clients;
range }
}
#---------------cisico1_iad---------------------------
shared-network cisico1_iad{
subnet netmask option routers option domain-name-servers default-lease-time 3600;
pool
{
failover peer "buptdhcp";
deny dynamic bootp clients;
range }
}
}
#---------------cisico1_cpe---------------------------
shared-network cisico1_cpe{
subnet netmask option routers option domain-name-servers default-lease-time 3600;
pool
{
failover peer "buptdhcp";
deny dynamic bootp clients;
range }
}
}
租约数据库/var/state/dhcp/
可使用more 或者 tail 命令查看
记录当前服务器与对方服务器的服务状态与分配的ip租约。
示例如下:
lease {
starts 2 2007/11/27 13:15:22;
ends 3 2007/11/28 13:15:22;
tstp 3 2007/11/28 13:15:22;
binding state active;
next binding state free;
hardware ethernet 00:11:1a:07:2e:8e;
uid "\001\000\021\032\007.\216";
option 0:11:1a:7:2e:8e;
}
Dhcp状态如下:
failover peer " name " state {
my state normal at2007/11/27 13:15:22 ;
peer state normal at2007/11/27 13:15:22 ;
}
4.2.2 dhcp从服务
4.2.2.1 dhcp从服务说明
4.2.2.2 dhcp启动、关闭及进程查看方法
1、启动方法:
输入:cd /opt/dpcp
./dhcpd即可
注意:请首先确认数据库服务正常,数据库监听正常。
输出:
[root@localhost dhcp]$ ./dhcpd
Internet Systems Consortium DHCP Server V3.0.4
Copyright 2004-2006 Internet Systems Consortium.
All rights reserved.
For info, please visit 1 leases to leases file.
Listening on LPF/eth0/00:0c:29:fb:d4:32/ on LPF/eth0/00:0c:29:fb:d4:32/ on Socket/fallback/fallback-net
说明:dhcp启动时,会启动1个进程,正常情况下,dhcp启动的进程数为1个。
2、关闭方法
输入:kill pid
说明:pid为进程号,可使用进程查看获得。如|-dhcpd(4665),则进程id为4665,则kill 4665就可关闭dhcp。
3、进程查看
输入:[root@localhost dhcp]# pstree -p | grep dhcp
输出:
|-dhcpd(4665)
4.2.2.3 配置说明
启动配置文件:etc/
可使用more 或者 tail 命令查看.
配置服务配置,更改后需要重新启动才能生效,该配置文件的设置需要与主服务器的配置文件吻合。配置文件全文如下:
#
# DHCP Server Configuration file.
# see /usr/share/doc/dhcp*/
#
ddns-update-style none;
failover peer "buptdhcp"
{
secondary;
address port 520;
peer address peer port 519;
max-response-delay 60;
max-unacked-updates 10;
mclt 600;
#split 128;
load balance max seconds 3;
}
subnet netmask
}
#---------------cisico1_cm---------------------------
subnet netmask option routers filename "";
next-server default-lease-time 3600;
pool
{
failover peer "buptdhcp";
deny dynamic bootp clients;
range }
}
#---------------cisico1_iad---------------------------
shared-network cisico1_iad{
subnet netmask option routers option domain-name-
servers default-lease-time 3600;
pool
{
failover peer "buptdhcp";
deny dynamic bootp clients;
range }
}
}
#---------------cisico1_cpe---------------------------
shared-network cisico1_cpe{
subnet netmask option routers option domain-name-servers default-lease-time 3600;
pool
{
failover peer "buptdhcp";
deny dynamic bootp clients;
range }
}
}
租约数据库/var/state/dhcp/
记录当前服务器与对方服务器的服务状态与分配的ip租约。
示例如下:
lease {
starts 2 2007/11/27 13:15:22;
ends 3 2007/11/28 13:15:22;
tstp 3 2007/11/28 13:15:22;
binding state active;
next binding state free;
hardware ethernet 00:11:1a:07:2e:8e;
uid "\001\000\021\032\007.\216";
option 0:11:1a:7:2e:8e;
}
Dhcp状态如下:
failover peer " name " state {
my state normal at2007/11/27 13:15:22 ; peer state normal at2007/11/27 13:15:22 ;
}
4.2.3 web管理模块
4.2.3.1 web管理模块中主要目录说明
/opt/apache-2.0.52为apache模块所在目录
/opt/taiyuan 为web 程序存储目录
4.2.
5.2 web管理模块中各程序说明
命令所在目录:/opt/apache/bin
4.2.
5.3 web站点启动、关闭及进程查看方法
4.2.
5.4 web日志说明
Log存放目录为:/opt/apache/logs
/opt/apache/logs/access_log为所有访问网站的日志
/opt/apache/logs/error_log为错误信息日志
/opt/apache/log为主进程的pid号
/opt/apache/logs/ssl_engine_log 为ssl引擎日志,即ssl的运行日志,可以通过查看此日志了解运行状态及错误。
/opt/apache/logs/ssl_request_log 为ssl请求日志
即是哪个ip使用https ssi协议登录web站点,请求的时间,内容,访问的页面等。
4.2.
5.5 日常维护
维护分为:业务维护及系统维护
业务维护就是,利用系统管理员的身份,查看操作日志
系统维护是:定期查看系统日志,apache日志等,看是否有运行错误,并定期备份日志。
5、服务器硬件维护(略)
6、linux系统的日常维护
定期检查磁盘空间
使用df显示磁盘空间
输入:
[oracle@localhost server]$ df
输出:
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/cciss/c0d0p2 6 7612144 8% /
/dev/cciss/c0d0p1 101086 12308 83559 13% /boot
none 2073908 4 2073904 1% /dev/shm
/dev/cciss/c0d0p5 185056 1% /home
说明:
这里显示了/、 /boot、/home分区挂载的系统分区使用的大小,磁盘空间以k为单位。
可以加参数 -h
[oracle@localhost server]$ df -h
Filesystem Size Used Avail Use% Mounted on
/dev/cciss/c0d0p2 103G 7.3G 91G 8% /
/dev/cciss/c0d0p1 99M 13M 82M 13% /boot
none 2.0G 2.0G 1% /dev/shm
/dev/cciss/c0d0p5 30G 181M 28G 1% /home
注意:
当某空间使用率超过85%时,通过du查看是哪些文件占用的空间比较大例如/home使用了85%
cd /home
以root用户查看
su
输入root用户密码
[root@localhost /]# du -m --max-depth=1
-m是以M大小显示
--max-depth=1表示只是一级子目录的大小,如果想查看二级的就写为2
找出占用很大的文件,经判断后决定删除或转移。
使用top工具监视cpu及内存的使用率
每隔5秒,top工具确定哪些进程消耗最多的cpu时间,并按递减顺序在屏
幕显示。
输入:[oracle@localhost /]$ top
输出:
top - 10:52:46 up 6 days, 39 min, 2 users, load average: , ,
Tasks: 123 total, 1 running, 122 sleeping, 0 stopped, 0 zombie
Cpu(s): % us, % sy, % ni, % id, % wa, % hi, % si
Mem: 8247956k total, 1828612k used, 6419344k free, 119476k buffers
Swap: 8385920k total, 0k used, 8385920k free, 1526064k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+
COMMAND
1 root 16 0 3004 55
2 472 S 0: init
2 root RT 0 0 0 0 S 0: migration/0
3 root 3
4 19 0 0 0 S 0: ksoftirqd/0
4 root RT 0 0 0 0 S 0: migration/1
5 root 34 19 0 0 0 S 0: ksoftirqd/1
6 root RT 0 0 0 0 S 0: migration/2 说明:
当发现个别进程占用率很高,可以通过用“ps –axj | grep 进程名”查看这个进程在进行什么操作,如果发现这个进程持续的时间很长,而且非系统必要进程;可以通过“kill –9”进程的PID号,将进程杀死。(不确定情况下,请不要使用);
退出top用ctrl+c。
定期查看root邮件
输入:
[oracle@localhost log]$ su -l
Password:
[root@localhost root]# mail
输出:
1 Fri Sep 8 16:23 18/704 "HP Insight Management Agents Trap Alarm"
N 2 Fri Sep 8 16:23 18/684 "HP Agent Trap Alert"
N 3 Fri Sep 8 16:23 19/748 "HP Insight Management Agents Trap Alarm"
说明:
前面为N的表示新邮件
可以在& 后面输入1,代表看第一封信,ctrl+c表示退出查看这封信,h显示所有的
如果都看过的邮件,就可以通过d来删除
如果删除1-10就用
&d 1-10这样就会删除1-10的信。
定期查看系统日志
系统的日志存储于/var/log目录下,需要定期查看,常用日志说明如下:
:该文件记录了系统在引导过程中发生的事件,就是Linux系统开机自检过程显示的信息
maillog: 该日志文件记录了每一个发送到系统或从系统发出的电子邮件的活动messages: 该日志文件是许多进程日志文件的汇总,从该文件可以看出任何入侵企图或成功的入侵
lastlog: 该日志文件记录最近成功登录的事件和最后一次不成功的登录事件,由login生成
wtmp: 该日志文件永久记录每个用户登录、注销及系统的启动、停机的事件xferlog: 该日志文件记录FTP会话,可以显示出用户向FTP服务器或从服务器拷贝了什么文件
cron: 该日志文件记录crontab守护进程crond所派生的子进程的动作,前面加上用户、登录时间和PID,以及派生出的进程的动作
7、备份策略
备份方式
为了保证数据库的高安全性,目前我们采用的数据库备份方式为物理备份和逻辑备份相结合的方式,数据库归档模式为自动归档模式。这样当数据库出