自动化运维平台立项报告
1.项目名称
自动化运维平台
2.现状分析
我部承担了XXXX等业务系统, 目前,我部已有的IT基础设施包括XXX台服务器,运行AIX, HPUX, Redhat Linux, Suse Linux, Windows等XXX种操作系统。随着业务系统的发展,近年来对信息化建设不断投入,大力发展信息化平台,我部所管辖的IT资产规模不断扩大,目前IT系统已经支撑了大量的业务,同时各类新型的业务系统还在陆续推出。
信息化系统对业务的支撑作用日益加强,如何保障信息化系统的稳定运行也变得越来越重要,随之而来IT 运营维护的压力也在不断增大。具体表现在:
1.业务系统上线,升级频繁,目前我部承担XX个核心系统,XX个业务子系统的运维,
系统大的升级每年平均有XXX次,而业务/系统变更每周平均有XXX个,涉及XX台
服务器,目前我部虽然实施了ITIL进行变更控制,但变更的具体实施操作完全依赖手
工完成,时间紧,任务重,变更实施人员往往无法在预定的变更窗口时间内完成变更
实施和验证,而高强度的手工操作容易导致操作失误和变更失败,并可能直接酿成生
产事故。
2.配置规范难以核实落地。我部运维的业务系统均有相应的软硬件配置规范,需要进行
例行核实以确保业务的正常运行,但由于承载这些业务的设备众多,配置不断更新,
目前只能是对重点系统或重点设备进行人工抽查。
3.变更验证耗时长。在业务系统的上线与变更中,由于主要依靠手工进行,变更验证的
耗时为全部耗时的XX%,并且只能做到抽查,缺乏有效的工具帮助进行变更验证。
4.发现非法变更。我部虽已经实施符合ITIL的变更管理,但依然存在变更管理流程记录
外的系统更改和配置更改,成为系统隐患。目前我部缺乏对用户登录系统终端进行操
作的记录,查询和审计功能,如何快速探测非法更改是保证安全生产的难点之一。
5.为保障安全生产和系统稳定运行,我部参照XXX等国际最佳实践,结合自身的运维
经验,制定了面向服务器,网络设备,中间件,数据库和应用的巡检规则共XXX类,XXX大项,XXX条细则。但是,在巡检实施过程中,主要依靠手工和少量脚本,缺
乏必要的工具支撑,巡检周期拉长到X天,只能做到抽查而无法覆盖全部设备,而即
使是抽查从检查到汇总报表也需要耗时XXX天。
同时,对于巡检中发现的违规条目,由于缺乏有效工具而无法进行修补,如我部在安
全条约中定义所有服务器管理员密码必须每X天更换一次,但考虑到我部管辖到X台
服务器,现有人力根本无法达成这样的标准,这使得许多规范都成了所谓的免责规范。
6.业务系统扩容所产生的操作系统安装,软件与补丁安装,安全配置等运维需求,占到
我部人员日常工作的XX%,其中,操作系统安装每台花费XX小时,而每月平均有
XX台服务器需要上线,安装操作系统与相应的补丁,应用与安全模块,消耗了我部
运维人员大量的人力与时间。
7.操作审计,目前我部普遍存在服务器账号共用现象,多人共用同一操作系统账号,且
缺乏击键级操作记录,无法满足XXXX的安全规定。
8.我部负责的其他运维操作和例行的任务,如添加用户,授权与收权,数据库与应用备
份,服务重启等操作,亦是完全通过手工进行,耗时长,准确性难以保证。
因此为了提高我部信息中心的IT运维的服务水平,需要建设一套自动化运维平台,实现健康检查,安全与操作审计,操作系统安装,软件安装,配置变更,常规与例行作业等日常运维操作的自动化,以提高运维效率,保障安全生产。
3.自动化运维平台的工作原理与基本功能
自动化运维平台通过安装在被管服务器上的代理(Agent)实现自动操作。操作员登陆到平台的客户端,以作业的形式定义操作内容,操作对象,运行时间等,提交到平台核心。核心发指令到被管服务器上管理Agent,完成操作并返回操作结果, 如下图所示:
通过自动化运维平台能够实现的运维操作内容包括资产信息和配置发发现,操作系统安装,补丁管理,应用程序分发,日常巡检,操作审计,合规审计,配置跟踪,脚本执行,虚拟机管理,各种报表等我部常见运维作业。
4.效益分析
通过部署和实施自动化平台,通过在资产信息和配置发发现,操作系统安装,补丁管理,应用程序分发,日常巡检,操作审计,合规审计,配置跟踪,脚本执行,虚拟机管理,各种报表等运维任务中实施自动化,可以帮助运维人员深入了解各种配置信息, 真正实时的服务浏览器, 快速部署和配置操作系统,软件和应用,基于角色的访问控制, 两权分立、三重授权, 操作审计, 自动化变更, 自动化执行复杂的变更操作, 有选择地回滚不当的变更, 持续的合规性, 基于最佳实践的审计与合规功能, 灵活地设置基于策略的例外规则,减少误判等
3.1 提高运维效率
通过实现日常运维任务的自动化,缩短操作时间,减少操作失误,使得运维人员可以从简单重复的任务中解放出来,进行规则制定,任务设计,系统优化等更有价值的工作。
3.2 有效支撑业务
通过自动化平台可进行并发,批量的安装与变更操作,变更后验证等,可有效保证变更质量,缩短业务上线时间。
3.3保障系统合规
通过自动化平台进行短周期,高频率的自动巡检,出具巡检报告,自动修补违规项,使得我部已有的安全,配置规范能够有效实施,切实保障安全生产。
3.4 管理风险
根据最佳实践流程执行所有更改,以确保与内部政策和外部法规的合规性。高效的变更管理可提供所有变更的详细核查痕迹,指明每个变更的授权人、授权时间、执行人和执行时间。大大减少花在实现和证明监管合规性上的时间与人力消耗。
5.建设方案和内容
4.1 系统建设目标
通过建设自动化运维平台,实现如下运维领域的自动化:
1.操作系统安装自动化
自动、动态地安装和配置服务器(物理和虚拟服务器),并可自动执行安装后作业以强制上线标准。
2.应用发布自动化
与最佳实践变更管理流程结合,实现应用升级,变更,补丁的自动执行和验证,最小化风险并确保配置合规性。
3. 配置和补丁管理自动化
通过基于策略的补丁、修复、更新和升级部署,降低成本,改进对软件和网络设备配置的控制。紧密的配置控制(包括删除非授权的软件应用程序和内容)可确保只部署授权的软件和配置,从而最小化服务中断的风险并降低支持成本。
4. 合规与健康检查自动化
根据最佳实践流程执行所有更改,以确保与内部政策和外部法规的合规性。高效的变更管理可提供所有变更的详细核查痕迹,指明每个变更的授权人、授权时间、执行人和执行时间。大大减少花在实现和证明监管合规性上的时间与人力消耗。
4.2 系统部署
自动化平台的部署上考虑采用国际公认的有代理的解决方案,即在被管理服务器的操作系统上安装操作代理,用户登录到自动化平台的客户端,通过自动化平台应用服务器运行任务与操作,为典型的三层构架,同时,运维数据库与记录运维历史信息的报表数据库区分开来,如下图所示:
4.3 实施范围
针对我部管辖的服务器实施自动化,操作系统类型包括:
-HPUX 11i
-AIX 5.3/6
-Redhat Linux Advanced Server 4/5
-SuSE Linux 9/10
-Solaris 9/10
-Windows 2003/2008
拟完成自动化的运维内容涉及:
设备和配置发现 , 操作系统安装 , 补丁管理 , 应用程序分发
日常巡检, 操作审计, 合规审计, 配置跟踪, 脚本执行, 变更操作, 作业调度虚拟机管理, 远程管理, 服务器单点登录