搜档网
当前位置:搜档网 › 高性能计算机统一资源管理系统的设计与实现

高性能计算机统一资源管理系统的设计与实现

第33第1期

2014年3月计 算 技 术 与 自 动 化Com p utin g Technolo gy and Automation Vol.33,No.1 Mar.2014收稿日期:2013-08-02作者简介:沈 瑜(1979 ),女,江苏常熟人,工程师,硕士研究生,研究方向:高性能计算机系统管理及应用支持(E-mail :shen y u@cma.g https://www.sodocs.net/doc/6315700619.html, );李 娟(1971 ),女,河北固安人,高级工程师,硕士,研究方向:高性能计算机系统管理及应用支持三文章编号:1003-6199(2014)01-0083-08

高性能计算机统一资源管理系统的设计与实现

沈 瑜,李 娟,常 飚,孙 婧

(国家气象信息中心高性能计算室,北京 100081)

摘 要:高性能计算是气象业务及科研应用的重要的基础平台,中国气象局(CMA )

近年来相继引进多套高性能计算机系统用以提高气象服务和研发能力三随着用户和应用的增加,如何有效管理高性能系统资

源成为一个重要课题三本文详解介绍CMA 高性能计算机系统统一资源管理平台的设计和实现,该系统可

以对多套异构的高性能计算机系统进行统一的资源精细化统计分析和计费管理,通过该平台,系统管理员

动态掌握系统的运行和资源使用情况,并据此调整系统资源分配调度策略,从而更合理高效的利用系统资

源,有效提高系统运行效益三

关键词:高性能计算机系统;CPU 利用率;

计算资源;作业管理软件;资源账务信息库中图分类号:P315.69 文献标识码:A Desi g n and Im p lementation of the Uniform Resource Mana g ement S y stem of HPC

SHEN Yu ,LI Juan ,CHANG Biao ,SUN Jin g

(National Meteorolo g ical Information Center ,Bei j in g 100081,China ) Abstract :Hi g h p erformance com p utin g is an im p ortant basic p latform for meteorolo g ical o p erations and develo p ments.China Meteorolo g ical Administration (CMA )has introduced several sets of HPC s y stem to im p rove meteorolo g ical services and R&D ca p abilities.With the increase of users and a pp lications ,how to mana g e the HPC resources effectivel y has become an im p ortant sub j ect.This article described the desi g n and im p lementation ofthe unified resource mana g ement p latform for

CMA HPC s y stems ,throu g h the p latform ,the s y stemadministrators can d y namic g ras p s y stem resource usa g e ,and ad j ust resource schedulin g p olic y better ,for a more rational and efficient use of s y stem resources.

Ke y words :HPC s y stem ;CPU utilization ;com p utin g resource ;j ob mana g ement software ;resource accountin g informa -tion DB 1 引 言

高性能计算机系统是天气二气候二地球环境数

值模拟业务和相关科学研究所必须的基础平台,中

国气象局(CMA )在2005年及2009年相继引进IBM cluster 1600和神威4000A 高性能计算机系统,总理论峰值超过55万亿次浮点运算每秒

(TFlo p s ),面向中国气象局大院主要单位提供高性能科学计算环境,支持各类气象业务/准业务及相关科研工作三

系统运行至今,用户总数超过600人,以2012年12月为例,每月系统运行作业数接近20万条,数据存储量超过270TB ,如何对系统资源的高效管理和合理使用成为一个重要问题三

2 整体架构设计国家气象信息中心作为中国气象局高性能计算机系统的管理机构,目前已在现有的两套主要的

相关主题