东五楼计算机集群应用步骤
一、申请账户
通过提交项目基本情况及所需资源来获得账户和密码
二、下载客户端SSH Secure Shell Client,账号连接
图1 客户端界面
1、edit----settings---connection,设置默认连接用户信息,见图2所示:
host:211.69.198.201(学校计算机网络节点IP)
user:申请的用户名
port:端口号22
设置好后,以后每次只要点击就可以通过输入密码连接。
图2 连接设置
2、连接后界面
图3 登陆后界面
3、之后就可以输入命令了。
4、基本常用命令学习
ls 查看该路径下的文档(注:是LS哦,不要搞成1S)vi +文件名对该文件进行编辑
cd+具体路径进入该路径的文件夹下比如:cd /home/liugf/fluent cd空格.. 进入上级文件夹
cd 进入下级文件夹
按键盘delete或者backspace 回删文字
* 表示所有东西
i 编辑模式(用于更改job文件及oar文件,输入i才能更改文件内容)
cp 复制
cp * ../文件名/ 复制所有东西到上一级文件夹里
rm 删除
Esc(键盘按键): wq :退出编辑并保存(用于用于更改job文件及oar文件)
oarsub –S ./oar 提交任务(在计算文件存放路径下提交)
oarstat 查看任务
oardel job id(具体任务的ID号)删除任务,用于计算过久或者计算出错时
查看硬盘下还有多少空间du –sh 用户名
三、将linux版本的fluent上传到高性能计算机中心并安装
(liugf的账号已经安装,后来人不用管安装的事了,要学的可以学学)
1、软件下载地址:
ed2k://|file|[Ansys流体动力学系
统].Ansys.Fluent.6.3.Linux.x64.zip|156044630|6cb356346568a23b15c0731378afb0f1|/
2、上传,通过点击进入如下界面:
该界面是一种ftp上传软件,可通过鼠标拖拽,把个人机的文件上传到计算结点给用户分配的存储空间上。左为个人电脑,右为计算结点。
图4 上传文件界面
5、安装fluent
(1)建立安装目录/home/liugf/fluent,把安装文件放在该目录下,liugf为账户名,可根据需要更改。(注:盘符下的文件夹不能有中文名)
(2)本例子中解压缩过程有两种文件,一种是zip文件,一种是tar文件,解压zip文件:unzip 解压文件名(大小写保持一致)
解压tar文件:tar –xvf 解压文件名
-x:提取文件;
-v:处理过程中输出相关信息;
-f:对普通文件操作。
注:不同类型的压缩文件解压缩命令不同,可根据具体情况百度学习。
(3)对tar文件解压缩后出现sh格式的文件,可以直接安装该文件。
安装命令:./xxx.sh
注:XXX为文件名
四、运行计算程序
1、运行前要知道的东西
(1)一次最多只能提交12个任务
(2)每个任务不能计算超过120小时
(3)16个cpu是计算效果最好的,但也要视具体模拟情况而定,要的cpu越多,你的任务越有可能被排到后面。
(4)有四个重要文件host、hostib、job、oar(感谢煤燃烧王林同学的提供^_^),其中job和oar是根据你具体的计算更改的。
(5)每计算一个算例,都要把上面四个文件放在计算文件所在路径下。
(6)Job文件修改简介
假设我的计算文件在这个路径下:
/home/liugf/users/jiani/14cap/unsteady/8nodes
●首先进入该路径
cd /home/liugf/users/jiani/14cap/unsteady/8nodes
●想看的话可以查看下该路径下有什么东东
输入ls,就可以看到
[liugf@node01~]$cd /home/liugf/users/jiani/14cap/unsteady/8nodes
[liugf@node01 8nodes]$ ls
14cap0.002s.cas 14cap0.002s.dat host hostib job oar
●要编辑job文件,输入vi job,进入job文件,可以看到
图5 job文件的内容
编辑oar文件,vi oar
可以看到下面界面(涂色的可以修改):
#!/bin/sh
### set current work directory
##OAR -cwd
#reserve resource
#OAR -l nodes=2/cpu=4, walltime=120:00:00 注:设置所需的计算资源及计算时间### Job Name
#OAR -n 14capsteady (注:自己定一个区别与别人的作业名)### directory
### Output
#OAR -O out
#OAR -E err
## import the environment varialbes
##$ -V
### Script command
echo
echo ----- Running on host `hostname`
echo ----- Start time is `date`
echo ----- Directory is `pwd`
echo
/home/liugf/fluent/Fluent.Inc/bin/fluent 3d -g -ssh -cnf=$OAR_NODEFILE -t8 -i job
注:你的fluent的安装路径,要选择二维还是三维求解器,几核,-g是在后台计算的意思
#fluent 3d -g -pib -mpi=mvapich -cnf=host -t1 -i job > output
echo
echo ----- End time is `date`
exit
注:编辑并保存完oar文件后,还需对它进行一次编译,让他变成绿色,oar。编译命令:chmod 755 oar
2、开始计算
(1)把要修改的修改了,那四个文件放在你的计算文件所在文件夹下。
(2)提交作业
●输入命令:oarsub –S ./oar 注:S要大写
●好了,提交成功,那边会给你提供一个作业ID号比如121345,
如果有现成的空结点,就可以直接开始算了,如果没有,只能排
队等了,如果排队时间很长,你又想把计算文件修改一些设置,
可以抓紧时间把计算文件换了,重新上传,文件名不要变就好。
●如果你的计算出错,可以删除作业
oardel 121345(作业id号)
●查看作业运行情况
oarstat
3、可能遇到的问题
●如果你的某个程序变态了没法退出,只能用强制关闭命令:pgrep –u
账户名| xargs kill -9
●如果你的出错文件err里面写了下面的东西,找管理员,让他帮你弄
吧,我也不知道怎么回事,在这个问题上我折腾了很久。期间还遇
上黑客攻击东五楼的情况。
/home/liugf/fluent/Fluent.Inc/fluent6.3.26/cortex/lnamd64/cortex.3.7.3 -f fluent -g -i job (fluent "3d -pethernet -host -r6.3.26 -t8 -mpi=hp -cnf=/tmp/oar_runtime//166754 -path/home/liugf/fluent/Fluent.Inc -ssh") Starting
/home/liugf/fluent/Fluent.Inc/fluent6.3.26/lnamd64/3d_host/fluent.6.3.26 host -cx https://www.sodocs.net/doc/d618962025.html,:58970:42168 "(list (rpsetvar (QUOTE parallel/function) "fluent 3d -node -r6.3.26 -t8 -pethernet -mpi=hp -cnf=/tmp/oar_runtime//166754 -ssh")
(rpsetvar (QUOTE parallel/rhost) "") (rpsetvar (QUOTE parallel/ruser) "") (rpsetvar (QUOTE parallel/nprocs_string) "8") (rpsetvar (QUOTE parallel/auto-spawn?) #t) (rpsetvar (QUOTE parallel/trace-level) 0) (rpsetvar (QUOTE parallel/remote-shell) 1) (rpsetvar (QUOTE parallel/path) "/home/liugf/fluent/Fluent.Inc") (rpsetvar (QUOTE parallel/hostsfile) "/tmp/oar_runtime//166754") )"
Welcome to Fluent 6.3.26
Copyright 2006 Fluent Inc.
All Rights Reserved
Loading "/home/liugf/fluent/Fluent.Inc/fluent6.3.26/lib/flprim.dmp.1119-64"
Done.
Starting
/home/liugf/fluent/Fluent.Inc/fluent6.3.26/multiport/mpi/lnamd64/hp/bin/mpirun
-TCP -f /tmp/fluent-appfile.10892
Host key verification failed.
mpirun: Warning one more more remote shell commands exited with non-zero status, which may indicate a remote access problem.
●有时候产生了err文件,但是没什么大问题,还是可以计算,可以通过
打开out文件,查看残差等信息。
●上面问题都解决的话,基本就没什么大问题了。
2010-6-6撰于化机所