計算機資源の管理ツール
Torque のインストールと設定方法をまとめる.
使用したバージョンは, 4.2.0 である. EL 6, 5 の混在した環境である.
バージョンアップが早いので, web で設定方法を調べる場合には, メジャーバージョンが同じものかに注意する必要がある. 古いバージョンでは, 設定方法が異なる場合がある.
使用構成
Torque は,
1つのファイルサーバと複数の計算機とから構成されるシステムにおいて使用することができる.
(他の構成では不可能なわけではない.)
Torque 自体は, ヘッドノードと計算ノードとから構成される.
通常は, 1つのヘッドノードと
いくつかの計算ノードとから構成される.
1つのマシンにてヘッドノードと計算ノード両方を兼ねることもできる.
以下では,
ヘッドノードのホスト名を
headnode
,
計算ノードのホスト名を
node01
,
node02
... として表す.
ビルド
rpmbuild
にて, 以下の RPM を作成した. (その他, el5 の RPM も作成する.)
torque-4.2.0-1.el6.x86_64.rpm
torque-client-4.2.0-1.el6.x86_64.rpm
torque-debuginfo-4.2.0-1.el6.x86_64.rpm
torque-devel-4.2.0-1.el6.x86_64.rpm
torque-scheduler-4.2.0-1.el6.x86_64.rpm
torque-server-4.2.0-1.el6.x86_64.rpm
インストール
以下のようにして, ヘッドノードへインストールする.
headnode # rpm -Uvh torque-4.2.0-1.el6.x86_64.rpm
headnode # rpm -Uvh torque-server-4.2.0-1.el6.x86_64.rpm
headnode # rpm -Uvh torque-scheduler-4.2.0-1.el6.x86_64.rpm
headnode # rpm -Uvh torque-client-4.2.0-1.el6.x86_64.rpm
headnode # iptables -I INPUT -j ACCEPT -m tcp -p tcp --dport 15001:15005
なぜか, torque-client もインストールしないと設定できない.
この時点で,
pbs_server
,
pbs_sched
,
trqauthd
がインストールされる.
ヘッドノードで, 設定する.
headnode # service pbs_server start
headnode # qmgr
create node node01"
create node node02"
...
create queue batch
set queue batch queue_type = Execution
set queue batch resources_default.nodes = 1
set queue batch resources_default.walltime = 01:00:00
set queue batch enabled = True
set queue batch started = True
set server scheduling = True
set server default_queue = batch
このあと,
pbs_server
の再起動が必要かもしれない.
設定したノードの状態を確認するには以下のコマンドを使用する.
headnode $ pbsnodes -a
もし, offline と表示された場合は,
headnode $ pbsnodes -c node01
にて解除する.
計算ノードには, 以下のようにそれぞれインストール・設定する.
node01 # rpm -Uvh torque-4.2.0-1.el6.x86_64.rpm
node01 # rpm -Uvh torque-client-4.2.0-1.el6.x86_64.rpm
node01 # iptables -I INPUT -j ACCEPT -m tcp -p tcp --dport 15001:15005
node01 # cat /var/spool/torque/server_name
headnode
node01 # cat /var/spool/torque/mom_priv/config
$pbsserver headnode