LSF集群作業管理系統

2021-10-07 06:36:57 字數 2973 閱讀 4662

lsf (load sharing facility)是乙個被廣泛使用的作業管理系統,具有高吞吐、配置靈活的優點。通過 lsf 集中監控和排程,可以充分利用計算機的cpu、記憶體、磁碟等資源。

可以通過以下三種方法使用 bsub 來提交作業:

直接在命令列中輸入完整引數:

進入 bsub 環境互動提交:

編寫作業提交指令碼供 bsub 處理。

可以直接在 bsub 的命令列中輸入完整的引數來提交乙個作業,比如:

$ bsub -n 4 -q example-queue -o example.out ./example "-input data.txt"
其中所用的引數說明如下:

這種方式比較適合提交簡單的作業,更複雜的作業控制需要編寫作業指令碼。

lsf 作業指令碼本質上也是乙個 shell 指令碼,在其中可以用 #bsub開頭的行來指明 bsub作業引數。下面是乙個 lsf 作業指令碼示例:

# example.lsf

#bsub -l /bin/bash

#bsub -j example-mpi4py

#bsub -q example-queue

#bsub -n 4

#bsub -o example.out

#bsub -e example.err

mpirun python example-mpi4py.py

其中各引數說明如下:

提交作業指令碼,使用下面的命令:

$ bsub < example.lsf
在終端中輸入 bsub 並回車後會進入 bsub 互動環境,在其中可輸入作業引數和執行作業程式。在 bsub 互動環境下可以一次提交多個引數相同的作業,例如:

$ bsub

bsub> -n 4

bsub> -q example-queue

bsub> -o example.out

bsub> prog1

bsub> prog2

bsub> prog3

bsub> ctrl+d

使用 ctrl+d 可退出 bsub 互動環境。

可以用 bjobs 命令檢視使用者正在執行中的作業:

$ bjobs
使用 -l引數和某個作業的 jobid,可以檢視該作業的詳細資訊:

$ bjobs -l jobid
使用 bkill 命令中止某個作業:

$ bkill jobid
lsf 使用 bsub 命令來提交作業。 

bsub 命令常見用法如下: 

bsub –n z –q queuename –i inputfile –o outputfile command 

其中z代表了提交作業需要的cpu數,–q指定作業提交到的佇列,如果不採用–q選項,系統把作業提交到預設作業佇列。

inputfile 代表程式需要讀入的檔名(例如 namelist等),outputfile 代表乙個檔案,作業提交後標準輸出的資訊將會儲存到這個檔案中。command是使用者要執行的程式。 

(1)對於序列程式command可以直接使用使用者的程式名 

例如,對乙個序列作業mytest, 提交方式為: 

bsub –n 1 –q debug –o mytest.out ./mytest 

(2) 對於並行作業command為「mpirun.lsf 程式名」 

例如對於乙個72個小時內完成,使用16個cpu的並行作業mytest,提交方式為: 

bsub –n 16 –q normal –o mytest.out mpirun.lsf ./mytest 

例如對於乙個72小時內完成,使用64個cpu的並行作業mytest,提交方式為:

bsub –n 64 –q hpc_linux –o mytest.out mpirun.lsf ./mytest 

bsub 命令可以使用輸入指令碼提交具有相同引數的作業,格式為: 

該指令碼的引數與命令列 

「 bsub –n z –q queuename –o outputfile command」引數相同。 

提交時為 bsub < 指令碼名 

例如要提交乙個72小時內完成,需要16個cpu的並行作業mytest,可以編寫作業指令碼 bsub.scriptfile 

#bsub –n 16 

#bsub –q normal 

#bsub –o mytest.out 

mpirun.lsf ./mytest 

作業提交方法為:bsubbsub -is ./mytest 這種提交方法可以將mytest的標準輸出列印在螢幕

幾個常用的指令: 

bjobs 檢查提交作業狀態 

bjobs 

bjobs -w 

bjobs –r 顯示正在執行的作業 

bjobs –a 顯示正在執行的和最近完成的作業 

bjobs -p 顯示等待執行的作業和等待原因 

bjobs –s 顯示正在掛起的作業和掛起的原因 

bjobs -l 顯示該作業的所有資訊 

bhist 顯示最近完成作業或正在執行作業的歷史情況 

bhist

bkill 刪除不需要的作業 

bkill

bkill –r

bpeek 當作業正在執行時顯示它的標準輸出,監視作業執行 

bpeek

bqueues 顯示佇列資訊 

bqueues 

bqueues –l

bhosts 顯示各節點作業相關情況 

bhosts 

bhosts

lsload 顯示各節點負載資訊 

lsload 

lsload

lshosts處理各節點靜態資源資訊 

lshosts 

lshosts

集群LSF作業提交系統Bsub命令使用

bsub,提交給lsf作業的命令。1.命令格式 bsub options command argument bsub pack job submission file 2.引數含義 q 選擇佇列 i 指定輸入檔案 i 互動模式,此時終端不能輸入 o 指定輸出檔案,作業提交後標準輸出的資訊會儲存到這個...

集群上作業提交系統LSF和PBS的使用與簡介

bkill 刪除作業 bjobs 檢視作業 bqueues 檢視佇列資訊 pbs作業提交系統 qdel 刪除作業 qstat 顯示作業狀態 pbsnodes 顯示集群中所有節點資訊 bsub n num bsub l nodes 1 ppn 1 bsub q queue bsub o path bs...

LSF系統介紹

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!lsf系統介紹 給我老師的人工智慧教程打call!你好!這是你第一次使用 markdown編輯器 所展示的歡迎頁。如果你想學習如何使用markdown編輯器,可以仔細閱讀這篇文章,了解一下markdown的基本語法知識。全新的介面設計,將會帶來全新...