经济文库 - 千万精品文档,你想要的都能搜到,下载即用。

LSF作业调度系统的使用.pdf

﹏heartbreaker°39 页 346.611 KB 访问 1592.97下载文档
LSF作业调度系统的使用.pdfLSF作业调度系统的使用.pdfLSF作业调度系统的使用.pdfLSF作业调度系统的使用.pdfLSF作业调度系统的使用.pdfLSF作业调度系统的使用.pdf
当前文档共39页 2.97
下载后继续阅读

LSF作业调度系统的使用.pdf

LSF作业调度系统的使用 李会民 hmli@ustc.edu.cn 中国科学技术大学 超级计算中心 2014年4月25日 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 1 / 39 . 1 LSF作业管理系统简介 2 查看队列情况:bqueues 3 超算中心超算系统现有队列 4 提交作业:bsub 5 管理作业:bkill、bstop、bresume、btop、bbot、bmod 6 查看作业情况:bjobs、bpeek 7 查看计算节点信息:lsload、bhosts 8 查看用户信息:buser 9 查看作业历史统计信息:bacct 10 LSF作业脚本 11 联系信息 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 2 / 39 . 作业调度系统的用途 资源管理器:管理超算系统的硬件资源及认证信息等 队列管理器:管理当前已经提交但还未完成的作业 调度器:为作业分配资源 主要作用: 根据用户作业提出的需求分配对应的资源给作业,告诉作业给它分配 哪些节点等 避免作业之间无序干扰,尽量让整个系统的负载一致 保证用户占用资源的长期内公平 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 3 / 39 . LSF作业管理系统的简介 当前超算中心的超算系统主要采用IBM公司1 的Platform LSF进行资 源和作业管理(IBM JS22刀片服务器除外) 所有需要运行的作业均必须通过作业提交命令 b s u b 提交 为了利用 b s u b 提交作业,需在 b s u b 中指定各选项和要执行的程序 应提交到合适的队列 提交后可利用相关命令查询作业状态等 系统LSF作业运行和排队情况参见:http://scc.ustc.edu.cn/yxjk/ 注意: 登录节点主要用于日常操作,如提交作业、查看作业运行情况、编 辑、编译、压缩/解压缩等 不要在登录节点直接运行作业,以免影响其余用户的正常使用 如果不通过作业调度系统直接在计算节点上运行将会被监护进程直 接杀掉 1 以前叫Platform,已被IBM收购 李会民 (中国科大超算中心) . LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 4 / 39 . 查看队列情况:bqueues 利用bqueues可以查看现有队列信息,例如: bqueues QUEUE_NAME PRIO STATUS MAX JL / U JL / P JL / H NJOBS PEND RUN SUSP normal 30 Open : A c t i v e − 8 − − 22 2 20 0 long 30 Open : A c t i v e − 304 − − 52 12 40 0 QUEUE_NAME:队列名 PRIO:优先级,数字越大优先级越高 STATUS:状态 Open:Active表示已激活,可使用 Closed:Active表示已关闭,不可使用 MAX:队列对应的最大CPU核数,-表示无限,以下类似 JL/U:单个用户同时可以的CPU核数 NJOBS:排队、运行和被挂起的总作业所占CPU核数 PEND:排队中的作业所需CPU核数 RUN:运行中的作业所占CPU核数 SUSP:被挂起的作业所占CPU核数 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 5 / 39 . 查看队列详细情况:bqueues -l 队列也许会调整 请注意登录系统后的提示 请利用 b q u e u e s ␣ − l 查看各队列的详细情况 QUEUE: n o r m a l −− F o r n o r m a l p r i o r i t y j o b s , a l l o w 2−8 CPU c o r e s , Max J o b S l o t s i s 40 T h i s i s t h e d e f a u l t q u e u e . PARAMETERS / STATISTICS PRIO NICE STATUS 30 20 Open : A c t i v e CPULIMIT 3 4 5 6 0 0 . 0 min o f E5410 PROCESSLIMIT 8 MAX JL / U JL / P JL / H NJOBS − 40 − − 288 PEND 48 RUN SSUSP USUSP 240 0 0 RSV 0 PROCLIMIT 2 2 8 CPULIMIT:单个作业运行时间限制,以系统中的某个节点E5410作为参 考,运行机时(核数*墙上时间)为345600.0CPU分钟,即如用8CPU核计 算,允许运行30天 PROCLIMIT:单个作业核数限制,2 4 8,表示使用此队列时,最少使 用2个核,最多使用8核,如提交时没用-n指定具体核数,那么使用默认4核 PROCESSLIMIT:单个作业最大核数限制,为8 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 6 / 39 . 现有队列:联想7000G GPU集群 CPU计算队列: small:可运行12∼64进程并行作业,提交作业时需加参数-q small large:可运行64∼128进程并行作业,提交作业时需加参数-q large GPU计算队列2 : c2050:运行于node29∼node44节点,每节点1颗C2050 GPU卡,提交 作业时加参数-q c2050 c1060:运行于node1∼node16节点,每节点2颗C1060 GPU卡,提交作 业时加参数-q c1060 gtx295:运行于node19∼node28节点,每节点2颗GTX295 GPU卡,提 交作业时加参数-q gtx295 建议以8的倍数申请核数,以尽量独占单个节点,避免作业间相互干扰 2 非GPU作业不得使用GPU队列 李会民 (中国科大超算中心) . LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 7 / 39 . 现有队列:刀片及胖节点超级计算系统 I serial:1∼2进程作业队列,提交作业时需加参数-q serial,每用户可 最多同时运行24个serial队列作业 normal:仅运行10∼12 CPU核的作业,运行于node1∼node80其中之 一节点,提交作业时需加参数-q normal long:可运行大于12 CPU核的多节点并行作业,运行于node1∼ node80节点,提交作业时需加参数-q long,每用户最多可运行120进 程的作业 mem48:可运行每进程需求内存较大但一个作业总需求内存小于 48GB的作业,运行于node71∼node80某一节点上,提交作业时需加 参数-q mem48,队列优先级较高 mem64:可运行每进程需求内存较大但一个作业总需求内存小于 64GB的作业,运行于node89∼node90某一节点上,提交作业时需加 参数-q mem64,队列优先级较高 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 8 / 39 . 现有队列:刀片及胖节点超级计算系统 II mem96:可运行每进程需求内存较大但一个作业总需求内存小于 96GB的作业,运行于node91∼node92某一节点上,提交作业时需加 参数-q mem96,队列优先级较高 fat48:运行大共享内存作业,每节点48 CPU核,提交作业时需加参 数-q fat48 -R "rusage[mem=**]",**为以MB为单位的每进程内存数, 需特殊申请使用权限 fat64:运行大共享内存作业,每节点64 CPU核,提交作业时需加参 数-q fat64 -R "rusage[mem=**]",**为以MB为单位的每进程内存数, 需特殊申请使用权限 8cpu:作业运行在node93∼node102节点上,作业设置请使用进程数 为8的倍数,提交作业时需加参数-q 8cpu normal和long队列,建议以12的倍数申请核数,以尽量独占单个节点,避 免作业间相互干扰 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 9 / 39 . 现有队列:ChinaGrid高性能计算集群 normal:每用户最多可同时运行16 CPU的作业,单作业最少8 CPU, 最多16 CPU,所有用户在此队列最多同时使用160 CPU核 long:每用户最多可同时运行128 CPU的作业,单作业最少24 CPU, 最多128 CPU,所有用户在此队列最多同时使用704 CPU核 normal和long队列同一用户同时最多使用160作业进程数,作业最大 运行时间15天,bqueues -l查看各队列设置的详细说明 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 10 / 39 . 提交作业:bsub 用户需要利用bsub提交作业,其基本格式为: bsub [options] command [arguments] command之前的options:设置队列、CPU核数等LSF的选项 command之后的arguments:设置作业的可执行程序本身所需要 的参数 作业提交后,应经常检查一下作业的CPU、内存等利用率,判断实 际运行效率 可以ssh到对应运行作业的节点运行 t o p 命令 查看Ganglia系统监控:http://scc.ustc.edu.cn/ganglia 请不要ssh到节点后直接运行作业,将会被监控自动杀掉 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 11 / 39 . 提交到特定队列:bsub -q 利用-q选项可以指定提交到哪个队列 如不加-q,那么将提交到系统设置的默认队列3 提交到serial队列运行串行程序executable1: b s u b ␣ −q ␣ s e r i a l ␣ e x e c u t a b l e 1 如果提交成功,将显示类似下面的输出: J o b <79722 > i s s u b m i t t e d t o d e f a u l t q u e u e < s e r i a l > . 其中79722为此作业的作业号,以后可利用此作业号来进行查询及终 止等操作。 3 除非了解哪个是默认队列,默认队列适合此作业,否则不要这么做 . . . . . . . . . . . . . . . . 李会民 (中国科大超算中心) . LSF作业调度系统的使用 . . . . . . . . . . . . . . 2014年4月25日 . . . . . . . . 12 / 39 . 指明所需要的CPU核数:bsub -n 利用-n选项指定所需要的CPU核数(一般来说核数和进程数一致) 为了用户作业间不相互干扰,申请的核数最好为系统节点内CPU核 数的整数倍,以便同一个作业占据整个节点 比如对每个节点为8核的系统,申请核数为8的整数倍,节点核数 为12的系统,申请核数为12的整数倍 ChinaGrid高性能计算集群:每个节点16 CPU核 联想1800和7000G GPU集群:每个节点8 CPU核 刀片及胖节点超级计算系统: long队列和normal队列每个节点12 CPU核 其它队列请看队列对应的节点配置 以上仅仅是建议,具体申请核数应考虑作业实际情况4 即使同一个计算软件,在计算不通条件时,也是不一样的,请务必仔细研究自己所 . . . . . . . . . . . . . . . . . . . . 使用的软件 . . . . . . . . . . . . . . . . . . . . 4 李会民 (中国科大超算中心) LSF作业调度系统的使用 2014年4月25日 13 / 39 MPI作业的提交:bsub mpijob MPI作业一般需要用提交时使用mpijob来执行MPI程序,可以使 用normal、long等队列 指定利用八个CPU核(由-n 8指定)运行MPI程序: b s u b ␣ −q ␣ n o r m a l ␣ −n ␣ 8 ␣ m p i j o b ␣ e x e c u t a b l e −mpi1 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 14 / 39 . OpenMP等共享内存作业的提交:bsub -a openmp 需要添加-a openmp参数 需要保证在同一个节点内运行,只能使用normal等队列,不能使 用long等队列 指定利用八个CPU核运行OpenMP程序: b s u b ␣ −q ␣ n o r m a l ␣ −n ␣ 8 ␣ −a ␣ openmp ␣ e x e c u t a b l e −omp1 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 15 / 39 . GPU作业的提交 GPU作业必需使用GPU队列才可以保证运行的作业在GPU节点上运 行,当前只有联想7000G GPU集群支持GPU,当前可以使用的队列 为c2050、c1060和gtx295 因为与MPI结合的GPU程序要求不统一,现在系统尚未提供专有 的GPU和MPI结合程序的脚本供大家来调用,如需要,请与我们联 系,我们来处理。如果对LSF熟悉,也可以自己写所需要的脚本 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 16 / 39 . 串行作业的提交:bsub -q serial 运行串行作业,请使用serial队列: bsub -q serial executable-serial 科大超算中心鼓励并行作业,因此给串行作业的资源少,请尽量用 自己的系统运行串行作业,在科大超算平台上运行并行作业 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 17 / 39 . 运行排他性运行作业:bsub -x 如果需要独占节点运行,此时需要添加-x选项: bsub -x -q normal -n 4 executable-omp1 注意: 排他性运行在运行期间,不允许其余的作业提交到运行此作业的节 点,并且只有在某节点没有任何其余的作业在运行时才会提交到此节 点上运行 如果不需要采用排他性运行,请不要使用此选项,否则将导致作业必 须等待完全空闲的节点才会运行,也许将增加等待时间 另外使用排他性运行时,哪怕只使用某节点内的一个CPU核,也将按 照此节点内的所有CPU核数进行机时计算 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 18 / 39 . 指明输入、输出文件运行:bsub -i -o -e 作业的屏幕输入文件、正常屏幕输出到的文件和错误屏幕输出的文 件可以利用-i、-o和-e选项来分别指定,运行后可以通过查看指定的 这些输出文件来查看运行状态,文件名可利用%J与作业号挂钩 屏幕输入文件指的是存储程序运行时需要手动在屏幕上输入的内容 的,其内容可以利用<将此文件中的内容重定向以代替手动屏幕输 入传递给可执行程序的,并不是指的程序本身自带的输入文件,如 不通过作业调度系统时的提交方式为: executable1 < file1,可以用下述方式提交 bsub ␣ − i ␣ f i l e 1 ␣ e x e c u t a b l e executable1 file1或executable1 -i file1等,则不可用下述方式提交 bsub ␣ − i ␣ f i l e 1 ␣ e x e c u t a b l e 如指定executable1的屏幕输入、正常和错误屏幕输出文件分别为 executable1.input、executable1-%J.log和executable1-%J.err: bsub -i executable1.input -o executable1-%J.log -e executable1-%J.err executable1 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 19 / 39 . 交互式运行作业:bsub -I 如需运行交互式的作业(如在运行期间需手动输入参数等),需结 合-I、-Ip和-Is等参数 建议只是在调试期间使用,平常作业还是尽量不要使用此选项 bsub -I executable1 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 20 / 39 . 终止作业:bkill 利用bkill命令可以终止某个运行中或者排队中的作业,如: bkill 79722 J o b <79722 > i s b e i n g t e r m i n a t e d 请及时终止有问题或无需再运行的程序,以便空出计算资源 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 21 / 39 . 挂起作业:bstop 利用bstop命令可临时挂起某个作业以让别的作业先运行,例如: bstop 79727 J o b <79727 > i s b e i n g s t o p p e d . 可以将排在队列前面的作业临时挂起,以让后面的作业先运行 虽然也可以作用于运行中的作业,但并不会因为此作业被挂起而允许 其余作业占用此作业所占用的CPU运行,实际资源不会释放,建议不 要随便对运行中的作业进行挂起操作 如果运行中的作业不再想继续运行,请用bkill终止 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 22 / 39 . 继续运行被挂起的作业:bresume 利用bresume命令可继续运行某个挂起某个作业,例如: bresume 79727 J o b <79727 > i s b e i n g r e s u m e d . . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 23 / 39 . 设置作业最先运行:btop 利用btop命令可最先运行排队中的某个作业,例如: btop 79727 运行成功后,将显示类似下面的输出: J o b <79727 > h a s b e e n moved t o p o s i t i o n 1 from t o p . . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 24 / 39 . 设置作业最后运行:bbot 利用bbot命令可设定最后运行排队中的某个作业,例如: bbot 79727 J o b <79727 > h a s b e e n moved t o p o s i t i o n 1 from b o t t o m . . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 25 / 39 . 修改排队中的作业选项:bmod 利用bmod命令可修改排队中的某个作业的选项,如想将排队中的作 业号为79727的作业的执行命令修改为executable2并且换到long队列, 并且所需要CPU核数为12: bmod -Z executable2 -q long -n 12 79727 P a r a m e t e r s o f j o b <79727 > a r e b e i n g c h a n g e d . . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 26 / 39 . 查看作业的排队和运行情况:bjobs 利用bjobs可以查看作业的运行情况,例如: bjobs JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME 79726 h m l i RUN n o r m a l u s e r 2* node31 * e x e c u t a b 1 Mar 12 1 9 : 2 0 1* node4 79727 h m l i PEND l o n g user * e x e c u t a b 2 Mar 12 1 9 : 2 0 显示: 作业79726分别在node31和node4上运行2、1个进程 作业79727处于排队中尚未运行 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 27 / 39 . 查看作业详细信息:bjobs -l 查看作业的详细信息-l选项: bjobs -l 79727 J o b I d <79727 > , U s e r < hmli > , P r o j e c t < d e f a u l t > , S t a t u s , Queue < l o n g > , Command < e x e c u t a b 2 > Sun Mar 12 1 4 : 1 5 : 0 7 : S u b m i t t e d from h o s t < hpc1 . u s t c . edu . cn > , CWD <$HOME> , R e q u e s t e d R e s o u r c e s < t y p e == any && swp >35 >; PENDING REASONS : The u s e r h a s r e a c h e d h i s / h e r j o b s l o t l i m i t ; SCHEDULING PARAMETERS : r 1 5 s r1m r15m u t pg io ls it tmp swp mem loadSched − 0.7 1.0 − 4.0 − − − − − − loadStop − 1.5 2.5 − 8.0 − − − − − − 注意:从PENDING REASONS可以看出为什么还在排队等待中。 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 28 / 39 . 查看作业仍在排队等待的原因:bjobs -p 查看作业仍在排队等待的原因可以利用-p选项: bjobs -p 79727 The u s e r h a s r e a c h e d h i s / h e r j o b s l o t l i m i t ; 上述显示达到了用户自己的作业数等限制 如发现很多节点空闲,自己的作业又没有达到限制,感觉应该运行 而没有运行,也许是系统存在问题,请与管理员联系处理 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 29 / 39 . 查看运行中作业的屏幕正常输出:bpeek 利用 b p e e k 命令可查看运行中作业的屏幕正常输出,例如: bpeek 79727 << o u t p u t from s t d o u t >> R a d i u s ( nm ) : 3 0 0 . 0 0 0 b p e e k ␣ − f 作业号,可以连续查看作业的连续屏幕输出 如在运行中用-o和-e分别指定了正常和错误屏幕输出,也可以通过 直接查看指定的文件的内容来查看屏幕输出 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 30 / 39 . 查看各节点的运行情况:lsload 利用 l s l o a d 命令可查看当前各节点的运行情况,例如: lsload HOST_NAME s t a t u s r 1 5 s r1m r15m u t pg l s i t tmp swp mem node10 ok 0 . 0 0 . 0 0 . 0 0% 3 . 5 0 2050 9032M 4000M 16G node11 l o c k u 0 . 0 0 . 0 0 . 0 0% 3 . 5 0 2050 9032M 4000M 16G ut列表示利用率,status列中的locku表示在进行排他性运行 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 31 / 39 . 查看各节点的空闲情况:bhosts 利用 b h o s t s 命令可查看当前各节点的空闲情况,例如: bhosts HOST_NAME STATUS JL / U MAX NJOBS RUN SSUSP USUSP RSV node12 closed − 4 2 2 0 0 0 node10 ok − 2 2 1 0 0 0 STATUS列中的ok表示可以接收新作业,closed表示已经被占满 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 32 / 39 . 查看用户信息:buser 利用 b u s e r 可以查看用户信息,例如: busers hmli USER /GROUP JL / P MAX NJOBS PEND RUN SSUSP USUSP RSV hmli − 22 40 32 8 0 0 0 MAX最大可以同时运行的核数 NJOBS当前所有运行和待运行作业所需的核数 PEND排队等待运行的作业所需要的核数 RUN已经开始运行的作业占据的核数 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 33 / 39 . 查看作业历史统计信息:bacct 利用bacct可以查看已经结束的作业的历史统计信息,如: bacct Accounting i n f or ma t io n about jobs t h a t are : − s u b m i t t e d by u s e r s hmli , − a c c o u n t e d on a l l p r o j e c t s . − completed normally or e x i t e d − e x e c u t e d on a l l h o s t s . − submitted to a l l queues . − a c c o u n t e d on a l l s e r v i c e c l a s s e s . −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− SUMMARY: ( time u n i t : second ) T o t a l number o f done j o b s : 73 T o t a l number o f e x i t e d j o b s : 159 T o t a l CPU t i m e consumed : 14649779.0 A v e r a g e CPU t i m e consumed : 6 3 1 4 5 . 6 Maximum CPU t i m e o f a j o b : 4 2 6 6 1 5 5 . 5 Minimum CPU t i m e o f a j o b : 0.0 Total wait time in queues : 1403570.0 Average w a i t time i n queue : 6049.9 Maximum w a i t t i m e i n q u e u e : 9 0 4 3 6 1 . 0 Minimum w a i t t i m e i n q u e u e : 2.0 Average t u r n a r o u n d time : 11671 ( s e c o n d s / j o b ) Maximum t u r n a r o u n d t i m e : 904480 Minimum t u r n a r o u n d t i m e : 2 A v e r a g e hog f a c t o r o f a j o b : 7 . 1 2 ( cpu t i m e / t u r n a r o u n d t i m e ) Maximum hog f a c t o r o f a j o b : 1 5 7 . 8 4 Minimum hog f a c t o r o f a j o b : 0 . 0 0 Total throughput : 0.02 ( jo b s / hour ) during10055 .28 hours Beginning time : J a n 30 1 4 : 4 0 Ending time : Mar 25 1 3 : 5 7 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 34 / 39 . 查看某个作业历史统计信息:bacct -l jobid b a c c t ␣ − l ␣ 13624 −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− J o b <13624 > , U s e r < hmli > , P r o j e c t < d e f a u l t > , S t a t u s , Queue < l o n g > , Comma nd < m p i j o b / o p t / b i n / vasp − 2 0 1 3 . 1 2 . 2 7 > Mon Mar 24 1 6 : 4 3 : 2 4 : S u b m i t t e d from h o s t < c h i n a g r i d > , CWD <$HOME/ q i a o > , O u t p u t F i l e <%J . l o g > , E r r o r F i l e <%J . e r r > ; Tue Mar 25 1 3 : 5 5 : 1 5 : D i s p a t c h e d t o 32 H o s t s / P r o c e s s o r s <16* node26 ><16* node12 > ; Tue Mar 25 1 3 : 5 7 : 0 7 : C o m p l e t e d . Accounting i nf or ma t io n about t h i s job : CPU_T WAIT TURNAROUND STATUS HOG_FACTOR MEM SWAP 984.17 76311 76423 done 0.0129 30G 39G −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− SUMMARY: ( time u n i t : second ) T o t a l number o f done j o b s : 1 T o t a l number o f e x i t e d j o b s : 0 T o t a l CPU t i m e consumed : 984.2 A v e r a g e CPU t i m e consumed : 984.2 Maximum CPU t i m e o f a j o b : 984.2 Minimum CPU t i m e o f a j o b : 984.2 Total wait time in queues : 76311.0 Average w a i t time i n queue : 7 6 3 1 1 . 0 Maximum w a i t t i m e i n q u e u e : 7 6 3 1 1 . 0 Minimum w a i t t i m e i n q u e u e : 7 6 3 1 1 . 0 Average t u r n a r o u n d time : 76423 ( s e c o n d s / j o b ) Maximum t u r n a r o u n d t i m e : 76423 Minimum t u r n a r o u n d t i m e : 76423 A v e r a g e hog f a c t o r o f a j o b : 0 . 0 1 ( cpu t i m e / t u r n a r o u n d t i m e ) Maximum hog f a c t o r o f a j o b : 0 . 0 1 Minimum hog f a c t o r o f a j o b : 0 . 0 1 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 35 / 39 . 查看某时间段内作业历史统计信息:bacct -C -D -S 在2014/03/01,2014/04/01时间段内: 完成的: b a c c t ␣ − l ␣ −C ␣ 2 0 1 4 / 0 3 / 0 1 , 2 0 1 4 / 0 4 / 0 1 开始运行的: b a c c t ␣ − l ␣ −D ␣ 2 0 1 4 / 0 3 / 0 1 , 2 0 1 4 / 0 4 / 0 1 提交的: b a c c t ␣ − l ␣ −S ␣ 2 0 1 4 / 0 3 / 0 1 , 2 0 1 4 / 0 4 / 0 1 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 36 / 39 . LSF作业脚本 以在LSF脚本中设置队列等参数方式提交,如 m y _ s c r i p t . l s f  #!/bin/sh #BSUB −q long #BSUB −o %J.log −e %J.err #BSUB −n 66 mpijob ./mympi−prog   不得以直接 . / m y _ s c r i p t . l s f 等常规脚本运行方式运行 需要传递给 b s u b 命令运行: b s u b ␣ < ␣ m y _ s c r i p t . l s f 如果bsub后面更-q等LSF参数,将会覆盖掉LSF脚本中的设置 一般用户,没必要写此类脚本,直接通过命令行传递LSF参数即可。 对于当前设置满足不了作业需求,且用户比较了解LSF中的各规定, 对shell脚本编写比较在行,那么用户完全可自己编写脚本提交作业, 比如提交特殊需求的MPI与GPU结合的作业。 . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 37 / 39 . LSF作业脚本常见变量 主要有以下变量比较常用,在作业运行后,这些变量存储对应的作业信 息,具体的请参看LSF官方手册: LS_JOBPID:作业进程号 LSB_HOSTS:存储系统分配的节点名 LSB_JOBFILENAME:作业脚本文件名 LSB_JOBID:作业号 LSB_QUEUE:作业队列 LSB_JOBPGIDS:作业进程组号组 LSB_JOBPIDS:作业进程号组 LSF官方资料: http://scc.ustc.edu.cn/zlsc/lsf/201204/t20120410_132571.html . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 38 / 39 . 联系信息 中国科大超算中心: 电话:0551-63602248 信箱:sccadmin@ustc.edu.cn 主页:http://scc.ustc.edu.cn 办公室:中国科大东区新图书馆一楼东侧126室 李会民: 电话:0551-63600316 信箱:hmli@ustc.edu.cn 主页:http://hmli.ustc.edu.cn . 李会民 (中国科大超算中心) LSF作业调度系统的使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2014年4月25日 39 / 39 .

相关文章