常见问题¶
1. 账号申请和登录¶
-
Q:如何开通帐号?
A:在“智慧理工大办事大厅”中的高性能计算平台帐号申请流程,完成后通过平台登录界面“统一身份认证登录”或者智慧理工的集成站点“高性能计算平台”链接登录系统。 -
Q:是不是只有教职工才能申请账户?学生要使用计算平台该怎么办?
A:是。只有教职工(含博士后)才能申请主账户(收费主体),主账号下面可以增加子帐号。 主账号和子账号都为独立账号,仅在计费关系上存在关联。若课题组或团队有数据或软件共享需求,可发邮件给我们,我们将建立 acct-XXX/share 文件夹,主账号和子账号均可在此文件夹下读写。 -
Q:子账号的申请和费用?
A:子账号也是在“智慧理工大办事大厅”中的“高性能计算平台帐号”里申请,子账号产生费用将由主账号承担。 -
Q:我为什么连不上平台?
A:平台不支持公网直接访问,如您正使用公网,则需要使用校园 VPN;若您使用的是校内网,请首先保证网络畅通。- 查看理工大HPC服务交流QQ群,是否有集群下线停机通知,集群动向通知会及时发布在用户服务群里。若需加入用户服务QQ群,请发邮件至 hpcservice 邮箱;
- 集群登录节点设置了 fail2ban 服务,多次输入密码错误后会被临时封禁 1 小时。如果您需要重置密码,请使用或抄送账号负责人邮箱发送邮件到 hpcservice 邮箱,邮件中注明账号,我们将会在 1 个工作日内响应您的申请;
- 如果您在登录节点运行计算密集的作业,将会被程序自动查杀,您的账号会被加入到黑名单,并在30-120 分钟内无法登录。
-
Q:为什么连上了集群,过一会儿又断了?
A:请参考 SSH 下的登录常掉线的问题章节进行设置。
2. 作业提交和运行¶
-
Q:单个作业最长运行时间是多长?
A:襄阳集群上debug队列上的作业运行时间最长 7 天,Gpu队列上的作业运行时间最长100 天(没限制)。 具体时间限制可以通过 scontrol show partition 命令查看 MaxTime 参量。 -
Q:我的作业运行将超过最长时间限制,有没有办法延长运行时限?
A:有。请将用户名、作业号、预计运行时间等信息发送到 hpcservice 邮箱,我们将会为您延长。需要注意的是:延长的作业,除因集群原因,不作诊断或机时返还。并请尽量提前两天发送申请。 -
Q:我的作业需要大内存怎么办?
A:目前集群有 C096M1536G 分区节点可以提供较大的内存。C096M1536G 分区节点有 1.5T 内存。具体使用请参考作业示例
3. 作业出错¶
-
Q:为什么我的作业运行结果是作业运行结果是node_fail,该怎么处理?
A:node_fail是提示由于计算节点故障导致作业运行失败,您重新提交作业即可,失败作业的机时系统会自动返还,无须发邮件告诉我们。 -
Q:为什么我在登录节点上的程序会被终止,我能否在登录节点运行程序?
A:登录节点用于文件编辑、作业提交、小型应用编译、文件下载等轻量级工作。而科学计算、大文件校验等计算密集型任务,会占用较多计算资源,影响其他用户正常使用。我们为了保障用户体验,在登录节点设置了任务检测服务,查杀不正常占用登录节点资源的任务,若被检测到您的账号不当使用登录节点,您的账号将会被封禁30-120分钟。请务必将这些任务提交到计算节点进行。 -
Q:运行程序时提示缺少 xxx.so 文件或者编译/运行程序时显示任务被kill
A:请确认报错时执行的操作是否是在登录节点,如果是在登录节点出现上述报错,请申请计算节点后再做尝试。 -
Q:计算节点不能访问互联网/不能下载数据
A:计算节点不能访问网络,如果您的软件需要计算节点访问网络,请发送邮件至 hpcservice 邮箱和我们联系。
4. 软件安装¶
-
Q:如何在集群上安装软件?
A:集群上软件安装,请依次判断适用哪种情况:- 若为商业软件,请自行获取软件使用权并安装;
- 若为常用开源软件,请先根据应用软件文档,确定集群是否已有安装;
- 若未安装,请先考虑是否能用conda 方法安装;
- 再考虑在自己家目录下使用源码安装,遇到问题,请将可复现的步骤,发至 hpcservice 邮箱获取帮助;
- 软件还有容器安装的方法;
- 我们也将对常用开源软件进行评估,以便全局部署。欢迎邮件联系我们。
-
Q:集群上是否提供商业软件?
A:目前暂不提供商业软件,不过您可以自行购买后安装。商业软件通常需要连接至专用的 License 服务器进行验证。如果您需要购买商业软件并在集群上部署 License 服务器前, 请按照超算集群上使用商业软件的流程图,和软件厂商充分沟通并告知我们选择何种 License 部署方案。
以下是流程图的说明:
以及部署 License 服务器的注意事项:- 商业软件选型和部署需要软件厂商参与,需要充分沟通 License 服务器安装模式、授权数量、使用限制、更换 MAC 地址的费用、厂商的技术支持能力等事项。 建议在和软件厂商交流过程中抄送 hpcservice邮箱。
- License 类型:
请购买浮动授权,即计算程序可以在集群上的任意一个节点启动。不要把 License 绑定到集群的登录节点。 -
License 服务器部署方式:
部署方式的具体选择,请咨询软件厂商 License 程序是否必须部署在物理机上,以及 License 的网络验证是否对网络有限制等事项,按照软件厂商建议进行部署方式选择。 目前超算集群上有三种使用商业软件 License 服务器的方式。- 第一种是使用云平台虚拟机部署,这种方式适用于大部分商业软件,建议用这种方式部署。
- 第二种是用户自行搭建 License 服务器,计算平台提供必要的网络支持,这种方式适用于 License 验证程序必须运行在物理机的情况。
-
第三种是使用超算集群物理机部署。如果前两种方案无法使用,请将软件厂商的相关说明等信息到 hpcservice 邮箱,我们尝试用超算物理机的方式部署。
- License 服务器具体搭建方法:
-
如果选择云平台虚拟机部署方式,需要在云平台申请资源,按照软件厂商指引完成 License 服务器搭建。请在完成部署服务器之后,向 hpc 邮箱提供 License 服务器的固定 IP 地址,以及验证 License 的端口。
- 如果选择自行搭建 License 服务器,通过网络提供 License 验证,此时 License 服务器的搭建和后续维护请咨询厂商。请在自行部署完 License 服务器之后,向 hpc 邮箱提供 License 服务器的固定 IP 地址,以及验证 License 的端口。
- 如果选择租用超算集群节点,在物理机上部署 License 服务器,由于这个节点不会再提供给其他用户使用,计算平台会在按照整个节点的核时数收取 License 服务器费用。
-
Q:普通用户如何使用 sudo 安装软件?
A:有别于独占的个人电脑和工作站,高性能计算用户共享软硬件设施,使用 sudo 特权操作极有可能影响其他用户的程序和数据,因此普通用户禁止使用 sudo。通常普通用户无需 sudo 就能在家目录中安装和使用软件,且使用sudo安装的软件会被错误安装在本地文件系统上而不能在计算节点上运行。请参考应用软件了解当前集群提供的软件模块或通过 hpcservice 邮箱告诉我们需要安装的软件。 普通用户也可以使用容器的方式安装,容器内用户拥有“模拟root权限”,具体请见容器。 对于需要 sudo 安装的商业软件,请参考 FAQ 4.2 由软件厂商工程师工程师联系我们指定安装方案。
5. 收费和充值¶
-
Q:如何收费?
A:请发送邮件至 hpcservice 邮箱咨询。 -
Q:如何缴费?
A:校内转账可在“账务网上综合平台”完成,具体操作请见:计算服务费-校内经费转账说明,如有任何财务问题,请发送邮件至 hpcservice 邮箱,留下联系电话,我们将电话联系您。 -
Q:财务办理充值,仍未到账
A:关于充值未到账,请发送邮件至 hpcservice 邮箱,留下联系电话,我们将电话联系您。邮件内容请提供:
- 拟充入的 账号
- 充值金额
- 财务凭证号(财务入账后,财务网站页面会显示财务凭证号)
-
Q:有没有机时奖励政策?
A:有奖励政策。详情请查看管理办法。
6. 邮件支持¶
-
Q:hpcservice 邮箱是什么?
A:hpcservice@whut.edu.cn -
Q:向 hpcservice 邮箱发送的邮件多久才能收到回复?
A:根据邮件内容不同,下面是用户支持响应周期:- 邮件确认:1 个工作日内;
- 调整作业脚本:1个工作日内;
- 排查异常中断作业:暂无
(2~3个工作日内); - 新建账户:2个工作日内;
- 编译不包含在 Spack 或自行开发的软件包:暂无
(1~2周内)。
7. 集群通知¶
- Q:如何及时获取集群通知?
A:集群通知会实时发布在用户服务QQ群。请发邮件 hpcservice 邮箱给我们,将为您添加进用户服务QQ群。
8. 致谢模版¶
- Q:如何在论文中致谢WHUT高性能计算公共服务平台?
A:致谢模版如下。欢迎大家将已接收的高质量成果邮件分享给我们。
(中文)本论文的计算结果得到了武汉理工大学高性能计算公共服务平台的支持和帮助;
(英文)The computations in this paper were run on the ****** supported by the High Performance Computing Platform of Wuhan University of Technology.