更新于 2月2日

HPC高性能计算集群运维工程师

1-1.2万
  • 南京玄武区
  • 1-3年
  • 本科
  • 全职
  • 招1人

职位描述

系统运维服务器运维DockerNginxK8sShell高性能计算GPU集群HPC
主要职责
1. HPC集群运维管理
· 负责大型HPC集群的日常监控、维护和优化,保障系统7x24小时高可用
· 管理作业调度系统(Slurm等),优化资源分配策略,提升集群利用率
· 部署和维护并行文件系统(GPFS等),确保海量科研数据的高速访问
2. 科研软件生态支持
· 为各类科学计算软件(计算化学、计算物理、生物信息学、人工智能框架等)提供编译、安装、调试和优化支持
· 创建和维护标准化软件环境模块
· 协助研究人员解决软件使用中的技术问题,编写使用文档
3. 系统架构与项目实施
· 参与HPC集群的规划、部署和升级项目
· 实施系统自动化运维方案(Ansible/SaltStack等)
4. 性能调优与故障排查
· 分析系统性能瓶颈,对计算节点、存储、网络进行调优
· 快速定位并解决硬件、系统及应用层面的故障
· 定期进行系统安全加固和漏洞修复
任职要求
1. 学历与经验
· 计算机相关专业
· 3年以上Linux系统运维经验,1年及以上HPC或大规模集群运维经验
2. 核心技术能力
· 精通Linux系统(RHEL)的管理、调优和故障排查
· 熟悉Shell/Python脚本编程,具备自动化运维能力
· 掌握HPC集群核心组件:作业调度系统、并行文件系统、高速网络
【优先条件】
1. 熟悉容器化技术(Docker/Singularity/Podman)在HPC环境的应用
2. 有GPU计算集群(NVIDIA DGX/CUDA)运维经验
3. 有科研机构、高校超算中心或大型互联网公司运维经验
4 RHCE/RHCA认证或其他同等级Linux专业认证
【软实力要求】
1. 问题分析和解决能力,能在压力下保持冷静
2. 良好的沟通能力和服务意识,能与科研人员有效协作
3. 责任心和主动性,注重细节
4. 持续学习新技术的能力和热情

工作地点

南京玄武区T80科技文化国际社区22号楼

职位发布者

陈女士/人事经理

刚刚活跃
立即沟通
公司Logo江苏泓哲信越信息技术有限公司
江苏泓哲信越信息技术有限公司(以下简称:江苏泓哲)位于风光旖旎的南京市中山陵风景区内,是具有独立法人资格的有限责任公司,注册资本1000万。江苏泓哲自2014年成立以来,是一家专注于高性能计算(以下简称HPC)、软件开发领域的高新技术企业。公司具备《江苏省软件企业认定证书》、《国家高新企业资质》、 ISO9001管理体系认证、ISO20000信息技术服务管理体系认证、ISO27000信息安全管理体系认证、ITSS三级符合性证书、32项软件著作权等。公司拥有自主研发的高性能集群管理软件及自建超算中心,同时与各地科研院校HPC平台保持良好共享机制,在积极探讨高性能计算的发展方向上建立长期合作关系。公司主要业务分别是HPC高性能计算平台建设-运维-优化一体化服务、高性能计算资源租赁服务、集群使用培训服务。用户群体包括工程热物理、气体动力学、燃烧学、流体力学、叶轮机械气动热力学、能源转化和利用、动力机械、结构强度振动、可靠性分析、传热仿真、多学科设计优化仿真、电磁仿真、材料基因工程、凝聚态物理、材料物理学、理论化学、材料力学、生物制药等研究学科。泓哲的企业文化:遵循商业的基本原则:公平、诚实、正直;做有意义的事情;尊重用户和员工的合理诉求;不断学习总结与共享。
公司主页