职位描述
系统运维云运维KubernetesSLURMPythonShell云计算人工智能
我们正在寻找技术扎实、学习能力强的计算平台运维工程师,负责公司 HPC/AI 融合计算平台的日常运维、监控与部署,助力算力平台高效稳定运行,诚邀有志者加入!
核心岗位职责
1. 负责 Slurm/K8s 集群基础部署、监控及日常操作,处理 Pod 部署、节点状态检查等基础故障;
2. 维护 Prometheus 监控系统,配置 Grafana 看板,实现节点资源、GPU 使用率等指标可视化告警;
3. 独立部署公司自研融合计算软件,监控运行状态、收集错误日志,协助新功能测试;
4. 搭建 AI 应用环境,安装 PyTorch/TensorFlow 等 AI 框架及 HPC 相关应用。
任职要求
1.2)Slurm 或 K8s 二选一精通,有独立部署 Slurm 集群或生产级 K8s 集群运维经验;
1.3)具备强学习意愿,承诺入职后同步学习另一技术栈(HPC/AI)及相关应用维护。
2.可培养技能:熟练安装并使用 Prometheus 监控工具。
3.同步培养方向:入职后将围绕 HPC/AI 双轨并行培养,涵盖 Slurm 集群扩容、K8s 网络存储排障、MPI 应用编译优化、AI 框架容器化部署、AI-HPC工作流集成等能力。
优先条件
1. 有实验室 / 校内集群或生产级集群维护经验;
2. 熟悉 GPU 相关操作,会使用 nvidia-smi 监控,掌握 GPU 驱动、CUDA 安装方法。
我们期待这样的你:
兼具 HPC/AI 运维基础,学习能力强,对算力平台运维有热情,能快速适应技术栈学习与业务需求,愿意在融合计算领域深耕成长!
核心岗位职责
1. 负责 Slurm/K8s 集群基础部署、监控及日常操作,处理 Pod 部署、节点状态检查等基础故障;
2. 维护 Prometheus 监控系统,配置 Grafana 看板,实现节点资源、GPU 使用率等指标可视化告警;
3. 独立部署公司自研融合计算软件,监控运行状态、收集错误日志,协助新功能测试;
4. 搭建 AI 应用环境,安装 PyTorch/TensorFlow 等 AI 框架及 HPC 相关应用。
任职要求
1.必备技能
1.1)精通 Linux 系统,能熟练编写 Shell/Python 脚本,实现日志分析、批量部署等操作;1.2)Slurm 或 K8s 二选一精通,有独立部署 Slurm 集群或生产级 K8s 集群运维经验;
1.3)具备强学习意愿,承诺入职后同步学习另一技术栈(HPC/AI)及相关应用维护。
2.可培养技能:熟练安装并使用 Prometheus 监控工具。
3.同步培养方向:入职后将围绕 HPC/AI 双轨并行培养,涵盖 Slurm 集群扩容、K8s 网络存储排障、MPI 应用编译优化、AI 框架容器化部署、AI-HPC工作流集成等能力。
优先条件
1. 有实验室 / 校内集群或生产级集群维护经验;
2. 熟悉 GPU 相关操作,会使用 nvidia-smi 监控,掌握 GPU 驱动、CUDA 安装方法。
我们期待这样的你:
兼具 HPC/AI 运维基础,学习能力强,对算力平台运维有热情,能快速适应技术栈学习与业务需求,愿意在融合计算领域深耕成长!
工作地点
北京海淀区宏达商务中心

公司信息
公司介绍
北京中达恒业科技发展有限公司是一家从事计算机系统集成业务的综合性技术企业。公司自2004年创建至今,本着"高技术、高起点、高质量"的原则,已发展成为集销售、服务于一体的IT行业公司,并拥有正规的销售渠道及丰富且系统的服务体系。雄厚的技术支持可以为不同的行业、企业用户提供全面优质的解决方案。 中达恒业在金融、政府、军队、互联网、医疗、教育、制造等行业内拥有丰富的项目实施经验,已承接、实施完成了中国近二十个省、市和自治区的近百个应用集成项目。中达恒业已取得ISO9001、ISO20000、ISO27001认证、系统集成三级资质。 中达恒业是新华三集团核心行业解决方案合作伙伴和一级代理商,同时拥有华为、曙光、浪潮、联想、IBM、DELL等众多厂家解决方案,在数据中心基础架构解决方案和高性能计算、仿真、并行计算等领域拥有较强的方案设计、部署、实施能力。 我们不仅竭诚为客户提供优质的产品、良好的服务 , 更注重人才的吸纳和培养。 诚信为本是中达恒业发展和壮大的基石; 年轻、富有朝气和开拓精神是中达恒业创新的源泉; 完善、优质的服务体系是中达恒业持续发展的保障。 我公司将不断创新 , 锐意进取 , 望社会各界新老客户继续与本公司真诚合作、共同发展!
工商信息
企业名称 北京中达恒业科技发展有限公司
企业类型 有限责任公司(自然人投资或控股)
法人代表 李丽
经营状态 存续
成立时间 2004-02-20
注册资本 3157.57万元
认证资质
营业执照信息

更新于 5月6日






