更新于 10月17日

AI集群架构管理工程师(J10913)

面议
  • 济南历城区
  • 3-5年
  • 本科
  • 全职
  • 招1人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 免费班车
  • 团队执行强
  • 人际关系好
  • 吃住环境好
  • 交通便利
  • 氛围活跃

职位描述

Python
岗位职责:
1.负责AI专属网络运维,管理集群内IB(InfiniBand)、RoCE(RDMA over Converged Ethernet)、NVLink等高速互联网络的部署、协议调优与故障诊断,解决AI训练/推理过程中因网络带宽不足、延迟过高导致的任务卡顿、梯度同步失败等问题;
2.监控AI集群核心硬件(NVIDIA A100/H100 GPU、高速SSD存储、CPU内存)的运行状态,通过自动化工具实时采集GPU利用率、显存占用、温度等指标,及时处理GPU显存溢出、 PCIe 通道故障、存储I/O瓶颈等AI场景特有硬件问题;
3.参与AI集群的扩容与重构,设计适合大模型训练的硬件拓扑(如GPU直连、内存扩展方案),优化集群资源分配策略,提升AI任务执行效率;
4.针对AI训练中断、推理服务崩溃等突发情况,快速定位故障根源(如网络链路断开、GPU驱动异常),制定针对性解决方案,保障AI业务连续性
5.参与数据中心扩容规划,协助制定硬件选型方案(如 NVIDIA H200/A800 GPU 选型、IB 交换机端口规划),保障算力基础设施的可扩展性。
任职要求:
1.本科及以上学历,计算机科学与技术、网络工程相关专业;3年以上AI集群/高性能计算集群运维经验,熟悉AI场景下硬件与网络的协同逻辑;
2.深入理解NVIDIA GPU架构(Ampere、Hopper、Blackwell),掌握CUDA驱动优化、GPU虚拟化技术;熟悉AI集群存储方案,能解决存储I/O对模型训练的影响;
3.精通IB、RoCE、NVLink技术原理,具备 Mellanox 设备配置与故障排查能力;了解AI集群网络拓扑设计,能优化网络带宽利用率。;
4.熟悉AI集群监控,能编写Python脚本自动化处理AI相关故障(如GPU利用率异常报警);熟悉Kubernetes或Slurm调度框架,理解AI任务对资源的需求特征;
5.具备AI场景下复杂问题的分析能力,如区分传统服务器故障与AI负载导致的硬件瓶颈,能快速制定针对性解决方案。

工作地点

济南历城区齐鲁制药生物医药产业园

职位发布者

虞先生/HR

三日内活跃
立即沟通
公司Logo齐鲁制药
齐鲁制药集团简介齐鲁制药集团是一家拥有家国情怀、创新基因、国际视野的医药产业集团,始终秉持“大医精诚、家国天下”的核心价值观,紧紧围绕大众对健康美好生活的需要,深耕生命健康、植物保护、动物保健三大战略板块,构建人与自然和谐发展的生态。建有占地8916亩的11大基地,下设12家子公司,员工3.6万余人。2022年度,集团实现销售收入375亿元,上交税金34.2亿元,实现出口9.2亿美元;连续多年位列中国医药工业百强榜十强。集团始终坚持创新驱动战略,用“有温度的科技创新”,持续推动品牌非专利药、生物类似药、创新药的开发,建设有全球影响力的产品管线,将中国人的“药瓶子”紧紧攥在我们自己手里。荣获国家科技进步二等奖7项。60个大小分子药物国内首家或独家上市。一致性评价领先行业,137个产品获批通过,52个为国内首家。整合全球优质资源,建立健全中美联动五大研发平台,在肿瘤、感染、自身免疫、代谢疾病等未被满足重大疾病领域,持续开发“全球新”“全球好”药物。ALK阳性非小细胞肺癌治疗药物启欣可(伊鲁阿克片)已获批上市;新一代肿瘤免疫治疗组合抗体“齐倍安”(艾帕洛利单抗/托沃瑞利单抗),单药宫颈癌末线研究已提交上市申请;“十四五”期间,预计还将上市多个创新药物。“企业的百万分之一即是患者的百分之百”。集团坚定实施精品战略,全生命周期做好健康守门人。建有与国际接轨的质量管理体系,是国内首家通过美国FDA、欧盟EDQM、英国MHRA无菌产品认证企业。产品出口全球90多个国家和地区,每年惠及约10亿患者。是国内唯一一家同时向欧、美、英、日、澳大利亚、加拿大法规市场出口制剂的药企,24个产品在当地市场占有率第一;头孢系列、巴坦系列等11个人用原料药国际市场占有率第一。
公司主页