AI集群架构管理工程师(J10913)

面议

济南历城区
3-5年
本科
全职
招1人

雇员点评标签

工作环境好
同事很nice
免费班车
团队执行强
人际关系好
吃住环境好
交通便利
氛围活跃

职位描述

Python

岗位职责:

1.负责AI专属网络运维，管理集群内IB（InfiniBand）、RoCE（RDMA over Converged Ethernet）、NVLink等高速互联网络的部署、协议调优与故障诊断，解决AI训练/推理过程中因网络带宽不足、延迟过高导致的任务卡顿、梯度同步失败等问题；

2.监控AI集群核心硬件（NVIDIA A100/H100 GPU、高速SSD存储、CPU内存）的运行状态，通过自动化工具实时采集GPU利用率、显存占用、温度等指标，及时处理GPU显存溢出、 PCIe 通道故障、存储I/O瓶颈等AI场景特有硬件问题；

3.参与AI集群的扩容与重构，设计适合大模型训练的硬件拓扑（如GPU直连、内存扩展方案），优化集群资源分配策略，提升AI任务执行效率；

4.针对AI训练中断、推理服务崩溃等突发情况，快速定位故障根源（如网络链路断开、GPU驱动异常），制定针对性解决方案，保障AI业务连续性

5.参与数据中心扩容规划，协助制定硬件选型方案（如 NVIDIA H200/A800 GPU 选型、IB 交换机端口规划），保障算力基础设施的可扩展性。

任职要求:

1.本科及以上学历，计算机科学与技术、网络工程相关专业；3年以上AI集群/高性能计算集群运维经验，熟悉AI场景下硬件与网络的协同逻辑；

2.深入理解NVIDIA GPU架构（Ampere、Hopper、Blackwell），掌握CUDA驱动优化、GPU虚拟化技术；熟悉AI集群存储方案，能解决存储I/O对模型训练的影响；

3.精通IB、RoCE、NVLink技术原理，具备 Mellanox 设备配置与故障排查能力；了解AI集群网络拓扑设计，能优化网络带宽利用率。；

4.熟悉AI集群监控，能编写Python脚本自动化处理AI相关故障（如GPU利用率异常报警）；熟悉Kubernetes或Slurm调度框架，理解AI任务对资源的需求特征；

5.具备AI场景下复杂问题的分析能力，如区分传统服务器故障与AI负载导致的硬件瓶颈，能快速制定针对性解决方案。

工作地点

济南历城区齐鲁制药生物医药产业园

完善一份简历
1736万+企业在线搜索，780万+海量职位精准推荐

相似职位

人工智能算法工程师8000-15000元
济南 - 历下
山东华科信息技术有限公司
AI应用开发工程师1-1.3万
济南 - 历城
山东丞华煊数智科技有限公司
智能体开发1-1.5万
济南 - 历城
拓锐科技有限公司
人工智能算法工程师1.2-1.5万
济南 - 历城
济南华年智汇信息科技有限公司
具身智能感知算法工程师面议
济南 - 历下
神思电子
大模型算法工程师面议
济南 - 历下
神思电子

查看更多相似职位

职位发布者

虞先生/HR

三日内活跃

立即沟通

齐鲁制药

齐鲁制药集团简介齐鲁制药集团是一家拥有家国情怀、创新基因、国际视野的医药产业集团，始终秉持“大医精诚、家国天下”的核心价值观，紧紧围绕大众对健康美好生活的需要，深耕生命健康、植物保护、动物保健三大战略板块，构建人与自然和谐发展的生态。建有占地8916亩的11大基地，下设12家子公司，员工3.6万余人。2022年度，集团实现销售收入375亿元，上交税金34.2亿元，实现出口9.2亿美元；连续多年位列中国医药工业百强榜十强。集团始终坚持创新驱动战略，用“有温度的科技创新”，持续推动品牌非专利药、生物类似药、创新药的开发，建设有全球影响力的产品管线，将中国人的“药瓶子”紧紧攥在我们自己手里。荣获国家科技进步二等奖7项。60个大小分子药物国内首家或独家上市。一致性评价领先行业，137个产品获批通过，52个为国内首家。整合全球优质资源，建立健全中美联动五大研发平台，在肿瘤、感染、自身免疫、代谢疾病等未被满足重大疾病领域，持续开发“全球新”“全球好”药物。ALK阳性非小细胞肺癌治疗药物启欣可（伊鲁阿克片）已获批上市；新一代肿瘤免疫治疗组合抗体“齐倍安”（艾帕洛利单抗/托沃瑞利单抗），单药宫颈癌末线研究已提交上市申请；“十四五”期间，预计还将上市多个创新药物。“企业的百万分之一即是患者的百分之百”。集团坚定实施精品战略，全生命周期做好健康守门人。建有与国际接轨的质量管理体系，是国内首家通过美国FDA、欧盟EDQM、英国MHRA无菌产品认证企业。产品出口全球90多个国家和地区，每年惠及约10亿患者。是国内唯一一家同时向欧、美、英、日、澳大利亚、加拿大法规市场出口制剂的药企，24个产品在当地市场占有率第一；头孢系列、巴坦系列等11个人用原料药国际市场占有率第一。

公司主页

关于我们: 公司介绍; 联系我们; 诚聘英才

产品与服务: 人才招聘; 企业招聘

使用与帮助: 账号注销; 意见反馈; 发票制度; 防骗指南; 法律协议; 资质公示

智联招聘更懂你的价值

智联app小程序官方微信企业版APP

京ICP备12025925号京ICP证010207号

京公网安备 11010502030147号人力资源许可证:1101051996081号

网上有害信息举报专区违法不良信息举报电话:400-885-9898 关爱未成年举报热线:400-885-9898-3

朝阳区人力资源与社会保障局监督电话

网络110报警服务电子营业执照