岗位职责:
1、智算集群全生命周期管理
负责千卡级GPU/NPU智算集群的日常巡检、监控告警、故障排查及性能调优,确保算力资源可用性达到99.9%以上;
主导智算服务器(华为昇腾)及高速网络(InfiniBand/RoCE)的部署、固件升级、配置变更及硬件替换工作;
2、故障应急响应与根因分析
作为二线/三线技术支持核心,处理复杂的软硬件故障(如GPU掉卡、RDMA网络拥塞、存储元数据锁死等),主导重大故障的复盘(COE)并输出改进措施;
建立和完善故障知识库,制定标准化的应急预案(SOP),定期组织灾备演练和混沌工程测试;
3、技术支持与客户交付
为上层AI算法团队提供底层基础设施技术支持,协助解决训练任务中断、收敛慢等与资源相关的问题;
配合项目组完成客户现场的技术交流、验收测试及定期运维报告撰写,提升客户满意度。
岗位要求:
1、学历与经验
计算机、通信、电子工程等相关专业本科及以上学历;
5年以上大型数据中心或云计算平台运维经验,其中至少2年以上专注于AI智算中心、超算中心或大规模分布式存储系统的运维经验;
2、核心技术能力
硬件精通:深刻理解GPU服务器架构,熟悉主流加速卡的特性及常见故障模式;熟悉IB/RoCE网络架构及调优;
存储专长:精通至少一种高性能并行文件系统或分布式存储,具备PB级存储集群的部署、调优及故障处理能力;
容器与编排:熟练掌握Docker、Kubernetes (K8s) 架构,有K8s上运行AI训练任务(Volcano, KubeFlow等)的运维经验者优先;
3、加分项
有参与过大型智算中心建设及交付经验者优先;