岗位职责:
1.负责AI专属网络运维,管理集群内IB(InfiniBand)、RoCE(RDMA over Converged Ethernet)、NVLink等高速互联网络的部署、协议调优与故障诊断,解决AI训练/推理过程中因网络带宽不足、延迟过高导致的任务卡顿、梯度同步失败等问题;
2.监控AI集群核心硬件(NVIDIA A100/H100 GPU、高速SSD存储、CPU内存)的运行状态,通过自动化工具实时采集GPU利用率、显存占用、温度等指标,及时处理GPU显存溢出、 PCIe 通道故障、存储I/O瓶颈等AI场景特有硬件问题;
3.参与AI集群的扩容与重构,设计适合大模型训练的硬件拓扑(如GPU直连、内存扩展方案),优化集群资源分配策略,提升AI任务执行效率;
4.针对AI训练中断、推理服务崩溃等突发情况,快速定位故障根源(如网络链路断开、GPU驱动异常),制定针对性解决方案,保障AI业务连续性
5.参与数据中心扩容规划,协助制定硬件选型方案(如 NVIDIA H200/A800 GPU 选型、IB 交换机端口规划),保障算力基础设施的可扩展性。
任职要求:
1.本科及以上学历,计算机科学与技术、网络工程相关专业;3年以上AI集群/高性能计算集群运维经验,熟悉AI场景下硬件与网络的协同逻辑;
2.深入理解NVIDIA GPU架构(Ampere、Hopper、Blackwell),掌握CUDA驱动优化、GPU虚拟化技术;熟悉AI集群存储方案,能解决存储I/O对模型训练的影响;
3.精通IB、RoCE、NVLink技术原理,具备 Mellanox 设备配置与故障排查能力;了解AI集群网络拓扑设计,能优化网络带宽利用率。;
4.熟悉AI集群监控,能编写Python脚本自动化处理AI相关故障(如GPU利用率异常报警);熟悉Kubernetes或Slurm调度框架,理解AI任务对资源的需求特征;
5.具备AI场景下复杂问题的分析能力,如区分传统服务器故障与AI负载导致的硬件瓶颈,能快速制定针对性解决方案。