岗位职责
1.负责Linux系统、虚拟化/容器平台(K8s、OpenStack)、算力调度平台的部署与维护。
2.维护GPU集群、AI训练环境(CUDA、NCCL),优化算力利用率及能耗,处理训练任务与调度异常。
3.搭建自动化运维、监控平台(Prometheus/Grafana),编写脚本实现运维自动化,收集日志与告警。
任职要求
1.本科及以上学历,计算机科学、软件工程、电子信息工程、自动化等相关专业优先。
2.1年以上云平台、算力平台或AI集群运维经验,熟练使用Linux,掌握Shell/Python至少一种。
3.熟悉NVIDIA GPU、RDMA/InfiniBand环境,了解深度学习训练基本流程,能排查平台常见故障。
4.熟悉虚拟化、容器技术,有智算中心运维经验。
5.参与过大型算力中心(如智算中心、超算中心)新建或改建项目。
6.了解东数西算相关政策及区域算力网络建设背景。