该职位已失效,看看其他机会吧

运维架构师

1.2-1.8万
  • 北京通州区
  • 5-10年
  • 本科
  • 全职
  • 招1人

职位描述

智算中心超算中心大规模分布式存储系统
岗位职责:
1、智算集群全生命周期管理
负责千卡级GPU/NPU智算集群的日常巡检、监控告警、故障排查及性能调优,确保算力资源可用性达到99.9%以上;
主导智算服务器(华为昇腾)及高速网络(InfiniBand/RoCE)的部署、固件升级、配置变更及硬件替换工作;
2、故障应急响应与根因分析
作为二线/三线技术支持核心,处理复杂的软硬件故障(如GPU掉卡、RDMA网络拥塞、存储元数据锁死等),主导重大故障的复盘(COE)并输出改进措施;
建立和完善故障知识库,制定标准化的应急预案(SOP),定期组织灾备演练和混沌工程测试;
3、技术支持与客户交付
为上层AI算法团队提供底层基础设施技术支持,协助解决训练任务中断、收敛慢等与资源相关的问题;
配合项目组完成客户现场的技术交流、验收测试及定期运维报告撰写,提升客户满意度。
岗位要求:
1、学历与经验
计算机、通信、电子工程等相关专业本科及以上学历;
5年以上大型数据中心或云计算平台运维经验,其中至少2年以上专注于AI智算中心、超算中心或大规模分布式存储系统的运维经验;
2、核心技术能力
硬件精通:深刻理解GPU服务器架构,熟悉主流加速卡的特性及常见故障模式;熟悉IB/RoCE网络架构及调优;
存储专长:精通至少一种高性能并行文件系统或分布式存储,具备PB级存储集群的部署、调优及故障处理能力;
容器与编排:熟练掌握Docker、Kubernetes (K8s) 架构,有K8s上运行AI训练任务(Volcano, KubeFlow等)的运维经验者优先;
3、加分项
有参与过大型智算中心建设及交付经验者优先;
查看全部

工作地点

北京通州区国网亦庄数据中心

认证资质

营业执照信息

职位发布者

徐昆/人事经理

当前在线
立即沟通
公司Logo南京云昇信息技术有限公司
宇电集团创始于2002年,注册资本为5200万元人民币,是一家涉及多领域、跨行业经营的高科技型综合性集团公司。总部设在北京,在西安、重庆、南京、长沙、广州、内蒙古等地有子公司、分公司和办事机构。业务涉及云技术平台、大数据服务、移动互联网应用、电商化呼叫中心、环保节能产品、餐饮连锁管理、产业投资等多个领域,应用于电力、电信、制造、能源、环保、金融、餐饮、连锁经营等多个行业.南京云昇为宇电集团全资子公司,为了更好的为本地信息技术企业提供支持服务,宇电集团于2015年9月设立南京云昇信息技术有限公司,短短不到半年时间,在总部的大力支持和分部有效的人员调配下,云昇已经发展了包括民生银行、哈尔滨银行、广发银行、江苏中博等大客户。区别于南京橙红基于云服务的行业应用数据服务商定位,南京云昇服务范围更加的广泛,其中包括软件开发、测试、IT运维、咨询、ERP等相关服务。
公司主页