运维架构师

1.2-1.8万

北京通州区
5-10年
本科
全职
招1人

查看更多相似职位

职位描述

智算中心超算中心大规模分布式存储系统

岗位职责:

1、智算集群全生命周期管理
负责千卡级GPU/NPU智算集群的日常巡检、监控告警、故障排查及性能调优，确保算力资源可用性达到99.9%以上；
主导智算服务器（华为昇腾）及高速网络（InfiniBand/RoCE）的部署、固件升级、配置变更及硬件替换工作；
2、故障应急响应与根因分析
作为二线/三线技术支持核心，处理复杂的软硬件故障（如GPU掉卡、RDMA网络拥塞、存储元数据锁死等），主导重大故障的复盘（COE）并输出改进措施；
建立和完善故障知识库，制定标准化的应急预案（SOP），定期组织灾备演练和混沌工程测试；
3、技术支持与客户交付
为上层AI算法团队提供底层基础设施技术支持，协助解决训练任务中断、收敛慢等与资源相关的问题；
配合项目组完成客户现场的技术交流、验收测试及定期运维报告撰写，提升客户满意度。

岗位要求:

1、学历与经验
计算机、通信、电子工程等相关专业本科及以上学历；
5年以上大型数据中心或云计算平台运维经验，其中至少2年以上专注于AI智算中心、超算中心或大规模分布式存储系统的运维经验；
2、核心技术能力
硬件精通：深刻理解GPU服务器架构，熟悉主流加速卡的特性及常见故障模式；熟悉IB/RoCE网络架构及调优；
存储专长：精通至少一种高性能并行文件系统或分布式存储，具备PB级存储集群的部署、调优及故障处理能力；
容器与编排：熟练掌握Docker、Kubernetes (K8s) 架构，有K8s上运行AI训练任务（Volcano, KubeFlow等）的运维经验者优先；
3、加分项
有参与过大型智算中心建设及交付经验者优先；

查看全部

工作地点

北京通州区国网亦庄数据中心

认证资质

营业执照信息

完善一份简历
1736万+企业在线搜索，780万+海量职位精准推荐

相似职位

IDC运维值班员5000-10000元
北京 - 大兴
北京光环金网科技有限公司
it运维工程师1.1-1.8万
北京 - 东城
北京昱栎技术有限公司
运维工程师7000-10000元
北京 - 丰台
北京长信泰康通信技术有限公司
运维工程师1.2-1.4万
北京 - 海淀
北京机械设备研究所
数字化运维工程师（北京/西安）2-2.5万
北京 - 西城
郑州联创优聘信息科技有限公司
运维工程师（北京）面议
北京
智洋创新科技股份有限公司

查看更多相似职位

职位发布者

徐昆/人事经理

当前在线

立即沟通

南京云昇信息技术有限公司

宇电集团创始于2002年，注册资本为5200万元人民币，是一家涉及多领域、跨行业经营的高科技型综合性集团公司。总部设在北京，在西安、重庆、南京、长沙、广州、内蒙古等地有子公司、分公司和办事机构。业务涉及云技术平台、大数据服务、移动互联网应用、电商化呼叫中心、环保节能产品、餐饮连锁管理、产业投资等多个领域，应用于电力、电信、制造、能源、环保、金融、餐饮、连锁经营等多个行业.南京云昇为宇电集团全资子公司，为了更好的为本地信息技术企业提供支持服务，宇电集团于2015年9月设立南京云昇信息技术有限公司，短短不到半年时间，在总部的大力支持和分部有效的人员调配下，云昇已经发展了包括民生银行、哈尔滨银行、广发银行、江苏中博等大客户。区别于南京橙红基于云服务的行业应用数据服务商定位，南京云昇服务范围更加的广泛，其中包括软件开发、测试、IT运维、咨询、ERP等相关服务。

公司主页

关于我们: 公司介绍; 联系我们; 诚聘英才

产品与服务: 人才招聘; 企业招聘

使用与帮助: 账号注销; 意见反馈; 发票制度; 防骗指南; 法律协议; 资质公示

智联招聘更懂你的价值

智联app小程序官方微信企业版APP

京ICP备12025925号京ICP证010207号

京公网安备 11010502059392号人力资源许可证:1101051996081号

网上有害信息举报专区违法不良信息举报电话:400-885-9898 关爱未成年举报热线:400-885-9898-3

朝阳区人力资源与社会保障局监督电话

网络110报警服务电子营业执照