更新于 今天

高级算力中心机房工程师(GPU方向)

1.3-2.2万
  • 杭州西湖区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

GPU集群机房的规划、建设低压电工特种作业操作证高压电工证NVIDIA DCEO认证GPU服务器
岗位职责:
1.负责大规模GPU算力集群(NVIDIA 5090/ A100/H200/B300等)机房基础设施的全生命周期管理,包括供配电、制冷、动环监控等系统的深度运维与优化,保障GPU集群高负载运行下的稳定与安全。
2.主导GPU服务器及相关硬件的部署、调试、升级与故障排查,涵盖GPU卡、主板、CPU、内存、IB网卡等核心硬件,能独立解决GPU硬件兼容性、金手指氧化、供电异常、散热故障等复杂问题。
3.针对GPU高功耗、高密度特性,优化机房制冷气流组织与供配电负载均衡,参与液冷散热系统(浸没式/冷板式)的部署与运维,推进PUE优化项目,实现机房能效提升。
4.搭建并优化GPU集群硬件监控体系,基于DCIM系统定制GPU运行指标(功耗、温度、负载)监控策略,配置智能告警机制,实现故障的提前预警与快速定位。
5.推进GPU集群机房运维自动化建设,使用Python/Shell编写脚本,结合Ansible等工具实现硬件信息批量采集、批量部署、故障自动巡检等功能,提升运维效率。
6.配合网络、系统团队完成GPU集群IB/RoCE高速网络部署、软件环境(GPU Driver、CUDA)适配等工作,参与算力集群性能压测与优化,输出硬件层面的性能提升方案。
7.制定GPU集群机房运维SOP、硬件故障处理指南、应急预案,组织应急演练,负责初级工程师的技术培训与指导,推动团队运维能力标准化、专业化。
8.参与新算力中心GPU集群机房的规划、建设与验收工作,负责硬件选型、机柜布局、供电/制冷容量核算等关键环节的技术把关。
任职要求:
1.本科及以上学历,计算机科学与技术、电子信息工程、机电一体化、暖通空调等相关专业;具备超算中心、大型智算中心从业背景者优先。
2.5年以上算力中心/数据中心机房运维经验,其中至少3年大规模GPU集群机房管理经验,有千节点级GPU集群(NVIDIA A100/H100)运维实战经验者优先。
3.精通GPU服务器架构及硬件原理,熟练掌握GPU卡上架、更换、固件升级、兼容性测试等操作,能独立排查各类GPU硬件故障。
4.精通高密度机房供配电系统(UPS、配电柜、蓄电池组)和制冷系统(精密空调、冷通道封闭、液冷技术)的原理与运维,能解决GPU高负载下的供电波动、散热不均等问题。
5.熟练使用BMC/IPMI远程管理工具、nvidia-smi、DCGM、光纤测试仪、万用表等专业工具,具备Linux系统操作能力,能通过命令行完成硬件状态监控与故障分析。
6.具备较强的自动化运维能力,熟练使用Python/Shell编写脚本,掌握Ansible等自动化工具,能实现GPU集群硬件运维的规模化、自动化管理。
7.持有低压电工特种作业操作证(必备);具备高压电工证、NVIDIA DCEO认证、CDCP/CDCS认证、华为HCIE-Datacom等相关认证者优先。
具备良好的故障应急响应能力,能快速处理GPU集群突发故障,可接受7×24小时应急值班,可接受出差;具备优秀的文档编写、团队管理与跨部门协作能力。

工作地点

杭州西湖区中电万谷

职位发布者

高女士/人事经理

刚刚活跃
立即沟通
公司Logo浙江天怀数智科技有限公司
浙江天怀数智科技有限公司,定位于“专注中国社区数字化全域服务,让社区生活更美好”,是一家以社区数字化服务为根基,通过人工智能(AI)、物联网平台和应用(AIoT)、边缘计算(Edge)、大数据、区块链等全栈技术研发能力,打造一体化智能化社区服务平台和场景智能化产品方案的创新型科技服务企业。天怀数智基于创始团队十多年泛地产、商旅以及AIoT领域沉淀的科技能力和专业经验,构建成稳定、开放、安全的智慧物联、业务中台及数据平台,通过AI识别算法、物联传感设备、大数据分析、开放标准等多维度的能力,以物业管理、生活服务、园区运营、社区治理、乡村服务等为核心场景,构建天和云“基座+中台+应用”的【1+2+N】新型智慧社区数字化平台,提供社区、园区、乡村、文旅等数字化全域服务的产品和综合解决方案,构筑一个全业态、全融合、全场景、全周期的服务体系,向社会各服务领域进行全面赋能。
公司主页