该职位已失效,看看其他机会吧

服务器硬件维护工程师

1.5-2.3万
  • 杭州余杭区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

阿里云
1、硬件维护
负责GPU服务器的安装、调试、上架、故障诊断及维修。
定期检查硬件状态(GPU、CPU、内存、硬盘、电源等),确保设备稳定运行。
配合供应商处理硬件保修或更换(如GPU烧毁、显存故障等)。
2、集群与驱动管理
管理大规模GPU集群(万卡级),支持算力网络架构(IB/RoCE/NVLink/PCIe),优化集群性能(HPL/HPCG基准测试),解决网络通信、存储(Lustre/CephFS)及算力调度(Slurm/PBS)问题。
部署与维护监控系统(Prometheus/Grafana/Zabbix),实时跟踪GPU利用率、功耗及健康状态,构建故障预警机制,设计HA测试方案(故障注入/灾备切换)。
3、硬件与软件适配
执行服务器硬件改配(如GPU升级、液冷方案部署)及软件适配(驱动安装、BIOS/固件更新),确保与操作系统(Linux/CentOS)、虚拟化平台(Docker/Kubernetes)及AI框架(CUDA/TensorRT)的兼容性。
参与智算中心交付,配合完成服务器上架、网络配置及压力测试,支持异构加速场景(大模型训练/推理)。
4、文档与协作
编写运维手册、故障处理SOP及巡检报告,维护维修案例库,记录硬件生命周期(故障历史、配件更换)。
与研发、售前团队协作,解决复杂技术问题(如硬件兼容性、性能瓶颈),提供客户技术培训及方案定制。
探索前沿技术(如Chiplet异构集成、存算一体架构),优化运维自动化工具(Ansible/Python脚本),提升故障处理效率。
1、专业背景
计算机、电子工程、通信等相关专业,本科及以上学历;3年以上阿里云IDC机房、GPU服务器维护或数据中心运维经验,熟悉NVIDIA/AMD主流显卡架构(如Hopper/Ada Lovelace)者优先。
2、核心技能
硬件能力:精通GPU服务器拆装、故障诊断(如错误代码解析),掌握焊接工具(热风枪、示波器)及备件管理,熟悉服务器BMC管理(IPMI/RedFish)。
软件与工具:熟练使用Linux命令行,掌握自动化工具(Ansible/Kubernetes)、监控平台(Prometheus)及集群管理工具(Slurm);熟悉Python/Shell脚本开发。
网络与架构:理解IB/RoCE网络协议、RDMA原理,掌握集群文件系统(Lustre/NFS)部署与调优,熟悉PCIe/CXL接口规范。
3、软技能
具备快速故障定位能力(MTTR优化),能在7×24小时轮值中响应紧急事件;良好的客户沟通能力,适应定制化服务需求。
查看全部

工作地点

余杭区中联重科(杭州分公司)1

入职公司信息

  • 入职公司: 某科技公司
  • 公司地址: 长沙岳麓区
  • 公司人数: 500-999人

认证资质

营业执照信息 人力资源服务许可认证

职位发布者

闫青/人事经理

立即沟通
公司Logo湖南潇湘人力资源服务有限公司
湖南潇湘人力资源服务有限公司,系经工商行政管理局批准设立的,具有独立企业法人资格,并经人力资源和社会保障部批准备案,具有合法人力资源服务资质的,专业人力资源服务机构。公司积极响应国家号召,搭建供需平台,畅通就业渠道,充分发挥人力资源机构在促进就业中的积极作用,多渠道扩大就业。公司致力于打造成为立足湖南、覆盖全国的综合性专业人力资源服务供应商,依托于招聘会场和网络平台,为各企事业单位开展现场招聘、网络招聘、报纸招聘、代理招聘、招聘外包、劳务派遣、高级人才猎头和人力资源管理咨询等专业配套服务;为求职个人提供职业咨询、职业指导、职业介绍等就业服务。公司现场招聘平台--湖南招聘市场,于每周六、周日在贺龙体育场东门举办招聘会,欢迎各企事业单位和各类人才通过现场直面交流,我们将以专业、专注的精神,为您招才、择业,提供全面、优质的服务!招聘热线:400-000-7318、0731-83759001/02/03/04/05/06/07/08/09/10招聘会场:贺龙体育场正东门--湖南招聘市场(芙蓉中路、侯家塘北、摩天轮广场上台阶)乘车路线:1:乘105、115、150、159路至“侯家塘北”2:乘101、104、701、702、703、905路、长株潭201路至“侯家塘-芙蓉中路”3:乘旅2、2、4、8、104、123、137、140、145、160、202、314、402、601、803、804、906、908路至“侯家塘西”往芙蓉路至“侯家塘北”详情请访问: http://www.hnzpsc.com
公司主页