更新于 8月12日

GPU服务器运维工程师

1.8-3万
  • 重庆渝北区
  • 经验不限
  • 大专
  • 全职
  • 招5人

职位描述

系统运维服务器运维数据库运维
岗位职责:我们主要负责A100 h100 h800 h20维保这一块,公司售出机器的保内售后的判断,更换部件,部署,这一块业务
1. 负责GPU服务器的安装、调试、上架、故障诊断及更换。
2. 定期检查硬件状态,确保设备稳定运行。
3. 配合供应商处理硬件保修或更换。
4. 管理大规模GPU集群,优化集群性能,解决网络通信、存储及算力调度问题。
5. 部署与维护监控系统,构建故障预警机制,设计HA测试方案。
6. 执行服务器硬件改配及软件适配,确保兼容性。
7. 参与智算中心交付,支持异构加速场景。
8. 编写运维手册、故障处理SOP及巡检报告,维护维修案例库。
9. 与研发、售前团队协作,解决复杂技术问题,提供客户技术培训及方案定制。
10. 探索前沿技术,优化运维自动化工具,提升故障处理效率。

工作地点

渝北区两江大道重庆市江北区鱼嘴镇两江大道182号

职位发布者

袁先生/人事经理

今日活跃
立即沟通
公司Logo成都弘智融信科技有限责任公司
弘智融信维修中心,位于重庆鱼嘴两江开发区,为ai算力服务器, nvidia国内4大总代之一,客户涵盖国企,央企,互联网大厂,维修中心主要对自售产品进行维修,维保业务,网点1000平先进维修实验室,主要针对h100 h800 h200 h20服务器的维修,维保。
公司主页