更新于 12月23日

GPU运维工程师*杭州

8000-9000元
  • 杭州余杭区
  • 1-3年
  • 大专
  • 全职
  • 招1人

职位描述

IDC/机房运维服务器运维GPU服务器IT服务
岗位职责
1、按照故障处理SLA要求响应智算机房各类运维工单,严格遵循SOP流程执行操作,涵盖设备的上下架、硬件部件更换、机房布线等操作
2、负责智算机房GPU服务器、交换机等设备的日常巡检、状态汇总、故障跟踪处理及总结归档
3、及时响应并处理机房紧急突发情况(如服务器宕机、网络中断、服务器硬件故障等),严格按流程执行处理、记录等工作
4、具备较强的责任心与沟通能力,确保智算机房运维安全规范,最快程度完成故障处理,保障训练业务的稳定运行
任职要求
1、熟悉GPU服务器、服务器各部件如GPU/网卡/存储卡/CPU/内存等配置与特性,熟练掌握各类服务器部件故障排障手段与经验;
2、熟悉交换机基础命令,能完成交换机基础配置与检查;
3、1年以上智算机房/数据中心运维经验,有GPU集群硬件运维经验者优先;
4、熟悉IDC机房运维环境与安全规范;
5、熟练操作Linux系统(CentOS/Ubuntu),熟悉硬件查询命令及常用系统命令,能进入单用户模式进行系统操作;
6、具备智算机房应急事件处理能力,如GPU掉卡、网络中断、机房温湿度异常等情况的快速响应与处理;
7、对智算机房常见的服务器、交换机运维流程能熟练掌握,并能识别流程中的潜在风险;
8、具有较强责任心,具备良好的团队协作与沟通能力,能跨部门配合推进运维工作;
9、本科及以上学历,计算机科学与技术、电子信息工程等计算机相关专业

工作地点

杭州余杭区之江实验室

职位发布者

夏丽苹/人事经理

立即沟通
公司Logo北京亚康智算科技有限公司
北京亚康万玮信息技术股份有限公司成立于2007年,并于2021年10月登陆深圳证券交易所创业板(SZ.301085),作为算力基础设施综合服务领域的第三方服务商,当前主要为算力园区、数据中心、智能计算中心、云计算厂商等提供算力基础设施综合服务,包括计算、存储、网络、安全、软件应用等产品的系统集成服务、算力园区基础设施的运维和管理服务、基于AI算力中心的运营、运维等服务。近年来,国外及国产的大模型均经历着快速且令人瞩目的迭代进程,随着技术的不断突破和数据的日益丰富,大模型在自然语言处理、计算机视觉等领域展现出强大的实力。基于这样的背景以及公司多年来在算力行业的积累,为抓住大模型发展带来的算力行业机会,公司依托核心业务板块,统一于算力基础设施行业全产业链综合服务这一核心业务,以客户需求为中心,通过系统能力纵向做深,通过多元化服务横向做广,发挥公司在算力基础设施全生命周期服务优势。
公司主页